Fonctionnement de la détection de point aberrant spatial

L’outil Détection de point aberrant spatial fonctionne en calculant un facteur de valeur aberrante locale (LOF) pour mesurer le degré d’aberration des points d’une zone d’étude par rapport aux autres points de leur voisinage local. En plus de classer les points en entrée comme points aberrants ou points pertinents, l’outil peut générer une surface de raster avec le facteur de valeur aberrante locale calculé sur la zone d’étude, ce qui peut faciliter la détermination du mode de classement des nouvelles observations en fonction de la distribution spatiale de vos données.

Applications possibles

Voici quelques applications possibles de cet outil :

  • Une organisation gère des stations de surveillance de la qualité de l’air qui sont utilisées pour l’interpolation de surfaces de qualité d’air et elle souhaite identifier les stations les plus isolées afin d’identifier où une collecte de données supplémentaires sera nécessaire.
  • Les campagnes de don de sang sont souvent organisées près d’agrégats de donneurs potentiels pour minimiser les déplacements de chaque donneur, mais les donneurs importants qui habitent loin requièrent davantage de communications et d’incitations pour favoriser les dons volontaires. Un coordinateur peut identifier les donneurs candidats considérés comme des points aberrants spatiaux et leur envoyer un courrier avec des incitations supplémentaires pour qu’ils participent à une campagne de don de sang plus éloignée.

Définition des critères de détection des points aberrants spatiaux

Pour mesurer et identifier les points aberrants spatiaux, l’outil requiert une valeur pour le paramètre Number of Neighbors (Nombre de voisins), évaluée pour chaque entité, et une valeur pour le paramètre Percent of Locations Considered Outliers (Pourcentage de localisations considérées comme des points aberrants) dans la zone d’étude ; ces critères sont importants lors de la détermination de la taille du voisinage dans le calcul du facteur de valeur aberrante locale (LOF) et du seuil de désignation des points aberrants et des points pertinents.

  • Le paramètre Number of Neighbors (Nombre de voisins) établit un voisinage pour chaque entité. Le calcul du facteur de valeur aberrante locale (LOF) utilise son voisinage pour calculer une distance d’accès et une densité d’accès locale, qui constituent la base de comparaison pour estimer le degré d’aberration spatiale d’une entité par rapport aux autres entités à proximité immédiate.
  • Le paramètre Percent of Locations Considered Outliers (Pourcentage de localisations considérées comme des points aberrants) établit un seuil de désignation des entités comme points aberrants ou points pertinents. Ce seuil utilise les valeurs de facteur de valeur aberrante locale (LOF) calculées pour toutes les entités des données en entrée et établit le nombre d’entités dont les valeurs LOF sont les plus élevées désignées comme points aberrants.

Dans la mesure du possible, pour bien connaître le domaine, il est recommandé que vous participiez à la définition des valeurs de ces paramètres, comme dans les exemples suivants :

  • Un ingénieur en transports, avec ses connaissances inhérentes du domaine, peut avoir une idée du nombre d’accidents à une intersection qui indique un problème de sécurité systémique et utiliser cette valeur comme nombre de voisins évalués lors de la détection des points aberrants spatiaux.
  • Le coordinateur d’une campagne de don de sang dispose d’une liste de donneurs potentiels. Son budget lui permet de dédommager les 10 % de volontaires les plus éloignés pour leur temps de déplacement vers un site de don de sang et il utilise ces 10 % pour le pourcentage de localisations considérées comme des points aberrants afin de prévoir les sites et les incitations de la campagne de don de sang.

Sorties de l'outil

L’outil fournit une couche d’entités en sortie mettant en évidence les entités désignées comme des points aberrants spatiaux. Les points aberrants sont symbolisés en orange et les points pertinents, en gris semi-transparent, pour pouvoir évaluer graphiquement la densité spatiale des points pertinents.

Points aberrants spatiaux identifiés

La couche d’entités inclut deux diagrammes : un diagramme à barres illustrant le nombre de points aberrants et de points pertinents et un a histogramme représentant la distribution des valeurs LOF.

Le diagramme à barres représentant le nombre de points aberrants fournit un nombre immédiat de points aberrants et peut s’avérer efficace pour sélectionner tous les points aberrants de l’analyse en sortie.

Histogramme du nombre de points aberrants

L’histogramme représentant la distribution des valeurs LOF inclut la valeur LOF moyenne et le seuil LOF utilisé pour distinguer les points aberrants des points pertinents.

Histogramme des valeurs LOF

Par ailleurs, si une valeur est saisie dans le paramètre Output Prediction Raster (Raster de prévision en sortie), un raster en sortie est généré pour illustrer la valeur LOF calculée pour chaque cellule de la zone d’étude.

Surface raster en sortie

Le raster en sortie affiche les valeurs LOF sous forme de surface continue.

Fonctionnement de la détection des points aberrants spatiaux

L’identification de localisations anormales ou aberrantes est souvent plus importante que l’identification de localisations type ou groupées. C’est notamment le cas de l’examen de transactions financières potentiellement frauduleuses, souvent réalisées dans des localisations anormales qui diffèrent des modèles spatiaux type de transactions.

En dépit de ce besoin, la plupart des approches qui tentent d’identifier les points aberrants cherchent à identifier des agrégats, puis à utiliser les entités restantes comme corollaires des points aberrants spatiaux. Par exemple, l’outil Density-based Clustering (Agrégation basée sur la densité) réussit à définir et identifier l’agrégation spatiale à l’aide de diverses approches, mais son identification des points aberrants est reléguée aux entités n’ayant pas satisfait les critères d’un agrégat, désignées de manière binaire comme des entités de bruit. Par conséquent, la seule utilisation des approches d’agrégation pour identifier les points aberrants possède au moins deux inconvénients. Tout d’abord, les approches d’agrégation, de par leur conception, cherchent à définir et identifier des agrégats et non des points aberrants. Deuxièmement, la désignation d’un point aberrant est souvent effectuée de manière binaire, sans tolérance ou niveaux quantifiés du degré d’aberration d’une observation.

Le facteur de valeur aberrante locale (LOF) permet de remédier à ces inconvénients en cherchant à identifier les points aberrants et en fournissant une mesure du degré d’aberration d’une entité. De plus, cette approche utilise des modèles de densité locaux pour comparer la densité du voisinage d’une entité aux voisinages des autres entités à proximité. Cela permet de distinguer les points aberrants globaux (points anormaux dans le contexte de la zone d’étude dans son intégralité) des points aberrants locaux (points anormaux dans le contexte de leur proximité immédiate). L’accent sur les points aberrants locaux permet de mieux comprendre des phénomènes locaux plus complexes qui requièrent un examen plus approfondi, tels que le scénario de l’historique des transactions mentionné précédemment.

Facteur de valeur aberrante locale

Le calcul du facteur de valeur aberrante locale représente le principal mécanisme d’identification et de description des points aberrants spatiaux. Il comprend quatre étapes principales : l’établissement d’un voisinage, la recherche de la distance d’accès, le calcul de la densité d’accès locale et le calcul du facteur de valeur aberrante locale lui-même Chaque étape est décrite dans les sections ci-après.

Établir un voisinage et rechercher la distance d’accès

Un voisinage local est établi pour chaque localisation à l’aide d’un nombre minimal spécifié d’entités. Cette approche est couramment appelée K voisins les plus proches, K correspondant au nombre minimal spécifié d’entités à proximité de l’entité actuellement analysée. Comme exemple, l’illustration ci-après représente un scénario pour l’entité A, dans lequel le nombre de voisins, k, est égal à 4

Voisinage de l’entité A

Les entités 1, 2, 3 et 4 constituent le voisinage de l’entité A et sont maintenant considérées comme B.

Une fois que le voisinage d’une entité a été établi, la distance d’accès correspond à la distance la plus grande entre la distance de A à B et la distance de B à son ke voisin le plus proche.

Formule de la distance d’accès

L’illustration ci-après représente la distance d’accès du point A dans un scénario où k = 4.

Distance d’accès de l’entité A

De la même manière, la distance d’accès de chaque entité est définie par ses K voisins les plus proches.

Rechercher la densité d’accès locale

Une fois qu’une distance d’accès a été déterminée pour chaque entité, la moyenne des distances d’accès de toutes les entités du voisinage de l’entité est calculée. Cette moyenne permet de déterminer la densité d’accès locale, une mesure de la densité spatiale du voisinage de l’entité. Le calcul de la densité d’accès locale correspond à l’inverse de la distance d’accès moyenne de toutes les entités du voisinage d’une entité.

Formule de la densité d’accès locale

Un autre moyen de représenter la densité d’accès locale consiste à calculer la distance d’accès de toutes les entités (B1 à B4) qui appartiennent au voisinage de l’entité A, comme illustré dans l’image ci-après.

Distance d’accès de chaque voisin

Vous devez ensuite diviser la distance totale par le nombre d’entités (quatre, dans le cas présent), puis calculer l’inverse (diviser 1 par ce total).

Autrement dit, lorsque la distance d’accès moyenne des entités augmente, la densité d’accès locale diminue. Par conséquent, lorsque la distance d’accès moyenne des entités diminue, la densité d’accès locale augmente.

Comparaison des densités d’accès locales

Calculer le facteur de valeur aberrante locale

Une fois que la densité d’accès locale a été calculée pour toutes les entités, la dernière étape du calcul du facteur de valeur aberrante locale consiste à calculer les ratios entre la densité d’accès locale d’une entité et la densité d’accès locale de chacun de ses voisins. La moyenne de ces ratios correspond au facteur de valeur aberrante locale.

Formule du facteur de valeur aberrante locale

Pour bien comprendre comment cela permet de déterminer si une entité est un point aberrant spatial, sachez qu’à mesure que la densité d’accès locale d’une entité diminue (en d’autres termes, le voisinage d’une entité est clairsemé) et que la densité d’accès locale de ses voisins augmente (en d’autres termes, le voisinage d’un voisin d’une entité est plus dense), le facteur de valeur aberrante locale augmente : l’entité est plus aberrante car sa densité spatiale est faible et les densités spatiales des entités voisines sont plus élevées.

Une fois que les facteurs de valeur aberrante locale ont été calculés pour toutes les entités, l’outil utilise le pourcentage de localisations comme valeur de paramètre des points aberrants pour désigner les entités comme points aberrants ou points pertinents. Par conséquent, la sélection d’un pourcentage approprié est l’un des critères important lors de la définition et de l’interprétation des résultats de l’analyse.

Remarques et interprétations des sorties

Plusieurs considérations sont à prendre en compte lors de l’interprétation de la sortie de cet outil.

  • Les valeurs LOF calculées pour un jeu de données en entrée ne peuvent pas être comparées aux valeurs LOF calculées dans un autre jeu de données. Les calculs LOF dépendent de la distribution spatiale des entités en entrée dans un jeu de données ; par conséquent, les écarts dans des jeux de données distincts donnent lieu à des résultats différents pour les densités d’accès locales et les valeurs LOF calculées.
  • Les résultats des valeurs LOF calculées peuvent différer entre un point des entités en sortie et une cellule du raster de prévision en sortie coïncidant avec ce point. En effet, le voisinage du point inclut les voisins à proximité, mais ne s’inclut pas, tandis que la cellule raster coïncidant avec le point inclut le point comme l’un de ses voisins.
  • De légers écarts dans les valeurs soumises pour le paramètre Pourcentage de localisations considérées comme des points aberrants peuvent aboutir à un même pourcentage de localisations considérées comme des points aberrants. Cela peut se produire si des similitudes dans la distribution spatiale des entités génèrent la même valeur LOF pour plusieurs entités et que le même seuil LOF est établi même si le pourcentage est très légèrement différent..
    • Soit un jeu de données simple de 10 entités dont le calcul du facteur de valeur aberrante locale génère les valeurs LOF suivantes : [0, 1, 2, 3, 4, 5, 9, 9, 9, 9]. Dans cet exemple, une valeur de 10 % pour le pourcentage de localisations considérées comme des points aberrants revient à sélectionner les premiers 10 % des valeurs LOF, ce qui correspond à un seuil LOF de neuf. De même, une valeur de 40 % pour le pourcentage de localisations considérées comme des points aberrants revient à sélectionner les premiers 40 % des valeurs LOF, mais cela correspond toujours à un seuil LOF de neuf. Par conséquent, le nombre résultant de points aberrants désignés comme points aberrants est le même pour les pourcentages de 10 % à 40 %.

Références supplémentaires

Pour plus d’informations sur le facteur de point aberrant local, consultez les références suivantes :

  • Breunig, M. M., Kriegel, H. P., Ng, R. T., Sander, J. (2000). « LOF: identifying density-based local outliers. » Proceedings of the 2000 ACM SIGMOD international conference on Management of data. (p. 93-104).