Fonctionnement de la détection de point aberrant spatial

L’outil Détection des points spatiaux aberrants identifie les points aberrants spatiaux globaux ou locaux dans des entités ponctuelles. Un point aberrant global est un point éloigné de tous les autres points de la classe d’entités. Un point aberrant local est un point qui est plus éloigné de ses voisins que ce qui est attendu par la densité des points dans la zone locale. En plus de classer les points en entrée comme points aberrants ou points pertinents, l’outil peut générer une surface de raster avec le facteur de valeur aberrante locale (LOF) calculé sur la zone d’étude, ce qui peut faciliter la détermination du mode de classement des nouvelles observations en fonction de la distribution spatiale de vos données. En outre, l’outil peut optimiser la sélection des paramètres requis, tels que le nombre de voisins et le pourcentage de localisations considérées comme des points aberrants.

Applications possibles

Voici quelques applications possibles de cet outil :

  • Une organisation gère des stations de surveillance de la qualité de l’air qui sont utilisées pour l’interpolation de surfaces de qualité d’air et elle souhaite identifier les stations les plus isolées afin d’identifier où une collecte de données supplémentaires sera nécessaire.
  • Les campagnes de don de sang sont souvent organisées près d’agrégats de donneurs potentiels pour minimiser les déplacements de chaque donneur, mais les donneurs importants qui habitent loin requièrent davantage de communications et d’incitations pour favoriser les dons volontaires. Un coordinateur peut identifier les donneurs candidats considérés comme des points aberrants spatiaux et leur envoyer un courrier avec des incitations supplémentaires pour qu’ils participent à une campagne de don de sang plus éloignée.

Points aberrants spatiaux globaux et locaux

Les points aberrants dans l’espace sont définis en tant que points dont les emplacements ne représentent généralement pas les modèles du reste de points dans le jeu de données. Dans le cas le plus simple, cela signifie qu’un point est éloigné du reste des points. On parle alors de point aberrant global. Par exemple, une carte des urgences dans un état peut identifier les urgences dans les zones à faible densité de population en tant que points aberrants globaux, car la distance est plus grande entre elles comparativement aux zones à forte densité de population. Toutefois, il est parfois plus pertinent de détecter des points dont l’emplacement varie par rapport aux modèles des points situés dans sa zone. On parle alors de point aberrant local. En reprenant l’exemple des urgences dans un état, un point aberrant spatial local est un hôpital situé loin des autres urgences, en prenant en compte l’évolution de la densité des urgences dans l’état. Cela permet d’identifier les urgences dans les zones à forte densité de population qui traitent plus de patients que les urgences environnantes, et de mettre ainsi en évidence les zones ayant moins accès aux soins d’urgence.

L’image suivante présente un résultat standard de détection des points spatiaux aberrants avec les points aberrants colorés en orange et les points pertinents en gris. Les points aberrants globaux s’affichent à droite, tandis que les points aberrants locaux pour une petite section de l’état de Washington s’affichent à gauche. Les points locaux n’apparaissent pas en tant que points aberrants lorsque tous les points du pays sont observés, mais ils sont relativement loin d’une grappe locale de points dans leur zone locale.

Points aberrants spatiaux locaux et globaux

Les points aberrants globaux s’affichent à droite, tandis que les points aberrants locaux pour une petite zone s’affichent à gauche.

Sorties de l'outil

L’outil fournit une couche d’entités en sortie mettant en évidence les entités désignées comme des points aberrants spatiaux. Les points aberrants sont symbolisés en orange et les points pertinents, en gris semi-transparent, pour pouvoir évaluer graphiquement la densité spatiale des points pertinents.

Points aberrants spatiaux identifiés

La couche d’entités inclut deux diagrammes : un diagramme à barres illustrant le nombre de points aberrants et de points pertinents, et un histogramme représentant la distribution des valeurs LOF (pour les points aberrants locaux) ou de distance par rapport au voisin (pour les points aberrants globaux).

Le diagramme à barres représentant le nombre de points aberrants fournit un nombre immédiat de points aberrants et peut s’avérer efficace pour sélectionner tous les points aberrants de l’analyse en sortie.

Histogramme du nombre de points aberrants

L’histogramme représentant la distribution des valeurs LOF ou de distance par rapport au voisin inclut la valeur moyenne et le seuil utilisé pour distinguer les points aberrants des points pertinents.

Histogramme des valeurs LOF

Par ailleurs, si une valeur est saisie dans le paramètre Raster de prévision en sortie, un raster en sortie est généré pour illustrer les valeurs LOF ou de distance par rapport au voisin calculées pour chaque cellule de la zone d’étude.

Surface raster en sortie

Le raster en sortie affiche les valeurs LOF sous forme de surface continue.

Détection des points aberrants spatiaux globaux

Les points aberrants globaux sont plus simples que les points aberrants locaux. Dans le cas de la détection de points aberrants globaux, les points aberrants sont déterminés en calculant la distance par rapport à ses voisins les plus proches, appelée distance par rapport au voisin. Le voisin le plus proche est utilisé par défaut, mais vous pouvez modifier le nombre à l’aide du paramètre Nombre de voisins. Par exemple, spécifiez la valeur 3 pour calculer la distance par rapport au troisième voisin le plus proche pour chaque point. Les points avec les distances les plus élevées par rapport au voisin sont les plus éloignés de leurs voisins les plus proches et tout point avec une distance par rapport au voisin supérieure à un certain seuil sera détectée en tant que point aberrant global.

Le seuil pour la détection est déterminé par la distribution des distances par rapport au voisin et la valeur du paramètre Sensibilité de la détection. Vous pouvez visualiser le seuil à l’aide d’une boîte à moustaches en ajoutant un certain nombre d’écarts interquartiles (l’écart des 50 pour cent du milieu des données) au troisième quartile. Pour l’option de sensibilité Élevée, un écart interquartile est ajouté au troisième quartile. Pour une sensibilité Moyenne, des écarts interquartiles de 1,5 sont ajoutés. Pour une sensibilité Faible, deux écarts interquartiles sont ajoutés. Notez que les sensibilités plus élevées génèrent des seuils plus bas, ce qui permet à des distances plus courtes par rapport au voisin d’être détectées en tant que points aberrants.

Règle de boîte à moustaches pour les points aberrants globaux

Les seuils pour la sensibilité faible, moyenne ou élevée s’affichent pour la boîte à moustaches bleue des distances par rapport au voisin.

Détection des points aberrants spatiaux locaux

L’identification de localisations anormales ou aberrantes est souvent plus importante que l’identification de localisations type ou groupées. C’est notamment le cas de l’examen de transactions financières potentiellement frauduleuses, souvent réalisées dans des localisations anormales qui diffèrent des modèles spatiaux type de transactions.

En dépit de ce besoin, la plupart des approches qui tentent d’identifier les points aberrants cherchent à identifier des agrégats, puis à utiliser les entités restantes comme corollaires des points aberrants spatiaux. Par exemple, l’outil Agrégation basée sur la densité réussit à définir et identifier l’agrégation spatiale à l’aide de diverses approches, mais son identification des points aberrants est reléguée aux entités n’ayant pas satisfait les critères d’un agrégat, désignées de manière binaire comme des entités de bruit. Par conséquent, la seule utilisation des approches d’agrégation pour identifier les points aberrants possède au moins deux inconvénients. Tout d’abord, les approches d’agrégation, de par leur conception, cherchent à définir et identifier des agrégats et non des points aberrants. Deuxièmement, la désignation d’un point aberrant est souvent effectuée de manière binaire, sans tolérance ou niveaux quantifiés du degré d’aberration d’une observation.

Le facteur de valeur aberrante locale (LOF) permet de remédier à ces inconvénients en cherchant à identifier les points aberrants et en fournissant une mesure du degré d’aberration d’une entité. De plus, cette approche utilise des modèles de densité locaux pour comparer la densité du voisinage d’une entité aux voisinages des autres entités à proximité. Cela permet de distinguer les points aberrants globaux (points anormaux dans le contexte de la zone d’étude dans son intégralité) des points aberrants locaux (points anormaux dans le contexte de leur proximité immédiate). L’accent sur les points aberrants locaux permet de mieux comprendre des phénomènes locaux plus complexes qui requièrent un examen plus approfondi, tels que le scénario de l’historique des transactions mentionné précédemment.

Définition des critères de détection des points aberrants spatiaux locaux

Pour mesurer et identifier les points aberrants spatiaux, l’outil requiert une valeur pour le paramètre Number of Neighbors (Nombre de voisins), évaluée pour chaque entité, et une valeur pour le paramètre Percent of Locations Considered Outliers (Pourcentage de localisations considérées comme des points aberrants) dans la zone d’étude ; ces critères sont importants lors de la détermination de la taille du voisinage dans le calcul du facteur de valeur aberrante locale (LOF) et du seuil de désignation des points aberrants et des points pertinents.

  • Le paramètre Number of Neighbors (Nombre de voisins) établit un voisinage pour chaque entité. Le calcul du facteur de valeur aberrante locale (LOF) utilise son voisinage pour calculer une distance d’accès et une densité d’accès locale, qui constituent la base de comparaison pour estimer le degré d’aberration spatiale d’une entité par rapport aux autres entités à proximité immédiate.
  • Le paramètre Percent of Locations Considered Outliers (Pourcentage de localisations considérées comme des points aberrants) établit un seuil de désignation des entités comme points aberrants ou points pertinents. Ce seuil utilise les valeurs de facteur de valeur aberrante locale (LOF) calculées pour toutes les entités des données en entrée et établit le nombre d’entités dont les valeurs LOF sont les plus élevées désignées comme points aberrants.

Dans la mesure du possible, pour bien connaître le domaine, il est recommandé que vous participiez à la définition des valeurs de ces paramètres, comme dans les exemples suivants :

  • Un ingénieur en transports, avec ses connaissances inhérentes du domaine, peut avoir une idée du nombre d’accidents à une intersection qui indique un problème de sécurité systémique et utiliser cette valeur comme nombre de voisins évalués lors de la détection des points aberrants spatiaux.
  • Le coordinateur d’une campagne de don de sang dispose d’une liste de donneurs potentiels. Son budget lui permet de dédommager les 10 % de volontaires les plus éloignés pour leur temps de déplacement vers un site de don de sang et il utilise ces 10 % pour le pourcentage de localisations considérées comme des points aberrants afin de prévoir les sites et les incitations de la campagne de don de sang.

En outre, si les valeurs des paramètres Nombre de voisins et Pourcentage des localisations considérées comme points aberrants ne sont pas connues ou que vous souhaitez explorer les valeurs dynamiques de ces paramètres, l’outil peut utiliser une recherche de valeurs de paramètre à l’aide de la distribution spatiale des données. Pour plus d’informations sur cette approche, la section Sélection de paramètres dynamiques ci-après fournit une explication détaillée.

Facteur de valeur aberrante locale

Le calcul du facteur de valeur aberrante locale représente le principal mécanisme d’identification et de description des points aberrants spatiaux. Il comprend quatre étapes principales : l’établissement d’un voisinage, la recherche de la distance d’accès, le calcul de la densité d’accès locale et le calcul du facteur de valeur aberrante locale lui-même Chaque étape est décrite dans les sections ci-après.

Établir un voisinage et rechercher la distance d’accès

Un voisinage local est établi pour chaque localisation à l’aide d’un nombre minimal spécifié d’entités. Cette approche est couramment appelée K voisins les plus proches, K correspondant au nombre minimal spécifié d’entités à proximité de l’entité actuellement analysée. Comme exemple, l’illustration ci-après représente un scénario pour l’entité A, dans lequel le nombre de voisins, k, est égal à 4

Voisinage de l’entité A

Les entités 1, 2, 3 et 4 constituent le voisinage de l’entité A et sont maintenant considérées comme B.

Une fois que le voisinage d’une entité a été établi, la distance d’accès correspond à la distance la plus grande entre la distance de A à B et la distance de B à son ke voisin le plus proche.

Formule de la distance d’accès

L’illustration ci-après représente la distance d’accès du point A dans un scénario où k = 4.

Distance d’accès de l’entité A

De la même manière, la distance d’accès de chaque entité est définie par ses K voisins les plus proches.

Rechercher la densité d’accès locale

Une fois qu’une distance d’accès a été déterminée pour chaque entité, la moyenne des distances d’accès de toutes les entités du voisinage de l’entité est calculée. Cette moyenne permet de déterminer la densité d’accès locale, une mesure de la densité spatiale du voisinage de l’entité. Le calcul de la densité d’accès locale correspond à l’inverse de la distance d’accès moyenne de toutes les entités du voisinage d’une entité.

Formule de la densité d’accès locale

Un autre moyen de représenter la densité d’accès locale consiste à calculer la distance d’accès de toutes les entités (B1 à B4) qui appartiennent au voisinage de l’entité A, comme illustré dans l’image ci-après.

Distance d’accès de chaque voisin

Vous devez ensuite diviser la distance totale par le nombre d’entités (quatre, dans le cas présent), puis calculer l’inverse (diviser 1 par ce total).

Autrement dit, lorsque la distance d’accès moyenne des entités augmente, la densité d’accès locale diminue. Par conséquent, lorsque la distance d’accès moyenne des entités diminue, la densité d’accès locale augmente.

Comparaison des densités d’accès locales

Calculer le facteur de valeur aberrante locale

Une fois que la densité d’accès locale a été calculée pour toutes les entités, la dernière étape du calcul du facteur de valeur aberrante locale consiste à calculer les ratios entre la densité d’accès locale d’une entité et la densité d’accès locale de chacun de ses voisins. La moyenne de ces ratios correspond au facteur de valeur aberrante locale.

Formule du facteur de valeur aberrante locale

Pour bien comprendre comment cela permet de déterminer si une entité est un point aberrant spatial, sachez qu’à mesure que la densité d’accès locale d’une entité diminue (en d’autres termes, le voisinage d’une entité est clairsemé) et que la densité d’accès locale de ses voisins augmente (en d’autres termes, le voisinage d’un voisin d’une entité est plus dense), le facteur de valeur aberrante locale augmente : l’entité est plus aberrante car sa densité spatiale est faible et les densités spatiales des entités voisines sont plus élevées.

Une fois que les facteurs de valeur aberrante locale ont été calculés pour toutes les entités, l’outil utilise le pourcentage de localisations comme valeur de paramètre des points aberrants pour désigner les entités comme points aberrants ou points pertinents. Par conséquent, la sélection d’un pourcentage approprié est l’un des critères important lors de la définition et de l’interprétation des résultats de l’analyse.

Sélection de paramètres dynamiques

Les paramètres Nombre de voisins et Pourcentage des localisations considérées comme points aberrants ont un impact important sur le résultat du calcul de la valeur LOF et des points aberrants spatiaux détectés. Il est recommandé de sélectionner ces valeurs de paramètre en fonction des connaissances du domaine, mais nous savons que les questions d’analyse n’incluent pas toutes une valeur précise de ces critères.

Si les valeurs logiques du nombre de voisins ou du pourcentage des localisations considérées comme points aberrants ne sont pas connues avant l’exécution de l’analyse ou que vous souhaitez évaluer des résultats dynamiques, l’outil peut automatiquement rechercher les valeurs de paramètre appropriées en fonction de la distribution spatiale des entités en entrée. Pour cela, l’outil effectue une recherche en comparant les combinaisons des paramètres du nombre de voisins, k, et du pourcentage des localisations considérées comme points aberrants c, qui sont convertis en un paramètre de recherche du nombre des localisations considérées comme points aberrants, appelé n.

Le facteur de valeur aberrante locale est calculé pour chaque paire de valeurs de paramètre : [(c1, k1), (c2, k2), …]. Les valeurs LOF résultantes sont classées de la plus élevée à la plus faible et la moyenne du log(LOF) des n premiers points aberrants est comparée à celle du log(LOF) des n points pertinents suivants (deuxième valeur LOF la plus élevée) à l’aide d’une statistique Tci,kj.

Le nombre de voisins et le seuil LOF optimaux sont déterminés à l’aide d’une recherche par grille optimisée.

En fonction de chaque c, recherchez le meilleur k : Tc1,k2, Tc2,k3, Tc3,k2. Recherchez ensuite la meilleure combinaison c, k.

Gardez les points suivants à l’esprit avant de continuer :

  • À partir d’une valeur c, l’outil identifie la valeur k qui maximise l’importance de la statistique t. Il s’agit en fait de la valeur des voisins les plus proches qui maximise l’écart des valeurs LOF entre le groupe des points aberrants et celui des points pertinents.
  • L’outil identifie la valeur de c qui maximise la statistique t après avoir ajusté la taille de n.

Points aberrants comparés aux points pertinents.

Le test t est réalisé entre les moyennes du groupe des points aberrants et du groupe des points pertinents.

La recherche est effectuée sur un domaine de valeurs k et c établi par le nombre de points en entrée et chacune des décisions prises par l’outil pour des valeurs de paramètre sélectionnées est envoyée sous forme de message, une fois que l’outil a été exécuté.

Remarque :

Pour les jeux de données en entrée qui comportent un grand nombre d’entités, seul un sous-ensemble des valeurs du nombre de voisins et du seuil LOF est vérifié par l’outil.

Remarques et interprétations des sorties

Plusieurs considérations sont à prendre en compte lors de l’interprétation de la sortie de cet outil.

  • Les valeurs LOF calculées pour un jeu de données en entrée ne peuvent pas être comparées aux valeurs LOF calculées dans un autre jeu de données. Les calculs LOF dépendent de la distribution spatiale des entités en entrée dans un jeu de données ; par conséquent, les écarts dans des jeux de données distincts donnent lieu à des résultats différents pour les densités d’accès locales et les valeurs LOF calculées.
  • Les résultats des valeurs LOF calculées peuvent différer entre un point des entités en sortie et une cellule du raster de prévision en sortie coïncidant avec ce point. En effet, le voisinage du point inclut les voisins à proximité, mais ne s’inclut pas, tandis que la cellule raster coïncidant avec le point inclut le point comme l’un de ses voisins.
  • De légers écarts dans les valeurs soumises pour le paramètre Pourcentage de localisations considérées comme des points aberrants peuvent aboutir à un même pourcentage de localisations considérées comme des points aberrants. Cela peut se produire si des similitudes dans la distribution spatiale des entités génèrent la même valeur LOF pour plusieurs entités et que le même seuil LOF est établi même si le pourcentage est très légèrement différent..
    • Soit un jeu de données simple de 10 entités dont le calcul du facteur de valeur aberrante locale génère les valeurs LOF suivantes : [0, 1, 2, 3, 4, 5, 9, 9, 9, 9]. Dans cet exemple, une valeur de 10 % pour le pourcentage de localisations considérées comme des points aberrants revient à sélectionner les premiers 10 % des valeurs LOF, ce qui correspond à un seuil LOF de neuf. De même, une valeur de 40 % pour le pourcentage de localisations considérées comme des points aberrants revient à sélectionner les premiers 40 % des valeurs LOF, mais cela correspond toujours à un seuil LOF de neuf. Par conséquent, le nombre résultant de points aberrants désignés comme points aberrants est le même pour les pourcentages de 10 % à 40 %.

Références supplémentaires

Pour plus d’informations sur le facteur aberrant local et l’optimisation des paramètres, consultez les références suivantes :

  • Breunig, M. M., Kriegel, H. P., Ng, R. T., Sander, J. (2000). « LOF: identifying density-based local outliers. » Proceedings of the 2000 ACM SIGMOD international conference on Management of data. (p. 93-104).
  • Xu, Z., Kakde, D., Chaudhuri, A. (2019). « Automatic Hyperparameter Tuning Method for Local Outlier Factor, with Applications to Anomaly Detection. » 2019 IEEE International Conference on Big Data (pp. 4201-4207)