Fonctionnement de l'outil Analyse de valeurs aberrantes locales

L'outil Analyse de valeurs aberrantes locales identifie les grappes et points aberrants significatifs dans vos données. Il détermine les emplacements de votre zone d'étude comportant des valeurs statistiquement différentes de leurs voisins dans l'espace et le temps. Il accepte en entrée un cube NetCDF spatio-temporel créé à l'aide de l'outil Créer un cube spatio-temporel en agrégeant des points ou Créer un cube spatio-temporel à partir d'emplacements définis. Il utilise ensuite les valeurs de Conceptualisation de relations spatiales pour calculer une implémentation spatio-temporelle de la statistique Anselin Local Morans I (Analyse de grappes et de valeurs aberrantes) pour chaque groupe. Pour ce faire, l’outil calcule un index Local Morans I, une pseudo valeur de p et un code de type (CO_TYPE) représentant le type de catégorie de grappe ou de point aberrant de chaque groupe statistiquement significatif du Input Space Time Cube (Cube spatio-temporel en entrée). Les pseudo valeurs de p représentent la signification statistique des valeurs d'index calculées et leur précision dépendent du nombre de permutations.

Applications possibles

L'outil Analyse de valeurs aberrantes locales peut être utilisé dans de nombreux domaines, tels que l'économie, la gestion de ressources, la géographie politique, la démographie, la santé publique et la prévention des fraudes. Cet outil permet de répondre à plusieurs sortes de questions, telles que :

  • Certains emplacements de ma zone d'étude présentent-ils des modèles de dépense anormaux ?
  • Y a-t-il eu une période avec des taux anormalement élevés d'épidémies dans la zone d'étude ?
  • Y a-t-il des zones suburbaines au sein desquelles les habitants utilisent beaucoup plus d'eau que leurs voisins ? Vous pouvez également déterminer les zones suburbaines qui utilisent systématiquement moins d'eau afin de développer des pratiques conseillées en matière de conservation de l'eau.
  • Ma région comporte-t-elle des emplacements présentant des hausses significatives du nombre de déclarations de sinistres remplies au cours du dernier mois ?

Sorties de l'outil

Cet outil produit plusieurs sorties. La sortie la plus utile est une carte bidimensionnelle récapitulant chaque emplacement dans le temps, qui est ajoutée à la carte à la fin de l'exécution de l'outil. Les catégories sont les suivantes :

Nom du typeDéfinition
Jamais significatif

Never Significant

Emplacement n’ayant jamais connu de champ CO_TYPE statistiquement élevé.

Cluster élevé-élevé uniquement

Only High-High Cluster

Emplacement où le seul type statistiquement significatif dans le temps a été Grappes élevées-élevées.

Cluster élevé-faible uniquement

Only High-Low Outlier

Emplacement où le seul type statistiquement significatif dans le temps a été Points aberrants élevés-faibles.

Cluster faible-élevé uniquement

Only Low-High Outlier

Emplacement où le seul type statistiquement significatif dans le temps a été Points aberrants faibles-élevés.

Cluster faible-faible uniquement

Only Low-Low Cluster

Emplacement où le seul type statistiquement significatif dans le temps a été Grappes faibles-faibles.

Types multiples

Multiple Types

Emplacement ayant connu plusieurs types de grappes et points aberrants statistiquement significatifs dans le temps (par exemple, pendant certaines périodes, l'emplacement a été un point aberrant faible-élevé, et pendant d'autres périodes, il a été une grappe élevée-élevée).

En outre, des messages récapitulant les résultats d'analyse apparaissent en bas de la fenêtre Géotraitement pendant l'exécution de l'outil. Vous pouvez accéder aux messages en pointant sur la barre de progression, en cliquant sur Ouvrir dans une nouvelle fenêtre ou en développant la section des messages dans la fenêtre Géotraitement. Vous pouvez également accéder aux messages d'un outil précédemment exécuté via l'historique du géotraitement.

Ces messages contiennent des informations sur le cube spatio-temporel en entrée, telles que la période, la déformation temporelle et le nombre de groupes et d'emplacements analysés. Ils incluent également des informations importantes sur les éventuels points aberrants de l'intervalle temporel le plus récent et récapitulent les principales phases susceptibles de présenter un intérêt. Ainsi, si vous voulez déterminer les zones les moins performantes de votre secteur de vente et que vous recherchez les points aberrants faibles-élevés, les messages vous indiquent la principale phase possédant le nombre le plus élevé de points aberrants faibles-élevés.

Exemple de messages de l'outil Analyse de valeurs aberrantes locales

Cet outil crée une nouvelle classe d'entités en sortie comportant les champs suivants qui récapitulent les groupes de chaque emplacement du cube spatio-temporel en entrée :

AliasNom du champ
Number of OutliersNUM_OUT
Percentage of OutliersPERC_OUT
Number of Low ClustersN_LOW_CLS
Percentage of Low ClustersP_LOW_CLS
Number of Low OutliersN_LOW_OUT
Percentage of Low OutliersP_LOW_OUT
Number of High ClustersN_HIGH_CLS
Percentage of High ClustersP_HIGH_CLS
Number of High OutliersN_HIGH_OUT
Percentage of High OutliersP_HIGH_OUT

Emplacements avec No Spatial Neighbors qui s’appuient uniquement sur des voisins temporels pour les calculs d’analyse

NO_SP_NBR

Emplacements avec Outlier in the Most Recent Time Step

OUT_R_TIME
Cluster Outlier Type

CO_TYPE

Autres résumés statistiques comprenant la somme, la valeur minimale, la valeur maximale, la moyenne, l'écart type et la valeur médiane de la variable analysée.

SUM_VALUE, MIN_VALUE, MAX_VALUE, MEAN_VALUE, STD_VALUE et MED_VALUE

Enfin, l'outil Analyse de valeurs aberrantes locales ajoute un certain nombre de nouvelles variables à votre cube spatio-temporel en entrée. Si ces variables existent déjà (si vous exécutez plusieurs fois l'outil Analyse de valeurs aberrantes locales pour la même variable d'analyse), elles sont remplacées afin que le cube contienne toujours les résultats d'analyse les plus récents.

Vous pouvez visualiser ces variables à l’aide d’ArcGIS Pro. Reportez-vous à la rubrique Visualisation du cube spatio-temporel qui présente diverses stratégies.

Interprétation

Pour faciliter l'interprétation des résultats de l'outil Analyse de valeurs aberrantes locales, l'outil Visualiser le cube spatio-temporel en 3D peut être utilisé afin d'afficher les variables de résultats ajoutées au cube. L’index, la valeur de p et le Cluster Outlier Analysis Type de chaque groupe peuvent être visualisés grâce à l’option Cluster and outlier results Display Theme (Thème d’affichage). Un index ayant une valeur positive indique qu'un groupe est voisin de groupes présentant également des valeurs attributaires élevées ou faibles ; ce groupe fait partie d'une grappe. Un index ayant une valeur négative indique qu'un groupe est voisin de groupes présentant des valeurs différentes ; ce groupe est un point aberrant. Dans les deux cas, la pseudo valeur de p ou la valeur de p de l'entité doit être assez faible pour que la grappe ou le point aberrant soit considéré comme statistiquement significatif. Pour savoir comment déterminer la signification statistique, reportez-vous à la rubrique Qu'est-ce qu'un score z ? Qu'est-ce qu'une valeur de p ? Notez que l'index Local Morans (I) est une mesure relative et qu'il ne peut être interprété que dans le contexte de sa distribution de référence générée et de sa pseudo valeur de p ou valeur de p calculée. Les pseudo valeur de p ou valeur de p signalées dans la classe d'entités en sortie sont corrigées pour tenir compte des tests multiples et de la dépendance spatiale.

Le type de grappe ou de point aberrant fait la distinction entre une grappe statistiquement significative de valeurs élevées (élevé-élevé), une grappe de valeurs faibles (faible-faible), un point aberrant dans lequel une valeur élevée est entourée principalement de valeurs faibles (élevé-faible) et un point aberrant dans lequel une valeur faible est entourée principalement de valeurs élevées (faible-élevé). La signification statistique est définie au niveau de confiance de 95 pour cent. Cette signification représente une correction FDR, qui ajuste le seuil de valeur de p de 0,05 sur une valeur reflétant mieux le niveau de confiance de 95 % prenant en compte des tests multiples.

Valeurs par défaut du voisinage

Pour déterminer si la valeur de groupe à un emplacement dans l'espace et dans le temps fait partie d'un point chaud, froid ou aberrant statistiquement significatif, chaque groupe est évalué en fonction des groupes spatio-temporels voisins. Par défaut, cet outil utilise la méthode Distance fixe pour définir les relations entre les groupes. Les valeurs des paramètres Distance du voisinage et Intervalle temporel de voisinage définissent l'étendue du voisinage de chaque groupe (le contexte de l'analyse de chaque groupe). Supposons des dimensions de groupes de 400 mètres sur 400 mètres sur un jour. Si vous définissez la valeur Distance du voisinage sur 801 mètres et la valeur Intervalle temporel de voisinage sur 2, les voisins spatiaux s'étendent sur deux groupes horizontalement et verticalement et sur un groupe en diagonale, comme illustré :

Exemple de voisins spatiaux

En outre, il existera des voisins temporels. Tous les groupes au même emplacement que la cible et ses voisins spatiaux (illustrés ci-dessus) pour les périodes correspondantes ou les deux périodes précédentes, à savoir un total de trois jours dans cet exemple, sont inclus en tant que voisins. Notez que les voisins temporels sont uniquement en arrière dans le temps et qu'une valeur d'Intervalle temporel de voisinage équivalente à 2 englobe trois intervalles temporels. Pour garantir que chaque emplacement possède au moins un voisin temporel, l'index Local Morans n'est pas calculé pour les groupes de la première tranche horaire. Les valeurs de groupe de la première tranche horaire sont cependant incluses dans le calcul de la moyenne globale.

Si vous n'indiquez pas de valeur pour le paramètre Distance du voisinage, une valeur est calculée pour vous. La formule est produite à partir du calcul utilisé pour déterminer un rayon de recherche de densité du noyau par défaut. Si vous n'indiquez aucune valeur pour l'option Intervalle temporel de voisinage, la valeur par défaut est définie sur 1.

Des options supplémentaires permettent de définir des relations de voisinage à l’aide du paramètre Conceptualisation de relations spatiales. Pour chaque option, l’outil recherche d’abord des voisins spatiaux, puis les groupes se trouvant aux mêmes emplacements que les N intervalles temporels précédents, N représentant la valeur d'intervalle temporel de voisinage que vous spécifiez.

Le choix du paramètre Conceptualisation de relations spatiales doit refléter les relations inhérentes entre les entités que vous analysez. Plus la modélisation de l'interaction des entités dans l'espace est réaliste, plus les résultats sont précis. Des recommandations sont présentées dans la section Sélection d'une conceptualisation de relations spatiales : meilleures pratiques.

Permutations

Les permutations permettent de déterminer la probabilité de détecter la distribution spatiale réelle des valeurs que vous analysez en comparant vos valeurs à un ensemble de valeurs générées de manière aléatoire. Même avec une structure spatiale totalement aléatoire (complete spatial randomness, CSR), un certain niveau d'agrégation est toujours observé en raison du caractère aléatoire. Les permutations génèrent de nombreux jeux de données aléatoires et comparent ces valeurs à l'index Local Moran's I de vos données d'origine. Pour cela, chaque permutation réorganise de manière aléatoire les valeurs voisines autour de chaque groupe et calcule la valeur d'index Local Moran's I de ces données aléatoires. En regardant la distribution de l'index Local Moran's I généré à partir des permutations, vous pouvez voir la plage de valeurs Local Moran's I pouvant raisonnablement découler du caractère aléatoire. Si vos données présentent un modèle spatial statistiquement significatif, les valeurs de l'index Local Moran's I générées à partir des permutations doivent présenter une agrégation moindre que la valeur de l'index Local Moran's I de vos données d'origine. Une pseudo valeur de p est ensuite calculée en déterminant la proportion de valeurs de l'index Local Moran's I générées à partir des permutations qui présentent une agrégation plus élevée que vos données d'origine. Si cette proportion (la pseudo valeur de p) est faible (inférieure à 0,05), vous pouvez en conclure que vos données contiennent vraiment une agrégation statistiquement significative.

Le choix du nombre de permutations doit faire l'objet d'un compromis entre précision et augmentation du temps de traitement. L'augmentation du nombre de permutations améliore la précision en augmentant la plage des valeurs possibles pour la pseudo valeur de p. Ainsi, avec 99 permutations, la précision de la pseudo valeur de p est de 0,01 (1/99+1), et pour 999 permutations, la précision est de 0,001 (1/999+1). Il est possible d'utiliser un nombre moins élevé de permutations lors de la première exploration d'un problème, mais il est recommandé d'augmenter les permutations jusqu'au nombre le plus élevé possible pour les résultats finaux.

Ressources supplémentaires

Anselin, Luc. « Local Indicators of Spatial Association—LISA," Geographical Analysis 27(2): 93–115, 1995.

Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.