Fonctionnement de l'analyse de grappes et de valeurs aberrantes (Anselin Local Morans I)

Dans un ensemble d’entités (valeur du paramètre Classe d’entités en entrée) et un champ d’analyse (valeur du paramètre Champ en entrée) donnés, l’outil Analyse des valeurs aberrantes et des agrégats (indice local de Moran Anselin) permet d’identifier des agrégats spatiaux d’entités présentant des valeurs élevées ou faibles. L'outil permet en outre d'identifier les points spatiaux aberrants. Pour ce faire, il calcule une valeur Local Morans I, un score z, une pseudo valeur de p et un code représentant le type de grappe pour chaque entité statistiquement significative. Les scores z et les pseudo valeurs de p représentent la signification statistique des valeurs d'index calculées.

Calculs

Formules mathématiques locales de Moran

Consultez d'autres formules mathématiques des statistiques Local Morans I.

Interprétation

Une valeur positive de I’indice (I) indique qu’une entité est voisine d’entités présentant également des valeurs attributaires élevées ou faibles ; cette entité fait partie d’un agrégat. Une valeur négative de I’indice indique qu’une entité est voisine d’entités présentant des valeurs différentes ; cette entité est une valeur aberrante. Dans les deux cas, la valeur p de l'entité doit être assez basse pour que la grappe ou la valeur aberrante soit considérée comme statistiquement significative. Pour plus d’informations sur la définition de la signification statistique, reportez-vous à la rubrique Qu’est-ce qu’un score z ? Qu’est-ce qu’une valeur p ? L’indice local de Moran est une mesure relative qui ne peut être interprété que dans le contexte de son score z calculé ou de sa valeur p calculée. Les scores z et les valeurs p signalés dans la classe d'entités en sortie ne sont pas corrigés pour tenir compte des tests multiples ou de la dépendance spatiale.

Le champ du type d’agrégat/de point aberrant (COType) fait la distinction entre un agrégat statistiquement significatif de valeurs élevées (HH), un agrégat de valeurs faibles (LL), un point aberrant dans lequel une valeur élevée est entourée principalement de valeurs faibles (HL) et un point aberrant dans lequel une valeur faible est entourée principalement de valeurs élevées (LH). La signification statistique est définie au niveau de confiance de 95 pour cent. Si aucune correction FDR n'est appliquée, les entités dont les valeurs p sont inférieures à 0,05 sont considérées comme statistiquement significatives. La correction FDR réduit le seuil de cette valeur p de 0,05 à une valeur qui reflète mieux le niveau de confiance de 95 pour cent avec des tests multiples. Les entités sans voisins ont une valeur de champ NN tandis que les entités non significatives ont un champ de texte vide.

Sortie

Cet outil crée une nouvelle classe d’entités en sortie avec les attributs suivants pour chaque entité de la classe d’entités en entrée : indice local de Moran, score z, valeur p et type d’agrégat/point aberrant.

Lorsque l’outil s’exécute, la classe d’entités en sortie est ajoutée automatiquement à la table des matières et le rendu par défaut est appliqué au champ COType. Le rendu appliqué est défini par un fichier de couche dans <ArcGIS Pro>\Resources\ArcToolBox\Templates\Layers. Vous pouvez appliquer à nouveau le rendu défaut, si nécessaire, à l’aide de l’outil Appliquer la symbologie d’une couche.

Permutations

Les permutations permettent de déterminer la probabilité de détecter la distribution spatiale réelle des valeurs que vous analysez en comparant les valeurs à un ensemble de valeurs générées de manière aléatoire. Même avec une structure spatiale totalement aléatoire (complete spatial randomness, CSR), un certain niveau d'agrégation est toujours observé en raison du caractère aléatoire. Les permutations génèrent de nombreux jeux de données aléatoires et comparent ces valeurs à l’indice local de Moran des données d’origine. Pour cela, chaque permutation réorganise de manière aléatoire les valeurs voisines autour de chaque entité et calcule la valeur d'index Local Moran's I de ces données aléatoires. En examinant la distribution de l’indice local de Moran généré à partir des permutations, vous pouvez déterminer la plage de valeurs de l’indice local de Moran pouvant raisonnablement découler du caractère aléatoire. Si les données présentent un modèle spatial statistiquement significatif, les valeurs de l’indice local de Moran générées à partir des permutations doivent présenter une agrégation moindre que la valeur de l’indice local de Moran des données d’origine. Une pseudo valeur de p est ensuite calculée en déterminant la proportion de valeurs de l’indice local de Moran générées à partir des permutations qui présentent une agrégation plus élevée que les données d’origine. Si cette proportion (la pseudo valeur de p) est faible (inférieure à 0,05), vous pouvez en conclure que les données contiennent vraiment une agrégation statistiquement significative.

Le choix du nombre de permutations doit faire l’objet d’un compromis entre précision et augmentation du temps de traitement. L'augmentation du nombre de permutations améliore la précision en augmentant la plage des valeurs possibles pour la pseudo valeur de p. Ainsi, avec 99 permutations, la précision de la pseudo valeur de p est de 0,01, et pour 999 permutations, la précision est de 0,001. Ces valeurs sont calculées en divisant 1 par le nombre de permutations plus un : 1/(1+99) et 1/(1+999). Il est possible d’utiliser un nombre moins élevé de permutations lors de la première exploration d’un problème, mais il est recommandé d’augmenter les permutations jusqu’au nombre le plus élevé possible pour les résultats finaux.

Instructions sur les pratiques conseillées

Gardez les points suivants à l’esprit lors de l’utilisation de l’outil Analyse des valeurs aberrantes et des agrégats (indice local de Moran Anselin) :

  • Les résultats ne sont fiables que si la classe d'entités en sortie contient au moins 30 entités.
  • Cet outil nécessite un champ en entrée, tel qu'un nombre, un taux ou toute autre mesure numérique. Si vous analysez des données ponctuelles, où chaque point représente un seul événement ou incident, il est possible que vous n’ayez pas d’attribut numérique spécifique à évaluer (classement de gravité, nombre ou toute autre mesure). Si vous souhaitez rechercher des localisations avec de nombreux incidents (points chauds) ou des localisations avec très peu d’incidents (points froids), vous devez agréger les données d’incident avant l’analyse. L’outil Analyse de points chauds (Getis-Ord Gi*) est également efficace dans la recherche des points chauds et des points froids. Toutefois, seul l’outil Analyse des valeurs aberrantes et des agrégats (indice local de Moran Anselin) permettra d’identifier les points spatiaux aberrants statistiquement significatifs (une valeur élevée entourée de valeurs faibles ou une valeur faible entourée de valeurs élevées).
  • Sélectionnez une conceptualisation appropriée des relations spatiales.
  • Lorsque vous sélectionnez la conceptualisation Space time window (Fenêtre spatio-temporelle), vous pouvez identifier les agrégats et les points aberrants spatio-temporels. Reportez-vous à rubrique Analyse d’agrégats spatio-temporels pour plus d’informations.
  • Sélectionnez une bande de distance ou distance de seuil appropriée.
    • Toutes les entités doivent comporter au moins un voisin.
    • Aucune entité ne doit comporter toutes les autres entités comme voisines.
    • En particulier si les valeurs du champ en entrée sont asymétriques, chaque entité doit comporter environ huit voisins.

Applications possibles

L’outil Analyse des valeurs aberrantes et des agrégats (indice local de Moran Anselin) permet d’identifier les concentrations de valeurs élevées, les concentrations de valeurs faibles et les points spatiaux aberrants. Il peut vous aider à répondre à des questions du type :

  • Où se trouvent les frontières les plus nettes entre la richesse et la pauvreté dans une zone d'étude ?
  • Certains endroits d'une zone d'étude présentent-ils des modèles de dépense anormaux ?
  • Où les taux anormalement élevés de diabète sont-ils localisés dans la zone d'étude ?

Les applications possibles couvrent de nombreux domaines différents, notamment l'économie, la gestion des ressources, la biogéographie, la géographie politique et la démographie.

Ressources supplémentaires

Anselin, Luc. "Local Indicators of Spatial Association—LISA," Geographical Analysis 27(2): 93–115, 1995.

Mitchell, Andy. The ESRI Guide to GIS Analysis,Volume 2. ESRI Press, 2005.