Fonctionnement de l'analyse de grappes et de valeurs aberrantes (Anselin Local Morans I)

Dans un ensemble d'entités (Classe d'entités en entrée) et un champ d'analyse (Champ en entrée) donnés, l'outil Cluster and Outlier Analysis permet d'identifier des agrégats spatiaux d'entités présentant des valeurs élevées ou faibles. L'outil permet en outre d'identifier les points spatiaux aberrants. Pour ce faire, il calcule une valeur Local Morans I, un score z, une pseudo valeur de p et un code représentant le type de grappe pour chaque entité statistiquement significative. Les scores z et les pseudo valeurs de p représentent la signification statistique des valeurs d'index calculées.

Calculs

Formules mathématiques Local Morans I

Consultez d'autres formules mathématiques des statistiques Local Morans I.

Interprétation

Une valeur positive de I indique qu'une entité est voisine d'entités présentant également des valeurs attributaires élevées ou faibles ; cette entité fait partie d'une grappe. Une valeur négative de I indique qu'une entité est voisine d'entités présentant des valeurs différentes ; cette entité est une valeur aberrante. Dans les deux cas, la valeur p de l'entité doit être assez basse pour que la grappe ou la valeur aberrante soit considérée comme statistiquement significative. Pour savoir comment déterminer la signification statistique, reportez-vous à la rubrique Qu'est-ce qu'un score z ? Qu'est-ce qu'une valeur p ? Notez que l'index Local Morans I (I) est une mesure relative et qu'il ne peut être interprété que dans le contexte de son score z calculé ou de sa valeur p calculée. Les scores z et les valeurs p signalés dans la classe d'entités en sortie ne sont pas corrigés pour tenir compte des tests multiples ou de la dépendance spatiale.

Le champ de type agrégat-point aberrant (COType) fait la distinction entre un agrégat statistiquement significatif de valeurs élevées (HH), un agrégat de valeurs faibles (LL), un point aberrant dans lequel une valeur élevée est entourée principalement de valeurs faibles (HL) et un point aberrant dans lequel une valeur faible est entourée principalement de valeurs élevées (LH). La signification statistique est définie au niveau de confiance de 95 pour cent. Si aucune correction FDR n'est appliquée, les entités dont les valeurs p sont inférieures à 0,05 sont considérées comme statistiquement significatives. La correction FDR réduit le seuil de cette valeur p de 0,05 à une valeur qui reflète mieux le niveau de confiance de 95 pour cent avec des tests multiples.

Sortie

Cet outil permet de créer une classe d’entités en sortie avec les attributs suivants pour chaque entité de la classe d’entités en entrée : index Local Morans I, score z, valeur de p et COType.

Lorsque l’outil s’exécute, la classe d’entités en sortie est ajoutée automatiquement à la table des matières et le rendu par défaut est appliqué au champ COType. Le rendu appliqué est défini par un fichier de couche dans <ArcGIS Pro>\Resources\ArcToolBox\Templates\Layers. Vous pouvez appliquer à nouveau le rendu par défaut, si nécessaire, à l'aide de l'outil Appliquer la symbologie d'une couche.

Permutations

Les permutations permettent de déterminer la probabilité de détecter la distribution spatiale réelle des valeurs que vous analysez en comparant vos valeurs à un ensemble de valeurs générées de manière aléatoire. Même avec une structure spatiale totalement aléatoire (complete spatial randomness, CSR), un certain niveau d'agrégation est toujours observé en raison du caractère aléatoire. Les permutations génèrent de nombreux jeux de données aléatoires et comparent ces valeurs à l'index Local Moran's I de vos données d'origine. Pour cela, chaque permutation réorganise de manière aléatoire les valeurs voisines autour de chaque entité et calcule la valeur d'index Local Moran's I de ces données aléatoires. En regardant la distribution de l'index Local Moran's I généré à partir des permutations, vous pouvez voir la plage de valeurs Local Moran's I pouvant raisonnablement découler du caractère aléatoire. Si vos données présentent un modèle spatial statistiquement significatif, les valeurs de l'index Local Moran's I générées à partir des permutations doivent présenter une agrégation moindre que la valeur de l'index Local Moran's I de vos données d'origine. Une pseudo valeur de p est ensuite calculée en déterminant la proportion de valeurs de l'index Local Moran's I générées à partir des permutations qui présentent une agrégation plus élevée que vos données d'origine. Si cette proportion (la pseudo valeur de p) est faible (inférieure à 0,05), vous pouvez en conclure que vos données contiennent vraiment une agrégation statistiquement significative.

Le choix du nombre de permutations doit faire l'objet d'un compromis entre précision et augmentation du temps de traitement. L'augmentation du nombre de permutations améliore la précision en augmentant la plage des valeurs possibles pour la pseudo valeur de p. Ainsi, avec 99 permutations, la précision de la pseudo valeur de p est de 0,01, et pour 999 permutations, la précision est de 0,001. Ces valeurs sont calculées en divisant un par le nombre de permutations plus un : 1/(1+99) et 1/(1+999). Il est possible d'utiliser un nombre moins élevé de permutations lors de la première exploration d'un problème, mais il est recommandé d'augmenter les permutations jusqu'au nombre le plus élevé possible pour les résultats finaux.

Instructions sur les pratiques conseillées

  • Les résultats ne sont fiables que si la classe d'entités en sortie contient au moins 30 entités.
  • Cet outil nécessite un champ en entrée, tel qu'un nombre, un taux ou toute autre mesure numérique. Si vous analysez des données ponctuelles, où chaque point représente un seul événement ou incident, il est possible que vous n'ayez pas d'attribut numérique spécifique à évaluer (classement de gravité, nombre ou toute autre mesure). Si vous souhaitez rechercher des emplacements avec de nombreux incidents (points chauds) et/ou des emplacements avec très peu d'incidents (points froids), vous devez agréger vos données d'incident avant l'analyse. L'outil Analyse de points chauds (Getis-Ord Gi*) est également efficace dans la recherche des points chauds et des points froids. Toutefois, seul l'outil Analyse de grappes et de valeurs aberrantes (Anselin Local Morans I) permettra d'identifier les points spatiaux aberrants statistiquement significatifs (une valeur élevée entourée de valeurs faibles ou une valeur faible entourée de valeurs élevées).
  • Sélectionnez une conceptualisation appropriée des relations spatiales.
  • Lorsque vous sélectionnez la conceptualisation Space time window (Fenêtre spatio-temporelle), vous pouvez identifier les agrégats et les points aberrants spatio-temporels. Reportez-vous à rubrique Analyse d’agrégats spatio-temporels pour plus d’informations.
  • Sélectionnez un canal de distance approprié ou une distance de seuil appropriée.
    • Toutes les entités doivent comporter au moins un voisin.
    • Aucune entité ne doit comporter toutes les autres entités comme voisines.
    • En particulier si les valeurs du champ en entrée sont asymétriques, chaque entité doit comporter environ huit voisins.

Applications possibles

L'outil Analyse de grappes et de valeurs aberrantes (Anselin Local Morans I) permet d'identifier les concentrations de valeurs élevées, les concentrations de valeurs faibles et les points spatiaux aberrants. Il peut vous aider à répondre à des questions du type :

  • Où se trouvent les frontières les plus nettes entre la richesse et la pauvreté dans une zone d'étude ?
  • Certains endroits d'une zone d'étude présentent-ils des modèles de dépense anormaux ?
  • Où les taux anormalement élevés de diabète sont-ils localisés dans la zone d'étude ?

Les applications possibles couvrent de nombreux domaines différents, notamment l'économie, la gestion des ressources, la biogéographie, la géographie politique et la démographie.

Ressources supplémentaires

Anselin, Luc. « Local Indicators of Spatial Association—LISA," Geographical Analysis 27(2): 93–115, 1995.

Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.