Fonctionnement de l'outil Spatial Autocorrelation (Global Moran's I)

L'outil Spatial Autocorrelation (Global Moran's I) mesure simultanément l'auto-corrélation spatiale selon les emplacements et les valeurs d'entité. En fonction d'un ensemble d'entités et d'un attribut associé, il évalue si le modèle exprimé est agrégé, dispersé, ou aléatoire. L'outil calcule la valeur d'indice de Moran et un score z et une valeur p pour évaluer la portée de cet indice. Les valeurs p sont des approximations numériques de la superficie située sous la courbe pour une distribution connue, limitée par le test statistique.

Calculs

Formules mathématiques utilisées pour calculer l'indice global de Moran

Consulter d'autres formules mathématiques de l'indice global de Moran

La logique mathématique sous-jacente à la statistique de l'indice global de Moran est indiquée ci-dessus. L'outil calcule la moyenne et la variance pour l'attribut à évaluer. Puis, pour chaque valeur d'entité, il soustrait la moyenne, créant ainsi un écart à la moyenne. Les valeurs d'écart pour toutes les entités voisines (entités dans la bande de distance spécifiée, par exemple) sont multipliées les unes par les autres pour créer un produit croisé. Notez que le numérateur pour la statistique d'indice global de Moran comprend la somme de ces produits croisés. Supposons que les entités A et B sont voisines et que la moyenne pour toutes les valeurs d'entité est de 10. La plage de résultats de produits croisés possibles se présente comme suit :

Valeurs d'entités

Ecarts

Produits croisés

A = 50

B = 40

40

30

1200

A = 8

B = 6

-2

-4

8

A = 20

B = 2

10

-8

-80

Lorsque les valeurs pour les entités voisines sont soit toutes deux supérieures à la moyenne, soit toutes deux inférieures à la moyenne, le produit croisé est positif. Lorsqu'une valeur est inférieure à la moyenne et l'autre supérieure à la moyenne, le produit croisé est négatif. Dans tous les cas, plus l'écart à la moyenne est important, plus le résultat du produit croisé est élevé. Si les valeurs dans le jeu de données ont tendance à s'agréger spatialement (les valeurs élevées s'agrègent auprès d'autres valeurs élevées ; les valeurs faibles s'agrègent auprès d'autres valeurs faibles), l'indice de Moran est positif. Lorsque les valeurs élevées repoussent d'autres valeurs élevées et ont tendance à être proche des valeurs faibles, l'indice sera négatif. Si les valeurs de produit croisé positives équilibrent les valeurs de produit croisé négatives, la valeur de l'indice se situe autour de zéro. Le numérateur est normalisé par la variance de sorte que les valeurs d'indice soient comprises entre -1,0 et +1,0 (reportez-vous à la section FAQ ci-dessous pour consulter les exceptions).

Après avoir calculé la valeur d'indice, l'outil Spatial Autocorrelation (Global Moran's I) calcule la valeur d'indice attendu. Les valeurs d'indice attendu et d'indice observé sont alors comparées. Etant donné le nombre d'entités dans le jeu de données et la variance pour les valeurs de données au global, l'outil calcule le score z et la valeur p qui indique si cette différence est statistiquement significative. Les valeurs d'indice ne peuvent pas être interprétées directement mais uniquement dans le contexte de l'hypothèse nulle.

Interprétation

L'outil Spatial Autocorrelation (Global Moran's I) est une statistique inférentielle, ce qui signifie que les résultats de l'analyse sont toujours interprétés dans le contexte de son hypothèse nulle. Pour la statistique d'indice global de Moran, l'hypothèse nulle suppose que l'attribut analysé est distribué aléatoirement parmi les entités de la zone d'étude ; autrement dit, les processus spatiaux qui favorisent le modèle observé de valeurs sont aléatoires. Imaginons que vous puissiez prendre les valeurs de l'attribut analysé et les lancer au hasard sur vos entités, de sorte que chacune d'elle retombe de manière totalement aléatoire. Ce processus (prise et lancé des valeurs) est un exemple de processus spatial aléatoire.

Lorsque la valeur p renvoyée par cet outil est statistiquement significative, vous pouvez rejeter l'hypothèse nulle. Le tableau suivant récapitule l'interprétation des résultats :

La valeur p n'est pas statistiquement significative.

Vous ne pouvez pas rejeter l'hypothèse nulle. Il est tout à fait possible que la distribution spatiale des valeurs d'entité soit le résultat de processus spatiaux aléatoires. Le modèle spatial observé de valeurs d'entité pourrait très bien être l'un des innombrables scénarios possibles de structure spatiale totalement aléatoire (complete spatial randomness, CSR).

La valeur p est statistiquement significative et le score z est positif.

Vous pouvez rejeter l'hypothèse nulle. La distribution spatiale de valeurs élevées et/ou de valeurs faibles dans le jeu de données fait l'objet d'une agrégation spatiale plus importante que si les processus spatiaux sous-jacents étaient aléatoires.

La valeur p est statistiquement significative et le score z est négatif.

Vous pouvez rejeter l'hypothèse nulle. La distribution spatiale de valeurs élevées et de valeurs faibles dans le jeu de données fait l'objet d'une dispersion spatiale plus importante que si les processus spatiaux sous-jacents étaient aléatoires. Un modèle spatial dispersé reflète souvent un processus de type concurrentiel : une entité présentant une valeur élevée repousse d'autres entités associées à des valeurs élevées ; de la même façon, une entité associée à une valeur faible repousse d'autres entités associées à des valeurs faibles.

Remarque :

L'hypothèse nulle pour les outils High/Low Clustering (Getis-Ord General G) et Spatial Autocorrelation (Global Moran's I) est structure spatiale totalement aléatoire (CSR). L'interprétation des scores z pour l'outil High/Low Clustering (Getis-Ord General G) est différente, toutefois.

Sortie

L'outil d'auto-corrélation spatiale renvoie cinq valeurs : l'indice de Moran, l'indice attendu, la variance, le score z et la valeur p. Ces valeurs sont écrites sous forme de messages au bas de la fenêtre Géotraitement au cours de l'exécution de l'outil et transmises sous la forme de valeurs en sortie dérivées pour une utilisation éventuelle dans des modèles ou des scripts. Vous pouvez accéder aux messages en pointant sur la barre de progression, en cliquant sur le bouton contextuel ou en développant la section des messages dans la fenêtre Géotraitement. Vous pouvez également accéder aux messages d'un outil précédemment exécuté via l'historique du géotraitement. Cet outil peut également créer un fichier de rapport HTML contenant un récapitulatif graphique des résultats. Le chemin d'accès au rapport est inclus avec les messages qui récapitulent les paramètres d'exécution de l'outil. Cliquez sur ce chemin d'accès pour ouvrir le fichier de rapport.

Instructions sur les pratiques conseillées

  • Est-ce que la classe d'entités en entrée contient au moins 30 entités ? Les résultats ne sont pas fiables avec un nombre d'entités inférieur à 30.
  • La conceptualisation de relations spatiales que vous avez sélectionnée est-elle appropriée ? Reportez-vous à la rubrique Sélection d'une conceptualisation de relations spatiales.
  • La valeur Canal distance ou distance seuil est-elle appropriée ? Reportez-vous à la rubrique Sélection d'une distance fixe.
    • Toutes les entités doivent comporter au moins un voisin.
    • Aucune entité ne doit comporter toutes les autres entités comme voisines.
    • En particulier si les valeurs du champ en entrée sont asymétriques, les entités doivent comporter environ huit voisins chacune.
  • Devez-vous procéder à une standardisation par ligne ? Pour les entités surfaciques, cela sera pratiquement toujours le cas. Reportez-vous à la section Standardisation.

FAQ

Q : Les résultats de l'outil Hot Spot Analysis (Getis-Ord Gi*) indique des hot spots statistiquement significatifs. Pourquoi les résultats de l'outil Spatial Autocorrelation (Global Moran's I) ne sont-ils pas également statistiquement significatifs ?

R : Les statistiques globales, auxquelles l'outil Spatial Autocorrelation (Global Moran's I) se destine, évaluent le modèle et la tendance de vos données globalement. Elles sont très efficaces lorsque le modèle spatial est cohérent dans toute la zone d'étude. Les statistiques locales (cf. l'outil Hot Spot Analysis (Getis-Ord Gi*)) évaluent chaque entité dans un contexte d'entités voisines et comparent la situation locale à la situation globale. Prenons un exemple. Lorsque vous calculez une moyenne pour un ensemble de valeurs, vous calculez également une statistique globale. Si toutes les valeurs sont proches de 20, la moyenne se situera également autour de 20 et ce résultat constituera une très bonne représentation du jeu de données dans son ensemble. Mais si la moitié des valeurs est proche de 1 et l'autre moitié des valeurs est proche de 100, la moyenne se situera aux alentours de 50. Il se peut qu'aucune des valeurs de données n'approche de 50 et donc la valeur moyenne n'est pas représentative du jeu de données dans son ensemble. Si vous créez un histogramme des valeurs des données, vous pourrez constater la distribution bimodale. De la même façon, les statistiques spatiales globales, notamment avec l'outil Spatial Autocorrelation (Global Moran's I), sont très efficaces lorsque les processus spatiaux qui sont mesurés sont cohérents dans la zone d'étude. Les résultats constitueront alors une bonne représentation du modèle spatial global. Pour plus d'informations, reportez-vous à l'article de Getis et Ord (1992) cité ci-dessous et à l'analyse du syndrome de mort subite du nourrisson qu'ils présentent.

 

Q : Pourquoi les résultats de l'outil High/Low Clustering (Getis-Ord General G) sont-ils différents des résultats de l'outil Spatial Autocorrelation (Moran's I) ?

R : Ces outils mesurent des modèles spatiaux différents. Pour plus d'informations, cliquez ici.

 

: Est-il possible de comparer les scores z ou les valeurs p de cet outil aux résultats d'analyses concernant des zones d'études différentes ?

R : Les résultats issues de zones d'étude différentes ne sont pas comparables. Toutefois, lorsque la zone d'étude est constante (par exemple, toutes les analyses concernent les comtés de Californie), que le Champ en entrée est comparable (par exemple, toutes les analyses impliquent un même type de population) et que les paramètres d'outil sont les mêmes (distance fixe avec une valeur de Canal distance ou distance seuil de 5 000 mètres et standardisation par lignes, par exemple), vous pouvez comparer des scores z statistiquement significatifs pour connaître l'intensité d'agrégation ou de dispersion spatiale ou mieux comprendre les tendances qui se dessinent au fil du temps. Vous pouvez également exécuter l'analyse pour une série de valeurs de Canal distance ou distance seuil croissante pour connaître la distance ou l'échelle à laquelle les processus qui favorisent l'agrégation spatiale sont les plus prononcés.

 

Q : Pourquoi est-ce que j'obtiens un indice de Moran supérieur à 1,0 ou inférieur à -1,0 ?

R : En général, l'indice global de Moran est borné par -1,0 et 1,0. C'est toujours le cas lorsque vos pondérations sont standardisées par lignes. Lorsque les pondérations ne sont pas standardisées par lignes, la valeur d'indice peut, dans certains cas, se situer à l'extérieur de la plage -1,0 à 1,0. Cela indique un problème de définition des paramètres. Les problèmes les plus communs sont les suivants :

  • La valeur du Champ en entrée est fortement désaxée (créez un histogramme des valeurs de données pour le vérifier) et la Conceptualisation de relations spatiales ou la Canal de distance est définie de sorte que certaines entités ont très peu de voisins. La statistique d'indice global de Moran est asymptotiquement normale, ce qui signifie pour les données désaxées, que chaque entité doit avoir au moins huit voisins. La valeur par défaut calculée pour le paramètre Canal distance ou distance seuil garantit que chaque entité a un voisin au moins mais cela peut ne pas être suffisant, surtout lorsque les valeurs du Champ en entrée sont fortement désaxées.
  • Une Conceptualisation de relations spatiales de type inverse de la distance est utilisée et les distances inversées sont très petites.
  • La standardisation par lignes n'est pas sélectionnée, mais devrait l'être. Quand vos données ont été agrégées, à moins que le schéma d'agrégation soit directement lié au champ que vous analysez, vous devez sélectionner la standardisation par lignes.

Applications possibles

  • Contribue à identifier une distance de voisinage appropriée pour divers méthodes d'analyse spatiale en calculant la distance à laquelle l'auto-corrélation spatiale est la plus forte.
  • Mesure des tendances générales en matière de ségrégation ethnique ou raciale au cours du temps : la ségrégation tend-elle à augmenter ou à décroître ?
  • Synthétise la diffusion d'une idée, d'une maladie ou d'une tendance dans l'espace et le temps : l'idée, la maladie ou la tendance reste-elle isolée et localisée ou s'étale-t-elle pour devenir plus diffuse ?

Ressources supplémentaires

Les livres et articles suivants contiennent des informations supplémentaires concernant cet outil :

Getis, Arthur et J. K. Ord. "The Analysis of Spatial Association by Use of Distance Statistics." Geographical Analysis 24, no. 3. 1992.

Goodchild, Michael F. Spatial Autocorrelation (Morans I). Catmog 47, Geo Books, 1986.

Griffith, Daniel. Spatial Autocorrelation: A Primer. Resource Publications in Geography, Association of American Geographers. 1987.

Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.