Fonctionnement de l’auto-corrélation spatiale (indice global de Moran)

L’outil Auto-corrélation spatiale (indice global de Moran) mesure l’auto-corrélation spatiale d’après la localisation des entités et leurs valeurs, simultanément. En tenant compte d’un ensemble d’entités et d’un attribut associé, il évalue si le modèle exprimé est agrégé, dispersé ou aléatoire. L’outil calcule la valeur de l’indice global de Moran, ainsi qu’un score z et une valeur p pour évaluer la signification de cet index. Les valeurs p sont des approximations numériques de la surface sous la courbe pour une distribution connue, limitées par la statistique de test.

Calculs

Formules mathématiques utilisées pour calculer l’indice global de Moran

Consulter d’autres formules mathématiques de l’indice global de Moran

Les calculs sous-jacents à la statistique Indice global de Moran sont présentés ci-dessus. L’outil calcule la moyenne et la variance de l’attribut en cours d’évaluation. Ensuite, pour chaque valeur d’entité, il soustrait la moyenne, ce qui crée un écart type par rapport à la moyenne. Les valeurs des écarts types de toutes les entités de voisinage (entités situées à l’intérieur du canal de distance spécifié, par exemple) sont multipliées ensemble pour créer un produit croisé. Le numérateur de la statistique Indice global de Moran inclut ces produits croisés additionnés. Supposons que les entités A et B soient voisines et que la moyenne de toutes les valeurs des entités est égale à 10. La plage des produits croisés qu’il est possible d’obtenir est la suivante :

Valeurs des entitésÉcarts typesProduits croisés

A=50

B=40

40

30

1 200

A=8

B=6

-2

-4

8

A=20

B=2

10

-8

-80

Lorsque les valeurs des entités de voisinage sont toutes les deux supérieures à la moyenne ou toutes les deux inférieures à la moyenne, le produit croisé est positif. Lorsqu’une valeur est inférieure à la moyenne et que l’autre est supérieure à la moyenne, le produit croisé est négatif. Dans tous les cas, plus l’écart type par rapport à la moyenne est important, plus le produit croisé obtenu est important. Si les valeurs dans le jeu de données ont tendance à s’agréger spatialement (les valeurs élevées s’agrègent à proximité des autres valeurs élevées ; les valeurs faibles s’agrègent à proximité des autres valeurs élevées), l’indice de Moran est positif. Lorsque des valeurs élevées repoussent d’autres valeurs élevées et tendent à se situer à proximité de valeurs faibles, l’indice est négatif. Si des valeurs de produit croisé positives équilibrent des valeurs de produit croisé négatives, l’indice est proche de zéro. Le numérateur est normalisé par la variance de sorte que les valeurs d’indice se situent entre -1,0 et +1,0 (consultez la section Informations supplémentaires ci-dessous sur les exceptions).

Une fois que l’outil a calculé une valeur d’indice, il calcule la valeur Indice attendu. Les valeurs Indice attendu et Indice observé sont ensuite comparées. En tenant compte du nombre d’entités dans le jeu de données et de la variance des valeurs de données, l’outil calcule un score z ou une valeur p indiquant si cette différence est statistiquement significative ou non. Les valeurs d’indice ne peuvent pas être interprétées directement, elles ne peuvent être interprétées que par rapport à l’hypothèse nulle.

Interprétation

L’outil est une statistique inférentielle, ce qui signifie que les résultats de l’analyse sont interprétés par rapport à l’hypothèse nulle. Pour la statistique Indice global de Moran, les hypothèses nulles stipulent que l’attribut en cours d’analyse est distribué de façon aléatoire parmi les entités de votre zone d’étude. Le processus spatial favorisant le modèle observé des valeurs est aléatoire. Imaginons que vous pouvez choisir les valeurs de l’attribut en cours d’analyse et les projeter dans vos entités, permettant à chaque valeur de se positionner comme elle le souhaite. Ce processus (choisir et projeter les valeurs) est un exemple de processus spatial aléatoire.

Lorsque la valeur p renvoyée par cet outil est statistiquement significative, vous pouvez rejeter l’hypothèse nulle. Le tableau ci-après récapitule l’interprétation des résultats :

La valeur p n’est pas statistiquement significative.

Vous ne pouvez pas rejeter l’hypothèse nulle. Il est tout à fait possible que la distribution spatiale des valeurs des entités résulte de processus spatiaux aléatoires. Le modèle spatial observé des valeurs des entités pourrait très bien être l’un des innombrables scénarios possibles d’une structure spatiale totalement aléatoire.

La valeur p est statistiquement significative, et le score z est positif.

Vous pouvez rejeter l’hypothèse nulle. La distribution spatiale de valeurs élevées et/ou de valeurs faibles dans le jeu de données fait l’objet d’une agrégation spatiale plus importante que si les processus spatiaux sous-jacents étaient aléatoires.

La valeur p est statistiquement significative, et le score z est négatif.

Vous pouvez rejeter l’hypothèse nulle. La distribution spatiale de valeurs élevées et de valeurs faibles dans le jeu de données présente une dispersion spatiale plus importante que si les processus spatiaux sous-jacents étaient aléatoires. Un modèle spatial dispersé reflète souvent un processus de type concurrentiel : une entité présentant une valeur élevée repousse d’autres entités associées à des valeurs élevées. De la même façon, une entité associée à une valeur faible repousse d’autres entités associées à des valeurs faibles.

Remarque :

L’hypothèse nulle dans le cas des outils Agrégation élevée/faible (Getis-Ord General G) et Autocorrélation spatiale (Global Moran’s I) est une structure spatiale totalement aléatoire. L’interprétation des scores z de l’outil Agrégation élevée/faible (General G) est toutefois différente.

Sortie

L'outil d'auto-corrélation spatiale renvoie cinq valeurs : l'indice de Moran, l'indice attendu, la variance, le score z et la valeur p. L’outil fournit ces valeurs sous forme de messages de géotraitement et en tant que valeurs en sortie dérivées à utiliser dans les modèles ou les scripts. L’outil peut également créer un rapport au format .html contenant un récapitulatif graphique des résultats. Le chemin d’accès au rapport est inclus avec les messages qui récapitulent les paramètres de l’outil. Cliquez sur le chemin d’accès pour ouvrir le fichier de rapport.

Bonnes pratiques

Tenez compte des éléments suivants lors de l’utilisation de cet outil :

  • La valeur du paramètre Classe d’entités en entrée doit comporter au moins 30 entités. Les résultats ne sont pas fiables avec un nombre d’entités inférieur à 30.

  • Vérifiez que la valeur du paramètre Conceptualisation des relations spatiales est appropriée.

    En savoir plus sur les bonnes pratiques de sélection d’une conceptualisation des relations spatiales

  • Vérifiez que la valeur du paramètre Canal de distance ou distance seuil est appropriée. Les conditions suivantes doivent être vérifiées :
    • Toutes les entités doivent comporter au moins un voisin.
    • Aucune entité ne doit comporter toutes les autres entités comme voisines.
    • Si les valeurs du paramètre Champ en entrée sont asymétriques, chaque entité doit comporter environ huit voisins.
  • Vous devez presque toujours standardiser les entités surfaciques en entrée.

Informations supplémentaires

Les résultats de l’outil Analyse de points chauds (Getis-Ord Gi*) révèlent des points chauds statistiquement significatifs. Il est possible que les résultats de cet outil ne soient pas statistiquement significatifs. Les statistiques globales de l’outil Autocorrelation spatiale (Global Moran’s I) évaluent le modèle global et la tendance de vos données. Ils donnent les meilleurs résultats lorsque le modèle spatial est cohérent dans toute la zone d’étude. Les statistiques locales (par exemple l’outil Analyse de points chauds (Getis-Ord Gi*)) évaluent chaque entité par rapport aux entités voisines et comparent la situation locale à la situation globale. Prenons un exemple. Lorsque vous calculez la moyenne d’un ensemble de valeurs, vous calculez également une statistique globale. Si toutes les valeurs sont proches de 20, la moyenne se situe également autour de 20, et ce résultat représente et synthétise très bien le jeu de données dans son ensemble. En revanche, si une moitié des valeurs est proche de 1 et si l’autre moitié est proche de 100, la moyenne se situe aux alentours de 50. Il se peut qu’aucune des valeurs de données ne soit proche de 50, si bien que la valeur moyenne n’est ni représentative ni récapitulative du jeu de données dans son ensemble. Si vous créez un histogramme des valeurs des données, vous pourrez constater la distribution bimodale. De la même façon, les statistiques spatiales globales, notamment avec l’outil Autocorrélation spatiale (Global Moran’s I), donnent les meilleurs résultats lorsque les processus spatiaux qui sont mesurés sont cohérents dans la zone d’étude. Les résultats constituent alors une bonne représentation et une bonne synthèse du modèle spatial global. Pour plus d’informations, consultez l’article The Analysis of Spatial Association by Use of Distance Statistics, ainsi que l’analyse présentée du syndrome de mort subite du nourrisson.

Les résultats de cet outil sont différents des résultats de l’outil Autocorrélation spatiale (Global Moran’s I). Ces deux outils mesurent des modèles spatiaux différents. Consultez Interprétation des résultats de l’outil Agrégation élevée/faible (Getis-Ord General G) pour plus d’informations.

Les résultats des scores z et des valeurs p ne sont pas comparables d’une zone d’étude à une autre. Lorsque la zone d’étude est fixe (par exemple, toutes les analyses portent sur les comtés de Californie), la valeur du paramètre Champ en entrée est comparable (par exemple, toutes les analyses englobent un type de comptabilisation de la population) et que les paramètres d’outil sont identiques, vous pouvez comparer des scores z statistiquement significatifs pour avoir une idée de l’intensité de l’agrégation spatiale ou de la dispersion spatiale ou pour mieux comprendre les tendances au fil du temps. Vous pouvez exécuter l’analyse pour une série de valeurs de paramètre Canal de distance ou distance seuil croissantes pour voir la distance ou l’échelle à laquelle les processus qui favorisent l’agrégation spatiale sont les plus prononcés.

En règle générale, l’indice global de Moran est délimité par les valeurs -1,0 et 1,0. Cela est toujours le cas lorsque vos pondérations sont standardisées par ligne. Lorsque vous ne procédez pas à la standardisation par ligne des pondérations, il peut arriver que la valeur d’indice se trouve en dehors de la plage comprise entre -1,0 et 1,0, ce qui indique un problème avec le réglage des paramètres. Les problèmes les plus courants sont les suivants :

  • La valeur du paramètre Champ en entrée est fortement asymétrique (créez un histogramme des valeurs de données pour le constater) et la valeur du paramètre Conceptualisation des relations spatiales ou Canal de distance est telle que certaines entités ont très peu de voisins. La statistique Indice global de Moran est asymptotiquement normale, ce qui signifie que pour les données asymétriques, vous voulez que chaque entité dispose d’au moins 8 voisins. La valeur par défaut calculée pour le paramètre Canal de distance ou distance seuil permet de s’assurer que chaque entité possède au moins un voisin, mais cela risque de ne pas être suffisant, en particulier lorsque les valeurs du paramètre Champ en entrée sont fortement asymétriques.
  • Si l’option Inverse de la distance du paramètre Conceptualisation des relations spatiales est utilisée et que les distances inversées sont très petites.
  • Le paramètre Standardisation n’est pas défini sur l’option Ligne, mais devrait l’être. Si vos données ont été agrégées, sauf si la structure d’agrégation est directement liée au champ que vous analysez, spécifiez l’option Ligne.

Exemples d’application

Voici quelques exemples d’application de l’outil :

  • Identifiez une distance de voisinage appropriée pour différentes méthodes d’analyse spatiale en déterminant la distance à laquelle l’auto-corrélation spatiale est la plus forte.
  • Mesurez les grandes tendances en matière de ségrégation ethnique ou raciale au fil du temps : la ségrégation augmente-t-elle ou diminue-t-elle ?
  • Synthétisez la diffusion d’une idée, maladie ou tendance dans l’espace et le temps. Est-ce que l’idée, la maladie ou la tendance demeure isolée et concentrée, ou au contraire est-ce qu’elle se propage et devient plus diffuse ?

Ressources supplémentaires

Les ouvrages et articles de journaux suivants présentent des informations supplémentaires concernant cet outil :

Getis, Arthur, and J. K. Ord. "The Analysis of Spatial Association by Use of Distance Statistics." Geographical Analysis 24, no. 3. 1992.

Goodchild, Michael F. Spatial Autocorrelation. Catmog 47, Geo Books. 1986.

Griffith, Daniel. Spatial Autocorrelation: A Primer. Resource Publications in Geography, Association of American Geographers. 1987.

The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.