Fonctionnement de l’outil Association spatiale bivariée (statistique L de Lee)

L’outil Association spatiale bivariée (statistique L de Lee) mesure l’association spatiale (dépendance) entre deux variables continues d’analyse en calculant la statistique L de Lee. La statistique caractérise le degré de corrélation des variables et leur structuration (la similarité de l’agrégation spatiale). La statistique L de Lee sera comprise entre -1 et 1 et est conceptuellement similaire à un coefficient de corrélation, à ceci près qu’elle est ajustée pour tenir compte de l’autocorrélation spatiale des deux variables. Les valeurs de la statistique L de Lee proches de 1 indiquent que les variables sont fortement corrélées positivement (lorsqu’une valeur est élevée, les autres ont également tendance à être élevées) et que chaque variable présente une autocorrélation spatiale élevée (les valeurs élevées et faibles des variables ont chacune tendance à s’agréger). Les valeurs proches de -1 indiquent que les variables sont fortement corrélées négativement (lorsqu’une valeur est élevée, les autres ont tendance à être faibles) et que chaque variable présente une autocorrélation spatiale élevée. Les valeurs proches de 0 indiquent que les variables ne sont pas associées spatialement, ce qui signifie soit qu’elles sont non corrélées, soit qu’elles ne sont pas autocorrélées spatialement. La statistique peut également être partitionnée localement pour chaque entité en entrée et classée afin que vous puissiez déterminer la façon dont l’association spatiale des variables d’analyse évolue dans une zone d’étude.

La prise en compte de l’autocorrélation spatiale des variables est essentielle pour évaluer l’association spatiale entre les variables d’analyse car les tests statistiques traditionnels basés sur la corrélation de Pearson ne sont pas valides lorsque les variables sont autocorrélées spatialement. De plus, ces tests traditionnels n’évaluent pas la structuration des deux variables, ce qui est un aspect primordial de la relation spatiale entre les variables.

La statistique L de Lee est calculée en combinant la corrélation des moyennes dans le voisinage en local des deux variables d’analyse et en ajustant la corrélation en fonction des scalaires de lissage spatial de chaque variable d’analyse. Les scalaires de lissage spatial sont des valeurs comprises entre 0 et 1. Les scalaires de lissage proches de 1 indiquent une forte autocorrélation spatiale (positive ou négative) et les valeurs proches de 0 indiquent que les valeurs sont aléatoires spatialement et non autocorrélées. Les petits scalaires de lissage spatial réduisent la statistique L de Lee par rapport à la corrélation de Pearson afin de compenser le manque d’agrégation spatiale des variables.

Les images suivantes illustrent différents exemples d’appariements de deux variables d’analyse, ainsi que les corrélations de Pearson associées et les statistiques L de Lee pour les variables. Dans chaque image, les triangles bleus ont la valeur 1 et les triangles orange ont la valeur 0.

Dans la première image ci-dessous, les deux variables d’analyse ont les mêmes valeurs à chaque position, de sorte que leur corrélation de Pearson est égale à 1. En outre, elles présentent chacune une autocorrélation spatiale positive forte avec des valeurs élevées et faibles qui s’agrègent. Cela génère une statistique L de Lee égale à 0.801, ce qui indique une association spatiale positive élevée entre les variables.

Association spatiale élevée entre deux variables

Dans la deuxième image ci-dessous, les valeurs de la deuxième variable d’analyse sont décalées d’un triangle vers la droite afin que 30 des 54 triangles aient des valeurs correspondantes. Cela génère une corrélation de Pearson égale à 0.167. Cependant, en raison de l’autocorrélation spatiale forte de chaque variable d’analyse, la statistique L de Lee est légèrement supérieure : 0.186. Cela indique une association spatiale positive faible à modérée entre les variables.

Association spatiale moyenne entre deux variables

Dans la troisième image ci-dessous, les valeurs de la deuxième variable d’analyse sont décalées de l’autre côté de la zone d’étude hexagonale et 18 des 54 triangles ont des valeurs correspondantes. Cela génère une corrélation de Pearson égale à -0.500. La statistique L de Lee est égale à -0.490, ce qui indique une association spatiale négative modérée à forte entre les variables.

Association spatiale négative entre deux variables

Dans la dernière image ci-dessous, les deux variables d’analyse présentent une autocorrélation spatiale négative et aucun des triangles n’a la même valeur. Cela génère une corrélation de Pearson égale à -1. La statistique L de Lee est égale à -0.204, ce qui indique une association spatiale négative faible à modérée entre les variables.

Variables non associées spatialement

Statistiques L de Lee locales

La statistique L de Lee peut être partitionnée pour chaque entité en entrée afin de voir comment l’association spatiale entre les variables évolue spatialement et localement. Certaines régions ou positions peuvent présenter une association spatiale supérieure ou inférieure à la statistique L de Lee générale (globale) en raison de l’évolution des corrélations locales et du lissage spatial local. Vous pouvez déterminer si l’association spatiale locale est supérieure ou inférieure à l’association spatiale globale en comparant directement les valeurs des statistiques L de Lee locales à la statistique L de Lee globale. Contrairement à la statistique globale, les statistiques locales peuvent être supérieures à 1 ou inférieures à -1. La moyenne des statistiques locales est toujours égale à la statistique globale.

Vous pouvez également classer les statistiques L de Lee locales en plusieurs catégories en fonction de leur signification statistique et des valeurs des voisinages de chaque entité. Il existe cinq catégories possibles pour chaque entité : Not Significant, High-High, High-Low, Low-High et Low-Low. Si la statistique L de Lee locale n’a pas une signification statistique d’au moins 90 pour cent pour une entité, elle est classée comme non significative. Sinon, si la moyenne dans les voisinages de la première variable d’analyse est supérieure à la moyenne de la première variable d’analyse et que la moyenne dans les voisinages de la deuxième variable est supérieure à la moyenne de la deuxième variable, elle est classée comme High-High. De la même manière, si la première variable est inférieure à la moyenne et que la deuxième variable est supérieure à la moyenne, elle est classée comme Low-High (et inversement). Il est important de faire la distinction entre ces catégories car si les deux variables sont associées spatialement de manière positive, cela signifie que les valeurs faibles des deux variables ont tendance à s’agréger et que les valeurs élevées ont tendance à s’agréger. Dans les deux cas toutefois, des statistiques L de Lee locales importantes sont générées. Les catégories permettent donc de savoir si chaque entité présente une association élevée parce que les deux variables sont élevées ou parce que les deux variables sont faibles. De même, pour une association spatiale négative, les classifications permettent de savoir si une entité présente une statistique L de Lee locale négative parce que la première variable est élevée et la deuxième variable est faible ou si la première variable est faible et la deuxième variable est élevée.

Lorsqu’elle est exécutée dans une carte active, la couche d’entités en sortie s’affiche en fonction de ces cinq catégories. Pour les variables associées spatialement de manière positive (statistique L de Lee globale supérieure à 0), la couche contiendra principalement les catégories High-High et Low-Low. Pour les variables associées spatialement de manière négative (statistique L de Lee globale inférieure à 0), la couche contiendra principalement les catégories High-Low et Low-High.

Couche en sortie d’association spatiale locale

Exemple de cas d'utilisation

Vous pouvez utiliser l’outil dans les scénarios suivants :

  • Étudier l’association spatiale entre les niveaux d’éducation et le revenu des ménages dans différents voisinages d’une grande ville. Les zones où le niveau d’éducation est supérieur correspondent-elles aux zones où le revenu des ménages est supérieur ?
  • Examiner l’association spatiale entre la couverture végétale et la qualité de l’air. La qualité de l’air dans les zones où la végétation est plus dense a-t-elle tendance à être meilleure ? L’association est-elle statistiquement significative ?
  • Existe-t-il une relation entre les taux de criminalité et les valeurs de propriété ? La relation évolue-t-elle dans différentes parties d’une agglomération ?

Permutations et valeurs p

Vous pouvez utiliser les permutations pour connaître la signification statistique des statistiques L de Lee globale et locales. Les permutations réaffectent de manière aléatoire toutes les valeurs des deux variables d’analyse sur une nouvelle position (en conservant les deux valeurs appariées à chaque nouvelle position), et les statistiques L de Lee globale et locales sont calculées pour les valeurs permutées. Ce traitement est répété un grand nombre de fois (selon la valeur du paramètre Nombre de permutations), ce qui génère des distributions de référence pouvant être comparées aux statistiques L de Lee globale et locales d’origine. Si la valeur d’origine se trouve aux extrêmes (droite ou gauche) de la distribution de référence, cela signifie que la valeur d’origine n’est probablement pas le résultat d’une variation aléatoire et l’association spatiale est significative statistiquement. La valeur p de la statistique L de Lee globale est renvoyée sous forme de message de géotraitement, tandis que les valeurs p et les niveaux de signification des statistiques L de Lee locales sont renvoyées sous forme de champs de la classe d’entités en sortie. Consultez la section Sorties de l’outil ci-dessous pour plus d’informations.

Remarque :

Les valeurs p sont calculées en comptant le nombre de valeurs permutées qui sont plus extrêmes que la valeur d’origine, en ajoutant un et en divisant par le nombre de permutations plus un. Cet ajustement du numérateur et du dénominateur permet de tenir compte des petits échantillons et de s’assurer que les valeurs p ne sont jamais égales à zéro. La valeur est ensuite doublée afin que la valeur p découle d’un test bilatéral d’hypothèse. Le côté du test est déterminé par le côté qui a une plus petite proportion de valeurs plus extrêmes (valeurs permutées supérieures ou inférieures à la valeur d’origine). Les valeurs p des statistiques L de Lee locales ne sont pas réglées pour plusieurs tests d’hypothèse, tenez-en compte lors de l’interprétation des valeurs p locales.

Types de voisinage

Les statistiques L de Lee globale et locales nécessitent un voisinage autour de chaque entité afin d’estimer l’association spatiale. Vous pouvez spécifier le voisinage de chaque entité à l’aide du paramètre Type de voisinage. Le paramètre possède les options décrites ci-dessous pour définir les entités utilisées comme voisins de chaque entité. Pour tous les types de voisinage, l’entité est incluse dans son propre voisinage.

  • Bande de distance constante : toutes les entités qui se trouvent à une distance donnée (dans la limite de 1 000 entités) sont utilisées comme voisins. La distance par défaut est la distance la plus courte qui permet de s'assurer que chaque entité inclut au moins un voisin supplémentaire. Indiquez la distance dans le paramètre Bande de distance. Pour les polygones, les distances séparant les centroïdes seront utilisées pour déterminer les voisins.

    Voisinage du canal de distance

  • K voisins les plus proches : un nombre fixe d’entités les plus proches de l’entité focale seront utilisées comme voisins. Indiquez la valeur dans le paramètre Nombre de voisins. Cette valeur n’incluant pas l’entité elle-même, le nombre d’entités utilisées dans les calculs correspondra à la valeur spécifiée plus un. Pour les polygones, les distances séparant les centroïdes seront utilisées pour déterminer les voisins.

    Voisinage du nombre de voisins

  • Tronçons de contiguïté uniquement : les polygones qui partagent un tronçon avec l’entité seront utilisés comme voisins. Cette option ne s’applique qu’aux entités surfaciques.

    Voisinage de la contigüité surfacique avec uniquement des tronçons

  • Angles des tronçons de contiguïté : les polygones qui partagent un tronçon ou un angle avec l’entité seront utilisés comme voisins. Cette option ne s’applique qu’aux entités surfaciques.

    Voisinage de la contigüité surfacique avec tronçons et angles

  • Triangulation de Delaunay : les voisins seront déterminés en partageant des tronçons et des angles dans leur triangulation de Delaunay (polygones de Thiessen) découpés sur l’enveloppe convexe des points. Cette option ne s’applique qu’aux entités ponctuelles.

    Voisinage de la triangulation de Delaunay

  • Extraire les pondérations spatiales à partir du fichier : les voisins et pondérations de chaque entité seront définis par un fichier de matrice de pondérations spatiales spécifié dans le paramètre Fichier de matrice de pondérations. Vous pouvez créer le fichier à l’aide des outils Générer la matrice de pondérations spatiales ou Générer les pondérations spatiales de réseau.

Pour les voisinages avec une bande de distance et un nombre de voisins, les voisins les plus proches de l’entité peuvent recevoir des pondérations plus élevées à l’aide d’une fonction de noyau qui décroît avec la distance. Pour appliquer des pondérations plus importantes aux voisins les plus proches, spécifiez l’option Bicarré pour le paramètre Schéma de pondération local.

Le noyau bicarré définit les pondérations à l’aide de la formule suivante :

Noyau bicarré

La fonction de noyau dépend d’une bande passante qui contrôle la rapidité à laquelle les pondérations diminuent avec la distance. La largeur de bande passante de chaque noyau est fournie dans le paramètre Bande passante du noyau. Pour le voisinage des k voisins les plus proches, si vous ne fournissez pas de valeur de bande passante, chaque entité utilise une bande passante différente (adaptative) qui est égale à la distance du (k+1)e voisin de l’entité. Pour le voisinage de la bande de distance, la bande passante du noyau utilise par défaut la même valeur que le paramètre Bande de distance.

Remarque :

Toutes les entités auront une pondération égale à un en ce qui concerne la pondération de l’entité par rapport à elle-même, même si ces pondérations ne sont pas attribuées dans le fichier de pondérations spatiales. En outre, les pondérations du voisinage de chaque entité seront standardisées pour que leur somme soit égale à 1 (on parle de standardisation par lignes).

Sorties de l’outil

L’outil renvoie différentes sorties qui permettent d’examiner l’association spatiale entre les deux variables d’analyse. Les résultats sont renvoyés sous forme de messages de géotraitement, d’une classe d’entités en sortie et d’un diagramme de type Nuage de points.

Messages de géotraitement

Les messages de géotraitement renvoyés par l’outil comportent des valeurs liées à l’association spatiale générale entre les deux variables d’analyse. Les valeurs suivantes apparaissent dans les messages :

  • Statistique L de Lee globale : statistique L de Lee entre les deux variables d’analyse. La valeur sera comprise entre -1 et 1. Les valeurs positives indiquent une association spatiale positive et les valeurs négatives indiquent une association spatiale négative. Les valeurs proches de 0 indiquent que les variables ne sont pas associées spatialement. La statistique est une combinaison de la corrélation des moyennes dans les voisinages entre les variables d’analyse et du degré d’autocorrélation spatiale de chaque variable d’analyse.
  • Valeur P globale : valeur p d’un test bilatéral qui mesure l’association spatiale statistiquement significative. Les petites valeurs p indiquent que la statistique L de Lee globale est statistiquement significative et qu’elle ne découle pas d’une variation aléatoire. Si la valeur p est significative (inférieure à 0.1 pour une signification de 90 pour cent, inférieure à 0.05 pour une signification de 95 pour cent et inférieure à 0.01 pour une signification de 99 pour cent) et que la statistique L de Lee globale est positive, les deux variables d’analyse sont significativement associées spatialement de manière positive. Si la valeur p est significative et que la statistique L de Lee globale est négative, les variables d’analyse sont significativement associées spatialement de manière négative.
  • Scalaire de lissage spatial (champ d’analyse 1) : valeur comprise entre 0 et 1 qui indique le degré d’autocorrélation spatiale de la première variable d’analyse. Les valeurs proches de 1 indiquent une autocorrélation spatiale positive forte (les valeurs élevées et faibles ont chacune tendance à s’agréger) et les valeurs proches de 0 indiquent une autocorrélation spatiale négative forte (les valeurs élevées ont tendance à être entourées de valeurs faibles et inversement).
  • Scalaire de lissage spatial (champ d’analyse 2) : valeur comprise entre 0 et 1 qui indique le degré d’autocorrélation spatiale de la deuxième variable d’analyse.
  • Corrélation de Pearson (brute) : corrélation de Pearson entre les deux variables d’analyse. Cette valeur est utile pour procéder à une comparaison avec la statistique L de Lee globale et voir la différence entre la corrélation brute des variables et leur association spatiale.
  • Corrélation de Pearson (moyennes dans les voisinages) : corrélation de Pearson entre les moyennes pondérées dans les voisinages des deux variables d’analyse. La statistique L de Lee globale est aussi approximativement égale à cette valeur multipliée par les racines carrées des scalaires de lissage spatial.

La statistique L de Lee globale, la valeur p globale et la corrélation de Pearson (brute) sont également renvoyées en tant que sorties dérivées de l’outil.

Classe d’entités et champs

La classe d’entités en sortie contiendra les champs suivants qui récapitulent les résultats des statistiques L de Lee locales :

  • Copies des deux variables d’analyse et champ de l’ID source pour chaque entité en entrée.
  • Association spatiale locale (LOCAL_L) : statistique L de Lee locale pour chaque entité. Les valeurs supérieures à 0 indiquent une association spatiale positive entre les variables d’analyse à la position et les valeurs inférieures à 0 indiquent une association spatiale négative.
  • Moyenne pondérée dans le voisinage (première variable d’analyse) (NWA_VAR1) : moyenne pondérée dans le voisinage de la première variable d’analyse pour chaque entité. La valeur est la moyenne pondérée des valeurs de l’entité et de ses voisinages à l’aide des pondérations définies par les paramètres Type de voisinage, Schéma de pondération local, et Bande passante de noyau.
  • Moyenne pondérée dans le voisinage (deuxième variable d’analyse) (NWA_VAR2) : moyenne pondérée dans le voisinage de la deuxième variable d’analyse pour chaque entité.
  • Valeur p (P_VALUE) : valeur p d’un test bilatéral d’hypothèse qui mesure la signification statistique de la statistique L de Lee locale pour chaque entité.
  • Niveau de signification (SIG_LEVEL) : niveau de signification le plus élevé atteint de la statistique L de Lee locale pour chaque entité. Les valeurs possibles sont : Non significatif, Significatif à 90 %, Significatif à 95 % et Significatif à 99 %.
  • Catégorie d’association spatiale locale (ASSOC_CAT) : catégorie de l’association spatiale locale pour chaque entité. Les valeurs possibles sont : Not Significant, High-High, High-Low, Low-High et Low-Low. Par exemple, Low-High signifie que l’entité a une signification d’au moins 90 pour cent, que la moyenne pondérée dans les voisinages de la première variable d’analyse est inférieure à la moyenne de la première variable d’analyse et que la moyenne pondérée dans les voisinages de la deuxième variable d’analyse est supérieure à la moyenne de la deuxième variable d’analyse.
  • Nombre de voisins (NUM_NBRS) : nombre de voisins (y compris l’entité) qui ont servi à calculer les statistiques L de Lee globale et locales pour chaque entité.

Nuage de points de la statistique L de Lee

La couche d’entités en sortie inclut un diagramme de type Nuage de points de la statistique L de Lee qui affiche les moyennes pondérées dans les voisinages de la première variable d’analyse sur l’axe x et les moyennes pondérées dans les voisinages de la deuxième variable d’analyse sur l’axe y, ainsi qu’une ligne de tendance linéaire adaptée aux données. Des lignes horizontales et verticales en pointillés sont également tracées à la valeur moyenne de chaque variable d’analyse. Ces lignes divisent le nuage de points en quatre quadrants et permettent de répartir les points dans les catégories d’association spatiale locale. Par exemple, les entités statistiquement significatives dans le quadrant supérieur gauche composeront la catégorie Low-High (bleu clair).

Le diagramme permet également d’identifier les entités individuelles qui dévient des tendances générales du reste des entités. Vous pouvez par exemple sélectionner les points du nuage de points qui se trouvent éloignés de la ligne de tendance afin d’étudier ces entités de plus près. Vous pouvez découvrir que ces entités s’agrègent sur la carte et identifier des modèles régionaux des associations spatiales qui seraient autrement difficiles à détecter.

Nuage de points de la statistique L de Lee

Pratiques conseillées et limitations

Considérez ce qui suit lorsque vous utilisez cet outil :

  • Des points aberrants (valeurs qui sont beaucoup plus grandes ou petites que le reste des valeurs) dans l’une des variables d’analyse auront un impact conséquent sur les résultats. Il est recommandé de créer des histogrammes de chaque variable d’analyse afin de savoir si des points aberrants sont présents et de supprimer les entités contenant des points aberrants dans l’une ou l’autre variable. Vous pouvez également recourir à Data Engineering pour identifier les points aberrants.
  • Lorsque vous utilisez cet outil, une relation linéaire est censée exister entre les moyennes pondérées dans les voisinages des deux variables d’analyse. Si les valeurs du diagramme de type Nuage de points de la statistique L de Lee affiche un modèle qui n’est pas linéaire, vous pouvez utiliser l’outil Transformer un champ pour appliquer des transformations aux variables d’analyse afin de linéariser la relation, puis relancer l’outil avec les valeurs transformées.
  • Une valeur p statistiquement significative (généralement inférieure à 0.05) ne signifie pas nécessairement qu’il existe une corrélation croisée entre les deux variables. Cela pourrait en revanche indiquer que l’une des variables ou les deux variables présentent une autocorrélation spatiale élevée. Pour interpréter une valeur p significative, examinez les valeurs de la statistique L de Lee globale, la corrélation entre les moyennes dans le voisinage et le scalaire de lissage spatial de chaque variable. Ensemble, ces valeurs vous permettent d’interpréter la source de la signification statistique : autocorrélation, corrélation croisée ou les deux. Si la valeur p est significative, mais que la statistique L de Lee globale et la corrélation entre les moyennes dans le voisinage sont proches de 0 et que les scalaires de lissage spatial sont proches de 1, cela signifie probablement que les variables sont chacune fortement autocorrélées, mais que la corrélation croisée entre elles est faible.
  • Il est recommandé d’utiliser au moins 50 entités en entrée et d’inclure au moins 8 voisins pour chaque entité.

Formules

Cette section contient les formules de toutes les statistiques calculées par l’outil. Consultez les articles de la section Références ci-dessous pour connaître les dérivés et en savoir plus.

Dans toutes les formules, x désigne la première variable d’analyse et y désigne la deuxième variable d’analyse. Un tilde (~) au-dessus d’une variable indique qu’il s’agit d’une moyenne pondérée des valeurs de voisinage. Les pondérations de chaque voisinage sont standardisées pour que leur somme soit égale à 1. Une barre au-dessus d’une variable indique qu’il s’agit d’une variable non pondérée de toutes les n entités en entrée. L’indice i désigne une seule entité en entrée. Toutes les sommes des formules tiennent compte de toutes les entités en entrée.

La statistique L de Lee globale est calculée à l’aide de la formule suivante :

Formule de la statistique L de Lee globale

La statistique L de Lee globale est aussi approximativement égale au produit des racines carrées des scalaires de lissage spatial et à la corrélation entre les moyennes pondérées dans les voisinages comme suit :

Formule approximative de la statistique L de Lee globale

Les scalaires de lissage spatial sont calculés à l’aide des formules suivantes :

Scalaire de lissage spatial pour la première variable d’analyse

Scalaire de lissage spatial pour la deuxième variable d’analyse

La corrélation entre les moyennes pondérées dans les voisinages est calculée à l’aide de la formule suivante :

Formule de corrélation moyenne pondérée dans le voisinage

Les statistiques L de Lee locales sont calculées à l’aide de la formule suivante :

Formule des statistiques L de Lee locales

La statistique L de Lee globale est égale à la moyenne des statistiques L de Lee locales comme suit :

La valeur L de Lee globale est égale à la moyenne des valeurs L de Lee locales

Bibliographie

Les ressources suivantes ont été utilisées pour implémenter l’outil :

Rubriques connexes