Fonctionnement de l’analyse de colocalisation

L’outil Analyse de colocalisation mesure les modèles locaux d’association spatiale entre deux catégories d’entités ponctuelles à l’aide de la statistique de quotient de colocalisation. La sortie de cet outil est une représentation cartographique de la probabilité d’association spatiale entre deux catégories analysée à l’aide de champs ajoutés tels que la valeur du quotient de colocalisation et la valeur p. Il est possible de spécifier un paramètre de table facultatif qui indique les associations entre chaque catégorie du paramètre Input Features of Interest (Entités d’intérêt en entrée) et chaque catégorie représentée dans le paramètre Input Neighboring Features (Entités voisines en entrée).

Applications possibles

Les applications potentielles de l’outil Analyse de colocalisation sont les suivantes :

  • Certains types d’entreprises sont-ils susceptibles d’être colocalisés (par exemple, les cafés avec les magasins de détail) ?
  • Les cambriolages résidentiels sont-ils susceptibles d’être associés ou colocalisés avec certains types d’habitations ?
  • Dans votre zone d’étude, existe-t-il des zones où les échecs d’inspections de restaurants sont colocalisés avec des invasions d’insectes ?

Mode de calcul du quotient de colocalisation

La colocalisation de chaque entité de la catégorie d’intérêt (catégorie A) est évaluée individuellement lorsque la catégorie voisine (catégorie B) se trouve dans son voisinage. En général, si la proportion de points B dans le voisinage de A est supérieure à la proportion globale de B, le quotient de colocalisation est élevé. Si le voisinage de A contient beaucoup d’autres points A ou de catégories autres que B, la colocalisation entre la catégorie d’intérêt (catégorie A) et la catégorie voisine (catégorie B) est faible.

Si des jeux de données sans catégories (Datasets without categories) sont utilisés comme type en entrée (Input Type), les entités d’intérêt en entrée (Input Features of Interest) sont traitées comme des entités de la catégorie A et les entités voisines en entrée (Input Neighboring Features) sont traitées comme des entités de la catégorie B.

Attention :

La relation de colocalisation de cette analyse n’est pas symétrique. Les valeurs de quotient de colocalisation calculées lors de la comparaison de la catégorie A avec la catégorie B sont différents des quotients de colocalisation calculés lors de la comparaison de B avec A.

Remarque :

Si la catégorie C se trouve dans votre voisinage, les quotients de colocalisation ne sont pas les mêmes qu’en présence des catégories A et B seulement. Selon la question posée, il peut être important d’extraire un sous-ensemble de données contenant uniquement les catégories A et B. Toutefois, lors de l’extraction d’un sous-ensemble, vous perdez les informations sur les autres catégories présentes. La sélection et l’extraction d’un sous-ensemble de données sont importantes lorsque vous êtes certain que l’occurrence d’une catégorie n’est en rien affectée par l’occurrence d’une autre.

Le quotient de colocalisation calculé à partir du point Ai de la catégorie d’intérêt A vers la catégorie voisine B est exprimé comme suit :

Équation du quotient de colocalisation local
Où NB est le nombre total de points de la catégorie B présents dans la zone d’étude et N, le nombre total de points dans la zone d’étude (toutes catégories comprises). NAi–>B est la moyenne pondérée du nombre de points de la catégorie B dans le voisinage de chaque point de la catégorie A (Ai). Cette valeur est basée sur une fonction de la fréquentation en fonction de la distance qui permet aux entités les plus proches de l’entité cible de peser plus lourd dans le calcul que les entités les plus éloignées. Elle peut être basée sur un noyau gaussien ou bicarré et elle est spécifiée dans le paramètre Local Weighting Scheme (Structure de pondération locale). Il vous est possible d’appliquer aucune structure de pondération en sélectionnant None (Aucune) pour le paramètre Local Weighting Scheme (Structure de pondération locale).

NAi–>B représente la moyenne pondérée du nombre de points de type B dans le voisinage de chaque Ai selon une fonction de noyau gaussien ou bicarré exprimée comme suit :

Équation de moyenne pondérée

Où fij est une variable binaire indiquant si le point j est une catégorie de point B. Si tel est le cas, sa valeur est égale à 1. Sinon, sa valeur est égale à 0. Les équations de fonction de noyau sont exprimées comme suit :

Équations de fonction de noyau
Remarque :

Si la valeur de wij est négative pour le noyau Bisquare (Bicarré), la pondération affectée est de 0.

Illustration de plusieurs structures de pondération locales

Il est également possible de calculer un quotient de colocalisation global pour obtenir une mesure d’association spatiale entre toutes les catégories de votre jeu de données. Cela peut permettre de découvrir d’autres relations au sein de vos données et d’identifier d’autres catégories fortement colocalisées globalement. L’équation du quotient de colocalisation global est exprimée comme suit :

Équation du quotient de colocalisation global
Où N est le nombre total d’entités, NA est le nombre d’entités de la catégorie A et N'B est le nombre d’entités de la catégorie B. Cette équation est calculée pour chaque combinaison de catégories de votre jeu de données.

Des permutations sont utilisées pour calculer une valeur p pour chaque entité d’intérêt en entrée afin de déterminer si les valeurs de quotient de colocalisation étudiées sont statistiquement significatives. Pour chaque entité, le quotient de colocalisation local est calculé à l’aide de son voisinage et, pour chaque permutation, les catégories de tous les autres points sont réorganisées aléatoirement dans toute la zone d’étude (la catégorie de l’emplacement des points cibles reste constante). Un nouveau quotient de colocalisation local est calculé pour chaque entité d’intérêt à l’aide des catégories du voisinage pour chaque permutation. Le résultat est une distribution de référence des valeurs de quotient de colocalisation qui est ensuite comparée à la valeur de quotient de colocalisation réelle de l’entité pour déterminer la probabilité que la valeur observée se trouve dans la distribution aléatoire des permutations. En examinant cette distribution, vous pouvez voir la plage de valeurs de quotient de colocalisation qui peuvent raisonnablement être liées au caractère aléatoire. Si la valeur p est faible (inférieure à 0,05), le quotient de colocalisation réel de l’entité est statistiquement significatif. Le nombre de permutations par défaut de l’outil est 99, mais des permutations plus nombreuses permettent d’augmenter la précision de la valeur p calculée.

Type de voisinage

Vous pouvez choisir un type de voisinage de l’une des trois manières ci-dessous. Une bande de distance garantit que l’échelle de l’analyse est la même dans tous les voisinages de la zone d’étude. Ainsi, le nombre points pris en compte dans l’analyse est plus élevé dans les zones plus denses. L’option K nearest neighbors (K voisins les plus proches) peut faire l’objet d’une adaptation de distance, ce qui garantit que chaque voisinage contient le même nombre de voisins pour chaque entité. Vous pouvez également spécifier un fichier .swm créé par l’outil Générer la matrice de pondérations spatiales pour définir des pondérations spatiales de manières différentes.

Utilisation d’une fenêtre spatio-temporelle

Si vos données comportent des champs de date et heure, vous pouvez diviser votre analyse en plusieurs fenêtres spatio-temporelles. Vous pouvez définir les paramètres Time Field of Interest (Champ temporel d’intérêt), Time Field of Neighboring Categories (Champ temporel de catégories voisines) et Temporal Relationship Type (Type de relation temporelle) pour contrôler les entités incluses dans le voisinage analysé. Les entités proches les unes des autres dans l’espace et dans le temps sont analysées ensemble car toutes les relations entre les entités sont évaluées par rapport à l’emplacement et à l’horodatage de l’entité cible. Dans l’exemple ci-dessous, une bande de distance d’un kilomètre trouve 6 voisins pour l’entité intitulée Jan 31 (31 janvier). Toutefois, dans l’exemple du bas, une bande de distance d’un kilomètre et une fenêtre spatio-temporelle d’un jour après l’entité cible ne trouve que 2 autres voisins.

Comparaison entre l’analyse avec et sans application d’une fenêtre spatio-temporelle

Supposons que vous analysiez les départs de feux de forêts et les lieux de camping dans une région. Si vous exécutez l’outil Analyse de colocalisation avec seulement l’option Distance band (Bande de distance) pour Neighborhood Type (Type de voisinage) afin de définir les relations entre les entités, le résultat est une carte montrant les emplacements où des feux de forêts ont démarré et s’ils étaient colocalisés avec les campeurs répertoriés dans votre jeu de données. Si vous réexécutez l’analyse en définissant une fenêtre spatio-temporelle avec les paramètres ci-dessus, les emplacements de camping de l’année passée ne sont pas pris en compte dans votre analyse des départs de feux de forêts portant sur l’année en cours. Lorsque vous comprenez cette caractéristique temporelle des feux de forêts et des campeurs, vous être mieux préparé à allouer des ressources pour lutter contre les incendies.

Interprétation des résultats

Lors de son exécution, l’outil Analyse de colocalisation ajoute six champs aux entités en sortie résultantes. Le champ Local Colocation Quotient contient le résultat du quotient pour chaque entité d’intérêt en entrée et la p-value est également indiquée. Les quotients de colocalisation locaux sont regroupés (LCLQ Bin), étiquetés (LCLQ Type) et affichés sur la carte en fonction du LCLQ Type de chaque entité. Les entités de la catégorie d’intérêt (catégorie A) dont le quotient de colocalisation local est supérieur à 1 sont plus susceptibles de comporter des entités de la catégorie voisine (catégorie B) dans leur voisinage. Les entités dont le quotient de colocalisation est inférieur à 1 sont moins susceptibles de représenter la catégorie B dans leur voisinage. Si le quotient de colocalisation d’une entité est égal à 1, cela signifie que la proportion de catégories dans son voisinage est représentative de la proportion de catégories dans toute la zone d’étude.

SymboleGroupe LCLQType LCLQDescription
Colocalisé - Symbole Significatif

0

Colocalisé - Significatif

Le quotient de colocalisation local est supérieur à 1 avec une valeur p inférieure à 0,05.

Colocalisé - Symbole Non significatif

1

Colocalisé - Non significatif

Le quotient de colocalisation local est supérieur à 1 avec une valeur p supérieure à 0,05.

Isolé - Symbole Significatif

2

Isolé - Significatif

Le quotient de colocalisation local est égal ou inférieur à 1 avec une valeur p inférieure à 0,05.

Isolé - Symbole Non significatif

3

Isolé - Non significatif

Le quotient de colocalisation local est égal ou inférieur à 1 avec une valeur p supérieure à 0,05.

Symbole Non défini

4

Non défini

Le voisinage ou la bande passante de l’entité ne comporte aucune autre entité égale à 0.

Pour le voisinage de chaque entité, le champ Neighboring Categories répertorie toutes les catégories situées dans le voisinage indiqué. Le champ Neighbor Prevalence indique le nombre de fois qu’une combinaison de catégories de voisinage apparaît dans les voisinages des autres entités d’intérêt. Par exemple, si la catégorie B apparaît en tant que catégorie voisine, laNeighbor Prevalence de B est égal au nombre d’entités pour lesquelles B est apparue en tant que catégorie voisine, divisé par le nombre total d’entités d’intérêt en entrée. Cette fonction permet de déterminer si cette combinaison (ou sous-ensemble de cette combinaison) de catégories apparaît fréquemment dans votre zone d’étude. Le tableau ci-dessous montre que la catégorie A apparaît dans 100 % des voisinages, alors que la combinaison de A et C apparaît dans 20 % des voisinages :

Combinaisons de catégories voisinesPrédominance des voisins

A

1

A

1

A, B

0,4

A, B

0,4

A, C

0,2

Un nuage de points et également créé et accessible sous Output Features (Entités en sortie) dans la fenêtre Contents (Contenu), indiquant la relation entre les quotients de colocalisation locaux et les valeurs p calculées.

Nuage de points LCLQ

Ressources supplémentaires

  • Timothy F. Leslie, & Barry J. Kronenfeld (2011). « The Colocation Quotient: A New Measure of Spatial Association Between Categorical Subsets of Points. » Geographical Analysis43 (3), 306-326. doi: 10.1111/j.1538-4632.2011.00821.x
  • Fahui Wang, Yujie Hu, Shuai Wang & Xiaojuan Li (2017). « Local Indicator of Colocation Quotient with a Statistical Significance Test: Examining Spatial Association of Crime and Facilities. » The Professional Geographer69 (1), 22-31. doi: 10.1080/00330124.2016.1157498