L’outil Comparaison d’analyses de points chauds compare deux couches de résultat d’analyse de points chauds et calcule leur similarité et leur association. La similarité et l’association entre les couches de résultat de points chauds sont établies par comparaison des catégories de niveau de signification (point chaud à 99 %, 95 % et 90 %, non significatif, point froid à 90 %, 95 % et 99 %) entre les entités correspondantes (et leurs voisins) dans les deux couches en entrée.
L’outil calcule une valeur de similarité globale et une valeur Kappa globale pour mesurer l’ensemble de la similarité et de l’association entre les résultats de points chauds. Les versions locales des valeurs de similarité et Kappa sont également calculées pour chaque paire d’entités correspondantes. Cela vous permet de cartographier les comparaisons pour examiner les zones avec une valeur de similarité ou d’association supérieure ou inférieure aux valeurs globales. Les entités en sortie comportent également des diagrammes et une symbologie personnalisée qui mettent en évidence les zones où les résultats de points chauds sont les plus dissemblables et synthétisent les paires de niveaux de signification de toutes les entités correspondantes.
Les couches de résultat de points chauds en entrée doivent être les entités en sortie des outils Analyse de points chauds (Getis-Ord Gi*) ou Analyse de points chauds optimisée. Chaque entité de chaque résultat doit être appariée à une seule entité correspondante de l’autre résultat pour qu’il soit possible de comparer leurs catégories de niveau de signification. Si les entités des deux résultats de points chauds en entrée ne sont pas alignées spatialement (comme les polygones qui n’ont pas les mêmes bordures), les deux couches d’entités seront intersectées avant l’analyse, et les comparaisons porteront sur les intersections des entités.
Similarité et association
La similarité des résultats de points chauds est le degré d’alignement spatial des points chauds, des points froids et des zones non significatives des deux résultats de points chauds et l’association (ou la dépendance) entre les résultats est le degré de dépendance statistique entre les variables sous-jacentes d’analyse de points chauds. La distinction est subtile, mais importante, car il est courant que deux résultats de points chauds présentent une très forte similarité (nombreuses entités correspondantes ayant le même niveau de signification) avec toutefois une faible association ou dépendance. Cela est illustré dans les couches de résultat de points chauds de l’image ci-dessous.
Comme dans chaque résultat, les catégories concordent pour 23 des 25 polygones, les deux résultats sont très similaires. Cependant, comme 24 des 25 polygones dans chaque résultat sont des points froids, au moins 23 polygones correspondants sont attendus même si les résultats de points chauds sous-jacents sont indépendants et dissociés. Cela signifie qu’en dépit de la concordance de catégorie pour presque chaque polygone, il n’est pas prouvé que les résultats sont statistiquement associés. On peut en conclure que les deux variables sont presque entièrement des points froids avec un seul point chaud isolé, mais aucune preuve n’atteste la présence d’une relation ou d’une association entre eux.
Dans les deux résultats de points chauds de l’image ci-dessous, 23 des 25 polygones correspondent également, leur similarité est donc la même que celle du premier ensemble de résultats. Cependant, 22 des correspondances sont destinées à des points froids et une correspondance à un point chaud. Avec seulement deux points chauds dans chaque résultat, il est improbable que cet alignement si proche des points chauds soit le fruit du hasard. Cela est la preuve d’une relation et d’une association sous-jacentes entre les résultats. Même si la relation n’est pas nécessairement causale, vous pouvez être en mesure d’influencer les valeurs d’un résultat en changeant les valeurs de l’autre. Par exemple, si un résultat de points chauds représente les points chauds et froids de la mortalité infantile et que l’autre représente les points chauds et froids de la pollution, une association forte entre les variables suggère que la mortalité infantile peut diminuer en réduisant les niveaux de pollution. Dans un autre exemple, si les deux résultats de points chauds représentent les niveaux de pollution sur plusieurs années successives, l’association peut être interprétée comme le déplacement des niveaux de pollution vers le nord et l’est.
La similarité entre les résultats de points chauds est mesurée par une valeur de similarité comprise entre 0 et 1. Dans le cas où de nombreuses entités correspondantes des deux résultats ont le même niveau de signification, la valeur est proche de 1. À l’inverse, dans le cas où de nombreuses entités correspondantes n’ont pas les mêmes niveaux de signification, la valeur est proche de 0. L’association est mesurée par une valeur Kappa : les résultats fortement associés ont des valeurs Kappa proches de 1, et les résultats dissociés (indépendants) ont des valeurs Kappa proches de 0 (ou légèrement négatives). La valeur Kappa est une version redimensionnée de la valeur de similarité, qui prend en compte l’agrégation spatiale et les fréquences de catégorie pour isoler l’association statistique entre les résultats de points chauds. Pour référence, le premier ensemble de résultats de points chauds ci-dessus a une valeur Kappa égale environ à 0 et le second ensemble de résultats a une valeur Kappa égale environ à 0,6.
Exclure les entités non significatives
Lorsque les résultats de points chauds sont dominés par une seule catégorie comme dans les exemples ci-dessus, il s’agit le plus souvent de la catégorie non significative. Toutefois, si les entités non significatives ne présentent pas d’intérêt pour les recherches, vous pouvez ne pas souhaiter que la valeur de similarité et la valeur Kappa reflètent simplement les nombreuses zones non significatives dans les deux résultats. Pour éviter cela, vous pouvez utiliser le paramètre Exclure les entités non significatives pour exclure toute paire d’entités correspondantes des comparaisons dès lors que les deux résultats de points chauds ne sont pas significatifs statistiquement. Si elles sont exclues, l’outil calcule les valeurs Kappa et de similarité conditionnelle qui ne comparent que les points chauds et froids statistiquement significatifs pour refléter avec précision leur similarité et leur association. Les totaux et les proportions globales des catégories du niveau de signification ayant un impact sur les valeurs de similarité et Kappa, vous devez tenir compte du résultat avant d’exclure des entités non significatives en grand nombre.
Similarité floue
Lorsque vous comparez deux entités correspondantes, le résultat peut être plus qu’une simple probabilité binaire (oui ou non) que les entités partagent ou non la même catégorie de niveau de signification. Les calculs de similarité et d’association utilisent l’appartenance à un ensemble flou pour autoriser les correspondances partielles entre les entités correspondantes, en fonction de la similarité du niveau de signification et des voisinages spatiaux. Par exemple, les points chauds à 99 % peuvent être considérés comme des correspondances parfaites d’autres points chauds à 99 %, des correspondances partielles de points chauds à 95 % et des non-correspondances complètes de points froids à 99 %. Deux entités correspondantes peuvent également être considérées comme des correspondances partielles selon la similarité de distance lorsqu’elles ont un niveau de signification différent, mais que leurs entités voisines ont le même niveau de signification. La similarité globale entre deux entités correspondantes est leur similarité catégorielle multipliée par leur similarité de distance. Consultez la section Kappa flou spatial ci-dessous pour en savoir plus sur les calculs.
Similarité de catégorie
Chaque résultat de points chauds compte sept catégories de niveau de signification possibles. Les catégories présentent un ordre naturel qui va des points chauds à 99 % aux points froids à 99 % et certaines catégories sont plus similaires entre elles que d’autres. Les pondérations de similarité de catégorie vous permettent de définir le niveau de similarité que vous projetez sur les différentes catégories de niveau de signification. Chaque combinaison de résultats (par exemple, point froid à 90 % et point chaud à 95 %) doit avoir une pondération de catégorie comprise entre 0 et 1 pour indiquer leur similarité. Les combinaisons dont les pondérations sont égales à 1 sont considérées comme des correspondances exactes et celles dont les pondérations sont égales à 0 sont considérées comme entièrement dissemblables. Les valeurs comprises entre 0 et 1 indiquent les degrés de similarité partielle entre les catégories. Les pondérations doivent être symétriques. Par exemple, la pondération entre les points chauds à 99 % et les points chauds à 95 % doit être égale à la pondération entre les points chauds à 95 % et les points chauds à 99 %.
Si deux catégories ont une pondération de similarité égale à 1, les calculs de similarité et d’association les traite comme si elles appartenaient à la même catégorie. Vous pouvez donc utiliser les pondérations pour combiner différentes catégories. Par exemple, pour réaliser les deux analyses de points chauds avec un niveau de confiance de 95 %, vous pouvez combiner les catégories de points froids à 90 %, de points non significatifs et de points chauds à 90 % à l’aide d’une pondération égale à 1 pour toutes les combinaisons des catégories. Les valeurs de similarité et les valeurs Kappa traiteront les catégories de points froids à 90 % et de points chauds à 90 % comme s’il s’agissait de points non significatifs. En outre, si vous excluez des entités non significatives, les catégories combinées avec la catégorie non significative sont également exclues.
Vous pouvez également inverser les relations des points chauds et froids en attribuant des pondérations élevées entre les points chauds et froids. Il est préconisé d’inverser les relations lorsque les résultats de points chauds ont une relation négative, par exemple les points froids du revenu médian qui s’alignent sur les points chauds du diabète.
Attention :
Les pondérations de similarité de catégorie affectent uniquement le calcul des valeurs de similarité et Kappa. Même si les catégories de niveau de signification sont combinées selon des pondérations de similarité, les tables de messages, la symbologie de la couche en sortie et les diagrammes les traitent comme des catégories distinctes. Consultez la section Sorties de l’outil ci-dessous pour plus d’informations.
Les pondérations de similarité de catégorie sont spécifiées à l’aide du paramètre Méthode de pondération de la similarité. Les options disponibles sont les suivantes :
- Pondérations floues : les pondérations de similarité sont floues (non binaires) et déterminées par la proximité des niveaux de signification. Tous les points chauds sont complètement dissemblables de tous les points froids et de toutes les entités non significatives (et inversement). Les pondérations entre les points chauds et froids à 90 %, 95 % et 99 % sont déterminées par les taux des valeurs critiques des régions de rejet unilatéral supérieures de la distribution normale. Par exemple, la pondération entre les points chauds à 95 % et les points chauds à 99 % est 1,645/2,33 = 0,71. Consultez la première image de la section Fenêtre contextuelle de la matrice de pondérations ci-dessous pour connaître toutes les autres pondérations entre les catégories. Il s’agit de l’option par défaut.
- Correspondance exacte du niveau de signification : les entités doivent avoir le même niveau de signification pour être considérées comme semblables. Par exemple, les points chauds à 99 % sont considérés comme complètement dissemblables des points chauds à 95 % et 90 %.
- Combiner les niveaux de signification de 90 %, 95 % et 99 % : les entités qui sont des points chauds à 90 %, 95 % et 99 % sont considérées comme parfaitement semblables, et toutes les entités qui sont des points froids à 90 %, 95 % et 99 % sont considérées comme parfaitement semblables. Cette option traite toutes les entités d’un niveau de signification égal ou supérieur à 90 % comme étant identiques (statistiquement significatives) et toutes les entités d’un niveau de confiance inférieur à 90 % comme étant identiques (non significatives).
- Combiner les niveaux de signification de 95 % et 99 % : les entités qui sont des points chauds à 95 % et 99 % sont considérées comme parfaitement semblables, et toutes les entités qui sont des points froids à 95 % et 99 % sont considérées comme parfaitement semblables. Par exemple, les points chauds et froids à 90 % sont considérés comme complètement dissemblables des points chauds et froids dont le niveau de signification est plus élevé. Cette option traite toutes les entités d’un niveau de signification égal ou supérieur à 95 % comme étant identiques (statistiquement significatives) et toutes les entités d’un niveau de signification inférieur à 95 % comme étant identiques (non significatives).
- Utiliser uniquement le niveau de signification de 99 % : seules les entités qui sont des points chauds (ou froids) à 99 % sont considérées comme parfaitement semblables. Cette option traite toutes les entités d’un niveau de signification inférieur à 99 % comme des entités non significatives.
- Inverser les relations des points chauds et froids : les pondérations floues par défaut sont utilisées, mais les points chauds du premier résultat de points chauds sont considérés comme semblables aux points froids du second résultat de points chauds. Par exemple, les points chauds à 99 % d’un résultat sont considérés comme parfaitement semblables aux points froids à 99 % de l’autre résultat et partiellement semblables aux points froids à 95 % et 90 % de l’autre résultat.
- Extraire les pondérations à partir de la table : les pondérations définies par les champs d’une couche tabulaire sont utilisées. La table est fournie dans le paramètre Table des pondérations en entrée et doit contenir les champs CATEGORY1, CATEGORY2 et WEIGHT. Indiquez les catégories de niveau de signification de la paire (valeurs du champ Gi_Bin des couches en entrée) dans les champs de catégorie, puis indiquez la pondération de similarité entre elles dans le champ de pondération. Par exemple, la ligne [-3, -2, 0.6] attribue la valeur de pondération de similarité 0,6 à la combinaison de points froids à 99 % et de points froids à 95 %. La pondération de toute combinaison non répertoriée dans la table est considérée comme étant de 0. La table peut être exportée à partir de la fenêtre contextuelle de la matrice de pondérations.
- Pondérations personnalisées : les valeurs de pondération de similarité personnalisée indiquées pour le paramètre Pondérations de similarité de catégorie sont utilisées.
Fenêtre contextuelle de la matrice de pondérations
Le paramètre Pondérations de similarité de catégorie vous permet de consulter et de mettre à jour interactivement les pondérations à l’aide d’une fenêtre contextuelle de la matrice de pondérations. Les pondérations affichées s’actualisent lorsque vous choisissez différentes options du paramètre Méthode de pondération de la similarité, ce qui vous permet de voir les pondérations associées à chaque option et d’apporter les retouches nécessaires. Pour ouvrir la fenêtre contextuelle, cliquez sur le bouton Personnalisé en regard du paramètre.
Pour attribuer une pondération personnalisée entre une combinaison de niveaux de signification, cliquez sur la cellule associée, saisissez la valeur de pondération comprise entre 0 et 1 et appuyez sur Entrée. Pour que les pondérations restent symétriques, vous pouvez mettre à jour uniquement les cellules situées dans la moitié inférieure gauche de la matrice. La pondération sera reflétée sur la cellule équivalente dans la moitié supérieure gauche. L’image suivante montre un exemple de pondérations personnalisées qui utilisent la correspondance exacte du niveau de signification avec des relations de points chauds et froids inversées (par exemple le point chaud à 95 % est parfaitement similaire au point froid à 95 % et complètement dissemblable des autres niveaux de signification) :
Une fois les pondérations fournies, cliquez sur OK ou à l’extérieur de la fenêtre contextuelle pour les appliquer. Si des pondérations sont modifiées, la valeur du paramètre Méthode de pondération de la similarité est définie sur Pondérations personnalisées. Vous pouvez également cliquer sur le bouton Annuler ou Fermer pour fermer la fenêtre contextuelle et ne pas appliquer les modifications.
Le bouton Exporter ouvre une boîte de dialogue de navigation qui vous permet d’enregistrer les valeurs de pondération dans une table afin de les réutiliser ultérieurement avec l’option Extraire les pondérations à partir de la table. Pour réutiliser des pondérations personnalisées à l’avenir, il est recommandé de créer le fichier de pondération à l’aide de la fenêtre contextuelle de la matrice de pondérations, puis d’utiliser la table des pondérations pour les comparaisons futures.
Similarité de distance
En plus de la similarité catégorielle, la similarité de distance accepte les correspondances partielles lorsque les entités ont un niveau de signification différent, mais que d’autres entités de leur voisinage ont le même niveau de signification. Du fait que l’analyse des points chauds est une méthode spatiale qui utilise les voisinages locaux, le niveau de signification de chaque entité est une caractérisation des valeurs de l’entité et de ses voisins les plus proches, pas simplement de l’entité. En ce sens, si des entités voisines sont similaires, elles doivent contribuer dans une certaine mesure à la similarité de leurs voisins.
Le paramètre Nombre de voisins indique le nombre d’entités voisines supplémentaires à utiliser pour la similarité de distance. La similarité partielle est incorporée au moyen d’une pondération de distance basée sur le classement des voisins. L’entité reçoit une pondération de distance égale à 1, et les pondérations diminuent uniformément pour chaque voisin supplémentaire à l’aide de la formule suivante :
Le classement dans la formule est l’ordre des voisins et des plages allant de 0 (pour l’entité qui est comparée) jusqu’au nombre de voisins (pour le voisin le plus éloigné). Par exemple, avec quatre voisins (cinq si on inclut l’entité qui est comparée), les cinq pondérations de distance suivantes sont utilisées : 5/5 (1), 4/5 (0.8), 3/5 (0.6), 2/5 (0.4) et 1/5 (0.2).
Remarque :
Pour les polygones et les lignes, les distances euclidiennes entre les centroïdes sont utilisées pour déterminer l’ordre des voisins les plus proches. Si la référence spatiale en sortie est un système de coordonnées géographiques, les distances de corde entre les centroïdes sont utilisées. L’ordre des voisins (et non les distances brutes) est utilisé pour les pondérations de distance afin de conserver la même valeur de similarité attendue pour toutes les entités, même si leurs voisins ont des distances différentes de celles des entités comparées.
Sorties de l’outil
Les résultats des comparaisons sont renvoyés via des messages de géotraitement, d’un groupe de couches des entités en sortie et de diagrammes.
Messages de géotraitement
Les messages affichent des informations sur les comparaisons globales entre les résultats de points chauds. Les messages présentent les informations suivantes :
- Valeur de similarité - Valeur comprise entre 0 et 1 qui mesure la similarité globale entre les couches de résultats de points chauds. Cette valeur peut être interprétée comme une probabilité floue qu’une paire d’entités correspondantes partage la même catégorie de niveau de signification. La valeur est égale à la moyenne de toutes les valeurs de similarité locale.
- Valeur de similarité attendue - Valeur attendue de la similarité, en partant du principe que les deux couches de résultats de points chauds sont dissociées (indépendantes). Si la valeur de similarité est supérieure à sa valeur attendue, cela suggère une dépendance sous-jacente entre les deux cartes. Il s’agit d’une valeur à caractère essentiellement informationnel, qui est utilisée pour mettre à l’échelle la valeur de similarité lors du calcul de la valeur Kappa. La valeur est égale à la moyenne des valeurs de similarité attendue locale.
- Kappa flou spatial - Mesure de l’association entre les variables d’analyse des points chauds qui est calculée par la mise à l’échelle de la valeur de similarité par sa valeur attendue. Les résultats de points chauds qui sont parfaitement associés ont la valeur 1, et les résultats dissociés (indépendants) ont une valeur proche de 0. Les valeurs négatives indiquent une relation négative entre les variables d’analyse des points chauds. Bien qu’il n’existe pas de limite inférieure pour cette valeur, elle est rarement inférieure à -3 en pratique. Aucune règle stricte ne régit l’interprétation des valeurs Kappa, mais les recommandations suivantes s’appliquent généralement : les valeurs supérieures à 0,8 sont interprétées comme une association presque parfaite, les valeurs comprises entre 0,6 et 0,8 sont interprétées comme une association forte, les valeurs comprises entre 0,4 et 0,6 sont interprétées comme une association modérée, les valeurs comprises entre 0,2 et 0,4 sont interprétées comme une association correcte, les valeurs comprises entre 0 et 0,2 sont interprétées comme une légère association et les valeurs négatives comme sans association (ou comme une association négative pour les valeurs négatives importantes).
- Nombre d’entités non significatives : nombre de paires du niveau de signification du point chaud dans lesquelles les deux entités ne sont pas statistiquement significatives.
Remarque :
Si les entités non significatives sont exclues, elles ne sont pas incluses dans le calcul de similarité, de similarité attendue ou Kappa flou spatial. Les étiquettes se transforment en Valeur de similarité conditionnelle, Valeur de similarité attendue conditionnelle, Kappa flou spatial et conditionnel et Nombre d’entités non significatives exclues pour indiquer que les valeurs sont conditionnées sur les entités statistiquement significatives.
- La table de messages de la table des pondérations de catégorie affiche les pondérations de catégorie entre chaque paire de niveaux de signification des points chauds. Par exemple, l’image ci-dessous affiche la table des pondérations de catégorie pour la méthode de pondération de la similarité catégorielle par défaut :
- La table de messages Paires du niveau de signification du point chaud (totaux) affiche les nombres totaux de chaque paire de niveaux de signification des points chauds. Par exemple, dans l’image ci-dessous, la valeur 440 à la première ligne et la deuxième ligne indique que 440 paires d’entités étaient froides à 99 % dans le premier résultat de points chauds et froides à 95 % dans le deuxième résultat. Les totaux des lignes et colonnes dans les marges indiquent les nombres totaux de chaque niveau de signification parmi chaque résultat de points chauds.
- La table de messages Paires du niveau de signification du point chaud (pourcentages) affiche les mêmes informations que la table des nombres totaux, mais ces derniers sont convertis en pourcentages du total des lignes. Par exemple, dans l’image ci-dessous, la cellule qui affichait 440 dans l’image ci-dessus affiche maintenant 5,57 (440/7904 = 0,0557). Cette table est particulièrement utile lorsque les deux résultats de points chauds représentent la même variable mesurée à différents moments. En l’occurrence, les tables vous permettent d’observer la transition dans le temps des catégories entre les mesures. Par exemple, l’image ci-dessous montre que parmi les entités qui étaient des points froids à 99 % dans le premier résultat, 89,26 pour cent sont restés comme des points froids à 99 %, 5,57 pour cent se sont transformés en points froids à 95 %, etc.
Groupe de couches et entités en sortie
Les entités en sortie seront les intersections des couches de résultat des points chauds en entrée et contiendront les champs de synthèse des valeurs d’association et de similarité locale pour chaque paire d’entités correspondantes. La classe d’entités contiendra les champs suivants :
- Valeur en entrée du point chaud 1 (GI_BIN_1) : entier représentant la catégorie du niveau de signification de l’entité du premier résultat de points chauds. Les valeurs sont comprises entre -3 (point froid à 99 %) et 3 (point chaud à 99 %). Le champ sera de type long.
- Valeur en entrée du point chaud 2 (GI_BIN_2) : entier représentant la catégorie du niveau de signification de l’entité du deuxième résultat de points chauds. Le champ sera de type long.
- Niveau de signification du point chaud 1 (GI_SIG_1) : catégorie du niveau de signification de l’entité du premier résultat de points chauds. Les valeurs possibles sont : point froid à 99 %, point froid à 95 %, point froid à 90 %, point non significatif, point chaud à 90 %, point chaud à 95 % et point chaud à 99 %. Le champ sera de type texte.
- Niveau de signification du point chaud 2 (GI_SIG_2) : catégorie du niveau de signification de l’entité du deuxième résultat de points chauds. Le champ sera de type texte.
- Valeur de similarité (SIM_VALUE) : valeur de similarité locale de la paire d’entités. La valeur sera comprise entre 0 et 1. Le champ sera de type double précision.
- Valeur de similarité attendue (EXP_SIM) : valeur attendue de la similarité de la paire d’entités. La valeur sera comprise entre 0 et 1. Le champ sera de type double précision.
- Kappa flou spatial (KAPPA) : valeur Kappa floue spatiale de la paire d’entités. Le champ sera de type double précision.
- Combinaisons de niveaux de signification (CAT_PAIR) : combinaison des catégories de niveau de signification des résultats de points chauds. Ce champ est utilisé comme base des deux diagrammes ci-dessous. Le champ sera de type texte.
À l’exécution de l’outil sur une carte, trois couches sont ajoutées à un groupe de couches pour vous permettre d’examiner spatialement la similarité, l’association et les paires de niveaux de signification. La première couche affiche les valeurs de similarité classées selon cinq intervalles égaux compris entre 0 et 1, les valeurs de similarité plus faibles étant représentées dans des couleurs plus foncées de manière à faire ressortir les zones qui sont les plus dissemblables. La deuxième couche présente les valeurs de Kappa flou spatial, symbolisées avec des intervalles égaux et six classes. La troisième couche affiche chaque combinaison de niveaux de signification avec une symbologie personnalisée pour vous permettre d’identifier les entités dont un résultat de point chaud en entrée était un point chaud statistiquement significatif et l’autre était un point froid statistiquement significatif (la symbologie personnalisée ne fait pas la distinction entre les niveaux de signification de 90 %, 95 % et 99 % pour réduire le nombre de combinaisons). Par défaut, la première couche est activée et les deux dernières sont désactivées.
Diagrammes
La dernière couche comporte deux diagrammes pour examiner davantage les combinaisons de niveaux de signification entre les résultats. Ces diagrammes affichent les mêmes informations que les tables figurant dans les messages, mais les diagrammes sont colorés en fonction des nombres totaux et des pourcentages pour en faciliter l’interprétation. Vous pouvez également utiliser des sélections entre les diagrammes et la carte pour notamment sélectionner toutes les entités qui étaient des points chauds à 99 % dans un résultat et des points froids à 99 % dans l’autre résultat, indiquant ainsi les plus importantes différences possibles.
Le diagramme de densité Paires du niveau de signification du point chaud (totaux) affiche les totaux de chaque combinaison de niveaux de signification avec des nuances plus foncées de bleu pour les totaux les plus élevés. Par exemple, dans l’image ci-dessous, les paires ayant les nombres les plus élevés se présentaient comme suit : froid à 99 % vers froid à 99 % (en haut à gauche), non significatif vers non significatif (milieu) et chaud à 99 % vers chaud à 99 % (en bas à droite).
Le diagramme à barres Nombre de niveaux du point chaud 2 dans les catégories de niveaux du point chaud 1 affiche des barres horizontales empilées pour visualiser les totaux de chaque catégorie du niveau de signification du deuxième résultat de points chauds dans les catégories du premier résultat. Par exemple, dans l’image ci-dessous, la vaste majorité des points chauds et froids à 99 % étaient également des points chauds et froids significatifs (les barres du haut et du bas sont principalement bleue et rouge, respectivement). Cependant, parmi les entités non significatives dans le premier résultat, il y avait davantage de points chauds correspondants que de points froids dans le second résultat (la barre du milieu est plus bleue que rouge). Si les deux couches de résultats de points chauds représentent des températures mesurées à des moments différents, cela peut indiquer qu’un réchauffement général s’est produit dans la zone d’étude entre les différentes heures de mesure.
Kappa flou spatial
L’association entre les couches de résultats de points chauds est mesurée par une valeur Kappa qui quantifie la similarité des résultats comparés à leur similarité attendue si les deux résultats étaient indépendants. La valeur de similarité peut être élevée en raison du nombre élevé de certaines catégories et de l’agrégation spatiale des catégories. La valeur Kappa corrige les fréquences de catégorie et l’agrégation spatiale afin de mesurer plus précisément l’association sous-jacente entre les couches de résultat de points chauds.
La valeur Kappa est calculée en remettant à l’échelle la valeur de similarité en fonction de sa valeur attendue selon la formule suivante :
Si les couches de résultat de points chauds sont parfaitement similaires (valeur de similarité égale à 1), la valeur Kappa est également égale à 1, ce qui indique une association parfaite. Si la valeur de similarité est égale à sa valeur attendue, la valeur Kappa est égale à 0, ce qui indique que les résultats sont dissociés et indépendants. Si la valeur de similarité est inférieure à la valeur attendue, la valeur Kappa est négative, ce qui indique la présence d’une association négative entre les résultats de points chauds.
Les statistiques Kappa ont été à l’origine développées pour tester la cohérence et la fiabilité des rasters à l’aide de l’échelle de Likert (Cohen 1960). La première version des statistiques Kappa a rectifié les fréquences de catégorie (certaines évaluations de Likert sont plus courantes que d’autres), mais supposait l’indépendance de chaque évaluation. Des améliorations ont été apportées au début des années 2000 en intégrant la similarité catégorielle et de distance pour comparer les rasters catégoriels (Hagen 2003, 235-249) (Hagen-Zanker, Straatman et Uljee 2005, 769-785) (Hagen-Zanker 2009, 61-73) (Dou et. al. 2007, 726-734). Toutefois, ces améliorations partaient toujours du principe que les catégories ne s’agrègent pas spatialement, ce qui n’est pas vrai pour les résultats d’analyse de points chauds et la plupart des autres variables catégorielles spatiales. L’outil Comparaison d’analyses de points chauds optimise les statistiques Kappa en les transformant en statistiques Kappa floues qui tiennent compte de l’agrégation catégorielle (auto-corrélation) des catégories de niveau de signification dans chaque résultat de points chaud.
Calcul de la valeur de similarité
Les valeurs de similarité locale sont calculées pour chaque paire d’entités correspondantes dans les résultats d’analyse de points chauds. La valeur de similarité globale est la moyenne de toutes les valeurs de similarité locale.
La valeur de similarité de la paire d’entités est égale à 1 lorsque les entités correspondantes ont chacune la même catégorie de niveau de signification (ou dont les catégories ont été combinées par des pondérations similaires). La valeur de similarité est égale à 0 lorsque tous les voisins du premier résultat ont des catégories de niveau de signification complètement dissemblables de tous les voisins du second résultat (par exemple, le premier résultat ne compte que des points chauds et le second résultat que des points froids). Tous les autres cas génèrent des valeurs de similarité comprises entre 0 et 1.
Pour chaque paire d’entités, la valeur de similarité implique le calcul de deux valeurs de similarité directionnelle et l’utilisation de la plus petite des deux. La première similarité directionnelle part du premier résultat pour rejoindre le second et la seconde similarité directionnelle part du second résultat vers le premier. Le calcul de chacune suppose de comparer la catégorie de l’entité d’un résultat à l’entité correspondante de l’autre résultat et chacun de ses voisins. Pour l’entité correspondante et chaque voisin, la pondération de catégorie est multipliée par la pondération de distance. Le résultat le plus élevé est la valeur de similarité directionnelle.
Par exemple, l’image ci-dessus montre deux résultats de points chauds : A et B. A et B comporte chacun trois entités : un point chaud (rouge), un point froid (bleu) et une entité non significative (gris clair). Les polygones les plus grands constituent la première paire d’entités, les polygones les plus petits constituent la deuxième paire d’entités et les polygones moyens constituent la troisième paire. Les centroïdes des polygones affichés permettent de déterminer plus facilement quels polygones sont plus proches que d’autres. Le premier polygone est légèrement plus proche du deuxième polygone que du troisième polygone.
Pour cet exemple, supposons que la pondération de catégorie entre les catégories correspondantes (chaud vers chaud, froid vers froid et non significatif vers non significatif) est égale à 1, que la pondération entre les points chauds et froids est égale à 0 et que les entités non significatives ont une pondération de 1/2 avec les points chauds et froids.
La table suivante présente les pondérations de catégorie, les pondérations de distance et de similarité de la similarité directionnelle à partir du résultat A vers le résultat B. La valeur de similarité dans la dernière colonne est calculée en multipliant la pondération de distance et la pondération de catégorie :
Mixte | Pondération de distance | Pondération de catégorie | Similarité |
---|---|---|---|
A1 vers B1 | 1 (entité correspondante) | 0 (froid vers chaud) | 0 |
A1 vers B2 | 2/3 (premier voisin) | 1/2 (froid vers non significatif) | 1/3 = 0,33 |
A1 vers B3 | 1/3 (deuxième voisin) | 1 (froid vers froid) | 1/3 = 0,33 |
La similarité la plus élevée à partir du résultat A vers le résultat B est de 0,33, ce qui se produit pour deux combinaisons de voisins. La table suivante montre la similarité directionnelle à partir du résultat B vers le résultat A.
Mixte | Pondération de distance | Pondération de catégorie | Similarité |
---|---|---|---|
B1 vers A1 | 1 (entité correspondante) | 0 (chaud vers froid) | 0 |
B1 vers A2 | 2/3 (premier voisin) | 1 (chaud vers chaud) | 2/3 = 0,67 |
B1 vers A3 | 1/3 (deuxième voisin) | 1/2 (chaud vers non significatif) | 1/6 = 0,17 |
La similarité la plus élevée à partir du résultat B vers le résultat A est de 0,67.
La valeur de similarité locale pour la paire d’entités est la plus petite des deux similarités directionnelles (A vers B et B vers A). La valeur de similarité de la première paire d’entités est donc égale à 0,33. La même procédure s’applique également pour calculer la valeur de similarité des deuxième et troisième paires d’entités. Pour cet exemple, les deux ont des valeurs de similarité égales à 0,5. La valeur de similarité globale est la moyenne des valeurs de similarité de toutes les paires d’entités. Pour cet exemple, la valeur de similarité globale est égale à 4/9 = 0,44.
Si les entités non significatives sont exclues, leurs valeurs de similarité ne sont pas calculées et elles ne sont pas incluses dans la moyenne de la valeur de similarité globale. Toutefois, elles sont toujours utilisées comme voisines lors du calcul de la valeur de similarité des entités non exclues.
Remarque :
Dans cet exemple, les résultats de points chauds utilisés avaient seulement trois paires d’entités et trois catégories de niveau de signification afin de réduire le nombre de combinaisons. Cependant, au moins 20 paires d’entités sont nécessaires pour utiliser l’outil et des pondérations de catégorie doivent être fournies entre les sept catégories de niveau de signification.
Calcul de la valeur de similarité attendue
Pour chaque entité, le calcul de la valeur de similarité attendue utilise la même procédure que celle de la valeur de similarité. Cependant, l’entité du premier résultat est appariée à des entités aléatoires du deuxième résultat au lieu de son entité correspondante.
En comparant les voisinages aléatoires, la valeur attendue tient compte de la fréquence des catégories (les catégories les plus courantes sont plus susceptibles d’être choisies aléatoirement) et de l’agrégation des catégories dans les voisinages (les voisinages aléatoires sont susceptibles de contenir des agrégats d’entités avec des catégories de niveau de signification similaires). La valeur de similarité de chaque appariement aléatoire est une estimation unique de la valeur de similarité, en partant du principe que les deux couches de résultat de points chauds sont indépendantes. Pour calculer la valeur de similarité attendue d’une entité, chaque entité du premier résultat est appariée à de nombreux voisins aléatoires. Les valeurs de similarité aléatoire sont ensuite moyennées. Le paramètre Nombre de permutations indique le nombre d’appariements aléatoires pour chaque entité. Des nombres élevés de permutations augmentent le temps d’exécution de l’outil et améliorent la précision des valeurs de similarité attendue et Kappa.
La valeur de similarité attendue globale est la moyenne des valeurs de similarité attendue de toutes les paires d’entités. Si les entités non significatives sont exclues, elles ne sont jamais choisies comme voisines aléatoires et leur valeur de similarité attendue n’est pas calculée. Toutefois, elles peuvent toujours être incluses comme voisines des entités sélectionnées aléatoirement.
Remarque :
La valeur de similarité attendue globale est une estimation fiable de la vraie valeur attendue globale, en partant du principe que les deux résultats sont indépendants. Cependant, la variance de la valeur attendue globale est différente de celle de la valeur de similarité globale en raison des corrélations entre les voisinages superposés. Cela signifie que les valeurs p de permutation basées sur un classement classique pour la valeur de similarité globale ne sont pas valides pour cette procédure. L’amélioration de la méthodologie pour renforcer les tests de signification fait l’objet d’une recherche active.
Pratiques conseillées et limitations
Considérez ce qui suit lorsque vous utilisez l’outil :
- Le choix d’utiliser des pondérations de similarité de catégorie et d’exclure ou non les entités non significatives doit s’effectuer en fonction des questions dont vous voulez obtenir les réponses par l’intermédiaire des comparaisons. Vous ne devez pas choisir les valeurs et les options uniquement pour accroître ou réduire la similarité ou l’association entre les résultats de points chauds. Par exemple, même si vous pouvez utiliser des pondérations de similarité de catégorie pour combiner les catégories de points chauds à 99 % et de points froids à 90 %, il est probable que la comparaison ne répondra pas à une question utile, sauf s’il y a une raison de croire que les points chauds à 99 % dans un résultat doivent être considérés comme similaires à des points froids à 90 % dans l’autre résultat. De même, l’exclusion ou l’inclusion d’entités non significatives doit dépendre du fait que les zones non significatives représentent ou non des zones de recherche d’intérêt.
- Si l’une des couches de résultat de points chauds en entrée contient des polygones superposés, les superpositions sont intersectées dans les nouvelles entités. En conséquence, les valeurs de similarité peuvent être différentes de 1 même pour les couches de résultat avec des catégories de niveau de signification identiques. L’environnement Tolérance XY permet de supprimer les superpositions involontaires, telles que les erreurs de géocodage. Il est recommandé d’examiner le nombre d’entités dans les entités en sortie pour établir si les intersections sont plus nombreuses que prévu.
- Si les deux résultats de points chauds sont des polygones de tailles différentes, l’intersection va subdiviser les grands polygones en plusieurs polygones plus petits. Cela change les totaux des catégories de niveau de signification et affecte la similarité et l’association. Au moins 20 intersections d’entités doivent être présentes pour utiliser l’outil.
- Le changement de l’ordre des résultats de points chauds en entrée n’a aucune incidence sur les valeurs de similarité, mais il a pour effet de modifier légèrement la valeur de similarité attendue et la valeur Kappa en raison du caractère aléatoire des permutations. Les axes des tables de messages et des diagrammes sont également inversés, ce qui va rendre leur interprétation plus aisée dans certains cas. Comme les messages et les diagrammes affichent les totaux des catégories de niveau de signification du second résultat de points chauds dans les catégories du premier résultat, à la place, vous pouvez afficher les catégories du premier résultat dans les catégories du second résultat en inversant l’ordre des couches en entrée.
Bibliographie
Cohen, Jacob. 1960. « A coefficient of agreement for nominal scales. » Educational and Psychological Measurement. 20:1, 37-46. https://doi.org/10.1177/001316446002000104.
Dou, Weibei, Yuan Ren, Qian Wu, Su Ruan, Yanping Chen, Daniel Bloyet et Jean-Marc Constans. 2007. « Fuzzy kappa for the agreement measure of fuzzy classifications. » Neurocomputing. 70, 726-734. https://dx.doi.org/10.1016/j.neucom.2006.10.007.
Hagen, Alex. 2003. « Fuzzy set approach to assessing similarity of categorical maps. » International Journal of Geographical Information Science. 17:3, 235-249. https://doi.org/10.1080/13658810210157822.
Hagen-Zanker, Alex, Bas Straatman et Inge Uljee. 2005. « Further developments of a fuzzy set map comparison approach. » International Journal of Geographical Information Science. 19:7, 769-785. https://doi.org/10.1080/13658810500072137.
Hagen-Zanker, Alex. 2009. « An improved Fuzzy Kappa statistic that accounts for spatial autocorrelation. » International Journal of Geographical Information Science. 23:1, 61-73. https://doi.org/10.1080/13658810802570317.
Rubriques connexes
Vous avez un commentaire à formuler concernant cette rubrique ?