Fonctionnement de l'outil Analyse de points aberrants optimisée

L'outil Analyse de points aberrants optimisée exécute l'outil Analyse de grappes et de valeurs aberrantes (Anselin Local Moran's I) à l'aide des paramètres découlant des caractéristiques de vos données en entrée. Tout comme le réglage automatique d'un appareil photo numérique se fonde sur l'éclairage et le sujet pour déterminer l'ouverture, la vitesse d'obturation et la mise au point appropriées, l'outil Analyse de points aberrants optimisée interroge vos données pour connaître les paramètres qui donneront les meilleurs résultats d'analyse. Si, par exemple, le jeu de données Entités en entrée contient des données ponctuelles d'incident, l'outil agrège les incidents en entités pondérées. En utilisant la distribution des entités pondérées, l'outil identifie une échelle d'analyse appropriée. Le type de classification indiqué dans les entités en sortie est automatiquement ajusté pour tenir compte des tests multiples et de la dépendance spatiale à l'aide de la méthode de correction FDR (False Discovery Rate).

Chacune des décisions prises par l'outil afin d'obtenir les meilleurs résultats possibles est signalée en tant que messages au cours de l'exécution de l'outil et une explication de ces décisions est présentée dessous.

Tout comme le mode manuel de votre appareil photo vous permet de remplacer les paramètres automatiques, l'outil Analyse de grappes et de valeurs aberrantes (Anselin Local Moran's I) vous confère un contrôle total de toutes les options de paramètre. Exécutez l'outil Analyse de points aberrants optimisée et prenez note des paramètres qu'il utilise pour affiner et contrôler entièrement les paramètres de l'outil Analyse de grappes et de valeurs aberrantes (Anselin Local Moran's I).

Le workflow de l'outil Analyse de points aberrants optimisée comprend les composants suivants. Les calculs et les algorithmes utilisés au sein de chacun de ces composants sont décrits ci-dessous.

Evaluation initiale des données

Dans ce composant, les entités en entrée, ainsi que le champ d'analyse facultatif, les polygones d'emprise définissant l'endroit où les incidents sont possibles et la méthode d'agrégation des données d'incident sont examinés avec soin pour s'assurer que le nombre d'entités et la variation adéquate des valeurs à analyser sont suffisants. Si l'outil rencontre des enregistrements dont la géométrie est endommagée ou absente, ou si un champ d'analyse est spécifié et que des valeurs Null sont présentes, les enregistrements associés sont répertoriés comme des enregistrements incorrects et sont exclus de l'analyse.

L'outil Analyse de points aberrants optimisée utilise la statistique Anselin Local Moran's I et, tout comme de nombreuses méthodes statistiques, les résultats ne sont pas fiables si le nombre d'entités est inférieur à 30. Si vous fournissez des entités en entrée de type polygone ou des entités en entrée de type point, ainsi qu'un champ d'analyse, vous avez besoin d'au moins 30 entités pour utiliser cet outil. Le nombre minimum de polygones d’agrégation des incidents en points est également de 30. La couche d'entités représentant les polygones d'emprise définissant l'endroit où les incidents sont possibles peut inclure un ou plusieurs polygones.

Pour la statistique Anselin Local Moran's I des valeurs doivent également être associées à chaque entité analysée. Lorsque les entités en entrée que vous fournissez représentent des données d'incident (lorsque vous n'indiquez pas de champ d'analyse), l'outil agrège les incidents et les nombres d'incidents servent de valeurs à analyser. Au terme du processus d'agrégation, 30 entités au moins doivent toujours être présentes. Il est par conséquent préférable de commencer avec plus de 30 entités pour les données d'incident. Le tableau ci-dessous présente le nombre minimal d'entités pour chaque méthode d'agrégation des données d'incident :

Nombre minimal d'incidentsMéthode d'agrégationNombre minimal d'entités après l'agrégation

60

Nombre d'incidents au sein de la grille de quadrillage et Nombre d'incidents au sein de la grille hexagonale, sans indiquer les polygones d'emprise définissant l'endroit où les incidents sont possibles

30

30

Nombre d'incidents au sein de la grille de quadrillage et Nombre d'incidents au sein de la grille hexagonale lorsque vous indiquez une classe d'entités pour le paramètre Polygones d'emprise définissant l'endroit où les incidents sont possibles .

30

30

Nombre d'incidents au sein des polygones d'agrégation

30

60

Capture des incidents à proximité pour créer des points pondérés

30

La statistique Anselin Local Moran's I a également été conçue pour un champ d'analyse avec différentes valeurs. Par exemple, la statistique ne convient pas aux données binaires. L'outil Analyse de points aberrants optimisée vérifie le champ d'analyse pour s'assurer que les valeurs présentent au moins une certaine variation.

Les points aberrants d'emplacement sont des entités beaucoup plus éloignées des entités voisines que la majorité des entités du jeu de données. Imaginez un environnement urbain avec de grandes villes à forte densité de population au centre et des villes plus petites, moins densément peuplées, à la périphérie. Si vous calculez la distance moyenne du voisin le plus proche pour ces villes, le résultat est moindre si vous excluez les points aberrants d'emplacement situés à la périphérie et si vous vous concentrez uniquement sur les villes proches du centre urbain. Ceci est un exemple de l'impact significatif que peuvent avoir les points aberrants d'emplacement sur les statistiques spatiales, telles que Moyenne du voisin le plus proche. Comme l'outil Analyse de points aberrants optimisée utilise les calculs de la moyenne et de la médiane du voisin le plus proche pour l'agrégation et pour identifier une échelle d'analyse adéquate, le composant Évaluation initiale des données de l'outil identifie également les points aberrants d'emplacement des entités en entrée ou des polygones d'agrégation des incidents en points et signale le nombre obtenu. Pour ce faire, l'outil calcule la distance moyenne du voisin le plus proche de chaque entité et évalue la distribution de toutes ces distances. Les entités qui se trouvent à plus de trois écarts types de leur voisin non coïncident le plus proche sont considérées comme des points aberrants d'emplacement.

Agrégation des incidents

Pour les données d'incident, le prochain composant du workflow agrège vos données. Trois approches sont disponibles, selon la Méthode d’agrégation des données d’incident que vous sélectionnez. Les algorithmes de chacune de ces approches sont décrits ci-dessous.

  • Nombre d'incidents au sein de la grille de quadrillage ou Nombre d'incidents au sein de la grille hexagonale :
    1. Réduisez les points coïncidents qui donnent un seul point à chaque emplacement unique du jeu de données, à l'aide de la méthode utilisée par l'outil Collecter les événements.
    2. Comparez la densité des N entités en entrée par rapport à la densité des N entités aléatoires selon le polygone d'emprise minimal des entités en entrée (en mètres géodésiques). La distance moyenne par rapport au voisin le plus proche pour un ensemble aléatoire de N points dans le polygone d'emprise minimal donné est calculée. Si deux fois la distance moyenne par rapport au voisin le plus proche pour la distribution des entités aléatoires est inférieure à l'étendue maximum de la zone d'étude divisée par 100, le jeu de données est considéré comme dense et la grille Taille de cellule utilisée est l'étendue maximum divisée par 100.
    3. Si le jeu de données n'est pas considéré comme dense à l'aide de la méthode ci-dessus, la distance Taille de cellule utilisée est 2 fois plus grande que la distance moyenne ou la distance médiane du voisin le plus proche. La distance moyenne du voisin le plus proche (ANN) pour tous les points de localisation uniques, hormis les points aberrants d'emplacement, est calculée en ajoutant la distance du voisin le plus proche de chaque entité et en divisant par le nombre d'entités (N). La distance médiane du voisin le plus proche (MNN) est calculée en triant les distances du voisin le plus proche par ordre croissant et en sélectionnant la distance qui se trouve au milieu de la liste triée (également hormis les points aberrants d'emplacement). Quelle que soit la distance la plus grande, la distance ANN ou MNN est multipliée par 2 et utilisée comme grille Taille de cellule.
    4. Créez un quadrillage ou un maillage de polygones hexagonaux avec la taille de cellule optimisée et superposez la grille avec les points d'incident.
    5. Comptabilisez le nombre d'incidents dans chaque cellule de polygone.
    6. Si vous indiquez des Polygones d'emprise définissant l'endroit où les incidents sont possibles, toutes les cellules de polygone au sein des polygones d'emprise sont conservées. Si vous n'indiquez pas de Polygones d'emprise définissant l'endroit où les incidents sont possibles, les cellules de polygone comptant zéro incident sont supprimées.
    7. Si le processus d'agrégation renvoie moins de 30 cellules de polygone ou si les nombres dans toutes les cellules de polygone sont identiques, un message indiquant que les entités en entrée que vous avez fournies ne conviennent pas à la méthode d'agrégation des données d'incident sélectionnée apparaît. Sinon, le composant d'agrégation de cette méthode s'exécute correctement.
  • Nombre d'incidents au sein des polygones d'agrégation :
    1. Pour cette méthode d'agrégation des données d'incident, une couche d'entités des polygones d'agrégation des incidents en points est requise. Les polygones d'agrégation superposent les points d'incident.
    2. Comptabilisez le nombre d'incidents dans chaque polygone.
    3. Vérifiez que les nombres d'incidents varient suffisamment pour l'analyse. Si, au terme du processus d'agrégation, tous les polygones ont le même nombre d'incidents, un message indiquant que les données ne conviennent pas à la méthode d'agrégation des données d'incident sélectionnée apparaît.
  • Capture des incidents à proximité pour créer des points pondérés :
    1. Réduisez les points coïncidents qui donnent un seul point à chaque emplacement unique du jeu de données, à l'aide de la méthode utilisée par l'outil Collecter les événements. Comptabilisez le nombre d'entités d'emplacement uniques (UL).
    2. Calculez les distances moyenne et médiane du voisin le plus proche sur tous les points d'emplacement uniques, à l'exclusion des points aberrants d'emplacement. La distance moyenne du voisin le plus proche (ANN) est calculée en ajoutant la distance du voisin le plus proche de chaque entité et en divisant par le nombre d'entités (N). La distance médiane du voisin le plus proche (MNN) est calculée en triant les distances du voisin le plus proche par ordre croissant et en sélectionnant la distance qui se trouve au milieu de la liste triée.
    3. Définissez la distance de capture initiale (SD) sur ANN ou MNN, selon la valeur qui est la moins élevée.
    4. Ajustez la distance de capture pour prendre en compte les points coïncidents. Scalaire = (UL/N), où N est le nombre d'entités de la couche des entités en entrée. La distance de capture ajustée devient SD * Scalaire.
    5. Intégrez les points d'incident en trois itérations, en multipliant d'abord la distance de capture ajustée par 0,10, puis en multipliant la distance de capture ajustée par 0,25 et enfin, en les intégrant à une distance de capture égale à la distance de capture entièrement ajustée. L'exécution de cette procédure en trois phases permet de réduire la distortion des emplacements des points d'origine.
    6. Réduisez les points capturés qui donnent un seul point à chaque emplacement avec une pondération pour indiquer le nombre d'incidents qui ont été capturés ensemble. Cette partie du processus d'agrégation utilise la méthode Collecter les événements.
    7. Si le processus d'agrégation renvoie moins de 30 points pondérés, ou si les nombres de tous les points sont identiques, un message indiquant que les entités en entrée que vous avez fournies ne conviennent pas à la méthode d'agrégation des données d'incident sélectionnée apparaît. Sinon, le composant d'agrégation de cette méthode s'exécute correctement.

Echelle de l'analyse

Le composant suivant du workflow Analyse de valeurs aberrantes optimisée s'applique aux entités pondérées soit parce que vous avez indiqué des entités en entrée avec un champ d'analyse, soit parce que la procédure d'agrégation des incidents a généré des pondérations à partir des nombres d'incidents. La prochaine étape consiste à identifier une échelle d'analyse appropriée. L'échelle d'analyse idéale est une distance qui correspond à l'échelle de la question que vous posez (si vous recherchez les zones des grappes et valeurs aberrantes d'une épidémie et si vous savez que le moustique vecteur de la maladie a une portée de 10 miles, par exemple, vous pouvez dans ce cas utiliser une distance de 10 miles). Lorsqu'il n'est pas possible de connaître la distance précise à utiliser pour l'échelle d'analyse, certaines stratégies peuvent vous aider. L'outil Analyse de points aberrants optimisée utilise ces stratégies.

La première stratégie tentée est l'autocorrélation spatiale incrémentielle. Dès lors que vous remarquez une agrégation spatiale dans le paysage, vous voyez la preuve de l'existence de processus spatiaux sous-jacents. L'outil Autocorrélation spatiale incrémentielle exécute la statistique de l'indice global de Moran pour une série de distances de plus en plus élevées, mesurant l'intensité de l'agrégation spatiale pour chacune d'elles. Les points aberrants d'emplacement sont exclus des calculs des distances de début et d'incrément utilisées dans l'auto-corrélation spatiale incrémentielle. L'intensité de l'agrégation est déterminée par le score z obtenu. Au fur et à mesure que la distance augmente, le score z fait de même, indiquant l'intensification de l'agrégation. Cependant, à une certaine distance , le score z atteint généralement un pic. Les pics représentent des distances où les processus spatiaux qui favorisent l'agrégation sont les plus prononcés. L'outil Analyse de points aberrants optimisée recherche les distances maximales à l'aide de l'autocorrélation spatiale incrémentielle. Si une distance maximale est trouvée, cette distance devient l'échelle d'analyse. Si plusieurs pics de distance sont détectés, le premier pic de distance est sélectionné.

Si aucune distance maximale n'est identifiée, l'analyse de points aberrants optimisée examine la distribution spatiale des entités et calcule la distance moyenne pouvant générer K voisins pour chaque entité. La valeur K est calculée de la manière suivante : 0,05 * N, où N est le nombre d'entités de la couche des entités en entrée. La valeur K est ajustée afin de ne jamais être inférieure à 3 ou supérieure à 30. Si la distance moyenne pouvant générer K voisins dépasse une distance standard, l'échelle d'analyse est définie sur une distance standard. Sinon, elle reflète la distance moyenne de K voisins.

L'étape d'autocorrélation spatiale incrémentielle peut prendre du temps pour les jeux de données volumineux et denses. Par conséquent, lorsqu'une entité qui comprend 500 voisins ou plus est rencontrée, l'analyse incrémentielle est ignorée et la distance moyenne pouvant générer 30 voisins est calculée et utilisée pour l'échelle d'analyse.

La distance qui reflète l'échelle d'analyse est indiquée sous la forme de messages au cours de l'exécution de l'outil et sert à effectuer l'analyse de grappes et de valeurs aberrantes. Cette distance correspond au paramètre Canal distance ou distance seuil utilisé par l'outil Analyse de grappes et de valeurs aberrantes (Anselin Local Moran's I).

Pour les entités sans voisin à cette distance, le Canal distance est étendu pour inclure le voisin le plus proche.

Analyse de grappes et de valeurs aberrantes

À ce stade du workflow Analyse de points aberrants optimisée, tous les contrôles et tous les paramètres ont été réalisés. L'étape suivante consiste à exécuter la statistique Anselin Local Moran's I. Les détails concernant les mathématiques pour cette statistique sont soulignés dans Fonctionnement de l'analyse de grappes et de valeurs aberrantes (Anselin Local Moran's I). Les résultats de la statistique Anselin Local Moran's I sont automatiquement corrigés pour tenir compte des tests multiples et de la dépendance spatiale à l'aide de la méthode de correction FDR (False Discovery Rate). Les messages écrits au cours de l'exécution de l'outil récapitulent le nombre d'entités identifiées comme des valeurs aberrantes ou des grappes statistiquement très élevées ou basses, une fois la correction FDR appliquée.

Sortie

Le dernier composant de l'outil Analyse de points aberrants optimisée consiste à créer les entités en sortie. Si les entités en entrée représentent les données d'incident qui nécessitent une agrégation, les entités en sortie reflètent les entités pondérées agrégées (des cellules de quadrillage ou de polygones hexagonaux, les polygones d'agrégation que vous avez fournis pour le paramètre Polygones d'agrégation des incidents en points ou des points pondérés). Chaque entité se caractérise par une valeur d’indice de Moran locale (LMiIndex), un score z et une valeur p, un résultat de type agrégat-point aberrant (COType) et le nombre de voisins que chaque entité a inclus dans ses calculs.

Ressources supplémentaires

Anselin, Luc. "Local Indicators of Spatial Association-LISA," Geographical Analysis 27(2): 93-115, 1995.

La page Ressources de statistiques spatiales propose des vidéos rapides, des didacticiels, des séminaires Web, des articles et différents autres supports pour vous aider à utiliser les statistiques spatiales.