Fonctionnement des résumés statistiques de voisinage

L’outil Neighborhood Summary Statistics (Résumés statistiques de voisinage) calcule les résumés statistiques locaux d’un ou de plusieurs champs numériques d’entités ponctuelles ou surfaciques à l’aide des voisinages. Les statistiques locales incluent la moyenne, la médiane, l’écart type, l’écart interquartile, l’asymétrie et l’asymétrie par quantiles. Les voisinages incluent le canal de distance, le nombre de voisins, la contigüité surfacique et les fichiers des pondérations spatiales. Vous pouvez pondérer géographiquement toutes les statistiques locales à l’aide de noyaux.

Illustration de l’outil Neighborhood Summary Statistics (Résumés statistiques de voisinage)

Les résumés statistiques sont calculés en utilisant des voisinages autour de chaque entité focale.

Types de voisinage

Le paramètre Neighborhood Type (Types de voisinage) possède six options qui permettent de définir les entités utilisées comme voisins de chaque entité focale.

  • Distance band (Canal de distance) : toutes les entités qui se trouvent à une distance donnée (dans la limite de 1 000 entités) sont utilisées comme voisins. La distance par défaut est la distance la plus courte qui permet de s'assurer que chaque entité inclut au moins un voisin supplémentaire.

    Voisinage du canal de distance

  • Number of neighbors (Nombre de voisins) : nombre fixe d’entités les plus proches utilisées comme voisins.

    Voisinage du nombre de voisins

  • Contiguity edges only (Tronçons de contiguïté uniquement) : les polygones qui partagent un tronçon avec l’entité focale sont utilisés comme voisins. Cette option ne s’applique qu’aux entités surfaciques.

    Voisinage de la contigüité surfacique avec uniquement des tronçons

  • Contiguity edges corners (Angles des tronçons de contiguïté) : les polygones qui partagent un tronçon ou un angle avec l’entité focale sont utilisés comme voisins. Cette option ne s’applique qu’aux entités surfaciques.

    Voisinage de la contigüité surfacique avec tronçons et angles

  • Delaunay triangulation (Triangulation de Delaunay) : les voisins sont définis en partageant des tronçons et des angles dans leur triangulation de Delaunay. Utiliser cette option revient à utiliser l’outil Create Thiessen Polygons (Créer des polygones de Thiessen) sur les points et à utiliser l’option Contiguity edges corners (Angles des tronçons de contiguïté) sur les polygones de Thiessen. Cette option ne s’applique qu’aux entités ponctuelles.

    Voisinage de la triangulation de Delaunay

  • Get spatial weights from file (Extraire les pondérations spatiales à partir du fichier) : les voisins et pondérations de chaque entité sont définis par un fichier de matrice de pondérations spatiales spécifié dans le paramètre Weights Matrix File (Fichier de matrice de pondérations). Vous pouvez créer les fichiers à l’aide des outils Generate Spatial Weights Matrix (Générer la matrice de pondérations spatiales) et Generate Network Spatial Weights (Générer les pondérations spatiales de réseau).

Résumés statistiques

Six résumés statistiques peuvent être calculés pour chaque champ d’analyse, spécifié à l’aide du paramètre Local Summary Statistic (Résumés statistiques locaux). Les six statistiques incluent les mesures de centralité, de variabilité et de répartition et de symétrie. Chaque classe fournit deux statistiques, une traditionnelle et l’autre fiable. Les statistiques fiables sont des mesures statistiques non affectées par un petit nombre de points aberrants.

L’option All (Toutes) du paramètre Local Summary Statistic (Résumés statistiques locaux) est utilisée par défaut pour calculer les six statistiques de chaque champ d’analyse. Les formules de chaque statistique sont visibles dans la section Formules des statistiques locales.

Les mesures de centralité permettent d’estimer la médiane ou le centre d’une distribution de valeurs. Vous pouvez utiliser ces options pour lisser les valeurs des données bruyantes. Les mesures de centralité sont les suivantes :

  • Mean (Moyenne) (traditionnelle) : moyenne arithmétique des valeurs du champ d’analyse.
  • Median (Médiane) (fiable) : 50e percentile des valeurs du champ d’analyse. La moitié des valeurs sont comprises sous la médiane et l’autre moitié, au dessus.

Les mesures de variabilité ou de répartition permettent d’estimer la plage de la distribution des valeurs probables. Vous pouvez utiliser ces options pour déterminer si la variabilité dans les champs d’analyse est similaire sur l’ensemble de la carte (stationnarité de la variance) ou si certaines zones possèdent une variabilité locale supérieure à d’autres. Les mesures de variabilité sont les suivantes :

  • Standard deviation (Écart type) (traditionnel) : écart type des valeurs du champ d’analyse
  • Interquartile range (Écart interquartile) (fiable) : plage de la moitié médiane des valeurs du champ d’analyse (75e percentile moins 25e percentile). La moitié des données sont comprises dans cette plage.

Les mesures de symétrie permettent de déterminer si la forme d’une distribution est symétrique par rapport à son centre. Ces options peuvent être utilisées pour étudier la fréquence des valeurs extrêmement élevées et extrêmement faibles. Les mesures de symétrie sont les suivantes :

  • Skewness (Asymétrie) (traditionnelle) : asymétrie des valeurs du champ d’analyse.
  • Quantile imbalance (Asymétrie par quantiles) (fiable) : valeur comprise entre -1 et 1 indiquant la position de la médiane par rapport aux 25e et 75e percentiles. Les valeurs proches de -1 indiquent que la médiane est proche du 25e percentile et celles proches de 1, que la médiane est proche du 75e percentile. Les valeurs proches de 0 indiquent une symétrie, la médiane se trouvant au milieu des 25e et 75e percentiles.

Sorties de l'outil

Les entités en sortie sont symbolisées sur la carte à l’aide de la statistique spécifiée dans le paramètre Local Summary Statistic (Résumés statistiques locaux) calculé pour le premier champ d’analyse fourni (ou la distance jusqu’aux voisins si aucun champ d’analyse n’est fourni). Si vous sélectionnez All (Toutes) pour le résumé statistique local, les entités affichent les résultats de la statistique Mean (Moyenne). Les résumés statistiques de tous les autres champs d’analyse sont enregistrés comme champs dans les entités en sortie, avec des copies de tous les champs d’analyse. Il existe également des champs indiquant le nombre de voisins utilisés pour chaque champ d’analyse.

Résumés statistiques pondérés géographiquement

Si le paramètre Neighborhood Type (Types de voisinage) spécifié est Distance Band (Canal distance) ou Number of Neighbors (Nombre de voisins), les statistiques peuvent toutes être pondérées géographiquement à l’aide du paramètre Local Weighting Scheme (Structure de pondération locale). Si vous spécifiez Get spatial Weights from file (Extraire les pondérations spatiales à partir du fichier) pour le paramètre Neighborhood Type (Type de voisinage), les pondérations spécifiées dans le fichier sont utilisées comme structure de pondération. Si vous appliquez une structure de pondération, les résumés statistiques sont tous pondérés de sorte que les voisins les plus proches de l’entité focale reçoivent des pondérations supérieures dans les calculs, à l’aide d’une fonction, appelé noyau, qui diminue avec la distance de l’entité focale. Deux fonctions noyau sont fournies dans le paramètre Local Weighting Scheme (Structure de pondération locale).

  • Bisquare (Bicarré)

    Noyau bicarré

  • Gaussian (Gaussien)

    Noyau Gaussien

Les fonctions noyau dépendent d’une bande passante qui contrôle la rapidité avec laquelle les pondérations diminuent avec la distance. La largeur de bande passante de chaque noyau est fournie dans le paramètre Kernel Bandwidth (Bande passante du noyau). Si vous ne spécifiez pas de valeur, une valeur par défaut est estimée lors de la phase d’exécution et affichée comme message de géotraitement. Pour plus d’informations sur le mode de calcul de cette bande passante par défaut, reportez-vous à la rubrique Fonctionnement de l'outil Kernel Density (Densité de noyau).

Remarque :

Pour le voisinage du canal de distance, la bande passante du noyau utilise par défaut la même valeur que le paramètre Distance Band (Canal de distance).

Formules des statistiques locales

Cette section contient les formules des versions pondérées et non pondérées de tous les résumés statistiques d’une même entité focale. Ces formules sont appliquées à chacune des entités en entrée de tous les champs d’analyse.

Dans toutes les formules, i = 1, ..., n sont les voisins de l’entité focale (avec éventuellement l’entité focale elle-même) triés par valeur (xi) selon l’ordre croissant. Toutes les pondérations (wi) sont normalisées de sorte que leur somme soit égale à un, avant d’appliquer ces formules. La version non pondérée de chaque statistique est déduite en définissant wi = 1/n pour tous les voisins i.

Statistiques traditionnelles

Le tableau ci-après récapitule les versions pondérée et non pondérée de chaque résumé statistique traditionnel.

StatistiqueFormule pondéréeFormule non pondérée

Moyenne

Formule de la moyenne pondéréeFormule de la moyenne

Écart type

Formule de l’écart type pondéréFormule de l’écart type

Inclinaison

Formule de l’asymétrie pondéréeFormule de l’asymétrie

Statistiques fiables

Les statistiques fiables dépendent toutes de la définition d’un quantile p pondéré, p étant compris entre 0 et 1. Cette définition permet de calculer la médiane pondérée (p = 0,5), le premier quartile (p = 0,25) et le troisième quartile (p = 0,75). Le quantile p d’un p donné est défini comme suit :

  • Quantile p pondéré :

    Formule du quantile p pondéré

  • Quantile p non pondéré :

    Formule du quantile p

À l’aide de la définition ci-avant du quantile p, le tableau ci-après indique les versions pondérée et non pondérée de chaque résumé statistique fiable.

StatistiqueFormule pondéréeFormule non pondérée

Médian

Formule de la médiane pondéréeFormule de la médiane

Ecart interquartile

Formule de l’écart interquartile pondéréFormule de l’écart interquartile

Asymétrie par quantiles

Formule de l’asymétrie par quantiles pondéréeFormule de l’asymétrie par quantiles

Ressources supplémentaires

Pour des informations supplémentaires sur les résumés statistiques pondérés géographiquement, consultez les références suivantes :

  • Brunsdon, C., Fotheringham, A.S., Charlton, M. (2002). "Geographically weighted summary statistics — a framework for localised exploratory data analysis." Computers, Environment and Urban Systems, 26(6): 501-524. ISSN 0198-9715. https://doi.org/10.1016/S0198-9715(01)00009-6.