L’outil Résumés statistiques de voisinage calcule les résumés statistiques locaux d’un ou de plusieurs champs numériques d’entités ponctuelles ou surfaciques à l’aide des voisinages. Les statistiques locales incluent la moyenne, la médiane, l’écart type, l’écart interquartile, l’asymétrie et l’asymétrie par quantiles. Les voisinages incluent le canal de distance, le nombre de voisins, la contigüité surfacique et les fichiers des pondérations spatiales. Vous pouvez pondérer géographiquement toutes les statistiques locales à l’aide de noyaux.
Types de voisinage
Le paramètre Types de voisinage possède six options qui permettent de définir les entités utilisées comme voisins de chaque entité focale. Pour tous les types de voisinage, l'entité focale est utilisée comme voisin d'elle-même par défaut. Vous pouvez choisir d'exclure l'entité focale en tant que voisin en décochant le paramètre Inclure l’entité focale dans le calcul.
- Canal de distance : toutes les entités qui se trouvent à une distance donnée (dans la limite de 1 000 entités) sont utilisées comme voisins. La distance par défaut est la distance la plus courte qui permet de s'assurer que chaque entité inclut au moins un voisin supplémentaire.
- Nombre de voisins : un nombre fixe d’entités les plus proches de l'entité focale sont utilisées comme voisins. Ce nombre n'incluant pas l'entité focale elle-même, si cette dernière est incluse dans les calculs, le nombre de voisins utilisés dans les calculs correspond à la valeur spécifiée plus un.
- Tronçons de contiguïté uniquement : les polygones qui partagent un tronçon avec l’entité focale sont utilisés comme voisins. Cette option ne s’applique qu’aux entités surfaciques.
- Angles des tronçons de contiguïté : les polygones qui partagent un tronçon ou un angle avec l’entité focale sont utilisés comme voisins. Cette option ne s’applique qu’aux entités surfaciques.
- Triangulation de Delaunay : les voisins sont définis en partageant des tronçons et des angles dans leur triangulation de Delaunay. Utiliser cette option revient à utiliser l’outil Créer des polygones de Thiessen sur les points et à utiliser l’option Angles des tronçons de contiguïté sur les polygones de Thiessen. Cette option ne s’applique qu’aux entités ponctuelles.
- Extraire les pondérations spatiales à partir du fichier : les voisins et pondérations de chaque entité sont définis par un fichier de matrice de pondérations spatiales spécifié dans le paramètre Fichier de matrice de pondérations. Vous pouvez créer les fichiers à l’aide des outils Générer la matrice de pondérations spatiales et Générer les pondérations spatiales de réseau.
Résumés statistiques
Six résumés statistiques peuvent être calculés pour chaque champ d’analyse, spécifié à l’aide du paramètre Résumés statistiques locaux. Les six statistiques incluent les mesures de centralité, de variabilité et de répartition et de symétrie. Chaque classe fournit deux statistiques, une traditionnelle et l’autre fiable. Les statistiques fiables sont des mesures statistiques non affectées par un petit nombre de points aberrants.
L’option Toutes du paramètre Résumés statistiques locaux est utilisée par défaut pour calculer les six statistiques de chaque champ d’analyse. Les formules de chaque statistique sont visibles dans la section Formules des statistiques locales.
Les mesures de centralité permettent d’estimer la médiane ou le centre d’une distribution de valeurs. Vous pouvez utiliser ces options pour lisser les valeurs des données bruyantes. Les mesures de centralité sont les suivantes :
- Moyenne (traditionnelle) : moyenne arithmétique des valeurs du champ d’analyse.
- Médiane (fiable) : 50e percentile des valeurs du champ d’analyse. La moitié des valeurs sont comprises sous la médiane et l’autre moitié, au dessus.
Les mesures de variabilité ou de répartition permettent d’estimer la plage de la distribution des valeurs probables. Vous pouvez utiliser ces options pour déterminer si la variabilité dans les champs d’analyse est similaire sur l’ensemble de la carte (stationnarité de la variance) ou si certaines zones possèdent une variabilité locale supérieure à d’autres. Les mesures de variabilité sont les suivantes :
- Écart type (traditionnel) : écart type des valeurs du champ d’analyse
- Écart interquartile (fiable) : plage de la moitié médiane des valeurs du champ d’analyse (75e percentile moins 25e percentile). La moitié des données sont comprises dans cette plage.
Les mesures de symétrie permettent de déterminer si la forme d’une distribution est symétrique par rapport à son centre. Ces options peuvent être utilisées pour étudier la fréquence des valeurs extrêmement élevées et extrêmement faibles. Les mesures de symétrie sont les suivantes :
- Asymétrie (traditionnelle) : asymétrie des valeurs du champ d’analyse.
- Asymétrie par quantiles (fiable) : valeur comprise entre -1 et 1 indiquant la position de la médiane par rapport aux 25e et 75e percentiles. Les valeurs proches de -1 indiquent que la médiane est proche du 25e percentile et celles proches de 1, que la médiane est proche du 75e percentile. Les valeurs proches de 0 indiquent une symétrie, la médiane se trouvant au milieu des 25e et 75e percentiles.
Valeurs nulles dans les champs d'analyse
Si l'un des champs d'analyse contient des valeurs nulles, ces dernières sont ignorées par défaut dans les calculs. Vous pouvez choisir d'inclure les valeurs nulles en décochant le paramètre Ignorer les valeurs nulles dans les calculs.
Si les valeurs nulles sont ignorées dans un calcul, le nombre de voisins est réduit pour tous les calculs. Par exemple, si deux des six voisins possèdent des valeurs nulles, la moyenne est calculée en totalisant uniquement les quatre valeurs non nulles et en divisant le résultat par quatre.
Si des valeurs nulles sont incluses, toutes les statistiques sont calculées comme nulles si l’une des valeurs utilisées dans le calcul est nulle. Par exemple, si une entité contient une valeur nulle dans un champ d'analyse, toutes les autres entités qui utilisent cette entité comme voisin généreront des valeurs nulles pour tous les résumés statistiques du champ d'analyse.
Sorties de l'outil
Les entités en sortie sont symbolisées sur la carte à l’aide de la statistique spécifiée dans le paramètre Résumés statistiques locaux calculé pour le premier champ d’analyse fourni (ou la distance jusqu’aux voisins si aucun champ d’analyse n’est fourni). Si vous sélectionnez Toutes pour le résumé statistique local, les entités affichent les résultats de la statistique Moyenne. Les résumés statistiques de tous les autres champs d’analyse sont enregistrés comme champs dans les entités en sortie, avec des copies de tous les champs d’analyse. Il existe également des champs indiquant le nombre de voisins utilisés pour chaque champ d’analyse.
Résumés statistiques pondérés géographiquement
Si le paramètre Types de voisinage spécifié est Canal distance ou Nombre de voisins, les statistiques peuvent toutes être pondérées géographiquement à l’aide du paramètre Structure de pondération locale. Si vous spécifiez Extraire les pondérations spatiales à partir du fichier pour le paramètre Type de voisinage, les pondérations spécifiées dans le fichier sont utilisées comme structure de pondération. Si vous appliquez une structure de pondération, les résumés statistiques sont tous pondérés de sorte que les voisins les plus proches de l’entité focale reçoivent des pondérations supérieures dans les calculs, à l’aide d’une fonction, appelé noyau, qui diminue avec la distance de l’entité focale. Deux fonctions noyau sont fournies dans le paramètre Structure de pondération locale.
- Bicarré
- Gaussien
Les fonctions noyau dépendent d’une bande passante qui contrôle la rapidité avec laquelle les pondérations diminuent avec la distance. La largeur de bande passante de chaque noyau est fournie dans le paramètre Bande passante du noyau. Si vous ne spécifiez pas de valeur, une valeur par défaut est estimée lors de la phase d’exécution et affichée comme message de géotraitement. Pour plus d’informations sur le mode de calcul de cette bande passante par défaut, reportez-vous à la rubrique Fonctionnement de l'outil Kernel Density (Densité de noyau).
Remarque :
Pour le voisinage du canal de distance, la bande passante du noyau utilise par défaut la même valeur que le paramètre Canal de distance.
Formules des statistiques locales
Cette section contient les formules des versions pondérées et non pondérées de tous les résumés statistiques d’une même entité focale. Ces formules sont appliquées à chacune des entités en entrée de tous les champs d’analyse.
Dans toutes les formules, i = 1, ..., n sont les voisins de l’entité focale (avec éventuellement l’entité focale elle-même) triés par valeur (xi) selon l’ordre croissant. Toutes les pondérations (wi) sont normalisées de sorte que leur somme soit égale à un, avant d’appliquer ces formules. La formule non pondérée de chaque statistique est déduite en définissant wi = 1/n pour tous les voisins i.
Statistiques traditionnelles
Le tableau ci-après récapitule les versions pondérée et non pondérée de chaque résumé statistique traditionnel.
Statistiques | Formule pondérée | Formule non pondérée |
---|---|---|
Moyenne | ||
Écart type | ||
Inclinaison |
Statistiques fiables
Les statistiques fiables dépendent toutes de la définition d’un quantile p pondéré, p étant compris entre 0 et 1. Cette définition permet de calculer la médiane pondérée (p = 0,5), le premier quartile (p = 0,25) et le troisième quartile (p = 0,75). Le quantile p d’un p donné est défini comme suit :
- Quantile p pondéré :
- Quantile p non pondéré :
À l’aide de la définition ci-avant du quantile p, le tableau ci-après indique les versions pondérée et non pondérée de chaque résumé statistique fiable.
Statistiques | Formule pondérée | Formule non pondérée |
---|---|---|
Médiane | ||
Ecart interquartile | ||
Déséquilibre quantile |
Ressources supplémentaires
Pour des informations supplémentaires sur les résumés statistiques pondérés géographiquement, consultez les références suivantes :
- Brunsdon, C., A.S. Fotheringham, M. Charlton. 2002. "Geographically weighted summary statistics — a framework for localised exploratory data analysis." Computers, Environment and Urban Systems 26 (6): 501-524. ISSN 0198-9715. https://doi.org/10.1016/S0198-9715(01)00009-6.
Vous avez un commentaire à formuler concernant cette rubrique ?