Analyse de grappe spatiale multi-distances (fonction K de Ripley) (Statistiques spatiales)

Résumé

Détermine si les entités, ou les valeurs associées aux entités, présentent une agrégation statistiquement significative ou une dispersion sur une plage de distances.

Pour en savoir plus sur la fonction Analyse de grappe spatiale multi-distances

Illustration

Graphique de la fonction K
Mesure de la dispersion/l'agrégation spatiale sur une plage de distances.

Utilisation

  • Cet outil nécessite des données projetées pour mesurer précisément les distances.

  • L’outil génère une table dotée des champs ExpectedK et ObservedK qui contiennent les valeurs K attendues et observées, respectivement. La transformation L(d) étant appliquée, les valeurs ExpectedK seront toujours égales à la valeur de la distance. Le champ DiffK contient les valeurs K observées moins les valeurs K attendues. Si une option d’intervalle de confiance est spécifiée, deux champs supplémentaires nommés LwConfEnv et HiConfEnv sont également inclus dans Output Table (Table en sortie). Ces champs contiennent des informations sur l'intervalle de confiance de chaque itération de l'outil, comme indiqué par le paramètre Nombre de bandes de distance.

  • Lorsque la valeur K observée est plus grande que la valeur K attendue pour une distance particulière, la distribution est plus agrégée qu'une distribution aléatoire à cette distance (échelle d'analyse). Lorsque la valeur K observée est plus petite que la valeur K attendue, la distribution est plus dispersée qu'une distribution aléatoire à cette distance. Lorsque la valeur K observée est plus grande que la valeur HiConfEnv, l’agrégation spatiale pour cette distance est statistiquement significative. Lorsque la valeur K observée est plus petite que la valeur LwConfEnv, la dispersion spatiale pour cette distance est statistiquement significative. Vous trouverez des informations complémentaires sur l’interprétation à la rubrique Fonctionnement de l’analyse de grappe spatiale multi-distances (fonction K de Ripley).

  • Pour les entités linéaires et surfaciques, les centroïdes d'entité sont utilisés dans les calculs de distance. Pour les multi-points, les polylignes ou les polygones comprenant plusieurs parties, le centroïde est calculé à l'aide du centre moyen pondéré de toutes les parties d'entité. La pondération pour les entités ponctuelles est de 1 ; pour les entités linéaires, elle correspond à la longueur et pour les entités surfaciques, à la superficie.

  • Le champ de pondération convient parfaitement pour représenter le nombre d'incidents.

  • Si aucune valeur n’est spécifiée pour Weight Field (Champ de pondération), la valeur DiffK la plus élevée indique à quelle distance les processus spatiaux favorisant l’agrégation sont les plus prononcés.

  • Vous trouverez ci-dessous des explications sur le calcul de l'enveloppe de confiance :

    • Aucun Champ de pondération

      Si aucun Champ de pondération n'est spécifié, l'enveloppe de confiance est construite en distribuant aléatoirement des points dans la zone d'étude et en calculant L(d) pour cette distribution. Chaque distribution aléatoire des points est appelée "permutation". Si 99 permutations sont sélectionnées par exemple, l'outil distribue aléatoirement l'ensemble de points 99 fois pour chaque itération. Après avoir distribué les points 99 fois, l'outil sélectionne pour chaque distance la valeur k observée ayant présenté l'écart le plus important au-dessus et au-dessous de la valeur k attendue ; ces valeurs deviennent l'intervalle de confiance.

    • Incluant un Champ de pondération

      Lorsqu'un champ de pondération est spécifié, seules les valeurs de pondération sont redistribuées aléatoirement pour calculer des enveloppes de confiance ; les emplacements des points restent fixes. Essentiellement, lorsqu'un champ de pondération est spécifié, les emplacements restent fixes et l'outil évalue l'agrégation des valeurs d'entité dans l'espace. D'un autre côté, si aucun champ de pondération n'est spécifié, l'outil analyse l'agrégation/la dispersion des emplacements des entités.

  • Comme l'enveloppe de confiance est créée à partir de permutations aléatoires, les valeurs qui la définissent changent d'une exécution à l'autre, même lorsque les paramètres sont identiques. Toutefois, si vous définissez une valeur initiale pour l'environnement de géotraitement Générateur de nombres aléatoires, des analyses répétées génèrent des résultats cohérents.

  • Le nombre des permutations sélectionnées pour le paramètre Calculer l'enveloppe de confiance peut être converti en niveaux de confiance : 9 pour 90 %, 99 pour 99 % et 999 pour 99,9 %.

  • Si aucune zone d'étude n'est spécifiée, l'outil utilise un rectangle de délimitation minimal comme polygone de zone d'étude. Contrairement à l'étendue, un rectangle d'encadrement minimum ne s'aligne pas nécessairement sur les axes x et y.

  • La statistique de la fonction K est très sensible à la taille de la zone d'étude. Des dispositions de points identiques peuvent présenter une agrégation ou une dispersion selon la taille de la zone d'étude qui les entoure. Il est par conséquent impératif que les limites de la zone d'étude soient définies avec soin. L'image suivante illustre la façon dont des distributions identiques d'entités peuvent être dispersées ou agrégées selon la zone d'étude spécifiée.

    Les distributions peuvent être agrégées ou dispersées selon la taille de la zone d'étude.

  • Une classe d'entités de zone d'étude est nécessaire si vous avez choisi Classe d'entités de zone d'étude fournie par l'utilisateur pour le paramètre Méthode de la zone d'étude.

  • Si une classe d'entités de la zone d'étude est spécifiée, elle doit comporter exactement une entité en une seule partie (le polygone de zone d'étude).

  • Si aucun paramètre Distance de départ ou Incrément de distance n'est précisé, les valeurs par défaut sont calculées automatiquement en fonction de l'étendue de la classe d'entités en entrée.

  • La fonction K possède un biais de sous-estimation pour les entités situées à proximité de la limite de la zone d'étude. Le paramètre Méthode de correction des bords propose plusieurs méthodes permettant de rectifier ce biais :

    • Aucun

      Aucune correction spécifique n'est appliquée. Toutefois, les points de la classe d'entités en entrée qui se trouvent en dehors de la zone d'étude spécifiée par l'utilisateur sont utilisés pour calculer les nombres de voisins. Cette méthode est appropriée si vous avez collecté des données d'une zone d'étude très vaste et que vous souhaitez uniquement analyser des parties plus petites au sein des limites de la collection de données.

    • Simuler des valeurs à l'extérieur

      Cette méthode crée des points en dehors de la limite de la zone d'étude qui mettent en miroir ceux détectés à l'intérieur de la limite afin de corriger les sous-estimations à proximité des tronçons. Les points qui se trouvent à une distance égale à la distance maximale d'un tronçon de la zone d'étude sont mis en miroir. Les points mis en miroir sont utilisés pour estimer plus précisément les voisins des points de tronçon. Le diagramme ci-dessous illustre les points qui seront utilisés dans le calcul et ceux qui seront utilisés uniquement pour la correction des tronçons.

      Méthode de correction des tronçons Simuler des valeurs à l'extérieur
    • Réduire la zone d'analyse

      Cette technique de correction des tronçons réduit la taille de la zone d'analyse selon une distance égale au canal de distance le plus volumineux qui doit être utilisé dans l'analyse. Une fois la zone d'étude réduite, les points détectés en dehors de la nouvelle zone d'étude sont uniquement pris en compte lorsque les nombres de voisins sont évalués pour les points qui se trouvent encore à l'intérieur de la zone d'étude. Ils ne sont utilisés d'aucune autre manière lors du calcul de la fonction K. Le diagramme ci-dessous illustre les points qui seront utilisés dans le calcul et ceux qui seront utilisés uniquement pour la correction des tronçons.

      Méthode de correction des tronçons Réduire la zone d'analyse
    • Formule de correction des tronçons de Ripley

      Cette méthode vérifie la distance de chaque point par rapport au tronçon de la zone d'étude, ainsi que sa distance par rapport à ses voisins. Tous les voisins qui sont plus éloignés du point en question que le tronçon de la zone d'étude reçoivent une pondération supplémentaire. Cette méthode de correction des tronçons convient uniquement aux zones d'étude carrées ou rectangulaires, ou lorsque vous sélectionnez Rectangle de délimitation minimal pour le paramètre Méthode de la zone d'étude.

  • Si aucune correction des limites n'est appliquée, le biais de sous-estimation augmente au fur et à mesure que la distance d'analyse augmente.

  • Mathématiquement, l'outil Analyse de grappe spatiale multi-distances utilise une transformation commune de la fonction K de Ripley, dans laquelle le résultat attendu avec un jeu aléatoire de points est égal à la distance en entrée. La transformation L(d) est illustrée ci-dessous.

    Equation de transformation de la fonction K

    où A représente la surface, N est le nombre de points, d, la distance, et k(i, j), la pondération. Si aucune correction des limites n'est appliquée, la pondération est égale à 1 lorsque la distance entre i et j est inférieure ou égale à d ; elle est égale à 0 lorsque la distance entre i et j est supérieure à d. Si la correction des limites est appliquée, la pondération de k(i, j) est légèrement modifiée.

  • Les couches peuvent permettre de définir la classe d'entités en entrée. Lorsque vous utilisez une couche avec une sélection, seules les entités sélectionnées sont comprises dans l'analyse.

  • Attention :

    Lorsque vous utilisez des shapefiles, n'oubliez pas qu'ils ne peuvent pas stocker de valeurs Null. Il se peut que des outils ou autres procédures qui créent des fichiers de formes à partir d'entrées autres que des fichiers de formes stockent ou interprètent des valeurs Null comme étant égales à zéro. Dans certains cas, les valeurs Null sont stockées sous forme de valeurs négatives très élevées dans les fichiers de formes. Cela peut aboutir à des résultats inattendus. Reportez-vous à la rubrique Remarques concernant le géotraitement pour la sortie de fichiers de formes pour plus d'informations.

Syntaxe

arcpy.stats.MultiDistanceSpatialClustering(Input_Feature_Class, Output_Table, Number_of_Distance_Bands, {Compute_Confidence_Envelope}, {Display_Results_Graphically}, {Weight_Field}, {Beginning_Distance}, {Distance_Increment}, {Boundary_Correction_Method}, {Study_Area_Method}, {Study_Area_Feature_Class})
ParamètreExplicationType de données
Input_Feature_Class

La classe d'entités sur laquelle doit porter l'analyse.

Feature Layer
Output_Table

La table dans laquelle les résultats de l'analyse doivent être écrits.

Table
Number_of_Distance_Bands

Le nombre de fois qu'il convient d'incrémenter la taille du voisinage et d'effectuer une analyse d'agrégation sur le jeu de données. Le point de départ et la taille de l'incrément sont spécifiés par les paramètres Beginning_Distance et Distance_Increment, respectivement.

Long
Compute_Confidence_Envelope
(Facultatif)

L'enveloppe de confiance est calculée en plaçant aléatoirement des points d'entités (ou des valeurs d'entités) dans la zone d'étude. Le nombre de points/valeurs placés de manière aléatoire est égal au nombre de points trouvés dans la classe d'entités. Chaque jeu de points aléatoires est désigné sous le nom de permutation et l'enveloppe de confiance est créée à partir de ces permutations. Ce paramètre vous permet de spécifier le nombre de permutations à utiliser pour créer l'enveloppe de confiance.

  • 0_PERMUTATIONS_-_NO_CONFIDENCE_ENVELOPEAucune enveloppe de confiance n'est créée.
  • 9_PERMUTATIONSNeufs ensembles de points/valeurs sont placés de façon aléatoire.
  • 99_PERMUTATIONS99 ensembles de points/valeurs sont placés de façon aléatoire.
  • 999_PERMUTATIONS999 ensembles de points/valeurs sont placés de façon aléatoire.
String
Display_Results_Graphically
(Facultatif)

Ce paramètre n'a aucun effet. Il demeure pour assurer la rétrocompatibilité.

  • NO_DISPLAYAucun récapitulatif graphique n'est créé (par défaut).
  • DISPLAY_ITUn récapitulatif graphique est créé sous forme de couche de diagramme.
Boolean
Weight_Field
(Facultatif)

Champ numérique avec des pondérations représentant le nombre d'entités/d'événements à chaque emplacement.

Field
Beginning_Distance
(Facultatif)

La distance à laquelle doit commencer l'analyse d'agrégat et le point de départ de l'incrément. La valeur de ce paramètre doit être définie dans les mêmes unités que celles du système de coordonnées en sortie.

Double
Distance_Increment
(Facultatif)

L'incrément de distance à ajouter lors de chaque itération. La distance utilisée dans l'analyse débute au paramètre Beginning_Distance spécifié et s'incrémente selon la valeur du paramètre Distance_Increment. La valeur de ce paramètre doit être définie dans les mêmes unités que celles du paramètre d'environnement Système de coordonnées en sortie.

Double
Boundary_Correction_Method
(Facultatif)

Méthode à utiliser pour corriger les sous-estimations du nombre de voisins pour les entités proches des tronçons de la zone d'étude.

  • NONEAucune correction des tronçons n'est appliquée. Cependant, si la classe d'entités en entrée possède déjà des points qui se trouvent en dehors des limites de la zone d'étude, ceux-ci sont pris en compte dans le calcul des nombres de voisins pour les entités proches des limites.
  • SIMULATE_OUTER_BOUNDARY_VALUESCette méthode simule les points en dehors de la zone d'étude afin que le nombre de voisins proches des tronçons ne soit pas sous-estimé. Les points simulés sont des "répliques miroir" des points proches des tronçons au sein de la limite de la zone d'étude.
  • REDUCE_ANALYSIS_AREACette méthode réduit la zone d'étude de sorte que certains points se retrouvent en dehors de la limite de la zone d'étude. Les points trouvés hors de la zone d'étude sont utilisés pour calculer les nombres de voisins, mais ils ne sont pas utilisés dans l'analyse de grappe elle-même.
  • RIPLEY_EDGE_CORRECTION_FORMULAPour tous les points (j) voisins du point i, cette méthode détermine si le bord de la zone d'étude est plus proche de i ou si c'est j qui est plus proche de i. Si j est plus proche, un poids limite est affecté au point j. Cette méthode de correction des bords n'est appropriée que pour les zones d'étude carrées ou rectangulaires.
String
Study_Area_Method
(Facultatif)

Spécifie la région à utiliser pour définir la zone d'étude. La fonction K étant sensible aux variations de taille de la zone d'étude, il est important de sélectionner cette valeur avec soin.

  • MINIMUM_ENCLOSING_RECTANGLEUtilise le plus petit rectangle possible entourant tous les points.
  • USER_PROVIDED_STUDY_AREA_FEATURE_CLASSIndique qu'une classe d'entité définissant la zone d'étude sera fournie dans le paramètre Classe d'entités de la zone d'étude.
String
Study_Area_Feature_Class
(Facultatif)

Classe d'entités délimitant la zone sur laquelle la classe d'entités en entrée doit être analysée. Indiqué uniquement si Study_Area_Method = "USER_PROVIDED_STUDY_AREA_FEATURE_CLASS" .

Feature Layer

Sortie dérivée

NomExplicationType de données
Result_Image

Diagramme linéaire synthétisant les résultats de l’outil.

Diagramme

Exemple de code

Exemple 1 d’utilisation de l’outil MultiDistanceSpatialClustering (fenêtre Python)

Le script de fenêtre Python ci-dessous illustre l'utilisation de l'outil MultiDistanceSpatialClustering.

import arcpy
arcpy.env.workspace = r"C:\data"
arcpy.MultiDistanceSpatialClustering_stats("911Calls.shp","kFunResult.dbf", 11,
                                           "0_PERMUTATIONS_-_NO_CONFIDENCE_ENVELOPE",
                                           "NO_DISPLAY", "#", 1000, 200, "REDUCE_ANALYSIS_AREA",
                                           "MINIMUM_ENCLOSING_RECTANGLE", "#")
Exemple 2 d’utilisation de l’outil MultiDistanceSpatialClustering (script autonome)

Le script Python autonome ci-dessous illustre l'utilisation de l'outil MultiDistanceSpatialClustering.

# Use Ripley's K-Function to analyze the spatial distribution of 911
# calls in Portland Oregon 
# Import system modules
import arcpy
# Set property to overwrite existing outputs
arcpy.env.overwriteOutput = True
# Local variables...
workspace = r"C:\Data"
try:
    # Set the current workspace (to avoid having to specify the full path to the feature classes each time)
    arcpy.env.workspace = workspace
    # Set Distance Band Parameters: Analyze clustering of 911 calls from
    # 1000 to 3000 feet by 200 foot increments
    numDistances = 11
    startDistance = 1000.0
    increment = 200.0
    # Process: Run K-Function...
    kFun = arcpy.MultiDistanceSpatialClustering_stats("911Calls.shp",
                        "kFunResult.dbf", numDistances,
                        "0_PERMUTATIONS_-_NO_CONFIDENCE_ENVELOPE", 
                        "NO_DISPLAY", "#", startDistance, increment,
                        "REDUCE_ANALYSIS_AREA",
                        "MINIMUM_ENCLOSING_RECTANGLE", "#")
except:
    # If an error occurred when running the tool, print out the error message.
    print(arcpy.GetMessages())

Environnements

Système de coordonnées en sortie

La géométrie de l'entité est projetée dans le système de coordonnées en sortie avant l'analyse. Par conséquent, les valeurs entrées pour les paramètres Distance de départ et Incrément de distance doivent correspondre à celles spécifiées dans le système de coordonnées en sortie. Tous les calculs mathématiques sont basés sur la référence spatiale du système de coordonnées en sortie.

Informations de licence

  • Basic: Oui
  • Standard: Oui
  • Advanced: Oui

Rubriques connexes