Agrégation basée sur la densité (Statistiques spatiales)

Résumé

Recherche des agrégats d’entités ponctuelles dans le bruit environnant en fonction de leur distribution spatiale.

Pour en savoir plus sur le fonctionnement de l’outil Agrégation basée sur la densité

Illustration

Diagramme d’agrégation basée sur la densité

Utilisation

  • Cet outil extrait les agrégats de vos entités ponctuelles en entrée (Input Point Features) et identifie tout bruit environnant.

  • Il existe trois options pour Clustering Method (Méthode d’agrégation). L’algorithme de distance définie (DBSCAN) recherche les agrégats de points se trouvant à proximité en fonction de la distance de recherche spécifiée. L’algorithme d’ajustement automatique HDBSCAN recherche les agrégats de points similaires à ceux de la méthode DBSCAN, à ceci près qu’il utilise des distances variables ce qui permet de rechercher des agrégats de densité variable selon la probabilité de l’agrégation (c’est-à-dire leur stabilité). L’algorithme de multi-échelles (OPTICS) classe les points en entrée en fonction de la distance la plus courte jusqu’à l’entité suivante. Un diagramme d’accès est alors construit ; les agrégats sont obtenus en fonction du nombre réduit d’entités considérées comme des membres de l’agrégat, une distance de recherche et les caractéristiques du diagramme d’accès (telles que la pente et la hauteur des pics).

  • Cet outil produit une classe d’entités en sortie avec un nouveau champ d’entier nommé CLUSTER_ID montrant l’agrégat auquel appartient chacune des entités. Le rendu par défaut dépend du champ COLOR_ID. Une couleur différente sera assignée à chaque agrégat. Les couleurs seront assignées et répétées de sorte que chaque agrégat soit visuellement distinct des agrégats voisins.

  • Cet outil crée également des messages et des diagrammes pour vous aider à comprendre les caractéristiques des agrégats identifiés. Vous pouvez accéder aux messages en passant le curseur de la souris sur la barre d’avancement, en cliquant sur le bouton de menu contextuel ou en développant la section de messages dans la fenêtre Geoprocessing (Géotraitement). Vous pouvez également accéder aux messages d’une précédente exécution de l’outil Agrégation basée sur la densité via l’historique du géotraitement. Les diagrammes créés sont accessibles dans depuis la fenêtre Contents (Contenu).

  • Pour en savoir plus sur les messages et les diagrammes en sortie ainsi que sur les algorithmes sur lesquels s’appuie cet outil, reportez-vous à la rubrique Fonctionnement de l’agrégation basée sur la densité.

  • Si Self-adjusting (HDBSCAN) (Ajustement automatique [HDBSCAN]) a été choisi pour le paramètre Clustering Method (Méthode d’agrégation), la classe d’entités en sortie contient également les champs suivants : PROB désignant la probabilité selon laquelle l’entité appartient au groupe d’affectation, OUTLIER indiquant que l’entité peut être un point aberrant au sein de son propre agrégat (une valeur élevée indique que l’entité est susceptible d’être un point aberrant) et EXEMPLAR signalant les entités prototypes ou les entités plus représentatives de chaque agrégat.

  • Si Multi-scale (OPTICS) (Multi-échelles [OPTICS]) a été choisi pour le paramètre Clustering Method (Méthode d’agrégation), la classe d’entités en sortie contient également les champs suivants : REACHORDER indiquant la façon dont les entités ponctuelles en entrée (Input Point Features) sont classées en vue de l’analyse et REACHDIST représentant la distance séparant chaque entité de son voisin non visité le plus proche.

  • Pour Defined distance (DBSCAN) (Distance définie [DBSCAN]) et Multi-scale (OPTICS) (Multi-échelles [OPTICS]), la distance de recherche (paramètre Search Distance) est la distance-noyau la plus élevée du jeu de données en excluant les distances-noyau figurant dans le 1 % supérieur (c’est-à-dire en excluant les distances-noyau les plus extrêmes).

  • Lorsque les entités en entrée (option Input Features) ne sont pas projetées (c’est-à-dire, lorsque les coordonnées sont exprimées en degrés, minutes et secondes) ou lorsque le système de coordonnées en sortie est un système de coordonnées géographiques, les distances sont calculées à l’aide des mesures à la corde. Les mesures de distance de corde sont utilisées, car elles sont rapides à calculer et produisent des évaluations fiables des distances géodésiques réelles, du moins pour les points se trouvant à environ 30 degrés les uns des autres. Les distances de corde reposent sur un sphéroïde aplati. Si l’on prend deux points sur la surface de la Terre, la distance de corde qui les sépare est la longueur d’une ligne qui traverse la Terre en trois dimensions pour relier ces deux points. Les distances à la corde sont exprimées en mètres.

    Attention :

    Il est recommandé de projeter les données notamment si votre zone d’étude s’étend au-delà de 30 degrés. Les distances à la corde ne constituent pas une bonne estimation des distance géodésiques au-delà de 30 degrés.

  • Cet outil inclut les valeurs z dans ses calculs si de telles valeurs existent ; les résultats sont en 3D.

  • Cet outil prend en charge le traitement parallèle et utilise 50 pour cent des processeurs disponibles par défaut. Le nombre de processeurs utilisés peut être augmenté ou réduit à l'aide de l'environnement Facteur de traitement parallèle.

Syntaxe

arcpy.stats.DensityBasedClustering(in_features, output_features, cluster_method, min_features_cluster, {search_distance}, cluster_sensitivity)
ParamètreExplicationType de données
in_features

Classe d’entités ponctuelles pour laquelle une agrégation basée sur la densité est effectuée.

Feature Layer
output_features

Classe d’entités en sortie qui reçoit les agrégats finals.

Feature Class
cluster_method

Spécifie la méthode utilisée pour définir les agrégats.

  • DBSCAN Utilise la distance spécifiée pour séparer les agrégats denses du bruit sporadique. DBSCAN est la méthode d’agrégation la plus rapide, mais convient seulement si vous disposez d’une distance très nette qui permet de définir tous les agrégats pouvant être présents. Elle aboutit à des agrégats dont la densité est similaire.
  • HDBSCAN Utilise des distances variables pour séparer les agrégats de densités variables du bruit sporadique. HDBSCAN est la méthode d’agrégation la plus axée sur les données et nécessite de ce fait le moins d’informations saisies par l’utilisateur.
  • OPTICS Utilise la distance entre les voisins et un diagramme d’accès pour séparer les agrégats de densités variables du bruit. OPTICS offre le plus de souplesse en matière d’optimisation des agrégats détectés, même si cette méthode implique de nombreux calculs exigeant un grand nombre de ressources, notamment en ce qui concerne la longue distance de recherche.
String
min_features_cluster

Nombre minimum d’entités requis pour être considéré comme un agrégat. Tout agrégat avec dont le nombre d’entités est inférieur au nombre indiqué est considéré comme étant du bruit.

Long
search_distance
(Facultatif)

Distance maximale à prendre en compte.

Pour Defined distance (Distance définie) (DBSCAN), la valeur Minimum Features per Cluster (Nombre minimum d’entités par agrégat) spécifiée doit se trouver dans la distance définissant l’appartenance à l’agrégat. Les agrégats sont, au minimum, à cette distance les uns des autres. Si une entité se trouve au-delà de cette distance par rapport à l’entité la plus proche dans l’agrégat, elle ne sera pas incluse dans l’agrégat.

Pour Multi-scale (Multi-échelles) (OPTICS), ce paramètre est facultatif et est utilisé comme distance de recherche maximale lors de la création du diagramme d’accès. Pour la méthode OPTICS, le diagramme d’accès, combiné au paramètre Cluster Sensitivity (Sensibilité de l’agrégat), détermine l’appartenance à l’agrégat. Si aucune distance n’est spécifiée, l’outil doit rechercher toutes les distances, ce qui augmente le temps de traitement.

Si elle n’est pas indiquée, la distance par défaut utilisée correspond à la distance-noyau la plus élevée dans le jeu de données, en excluant les distances-noyau figurant dans le 1 pour cent supérieur (les distances-noyau les plus extrêmes).

Linear Unit
cluster_sensitivity

Un entier entre 0 et 100 déterminant la densité des agrégats. Un nombre proche de 100 entraîne un plus grand nombre d’agrégats denses. Un nombre proche de 0 entraîne un moins grand nombre d’agrégats moins compacts. Si vous n’indiquez aucune valeur, l’outil trouvera une valeur de sensibilité à l’aide de la divergence de Kullback-Leibler qui recherche la valeur lorsque l’ajout d’agrégats supplémentaires n’ajoute pas d’informations supplémentaires.

Long

Exemple de code

Exemple 1 d’utilisation de l’outil DensityBasedClustering (fenêtre Python)

Le script de fenêtre Python ci-dessous illustre l'utilisation de l'outil DensityBasedClustering.

import arcpy
arcpy.env.workspace = r"C:\Analysis"
arcpy.DensityBasedClustering_stats("Chicago_Arson", "Arson_HDB", "HDBSCAN", 15)

Le script Python autonome ci-dessous illustre l'utilisation de l'outil DensityBasedClustering.

# Clustering crime incidents in a downtown area using the Density-based Clustering tool
# Import system modules
import arcpy
import os
# Overwrite existing output, by default
arcpy.env.overwriteOutput = True
# Local variables...
workspace = r"E:\working\data.gdb"
arcpy.env.workspace = workspace
# Run Density-based Clustering with the HDBSCAN Cluster Method using a minimum 
# of 15 features per cluster
arcpy.stats.DensityBasedClustering("Chicago_Arson", "Arson_HDB", "HDBSCAN", 15)
# Run Density-based Clustering again using OPTICS with a Search Distance and 
# Cluster Sensitivity to create tighter clusters
arcpy.stats.DensityBasedClustering("Chicago_Arson", "Arson_Optics", "OPTICS", 
                                   15, "1200 Meters", 70)

Informations de licence

  • Basic: Oui
  • Standard: Oui
  • Advanced: Oui

Rubriques connexes