Résumé
Recherche des agrégats d’entités ponctuelles dans le bruit environnant en fonction de leur distribution spatiale.
Pour en savoir plus sur le fonctionnement de l’outil Agrégation basée sur la densité
Illustration
Utilisation
Cet outil extrait les agrégats de vos entités ponctuelles en entrée (Input Point Features) et identifie tout bruit environnant.
Il existe trois options pour Clustering Method (Méthode d’agrégation). L’algorithme de distance définie (DBSCAN) recherche les agrégats de points se trouvant à proximité en fonction de la distance de recherche spécifiée. L’algorithme d’ajustement automatique HDBSCAN recherche les agrégats de points similaires à ceux de la méthode DBSCAN, à ceci près qu’il utilise des distances variables ce qui permet de rechercher des agrégats de densité variable selon la probabilité de l’agrégation (c’est-à-dire leur stabilité). L’algorithme de multi-échelles (OPTICS) classe les points en entrée en fonction de la distance la plus courte jusqu’à l’entité suivante. Un diagramme d’accès est alors construit ; les agrégats sont obtenus en fonction du nombre réduit d’entités considérées comme des membres de l’agrégat, une distance de recherche et les caractéristiques du diagramme d’accès (telles que la pente et la hauteur des pics).
Cet outil produit une classe d’entités en sortie avec un nouveau champ d’entier nommé CLUSTER_ID montrant l’agrégat auquel appartient chacune des entités. Le rendu par défaut dépend du champ COLOR_ID. Une couleur différente sera assignée à chaque agrégat. Les couleurs seront assignées et répétées de sorte que chaque agrégat soit visuellement distinct des agrégats voisins.
-
Cet outil crée également des messages et des diagrammes pour vous aider à comprendre les caractéristiques des agrégats identifiés. Vous pouvez accéder aux messages en passant le curseur de la souris sur la barre d’avancement, en cliquant sur le bouton de menu contextuel ou en développant la section de messages dans la fenêtre Geoprocessing (Géotraitement). Vous pouvez également accéder aux messages d’une précédente exécution de l’outil Agrégation basée sur la densité via l’historique du géotraitement. Les diagrammes créés sont accessibles dans depuis la fenêtre Contents (Contenu).
Pour en savoir plus sur les messages et les diagrammes en sortie ainsi que sur les algorithmes sur lesquels s’appuie cet outil, reportez-vous à la rubrique Fonctionnement de l’agrégation basée sur la densité.
Si Self-adjusting (HDBSCAN) (Ajustement automatique [HDBSCAN]) a été choisi pour le paramètre Clustering Method (Méthode d’agrégation), la classe d’entités en sortie contient également les champs suivants : PROB désignant la probabilité selon laquelle l’entité appartient au groupe d’affectation, OUTLIER indiquant que l’entité peut être un point aberrant au sein de son propre agrégat (une valeur élevée indique que l’entité est susceptible d’être un point aberrant) et EXEMPLAR signalant les entités prototypes ou les entités plus représentatives de chaque agrégat.
Si Multi-scale (OPTICS) (Multi-échelles [OPTICS]) a été choisi pour le paramètre Clustering Method (Méthode d’agrégation), la classe d’entités en sortie contient également les champs suivants : REACHORDER indiquant la façon dont les entités ponctuelles en entrée (Input Point Features) sont classées en vue de l’analyse et REACHDIST représentant la distance séparant chaque entité de son voisin non visité le plus proche.
Pour Defined distance (DBSCAN) (Distance définie [DBSCAN]) et Multi-scale (OPTICS) (Multi-échelles [OPTICS]), la distance de recherche (paramètre Search Distance) est la distance-noyau la plus élevée du jeu de données en excluant les distances-noyau figurant dans le 1 % supérieur (c’est-à-dire en excluant les distances-noyau les plus extrêmes).
-
Lorsque les entités en entrée (option Input Features) ne sont pas projetées (c’est-à-dire, lorsque les coordonnées sont exprimées en degrés, minutes et secondes) ou lorsque le système de coordonnées en sortie est un système de coordonnées géographiques, les distances sont calculées à l’aide des mesures à la corde. Les mesures de distance de corde sont utilisées, car elles sont rapides à calculer et produisent des évaluations fiables des distances géodésiques réelles, du moins pour les points se trouvant à environ 30 degrés les uns des autres. Les distances de corde reposent sur un sphéroïde aplati. Si l’on prend deux points sur la surface de la Terre, la distance de corde qui les sépare est la longueur d’une ligne qui traverse la Terre en trois dimensions pour relier ces deux points. Les distances à la corde sont exprimées en mètres.
Attention :
Il est recommandé de projeter les données notamment si votre zone d’étude s’étend au-delà de 30 degrés. Les distances à la corde ne constituent pas une bonne estimation des distance géodésiques au-delà de 30 degrés.
Cet outil inclut les valeurs z dans ses calculs si de telles valeurs existent ; les résultats sont en 3D.
Cet outil prend en charge le traitement parallèle et utilise 50 pour cent des processeurs disponibles par défaut. Le nombre de processeurs utilisés peut être augmenté ou réduit à l'aide de l'environnement Facteur de traitement parallèle.
Syntaxe
DensityBasedClustering(in_features, output_features, cluster_method, min_features_cluster, {search_distance}, cluster_sensitivity)
Paramètre | Explication | Type de données |
in_features | Classe d’entités ponctuelles pour laquelle une agrégation basée sur la densité est effectuée. | Feature Layer |
output_features | Classe d’entités en sortie qui reçoit les agrégats finals. | Feature Class |
cluster_method | Spécifie la méthode utilisée pour définir les agrégats.
| String |
min_features_cluster | Nombre minimum d’entités requis pour être considéré comme un agrégat. Tout agrégat avec dont le nombre d’entités est inférieur au nombre indiqué est considéré comme étant du bruit. | Long |
search_distance (Facultatif) | Distance maximale à prendre en compte. Pour Defined distance (Distance définie) (DBSCAN), la valeur Minimum Features per Cluster (Nombre minimum d’entités par agrégat) spécifiée doit se trouver dans la distance définissant l’appartenance à l’agrégat. Les agrégats sont, au minimum, à cette distance les uns des autres. Si une entité se trouve au-delà de cette distance par rapport à l’entité la plus proche dans l’agrégat, elle ne sera pas incluse dans l’agrégat. Pour Multi-scale (Multi-échelles) (OPTICS), ce paramètre est facultatif et est utilisé comme distance de recherche maximale lors de la création du diagramme d’accès. Pour la méthode OPTICS, le diagramme d’accès, combiné au paramètre Cluster Sensitivity (Sensibilité de l’agrégat), détermine l’appartenance à l’agrégat. Si aucune distance n’est spécifiée, l’outil doit rechercher toutes les distances, ce qui augmente le temps de traitement. Si elle n’est pas indiquée, la distance par défaut utilisée correspond à la distance-noyau la plus élevée dans le jeu de données, en excluant les distances-noyau figurant dans le 1 pour cent supérieur (les distances-noyau les plus extrêmes). | Linear Unit |
cluster_sensitivity | Un entier entre 0 et 100 déterminant la densité des agrégats. Un nombre proche de 100 entraîne un plus grand nombre d’agrégats denses. Un nombre proche de 0 entraîne un moins grand nombre d’agrégats moins compacts. Si vous n’indiquez aucune valeur, l’outil trouvera une valeur de sensibilité à l’aide de la divergence de Kullback-Leibler qui recherche la valeur lorsque l’ajout d’agrégats supplémentaires n’ajoute pas d’informations supplémentaires. | Long |
Exemple de code
Le script de fenêtre Python ci-dessous illustre l'utilisation de l'outil DensityBasedClustering.
import arcpy
arcpy.env.workspace = r"C:\Analysis"
arcpy.DensityBasedClustering_stats("Chicago_Arson", "Arson_HDB", "HDBSCAN", 15)
Le script Python autonome ci-dessous illustre l'utilisation de l'outil DensityBasedClustering.
# Clustering crime incidents in a downtown area using the Density-based Clustering tool
# Import system modules
import arcpy
import os
# Overwrite existing output, by default
arcpy.env.overwriteOutput = True
# Local variables...
workspace = r"E:\working\data.gdb"
arcpy.env.workspace = workspace
# Run Density-based Clustering with the HDBSCAN Cluster Method using a minimum
# of 15 features per cluster
arcpy.stats.DensityBasedClustering("Chicago_Arson", "Arson_HDB", "HDBSCAN", 15)
# Run Density-based Clustering again using OPTICS with a Search Distance and
# Cluster Sensitivity to create tighter clusters
arcpy.stats.DensityBasedClustering("Chicago_Arson", "Arson_Optics", "OPTICS",
15, "1200 Meters", 70)
Environnements
Informations de licence
- Basic: Oui
- Standard: Oui
- Advanced: Oui
Rubriques connexes
Vous avez un commentaire à formuler concernant cette rubrique ?