Zusammenfassung
Findet Cluster aus Punkt-Features im Umfeldrauschen basierend auf deren räumlicher Verteilung.
Weitere Informationen zur Funktionsweise der Dichte-basierten Cluster-Bildung
Abbildung
Verwendung
Dieses Werkzeug extrahiert Cluster aus den Eingabe-Punkt-Features und identifiziert das Umfeldrauschen.
Zur Methode der Cluster-Bildung gibt es drei Optionen. Der Algorithmus "Definierte Entfernung (DBSCAN)" findet anhand einer angegebenen Suchentfernung Cluster aus Punkten in enger Nachbarschaft. Ähnlich wie DBSCAN findet der Algorithmus "Automatische Anpassung (HDBSCAN)" Cluster aus Punkten, verwendet aber variierende Entfernungen, sodass auch Cluster mit variierenden Dichten basierend auf der Cluster-Wahrscheinlichkeit (oder Stabilität) gefunden werden können. Der Algorithmus "Mehrere Maßstäbe (OPTICS)" sortiert die Eingabepunkte entsprechend der kleinsten Entfernung zum nächsten Feature. Danach wird ein Erreichbarkeitsschema erstellt. Anschließend werden Cluster basierend auf den wenigsten Features, die als Cluster betrachtet werden sollen, einer Suchentfernung und Merkmalen des Erreichbarkeitsschemas (wie zum Beispiel Neigung und Höhe der Spitzen) abgerufen.
Dieses Werkzeug generiert eine Ausgabe-Feature-Class mit dem neuen ganzzahligen Feld CLUSTER_ID, das angibt, in welchem Cluster sich jedes Feature befindet. Das Standard-Rendering basiert auf dem Feld COLOR_ID. Dabei wird jede Farbe mehreren Clustern zugewiesen. Durch wiederholtes Zuweisen der Farben lässt sich jeder Cluster visuell von seinen benachbarten Clustern unterscheiden.
-
Mit diesem Werkzeug werden auch Meldungen und Schemas erstellt, mit denen Sie die Merkmale der identifizierten Cluster leichter verstehen. Sie können auf diese Meldungen zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen, auf die Pop-out-Schaltfläche klicken oder den Abschnitt "Meldungen" im Bereich Geoverarbeitung erweitern. Sie können über den Geoverarbeitungsverlauf auch auf die Meldungen einer vorherigen Ausführung des Werkzeugs Dichte-basierte Cluster-Bildung zugreifen.Die erstellten Schemas können über den Bereich Inhalt aufgerufen werden.
Weitere Informationen zu den ausgegebenen Meldungen und Schemas sowie zu den Algorithmen, die in diesem Werkzeug im Hintergrund ausgeführt werden, finden Sie im Abschnitt Funktionsweise des Werkzeugs "Dichte-basierte Cluster-Bildung".
Wenn für Methode der Cluster-Bildung die Option Automatische Anpassung (HDBSCAN) ausgewählt wurde, enthält die Ausgabe-Feature-Class auch folgende Felder: das Feld PROB, das die Wahrscheinlichkeit angibt, mit der das Feature in die zugewiesene Gruppe gehört, das Feld OUTLIER, das anzeigt, dass das Feature ein Ausreißer im eigenen Cluster sein könnte (je höher der Wert, desto wahrscheinlicher ist das Feature ein Ausreißer), und das Feld EXEMPLAR, das die prototypischsten bzw. repräsentativsten Features für jeden Cluster angibt.
Wenn für Methode der Cluster-Bildung die Option Mehrere Maßstäbe (OPTICS) ausgewählt wurde, enthält die Ausgabe-Feature-Class auch das Feld REACHORDER, das angibt, wie die Eingabe-Punkt-Features für die Analyse sortiert wurden, und das Feld REACHDIST, das die Entfernung zwischen jedem Feature und dessen nächstem nicht besuchten Nachbarn angibt.
Für Definierte Entfernung (DBSCAN) und Mehrere Maßstäbe (OPTICS) ist die Standard-Suchentfernung die größte Kernentfernung, die im Dataset gefunden wurde, wobei die Kernentfernungen in den obersten 1 % (d. h. die extremsten Kernentfernungen) ausgeschlossen werden.
-
Wenn die Eingabe-Features nicht projiziert werden (d. h., wenn Koordinaten in Grad, Minuten und Sekunden angegeben werden) oder als Ausgabe-Koordinatensystem ein geographisches Koordinatensystem festgelegt wurde, werden Entfernungen mit Sehnenmesswerten berechnet. Sehnenentfernungsmesswerte werden verwendet, weil sie schnell berechnet werden können und ausgezeichnete Schätzungen von echten geodätischen Entfernungen zulassen, zumindest für Punkte innerhalb von 30 Grad voneinander. Sehnenentfernungen basieren auf einem abgeplatteten Sphäroid. Im Fall von zwei beliebigen Punkten auf der Erdoberfläche ist die Sehnenentfernung zwischen diesen die Länge einer Linie, die durch die dreidimensionale Erde führt, um diese beiden Punkte zu verbinden. Sehnenentfernungen werden in Metern angegeben.
Vorsicht:
Als Best Practice hat es sich bewährt, die Daten zu projizieren, insbesondere, wenn sich das Untersuchungsgebiet über 30 Grad hinaus erstreckt. Sehnenentfernungen erlauben keine sichere Schätzung von geodätischen Entfernungen über 30 Grad hinaus.
Wenn Z-Werte vorhanden sind, werden sie durch dieses Werkzeug in die Berechnungen einbezogen. Dabei entsteht ein Ergebnis in 3D.
Dieses Werkzeug unterstützt eine Parallelverarbeitung und nutzt standardmäßig 50 Prozent der verfügbaren Prozessoren. Die Anzahl der Prozessoren kann mit der Umgebung Faktor für parallele Verarbeitung erhöht oder verringert werden.
Syntax
arcpy.stats.DensityBasedClustering(in_features, output_features, cluster_method, min_features_cluster, {search_distance}, cluster_sensitivity)
Parameter | Erklärung | Datentyp |
in_features | Die Point-Feature-Class, für die die Dichte-basierte Cluster-Bildung durchgeführt wird. | Feature Layer |
output_features | Die Ausgabe-Feature-Class zum Empfangen der Cluster-Ergebnisse. | Feature Class |
cluster_method | Gibt die Methode zum Definieren von Clustern an.
| String |
min_features_cluster | Die minimale Anzahl Features, die als Cluster betrachtet werden sollen. Ein Cluster mit weniger Features als die angegebene Anzahl wird dann als Rauschen betrachtet. | Long |
search_distance (optional) | Die zu berücksichtigende maximale Entfernung. Bei Definierte Entfernung (DBSCAN) muss für die Cluster-Mitgliedschaft die angegebene Minimale Anzahl Features pro Cluster innerhalb dieser Entfernung gefunden werden. Einzelne Cluster werden um mindestens diese Entfernung voneinander getrennt. Wenn sich ein Feature in größerer Entfernung vom nächstliegenden Feature im Cluster befindet, wird es nicht in den Cluster aufgenommen. Bei Mehrere Maßstäbe (OPTICS) ist dieser Parameter optional und wird als maximale Suchentfernung beim Erstellen des Erreichbarkeitsschemas verwendet. Bei OPTICS bestimmt das Erreichbarkeitsschema in Verbindung mit dem Parameter Cluster-Empfindlichkeit die Cluster-Mitgliedschaft. Wenn keine Entfernung angegeben wurde, durchsucht das Werkzeug alle Entfernungen, wodurch sich die Verarbeitungszeit erhöht. Wenn die Option leer gelassen wird, wird als Standardentfernung die größte Kernentfernung, die im Dataset gefunden wurde, verwendet, wobei die Kernentfernungen in den obersten 1 % (d. h. die extremsten Kernentfernungen) ausgeschlossen werden. | Linear Unit |
cluster_sensitivity | Eine ganze Zahl zwischen 0 und 100, die die Kompaktheit von Clustern bestimmt. Je näher die Zahl an 100 liegt, desto mehr Cluster mit größerer Dichte werden gebildet. Liegt die Zahl näher an 0, werden weniger Cluster bei geringerer Dichte gebildet. Wird hier nichts angegeben, sucht das Werkzeug mit der Kullback-Leibler-Divergenz nach einem Empfindlichkeitswert. Damit wird der Wert ermittelt, bei dem durch das Hinzufügen weiterer Cluster keine zusätzlichen Informationen hinzugefügt werden. | Long |
Codebeispiel
Das folgende Skript veranschaulicht die Verwendung des Werkzeugs DensityBasedClustering im Python-Fenster.
import arcpy
arcpy.env.workspace = r"C:\Analysis"
arcpy.DensityBasedClustering_stats("Chicago_Arson", "Arson_HDB", "HDBSCAN", 15)
Das folgende eigenständige Python-Skript veranschaulicht, wie Sie das Werkzeug DensityBasedClustering verwenden.
# Clustering crime incidents in a downtown area using the Density-based Clustering tool
# Import system modules
import arcpy
import os
# Overwrite existing output, by default
arcpy.env.overwriteOutput = True
# Local variables...
workspace = r"E:\working\data.gdb"
arcpy.env.workspace = workspace
# Run Density-based Clustering with the HDBSCAN Cluster Method using a minimum
# of 15 features per cluster
arcpy.stats.DensityBasedClustering("Chicago_Arson", "Arson_HDB", "HDBSCAN", 15)
# Run Density-based Clustering again using OPTICS with a Search Distance and
# Cluster Sensitivity to create tighter clusters
arcpy.stats.DensityBasedClustering("Chicago_Arson", "Arson_Optics", "OPTICS",
15, "1200 Meters", 70)
Lizenzinformationen
- Basic: Ja
- Standard: Ja
- Advanced: Ja