Skip To Content

Dichte-basierte Cluster-Bildung

Zusammenfassung

Findet Cluster aus Punkt-Features im Umfeldrauschen basierend auf deren räumlicher Verteilung.

Weitere Informationen zur Funktionsweise der Dichte-basierten Cluster-Bildung.

Abbildung

Schema zur Dichte-basierten Cluster-Bildung

Verwendung

  • Dieses Werkzeug extrahiert Cluster in Ihren Eingabe-Punkt-Features und identifiziert das Umfeldrauschen.

  • Zur Methode der Cluster-Bildung gibt es drei Optionen. "Definierte Entfernung" verwendet den Algorithmus DBSCAN und findet anhand einer angegebenen Suchentfernung Cluster aus Punkten in enger Nachbarschaft. "Automatische Anpassung" verwendet den Algorithmus HDBSCAN und findet Cluster aus Punkten ähnlich wie DBSCAN, verwendet aber variierende Entfernungen, sodass auch Cluster mit variierenden Dichten basierend auf der Cluster-Wahrscheinlichkeit (oder Stabilität) gefunden werden können. "Mehrere Maßstäbe" verwendet den Algorithmus OPTICS, der die Eingabepunkte entsprechend der kleinsten Entfernung zum nächsten Feature sortiert. Danach wird ein Erreichbarkeitsschema erstellt. Anschließend werden Cluster basierend auf den wenigsten Features, die als Cluster betrachtet werden sollen, einer Suchentfernung und Merkmalen des Erreichbarkeitsschemas (wie zum Beispiel Neigung und Höhe der Spitzen) abgerufen.

  • Dieses Werkzeug generiert eine Ausgabe-Feature-Class mit dem neuen ganzzahligen Feld CLUSTER_ID, das angibt, in welchem Cluster sich jedes Feature befindet. Das Standard-Rendering basiert auf dem Feld COLOR_ID. Dabei wird jede Farbe mehreren Clustern zugewiesen. Durch wiederholtes Zuweisen der Farben lässt sich jeder Cluster visuell von seinen benachbarten Clustern unterscheiden.

  • Mit diesem Werkzeug werden auch Meldungen und Schemas erstellt, mit denen Sie die Merkmale der identifizierten Cluster leichter verstehen. Sie können auf die Meldungen zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen, auf die Pop-out-Schaltfläche klicken oder den Abschnitt "Meldungen" im Bereich Geoverarbeitung erweitern. Sie können auf die Meldungen für eine frühere Ausführung des Werkzeugs Dichte-basierte Cluster-Bildung über den Geoverarbeitungsverlauf zugreifen. Die erstellten Schemas können durch Auswahl der Registerkarte Nach Schemas auflisten Nach Diagrammen auflisten im Bereich Inhalt aufgerufen werden.

  • Weitere Informationen zu den ausgegebenen Meldungen und Schemas finden Sie im Abschnitt Weitere Informationen zur Funktionsweise der Dichte-basierten Cluster-Bildung.

  • Wenn als Methode der Cluster-Bildung die Option Automatische Anpassung (HDBSCAN) ausgewählt wurde, enthält die Ausgabe-Feature-Class auch die folgenden Felder: PROB, das die Wahrscheinlichkeit angibt, mit der das Feature in die zugewiesene Gruppe gehört, OUTLIER, das anzeigt, dass das Feature ein Ausreißer im eigenen Cluster sein könnte (je höher der Wert, desto wahrscheinlicher ist das Feature ein Ausreißer), und EXEMPLAR, das die prototypischsten bzw. repräsentativsten Features für jeden Cluster angibt.

  • Wenn als Methode der Cluster-Bildung die Option Mehrere Maßstäbe (OPTICS) ausgewählt wurde, enthält die Ausgabe-Feature-Class auch die folgenden Felder: REACHORDER, das angibt, wie die Eingabe-Punkt-Features für die Analyse sortiert wurden, und REACHDIST, das die Entfernung zwischen jedem Feature und dessen nächstem nicht besuchten Nachbarn angibt.

  • Für Definierte Entfernung (DBSCAN) und Mehrere Maßstäbe (OPTICS) ist die Standard-Suchentfernung die größte Kernentfernung, die im Dataset gefunden wurde, wobei die Kernentfernungen in den obersten 1 % (d. h. die extremsten Kernentfernungen) ausgeschlossen werden.

  • Wenn die Eingabe-Features nicht projiziert werden (d. h., wenn Koordinaten in Grad, Minuten und Sekunden angegeben werden) oder als Ausgabe-Koordinatensystem ein geographisches Koordinatensystem festgelegt wurde, werden Entfernungen mit Sehnenmesswerten berechnet. Sehnenentfernungsmesswerte werden verwendet, weil sie schnell berechnet werden können und ausgezeichnete Schätzung von echten geodätischen Entfernungen zulassen, zumindest für Punkte innerhalb von 30 Grad voneinander. Sehnenentfernungen basieren auf einem abgeplatteten Sphäroid. Im Fall von zwei beliebigen Punkten auf der Erdoberfläche ist die Sehnenentfernung zwischen diesen die Länge einer Linie, die durch die dreidimensionale Erde führt, um diese beiden Punkte zu verbinden. Sehnenentfernungen werden in Metern angegeben.

    Vorsicht:

    Als Best Practice hat es sich bewährt, die Daten zu projizieren, insbesondere, wenn sich das Untersuchungsgebiet über 30 Grad hinaus erstreckt. Sehnenentfernungen erlauben keine sichere Schätzung von geodätischen Entfernungen über 30 Grad hinaus.

  • Wenn Z-Werte vorhanden sind, werden sie durch dieses Werkzeug in die Berechnungen einbezogen. Dabei entsteht ein Ergebnis in 3D.

Syntax

DensityBasedClustering_stats (in_features, output_features, cluster_method, min_features_cluster, {search_distance}, cluster_sensitivity)
ParameterErklärungDatentyp
in_features

Die Point-Feature-Class, für die die Dichte-basierte Cluster-Bildung durchgeführt wird.

Feature Layer
output_features

Die Ausgabe-Feature-Class zum Empfangen der Cluster-Ergebnisse.

Feature Class
cluster_method

Die Methode, die zum Definieren von Clustern verwendet wird.

  • DBSCAN Verwendet eine angegebene Entfernung, um dichte Cluster vom schwächeren Rauschen zu trennen. DBSCAN ist die schnellste dieser Methoden der Cluster-Bildung, sollte aber nur dann verwendet werden, wenn mit einer sehr klaren Entfernung, mit der sich alle möglicherweise vorhandenen Cluster definieren lassen, gearbeitet werden kann. Dies führt zu Clustern mit ähnlichen Dichten.
  • HDBSCAN Verwendet variierende Entfernungen, um Cluster variierender Dichten vom schwächeren Rauschen zu trennen. HDBSCAN ist die datenabhängigste dieser Methoden der Cluster-Bildung und erfordert die wenigsten Benutzereingaben.
  • OPTICS Verwendet die Entfernung zwischen Nachbarn und ein Erreichbarkeitsschema, um Cluster variierender Dichten vom schwächeren Rauschen zu trennen. OPTICS bietet die meiste Flexibilität in der Feinabstimmung der gefundenen Cluster, ist aber rechenintensiv, vor allem bei einer großen Suchentfernung.
String
min_features_cluster

Die minimale Anzahl Features, die als Cluster betrachtet werden sollen. Ein Cluster mit weniger Features als die angegebene Anzahl wird dann als Rauschen betrachtet.

Long
search_distance
(optional)

Die zu berücksichtigende maximale Entfernung.

Bei Definierte Entfernung (DBSCAN) muss für die Cluster-Mitgliedschaft die angegebene Mindestanzahl der Features pro Cluster innerhalb dieser Entfernung gefunden werden. Einzelne Cluster werden um mindestens diese Entfernung voneinander getrennt. Wenn sich ein Feature in größerer Entfernung vom nächstliegenden Feature im Cluster befindet, wird es nicht in den Cluster aufgenommen.

Bei Mehrere Maßstäbe (OPTICS) ist dieser Parameter optional und wird als maximale Suchentfernung beim Erstellen des Erreichbarkeitsschemas verwendet. Bei OPTICS bestimmt das Erreichbarkeitsschema in Verbindung mit dem Parameter Cluster-Empfindlichkeit die Cluster-Mitgliedschaft. Wenn keine Entfernung angegeben wurde, durchsucht das Werkzeug alle Entfernungen, wodurch sich die Verarbeitungszeit beträchtlich erhöht.

Wenn die Option leer gelassen wird, wird als Standardentfernung die größte Kernentfernung, die im Dataset gefunden wurde, verwendet, wobei die Kernentfernungen in den obersten 1 % (d. h. die extremsten Kernentfernungen) ausgeschlossen werden.

Linear Unit
cluster_sensitivity

Eine ganze Zahl zwischen 1 und 100, die die Kompaktheit von Clustern bestimmt. Je näher die Zahl an 100 liegt, desto mehr Cluster mit größerer Dichte werden gebildet. Je näher die Zahl an 1 liegt, desto weniger Cluster mit kleinerer Dichte werden gebildet.

Long

Codebeispiel

DensityBasedClustering – Beispiel 1 (Python-Fenster)

Das folgende Skript veranschaulicht die Verwendung des Werkzeugs DensityBasedClustering im Python-Fenster.

import arcpy
arcpy.env.workspace = r"C:\Analysis"
arcpy.DensityBasedClustering_stats("Chicago_Arson", "Arson_HDB", "HDBSCAN", 15)

Das folgende eigenständige Python-Skript veranschaulicht, wie Sie das Werkzeug DensityBasedClustering verwenden.

# Clustering crime incidents in a downtown area using the Density-based Clustering tool
# Import system modules
import arcpy
import os

# Overwrite existing output, by default
arcpy.env.overwriteOutput = True
# Local variables...
workspace = r"E:\working\data.gdb"
arcpy.env.workspace = workspace

# Run Density-based Clustering with the HDBSCAN Cluster Method using a minimum 
# of 15 features per cluster
arcpy.stats.DensityBasedClustering("Chicago_Arson", "Arson_HDB", "HDBSCAN", 15)
# Run Density-based Clustering again using OPTICS with a Search Distance and 
# Cluster Sensitivity to create tighter clusters
arcpy.stats.DensityBasedClustering("Chicago_Arson", "Arson_Optics", "OPTICS", 
                                   15, "1200 Meters", 70)

Lizenzinformationen

  • Basic: Ja
  • Standard: Ja
  • Advanced: Ja

Verwandte Themen