Dichte-basierte Cluster-Bildung (Spatial Statistics)

Zusammenfassung

Findet Cluster aus Punkt-Features im Umfeldrauschen basierend auf deren räumlicher Verteilung.

Weitere Informationen zur Funktionsweise der Dichte-basierten Cluster-Bildung

Abbildung

Schema zur Dichte-basierten Cluster-Bildung

Verwendung

  • Dieses Werkzeug extrahiert Cluster aus den Eingabe-Punkt-Features und identifiziert das Umfeldrauschen.

  • Zur Methode der Cluster-Bildung gibt es drei Optionen. Der Algorithmus "Definierte Entfernung (DBSCAN)" findet anhand einer angegebenen Suchentfernung Cluster aus Punkten in enger Nachbarschaft. Ähnlich wie DBSCAN findet der Algorithmus "Automatische Anpassung (HDBSCAN)" Cluster aus Punkten, verwendet aber variierende Entfernungen, sodass auch Cluster mit variierenden Dichten basierend auf der Cluster-Wahrscheinlichkeit (oder Stabilität) gefunden werden können. Der Algorithmus "Mehrere Maßstäbe (OPTICS)" sortiert die Eingabepunkte entsprechend der kleinsten Entfernung zum nächsten Feature. Danach wird ein Erreichbarkeitsschema erstellt. Anschließend werden Cluster basierend auf den wenigsten Features, die als Cluster betrachtet werden sollen, einer Suchentfernung und Merkmalen des Erreichbarkeitsschemas (wie zum Beispiel Neigung und Höhe der Spitzen) abgerufen.

  • Dieses Werkzeug generiert eine Ausgabe-Feature-Class mit dem neuen ganzzahligen Feld CLUSTER_ID, das angibt, in welchem Cluster sich jedes Feature befindet. Das Standard-Rendering basiert auf dem Feld COLOR_ID. Dabei wird jede Farbe mehreren Clustern zugewiesen. Durch wiederholtes Zuweisen der Farben lässt sich jeder Cluster visuell von seinen benachbarten Clustern unterscheiden.

  • Mit diesem Werkzeug werden auch Meldungen und Schemas erstellt, mit denen Sie die Merkmale der identifizierten Cluster leichter verstehen. Sie können auf diese Meldungen zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen, auf die Pop-out-Schaltfläche klicken oder den Abschnitt "Meldungen" im Bereich Geoverarbeitung erweitern. Sie können über den Geoverarbeitungsverlauf auch auf die Meldungen einer vorherigen Ausführung des Werkzeugs Dichte-basierte Cluster-Bildung zugreifen.Die erstellten Schemas können über den Bereich Inhalt aufgerufen werden.

  • Weitere Informationen zu den ausgegebenen Meldungen und Schemas sowie zu den Algorithmen, die in diesem Werkzeug im Hintergrund ausgeführt werden, finden Sie im Abschnitt Funktionsweise des Werkzeugs "Dichte-basierte Cluster-Bildung".

  • Wenn für Methode der Cluster-Bildung die Option Automatische Anpassung (HDBSCAN) ausgewählt wurde, enthält die Ausgabe-Feature-Class auch folgende Felder: das Feld PROB, das die Wahrscheinlichkeit angibt, mit der das Feature in die zugewiesene Gruppe gehört, das Feld OUTLIER, das anzeigt, dass das Feature ein Ausreißer im eigenen Cluster sein könnte (je höher der Wert, desto wahrscheinlicher ist das Feature ein Ausreißer), und das Feld EXEMPLAR, das die prototypischsten bzw. repräsentativsten Features für jeden Cluster angibt.

  • Wenn für Methode der Cluster-Bildung die Option Mehrere Maßstäbe (OPTICS) ausgewählt wurde, enthält die Ausgabe-Feature-Class auch das Feld REACHORDER, das angibt, wie die Eingabe-Punkt-Features für die Analyse sortiert wurden, und das Feld REACHDIST, das die Entfernung zwischen jedem Feature und dessen nächstem nicht besuchten Nachbarn angibt.

  • Für Definierte Entfernung (DBSCAN) und Mehrere Maßstäbe (OPTICS) ist die Standard-Suchentfernung die größte Kernentfernung, die im Dataset gefunden wurde, wobei die Kernentfernungen in den obersten 1 % (d. h. die extremsten Kernentfernungen) ausgeschlossen werden.

  • Wenn die Eingabe-Features nicht projiziert werden (d. h., wenn Koordinaten in Grad, Minuten und Sekunden angegeben werden) oder als Ausgabe-Koordinatensystem ein geographisches Koordinatensystem festgelegt wurde, werden Entfernungen mit Sehnenmesswerten berechnet. Sehnenentfernungsmesswerte werden verwendet, weil sie schnell berechnet werden können und ausgezeichnete Schätzungen von echten geodätischen Entfernungen zulassen, zumindest für Punkte innerhalb von 30 Grad voneinander. Sehnenentfernungen basieren auf einem abgeplatteten Sphäroid. Im Fall von zwei beliebigen Punkten auf der Erdoberfläche ist die Sehnenentfernung zwischen diesen die Länge einer Linie, die durch die dreidimensionale Erde führt, um diese beiden Punkte zu verbinden. Sehnenentfernungen werden in Metern angegeben.

    Vorsicht:

    Als Best Practice hat es sich bewährt, die Daten zu projizieren, insbesondere, wenn sich das Untersuchungsgebiet über 30 Grad hinaus erstreckt. Sehnenentfernungen erlauben keine sichere Schätzung von geodätischen Entfernungen über 30 Grad hinaus.

  • Wenn Z-Werte vorhanden sind, werden sie durch dieses Werkzeug in die Berechnungen einbezogen. Dabei entsteht ein Ergebnis in 3D.

  • Dieses Werkzeug unterstützt eine Parallelverarbeitung und nutzt standardmäßig 50 Prozent der verfügbaren Prozessoren. Die Anzahl der Prozessoren kann mit der Umgebung Faktor für parallele Verarbeitung erhöht oder verringert werden.

Syntax

arcpy.stats.DensityBasedClustering(in_features, output_features, cluster_method, min_features_cluster, {search_distance}, cluster_sensitivity)
ParameterErklärungDatentyp
in_features

Die Point-Feature-Class, für die die Dichte-basierte Cluster-Bildung durchgeführt wird.

Feature Layer
output_features

Die Ausgabe-Feature-Class zum Empfangen der Cluster-Ergebnisse.

Feature Class
cluster_method

Gibt die Methode zum Definieren von Clustern an.

  • DBSCAN Verwendet eine angegebene Entfernung, um dichte Cluster vom schwächeren Rauschen zu trennen. DBSCAN ist die schnellste dieser Methoden der Cluster-Bildung, sollte aber nur dann verwendet werden, wenn mit einer sehr klaren Entfernung, mit der sich alle möglicherweise vorhandenen Cluster definieren lassen, gearbeitet werden kann. Dies führt zu Clustern mit ähnlichen Dichten.
  • HDBSCAN Verwendet variierende Entfernungen, um Cluster variierender Dichten vom schwächeren Rauschen zu trennen. HDBSCAN ist die datenabhängigste dieser Methoden der Cluster-Bildung und erfordert die wenigsten Benutzereingaben.
  • OPTICS Verwendet die Entfernung zwischen Nachbarn und ein Erreichbarkeitsschema, um Cluster variierender Dichten vom Rauschen zu trennen. OPTICS bietet die meiste Flexibilität in der Feinabstimmung der gefundenen Cluster, ist aber rechenintensiv, vor allem bei einer großen Suchentfernung.
String
min_features_cluster

Die minimale Anzahl Features, die als Cluster betrachtet werden sollen. Ein Cluster mit weniger Features als die angegebene Anzahl wird dann als Rauschen betrachtet.

Long
search_distance
(optional)

Die zu berücksichtigende maximale Entfernung.

Bei Definierte Entfernung (DBSCAN) muss für die Cluster-Mitgliedschaft die angegebene Minimale Anzahl Features pro Cluster innerhalb dieser Entfernung gefunden werden. Einzelne Cluster werden um mindestens diese Entfernung voneinander getrennt. Wenn sich ein Feature in größerer Entfernung vom nächstliegenden Feature im Cluster befindet, wird es nicht in den Cluster aufgenommen.

Bei Mehrere Maßstäbe (OPTICS) ist dieser Parameter optional und wird als maximale Suchentfernung beim Erstellen des Erreichbarkeitsschemas verwendet. Bei OPTICS bestimmt das Erreichbarkeitsschema in Verbindung mit dem Parameter Cluster-Empfindlichkeit die Cluster-Mitgliedschaft. Wenn keine Entfernung angegeben wurde, durchsucht das Werkzeug alle Entfernungen, wodurch sich die Verarbeitungszeit erhöht.

Wenn die Option leer gelassen wird, wird als Standardentfernung die größte Kernentfernung, die im Dataset gefunden wurde, verwendet, wobei die Kernentfernungen in den obersten 1 % (d. h. die extremsten Kernentfernungen) ausgeschlossen werden.

Linear Unit
cluster_sensitivity

Eine ganze Zahl zwischen 0 und 100, die die Kompaktheit von Clustern bestimmt. Je näher die Zahl an 100 liegt, desto mehr Cluster mit größerer Dichte werden gebildet. Liegt die Zahl näher an 0, werden weniger Cluster bei geringerer Dichte gebildet. Wird hier nichts angegeben, sucht das Werkzeug mit der Kullback-Leibler-Divergenz nach einem Empfindlichkeitswert. Damit wird der Wert ermittelt, bei dem durch das Hinzufügen weiterer Cluster keine zusätzlichen Informationen hinzugefügt werden.

Long

Codebeispiel

DensityBasedClustering – Beispiel 1 (Python-Fenster)

Das folgende Skript veranschaulicht die Verwendung des Werkzeugs DensityBasedClustering im Python-Fenster.

import arcpy
arcpy.env.workspace = r"C:\Analysis"
arcpy.DensityBasedClustering_stats("Chicago_Arson", "Arson_HDB", "HDBSCAN", 15)

Das folgende eigenständige Python-Skript veranschaulicht, wie Sie das Werkzeug DensityBasedClustering verwenden.

# Clustering crime incidents in a downtown area using the Density-based Clustering tool
# Import system modules
import arcpy
import os
# Overwrite existing output, by default
arcpy.env.overwriteOutput = True
# Local variables...
workspace = r"E:\working\data.gdb"
arcpy.env.workspace = workspace
# Run Density-based Clustering with the HDBSCAN Cluster Method using a minimum 
# of 15 features per cluster
arcpy.stats.DensityBasedClustering("Chicago_Arson", "Arson_HDB", "HDBSCAN", 15)
# Run Density-based Clustering again using OPTICS with a Search Distance and 
# Cluster Sensitivity to create tighter clusters
arcpy.stats.DensityBasedClustering("Chicago_Arson", "Arson_Optics", "OPTICS", 
                                   15, "1200 Meters", 70)

Lizenzinformationen

  • Basic: Ja
  • Standard: Ja
  • Advanced: Ja

Verwandte Themen