Dichte-basierte Cluster-Bildung (Spatial Statistics)

Zusammenfassung

Findet Cluster aus Punkt-Features im Umfeldrauschen basierend auf deren räumlicher Verteilung. Die Zeit kann auch integriert werden, um Raum-Zeit-Cluster zu finden.

Weitere Informationen zur Funktionsweise der Dichte-basierten Cluster-Bildung

Abbildung

Beispiel für das Werkzeug "Dichte-basierte Cluster-Bildung"

Verwendung

  • Dieses Werkzeug extrahiert Cluster aus dem Parameterwert Eingabe-Punkt-Features und identifiziert das Umfeldrauschen.

  • Für den Parameter Methode der Cluster-Bildung gibt es drei Optionen. Der Algorithmus Definierte Entfernung (DBSCAN) findet anhand einer angegebenen Suchentfernung Cluster aus Punkten in enger Nachbarschaft. Ähnlich wie DBSCAN findet der Algorithmus Automatische Anpassung (HDBSCAN) Cluster aus Punkten, verwendet aber variierende Entfernungen, sodass auch Cluster mit variierenden Dichten basierend auf der Cluster-Wahrscheinlichkeit (oder Cluster-Stabilität) gefunden werden können. Der Algorithmus Mehrere Maßstäbe (OPTICS) sortiert die Eingabepunkte entsprechend der kleinsten Entfernung zum nächsten Punkt. Danach wird ein Erreichbarkeitsschema erstellt. Anschließend werden Cluster basierend auf den wenigsten Punkten, die als Cluster betrachtet werden sollen, einer Suchentfernung und Merkmalen des Erreichbarkeitsschemas (wie zum Beispiel Neigung und Höhe der Spitzen) abgerufen.

  • Dieses Werkzeug generiert eine Ausgabe-Feature-Class mit dem neuen ganzzahligen Feld CLUSTER_ID, das angibt, in welchem Cluster sich jeder Punkt befindet. Das Standard-Rendering basiert auf dem Feld COLOR_ID. Dabei wird jede Farbe mehreren Clustern zugewiesen. Durch wiederholtes Zuweisen der Farben lässt sich jeder Cluster visuell von seinen benachbarten Clustern unterscheiden.

  • Mit diesem Werkzeug werden auch Meldungen und Schemas erstellt, mit denen Sie die Merkmale der identifizierten Cluster leichter verstehen. Sie können auf diese Meldungen zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen, auf die Pop-out-Schaltfläche klicken oder den Abschnitt "Meldungen" im Bereich Geoverarbeitung erweitern. Sie können über den Geoverarbeitungsverlauf auch auf die Meldungen einer vorherigen Ausführung des Werkzeugs Dichte-basierte Cluster-Bildung zugreifen. Die erstellten Schemas können über den Bereich Inhalt aufgerufen werden.

  • Weitere Informationen zu den Ausgabemeldungen und -diagrammen sowie zu den Algorithmen, die dieses Werkzeug verwendet, finden Sie im Abschnitt Funktionsweise des Werkzeugs "Dichte-basierte Cluster-Bildung".

  • Wenn für den Parameter Methode der Cluster-Bildung die Option Automatische Anpassung (HDBSCAN) ausgewählt wurde, enthält die Ausgabe-Feature-Class auch folgende Felder: das Feld PROB, das die Wahrscheinlichkeit angibt, mit der der Punkt in die zugewiesene Gruppe gehört, das Feld OUTLIER, das anzeigt, dass der Punkt ein Ausreißer im eigenen Cluster sein könnte (je höher der Wert, desto wahrscheinlicher ist der Punkt ein Ausreißer), und das Feld EXEMPLAR, das die prototypischsten bzw. repräsentativsten Punkte für jeden Cluster angibt.

  • Wenn für den Parameter Methode der Cluster-Bildung die Option Mehrere Maßstäbe (OPTICS) ausgewählt wurde, enthält die Ausgabe-Feature-Class auch das Feld REACHORDER, das angibt, wie die Eingabe-Punkt-Features für die Analyse sortiert wurden, und das Feld REACHDIST, das die Entfernung zwischen jedem Punkt und dessen nächstem nicht besuchten Nachbarn angibt.

  • Für die Optionen Definierte Entfernung (DBSCAN) und Mehrere Maßstäbe (OPTICS) des Parameters Methode der Cluster-Bildung ist die Standardeinstellung des Parameterwertes Suchentfernung die größte Kernentfernung, die im Dataset gefunden wurde, wobei die Kernentfernungen in den obersten 1 % (d. h. die extremsten Kernentfernungen) ausgeschlossen werden.

  • Für die Optionen Definierte Entfernung (DBSCAN) und Mehrere Maßstäbe (OPTICS) des Parameters Methode der Cluster-Bildung kann die Zeit jedes Punktes im Parameter Zeitfeld angegeben werden. Wenn sie angegeben wird, findet das Werkzeug Cluster aus Punkten, die zeitlich und räumlich nah beieinander liegen. Der Parameter Suchzeitintervall muss bereitgestellt werden, um festzustellen, ob ein Punkt zeitlich nah genug am Cluster liegt, um in den Cluster aufgenommen zu werden.

    • Für die Option Definierte Entfernung (DBSCAN) muss der Parameterwert Minimale Anzahl Features pro Cluster bei der Suche nach Cluster-Mitgliedern innerhalb der Werte von Suchentfernung und Suchzeitintervall liegen, damit ein Cluster gebildet wird.
    • Für die Option Mehrere Maßstäbe (OPTICS) werden alle Punkte außerhalb des Wertes Suchzeitintervall ausgeschlossen, wenn der Punkt seine Kernentfernung berechnet, nach allen Nachbarentfernungen innerhalb des angegebenen Wertes Suchentfernung sucht und die Erreichbarkeitsentfernung berechnet.

  • Wird ein Wert für den Parameter Zeitfeld angegeben, wird die Ausgabe-Feature-Class in das Diagramm "Zeitspanne pro Cluster" aufgenommen, das die Zeitspanne jedes Raum-Zeit-Clusters darstellt. Die folgenden vier zusätzlichen Felder werden ebenfalls einbezogen: Mean Time, Start Time, End Time und Time Exaggeration. Die Ausgabe-Feature-Class weist aktivierte Zeiteigenschaften auf. Es wird empfohlen, dass Sie die Zeit auf das Feld Mean Time festlegen, sodass die Cluster im Lauf der Zeit mit dem Zeitschieberegler visualisiert werden können. Das raumzeitliche Muster kann auch in einer 3D-Szene angezeigt werden, indem Time Exaggeration als Feature-Höhe angegeben wird.

  • Der Parameter Suchzeitintervall steuert nicht die gesamte Zeitspanne der erstellten Raum-Zeit-Cluster. Beispielsweise kann die Verwendung eines Suchzeitintervalls von 3 Tagen zu einem Cluster mit Punkten führen, die 10 Tage oder mehr umfassen. Das liegt daran, dass mit dem Suchzeitintervall nur bestimmt wird, ob ein Einzelpunkt in ein Cluster aufgenommen wird. Indem Cluster mit mehreren Punkten gebildet werden, kann die gesamte Zeitspanne des Clusters größer sein als das Suchzeitintervall. Dies ist vergleichbar damit, dass ein räumlicher Cluster größer sein kann als der Wert Suchentfernung, solange jeder Punkt innerhalb des Clusters Nachbarn hat, die näher als die Suchentfernung sind.

  • Wenn die Werte von Eingabe-Features nicht projiziert werden (d. h., wenn Koordinaten in Grad, Minuten und Sekunden angegeben werden) oder als Ausgabe-Koordinatensystem ein geographisches Koordinatensystem festgelegt wurde, werden Entfernungen mit Sehnenmesswerten berechnet. Sehnenentfernungsmesswerte werden verwendet, weil sie schnell berechnet werden können und ausgezeichnete Schätzungen von echten geodätischen Entfernungen zulassen, zumindest für Punkte innerhalb von 30 Grad voneinander. Sehnenentfernungen basieren auf einem abgeplatteten Sphäroid. Im Fall von zwei beliebigen Punkten auf der Erdoberfläche ist die Sehnenentfernung zwischen diesen die Länge einer Linie, die durch die dreidimensionale Erde führt, um diese beiden Punkte zu verbinden. Sehnenentfernungen werden in Metern angegeben.

    Vorsicht:

    Als Best Practice hat es sich bewährt, die Daten zu projizieren, insbesondere, wenn sich das Untersuchungsgebiet über 30 Grad hinaus erstreckt. Sehnenentfernungen erlauben keine sichere Schätzung von geodätischen Entfernungen über 30 Grad hinaus.

  • Dieses Werkzeug enthält Z-Werte in seinen Berechnungen, wenn Z-Werte vorhanden sind. Das Ergebnis ist in 3D.

  • Dieses Werkzeug unterstützt eine Parallelverarbeitung und nutzt standardmäßig 50 Prozent der verfügbaren Prozessoren. Die Anzahl der Prozessoren kann mit der Umgebung Faktor für parallele Verarbeitung erhöht oder verringert werden.

Parameter

BeschriftungErläuterungDatentyp
Eingabe-Punkt-Features

Die Point-Features, für die die Dichte-basierte Cluster-Bildung durchgeführt wird.

Feature Layer
Ausgabe-Features

Die Ausgabe-Feature-Class, welche die Cluster-Ergebnisse empfängt.

Feature Class
Methode der Cluster-Bildung

Gibt die Methode an, die zum Definieren von Clustern verwendet wird.

  • Definierte Entfernung (DBSCAN)Eine angegebene Entfernung wird verwendet, um dichte Cluster vom schwächeren Rauschen zu trennen. DBSCAN ist die schnellste dieser Methoden der Cluster-Bildung, sollte aber nur dann verwendet werden, wenn mit einer sehr klaren Entfernung, mit der sich alle möglicherweise vorhandenen Cluster definieren lassen, gearbeitet werden kann. Dies führt zu Clustern mit ähnlichen Dichten.
  • Automatische Anpassung (HDBSCAN)Variierende Entfernungen werden verwendet, um Cluster variierender Dichten vom schwächeren Rauschen zu trennen. HDBSCAN ist die datenabhängigste dieser Methoden der Cluster-Bildung und erfordert die wenigsten Benutzereingaben.
  • Mehrere Maßstäbe (OPTICS)Die Entfernung zwischen Nachbarn und ein Erreichbarkeitsplot werden verwendet, um Cluster variierender Dichten vom Rauschen zu trennen. OPTICS bietet die meiste Flexibilität in der Feinabstimmung der gefundenen Cluster, ist aber rechenintensiv, vor allem bei einer großen Suchentfernung.
String
Minimale Anzahl Features pro Cluster

Die minimale Anzahl der Punkte, die als Cluster betrachtet werden. Ein Cluster mit weniger Punkten als die angegebene Anzahl wird dann als Rauschen betrachtet.

Long
Suchentfernung
(optional)

Die maximal berücksichtigte Entfernung.

Für die Option Definierte Entfernung (DBSCAN) des Parameters Methode der Cluster-Bildung muss der Parameterwert Minimale Anzahl Features pro Cluster für eine Cluster-Mitgliedschaft innerhalb dieser Entfernung gefunden werden. Einzelne Cluster werden um mindestens diese Entfernung voneinander getrennt. Wenn sich ein Punkt in größerer Entfernung vom nächstliegenden Punkt im Cluster befindet, wird er nicht in den Cluster aufgenommen.

Bei der Option Mehrere Maßstäbe (OPTICS) des Parameters Methode der Cluster-Bildung ist dieser Parameter optional und wird bei der Erstellung des Erreichbarkeitsplots als maximale Suchentfernung verwendet. Bei OPTICS bestimmt der Erreichbarkeitsplot in Verbindung mit dem Parameterwert Cluster-Empfindlichkeit die Cluster-Mitgliedschaft. Wenn keine Entfernung angegeben wurde, durchsucht das Werkzeug alle Entfernungen, wodurch sich die Verarbeitungszeit erhöht.

Wenn die Option leer gelassen wird, wird als Standardentfernung die größte Kernentfernung, die im Dataset gefunden wurde, verwendet, wobei die Kernentfernungen in den obersten 1 % (d. h. die extremsten Kernentfernungen) ausgeschlossen werden. Bei Angabe des Parameterwertes Zeitfeld muss eine Suchentfernung angegeben werden. Es gibt keinen Standardwert.

Linear Unit
Cluster-Empfindlichkeit

Eine ganze Zahl zwischen 0 und 100, die die Kompaktheit von Clustern bestimmt. Je näher die Zahl an 100 liegt, desto mehr Cluster mit größerer Dichte werden gebildet. Liegt die Zahl näher an 0, werden weniger Cluster bei geringerer Dichte gebildet. Wird hier nichts angegeben, sucht das Werkzeug mit der Kullback-Leibler-Divergenz nach einem Empfindlichkeitswert. Damit wird der Wert ermittelt, bei dem durch das Hinzufügen weiterer Cluster keine zusätzlichen Informationen hinzugefügt werden.

Long
Zeitfeld

Das Feld, das den Zeitstempel für den jeweiligen Datensatz des Datasets enthält. Dieses Feld muss vom Typ "Datum" sein. Wird ein Wert angegeben, findet das Werkzeug Cluster aus Punkten, die zeitlich und räumlich nah beieinander liegen. Der Parameter Suchzeitintervall muss bereitgestellt werden, um festzustellen, ob ein Punkt zeitlich nah genug am Cluster liegt, um in den Cluster aufgenommen zu werden.

Field
Suchzeitintervall

Das Zeitintervall, mit dem bestimmt wird, ob Punkte einen Raum-Zeit-Cluster bilden. Das Suchzeitintervall erstreckt sich vor und nach der Zeit der einzelnen Punkte, sodass beispielsweise ein Intervall von 3 Tagen um einen Punkt alle Punkte ab dem Zeitpunkt 3 Tage vor und 3 Tage nach der Zeit des Punktes beinhaltet.

  • Für die Option Definierte Entfernung (DBSCAN) des Parameters Methode der Cluster-Bildung muss der Parameterwert Minimale Anzahl Features pro Cluster innerhalb der Suchentfernung und des Suchzeitintervalls gefunden werden, um in einen Cluster aufgenommen zu werden.
  • Bei der Option Mehrere Maßstäbe (OPTICS) des Parameters Methode der Cluster-Bildung werden alle Punkte außerhalb des Suchzeitintervalls von der Berechnung von Kernentfernungen, Nachbarentfernungen und Erreichbarkeitsentfernungen ausgeschlossen.

Das Suchzeitintervall steuert nicht die gesamte Zeitspanne der erstellten Raum-Zeit-Cluster. Die Zeitspanne von Punkten innerhalb eines Clusters kann größer sein als das Suchzeitintervall, solange jeder Punkt innerhalb des Clusters Nachbarn hat, die im Suchzeitintervall liegen.

Time Unit

arcpy.stats.DensityBasedClustering(in_features, output_features, cluster_method, min_features_cluster, {search_distance}, cluster_sensitivity, time_field, search_time_interval)
NameErläuterungDatentyp
in_features

Die Point-Features, für die die Dichte-basierte Cluster-Bildung durchgeführt wird.

Feature Layer
output_features

Die Ausgabe-Feature-Class, welche die Cluster-Ergebnisse empfängt.

Feature Class
cluster_method

Gibt die Methode an, die zum Definieren von Clustern verwendet wird.

  • DBSCANEine angegebene Entfernung wird verwendet, um dichte Cluster vom schwächeren Rauschen zu trennen. DBSCAN ist die schnellste dieser Methoden der Cluster-Bildung, sollte aber nur dann verwendet werden, wenn mit einer sehr klaren Entfernung, mit der sich alle möglicherweise vorhandenen Cluster definieren lassen, gearbeitet werden kann. Dies führt zu Clustern mit ähnlichen Dichten.
  • HDBSCANVariierende Entfernungen werden verwendet, um Cluster variierender Dichten vom schwächeren Rauschen zu trennen. HDBSCAN ist die datenabhängigste dieser Methoden der Cluster-Bildung und erfordert die wenigsten Benutzereingaben.
  • OPTICSDie Entfernung zwischen Nachbarn und ein Erreichbarkeitsplot werden verwendet, um Cluster variierender Dichten vom Rauschen zu trennen. OPTICS bietet die meiste Flexibilität in der Feinabstimmung der gefundenen Cluster, ist aber rechenintensiv, vor allem bei einer großen Suchentfernung.
String
min_features_cluster

Die minimale Anzahl der Punkte, die als Cluster betrachtet werden. Ein Cluster mit weniger Punkten als die angegebene Anzahl wird dann als Rauschen betrachtet.

Long
search_distance
(optional)

Die maximal berücksichtigte Entfernung.

Bei der Option DBSCAN des Parameters cluster_method muss der Parameterwert min_features_cluster für eine Cluster-Mitgliedschaft innerhalb dieser Entfernung gefunden werden. Einzelne Cluster werden um mindestens diese Entfernung voneinander getrennt. Wenn sich ein Punkt in größerer Entfernung vom nächstliegenden Punkt im Cluster befindet, wird er nicht in den Cluster aufgenommen.

Bei der Option OPTICS des Parameters cluster_method ist dieser Parameter optional und wird bei der Erstellung des Erreichbarkeitsplots als maximale Suchentfernung verwendet. Bei OPTICS bestimmt der Erreichbarkeitsplot in Verbindung mit dem Parameterwert cluster_sensitivity die Cluster-Mitgliedschaft. Wenn keine Entfernung angegeben wurde, durchsucht das Werkzeug alle Entfernungen, wodurch sich die Verarbeitungszeit erhöht.

Wenn die Option leer gelassen wird, wird als Standardentfernung die größte Kernentfernung, die im Dataset gefunden wurde, verwendet, wobei die Kernentfernungen in den obersten 1 % (d. h. die extremsten Kernentfernungen) ausgeschlossen werden. Bei Angabe des Parameterwertes time_field muss eine Suchentfernung angegeben werden. Es gibt keinen Standardwert.

Linear Unit
cluster_sensitivity

Eine ganze Zahl zwischen 0 und 100, die die Kompaktheit von Clustern bestimmt. Je näher die Zahl an 100 liegt, desto mehr Cluster mit größerer Dichte werden gebildet. Liegt die Zahl näher an 0, werden weniger Cluster bei geringerer Dichte gebildet. Wird hier nichts angegeben, sucht das Werkzeug mit der Kullback-Leibler-Divergenz nach einem Empfindlichkeitswert. Damit wird der Wert ermittelt, bei dem durch das Hinzufügen weiterer Cluster keine zusätzlichen Informationen hinzugefügt werden.

Long
time_field

Das Feld, das den Zeitstempel für den jeweiligen Datensatz des Datasets enthält. Dieses Feld muss vom Typ "Datum" sein. Wird ein Wert angegeben, findet das Werkzeug Cluster aus Punkten, die zeitlich und räumlich nah beieinander liegen. Der Parameter search_time_interval muss bereitgestellt werden, um festzustellen, ob ein Punkt zeitlich nah genug am Cluster liegt, um in den Cluster aufgenommen zu werden.

Field
search_time_interval

Das Zeitintervall, mit dem bestimmt wird, ob Punkte einen Raum-Zeit-Cluster bilden. Das Suchzeitintervall erstreckt sich vor und nach der Zeit der einzelnen Punkte, sodass beispielsweise ein Intervall von 3 Tagen um einen Punkt alle Punkte ab dem Zeitpunkt 3 Tage vor und 3 Tage nach der Zeit des Punktes beinhaltet.

  • Bei der Option DBSCAN des Parameters cluster_method muss der angegebene Wert min_features_cluster innerhalb der Suchentfernung und des Suchzeitintervalls gefunden werden, um in einen Cluster aufgenommen zu werden.
  • Bei der Option OPTICS des Parameters cluster_method werden alle Punkte außerhalb des Suchzeitintervalls von der Berechnung von Kernentfernungen, Nachbarentfernungen und Erreichbarkeitsentfernungen ausgeschlossen.

Das Suchzeitintervall steuert nicht die gesamte Zeitspanne der erstellten Raum-Zeit-Cluster. Die Zeitspanne von Punkten innerhalb eines Clusters kann größer sein als das Suchzeitintervall, solange jeder Punkt innerhalb des Clusters Nachbarn hat, die im Suchzeitintervall liegen.

Time Unit

Codebeispiel

DensityBasedClustering – Beispiel 1 (Python-Fenster)

Das folgende Skript im Python-Fenster veranschaulicht, wie Sie die Funktion DensityBasedClustering verwenden.

import arcpy
arcpy.env.workspace = r"C:\Analysis"
arcpy.DensityBasedClustering_stats("Chicago_Arson", "Arson_HDB", "HDBSCAN", 15)
DensityBasedClustering – Beispiel 2 (eigenständiges Skript)

Das folgende eigenständige Python-Skript veranschaulicht, wie die Funktion DensityBasedClustering verwendet wird.

# Clustering crime incidents in a downtown area using the DensityBasedClustering
# function

# Import system modules
import arcpy
import os

# Overwrite existing output, by default
arcpy.env.overwriteOutput = True

# Local variables...
workspace = r"E:\working\data.gdb"
arcpy.env.workspace = workspace

# Run Density-based Clustering with the HDBSCAN Cluster Method using a minimum 
# of 15 features per cluster
arcpy.stats.DensityBasedClustering("Chicago_Arson", "Arson_HDB", "HDBSCAN", 15)

# Run Density-based Clustering again using OPTICS with a Search Distance and 
# Cluster Sensitivity to create tighter clusters
arcpy.stats.DensityBasedClustering("Chicago_Arson", "Arson_Optics", "OPTICS", 
                                   15, "1200 Meters", 70)
DensityBasedClustering – Beispiel 3 (eigenständiges Skript)

Das folgende eigenständige Python-Skript veranschaulicht, wie die Funktion DensityBasedClustering mit Zeit verwendet wird.

# The following stand-alone Python script demonstrates how to use 
# the DensityBasedClustering function with time to find space-time clusters.

# Time field and Search time interval only supported by DBSCAN and OPTICS methods

# Import system modules
import arcpy
import os

# Overwrite existing output, by default
arcpy.env.overwriteOutput = True

# Local variables...
workspace = r"E:\working\data.gdb"
arcpy.env.workspace = workspace

# Run Density-based Clustering with DBSCAN Cluster Method, and choose 50 as the minimum
# features per cluster, 200 meter search distance, and 10 minute search time interval
arcpy.stats.DensityBasedClustering("New_York_Taxi_PickingUp", "New_York_Taxi_DBSCAN_Time", 
                        "DBSCAN",  50, "200 Meters", None, "Pickup_Time", "10 Minutes")

# Run Density-based Clustering with OPTICS Method, and choose 50 as the minimum
# of features per cluster, 200 meter search distance, and 10 minute search time interval. 
# Using 15 as the cluster sensitivity to create a higher number of dense clusters
arcpy.stats.DensityBasedClustering("New_York_Taxi_PickingUp", "New_York_Taxi_OPTICS_Time", 
                        "OPTICS",  50, "200 Meters", 15, "Pickup_Time", "10 Minutes")

Lizenzinformationen

  • Basic: Ja
  • Standard: Ja
  • Advanced: Ja

Verwandte Themen