Punkt-Cluster suchen (GeoAnalytics)

Zusammenfassung

Findet Cluster aus Punkt-Features im Umfeldrauschen basierend auf deren räumlicher oder raumzeitlicher Verteilung.

Weitere Informationen zur Funktionsweise der Dichte-basierten Cluster-Bildung

Abbildung

Schema zur Dichte-basierten Cluster-Bildung

Verwendung

  • Dieses Geoverarbeitungswerkzeug ist ab ArcGIS Enterprise 10.6.1 verfügbar.

  • Die Eingabe für Punkt-Cluster suchen ist ein Punkt-Layer. Dieses Werkzeug extrahiert Cluster aus den Eingabe-Punkt-Layern und identifiziert das Umfeldrauschen.

  • Für Punkt-Cluster suchen ist es erforderlich, dass Eingabe-Punkt-Layer projiziert oder das Ausgabe-Koordinatensystem auf ein projiziertes Koordinatensystem festgelegt wird.

  • Für den Parameter Methode der Cluster-Bildung gibt es zwei Optionen. Definierte Entfernung (DBSCAN) verwendet den Algorithmus DBSCAN und findet anhand einer angegebenen Suchentfernung Cluster aus Punkten in enger Nachbarschaft. Automatische Anpassung (HDBSCAN) verwendet den Algorithmus HDBSCAN (verfügbar ab ArcGIS Enterprise 10.7) und findet Cluster aus Punkten ähnlich wie DBSCAN. Diese Option verwendet variierende Entfernungen, sodass auch Cluster mit variierenden Dichten basierend auf der Cluster-Wahrscheinlichkeit (oder Stabilität) gefunden werden können. Bei Auswahl von DBSCAN werden Cluster entweder nur im zweidimensionalen Raum oder in Raum und Zeit gefunden. Wenn Sie die Option Zeit zum Suchen von Clustern verwenden auswählen, im Eingabe-Layer die Zeitoption aktiviert ist und der Zeittyp "Zeitpunkt" lautet, findet DBSCAN Cluster vom Typ "spatiotemporal", die sich, basierend auf einer angegebenen Suchentfernung und einer Suchdauer, in unmittelbarer Nähe befinden (wird ab ArcGIS Enterprise 10.8 unterstützt).

  • Der Parameter Minimale Anzahl Features pro Cluster wird je nach der Methode zur Cluster-Bildung auf unterschiedliche Weise verwendet:

    • Definierte Entfernung (DBSCAN): Legt die Anzahl der Features fest, die sich innerhalb einer Suchentfernung von einem Punkt befinden müssen, damit dieser als Ausgangspunkt für die Cluster-Bildung verwendet werden kann. Die Ergebnisse können Cluster enthalten, deren Feature-Anzahl geringer ist als dieser Wert. Die Suchentfernung wird mit dem Parameter Suchentfernung festgelegt. Wenn Sie Zeit zum Suchen von Clustern verwenden, ist eine Eingabe unter Suchdauer erforderlich. Wenn Sie nach Cluster-Mitgliedern suchen, muss eine Minimale Anzahl Features pro Cluster innerhalb der Suchentfernung und der Suchdauer gefunden werden, um einen Cluster zu bilden. Hinweis: Die Entfernung und die Dauer stehen in keiner Beziehung zum Durchmesser oder zum Zeitraum der gefundenen Punkt-Cluster.
    • Automatische Anpassung (HDBSCAN): Legt die Anzahl der Features fest, die sich in der Nachbarschaft jedes Punktes befinden (einschließlich des Punktes), die beim Schätzen der Dichte berücksichtigt werden. Diese Zahl entspricht gleichzeitig der beim Extrahieren von Clustern zulässigen Mindestgröße für Cluster.

  • Dieses Werkzeug generiert eine Ausgabe-Feature-Class mit dem neuen ganzzahligen Feld CLUSTER_ID, das den Cluster identifiziert, in dem sich die einzelnen Features befinden. Das Standard-Rendering basiert auf dem Feld COLOR_ID. Dabei wird jede Farbe mehreren Clustern zugewiesen. Durch wiederholtes Zuweisen der Farben lässt sich jeder Cluster visuell von seinen benachbarten Clustern unterscheiden.

  • Wenn die Cluster-Bildungsmethode Definierte Entfernung (DBSCAN) mit der Option "Zeit" zum Suchen von Clustern vom Typ "spatiotemporal" verwendet wird, beinhalten die Ergebnisse zudem die folgenden Felder:

    • FEAT_TIME – Ursprünglicher Zeitpunkt der einzelnen Features.
    • START_DATETIME – Startzeit des Zeitraums des Clusters, zu dem ein Feature gehört.
    • END_DATETIME – Endzeit des Zeitraums des Clusters, zu dem ein Feature gehört.

    Die Zeiteigenschaften des Ergebnis-Layers werden mithilfe der Felder START_DATETIME und END_DATETIME als Intervall festgelegt; dadurch wird gewährleistet, dass bei der Visualisierung von Clustern vom Typ "spatiotemporal" mit einem Zeitschieberegler alle Cluster-Mitglieder zusammen dargestellt werden. Diese Felder werden nur für die Visualisierung verwendet. Bei Rauschen-Features entsprechen die Felder START_DATETIME und END_DATETIME dem Feld FEAT_TIME.

  • Wenn für Methode der Cluster-Bildung die Option Automatische Anpassung (HDBSCAN) ausgewählt ist, enthält die Ausgabe-Feature-Class auch die folgenden Felder:

    • PROB: Die Wahrscheinlichkeit, mit der ein Feature in den zugewiesenen Cluster gehört.
    • OUTLIER: Die Wahrscheinlichkeit, mit der ein Feature im eigenen Cluster ein Ausreißer ist. Je größer der Wert, umso wahrscheinlicher ist das Feature ein Ausreißer.
    • EXEMPLAR: Die Features, die für die einzelnen Cluster am repräsentativsten sind. Diese Features sind durch den Wert 1 gekennzeichnet.
    • STABILITY: Das Vorhandensein der einzelnen Cluster in einem Maßstabsbereich. Je größer der Wert, umso größer ist der Bereich der Abstandsmaßstäbe, in dem sich ein Cluster befindet.

  • Wird der HDBSCAN-Algorithmus mit einem Eingabe-Layer verwendet, der mehr als 3 Millionen Features enthält, kann das Werkzeug möglicherweise nicht ausgeführt werden, es sei denn, Ihr Administrator erhöht den Wert des Parameters javaHeapSize für den Geoverarbeitungsservice "GeoAnalyticsTools". Pro 3 Millionen Features ist ein Heap-Speicher von ca. 2 GB erforderlich. Der durch javaHeapSize festgelegte RAM sollte zusätzlich zu den normalerweise vom GeoAnalytics Server benötigten 16 GB auf jedem GeoAnalytics Server-Computer verfügbar sein. Um beispielsweise 9 Millionen Features mit HDBSCAN zu clustern, legen Sie javaHeapSize auf mindestens 6144 MB oder 6 GB fest. In diesem Fall sollten auf jedem GeoAnalytics Server-Computer insgesamt mindestens 22 GB RAM verfügbar sein.

  • Mithilfe der folgenden Tipps können Sie die Performance des Werkzeugs Punkt-Cluster suchen verbessern:

    • Legen Sie die Ausdehnungsumgebung so fest, dass nur die gewünschten Daten analysiert werden.
    • Legen Sie die Suchentfernung und die Dauer sehr genau fest. Eine geringe Suchentfernung bzw. ein kleiner Radius kann bei denselben Daten zu einem besseren Ergebnis führen.
    • Verwenden Sie lokale Daten an der Stelle, an der die Analyse ausgeführt wird.

  • Dieses Geoverarbeitungswerkzeug wird unterstützt durch ArcGIS GeoAnalytics Server. Die Analyse wird auf dem GeoAnalytics Server ausgeführt, und die Ergebnisse werden in den eigenen Inhalten in ArcGIS Enterprise gespeichert.

  • Bei der Ausführung von GeoAnalytics Server-Werkzeugen wird die Analyse auf dem GeoAnalytics Server abgeschlossen. Für eine optimale Performance sollten die Daten dem GeoAnalytics Server über Feature-Layer zur Verfügung stehen, die auf Ihrem ArcGIS Enterprise-Portal gehostet werden. Alternativ können Big-Data-Dateifreigaben verwendet werden. Daten, auf die der GeoAnalytics Server nicht lokal zugreifen kann, werden vor Analysebeginn auf den GeoAnalytics Server verschoben. Dadurch dauert die Ausführung eines Werkzeugs länger. Es kann zudem vorkommen, dass das Verschieben der Daten von ArcGIS Pro zum GeoAnalytics Server fehlschlägt. Die Wahrscheinlichkeit eines Fehlers hängt dabei von der Netzwerkgeschwindigkeit sowie der Größe und Komplexität der Daten ab. Es wird empfohlen, dass Sie Ihre Daten stets freigeben oder eine Big-Data-Dateifreigabe erstellen.

    Weitere Informationen zum Freigeben von Daten in Ihrem Portal

    Weitere Informationen zum Erstellen einer Big-Data-Dateifreigabe über Server Manager

Parameter

BeschriftungErläuterungDatentyp
Eingabe-Punkt-Layer

Die Point-Feature-Class, die die Punkt-Cluster enthält.

Feature Set
Ausgabename

Der Name des Ausgabe-Feature-Service.

String
Minimale Anzahl Features pro Cluster

Dieser Parameter wird je nach ausgewählter Methode der Cluster-Bildung auf unterschiedliche Weise verwendet:

  • Definierte Entfernung (DBSCAN): Legt die Anzahl der Features fest, die sich in einer bestimmten Entfernung von einem Punkt befinden müssen, damit dieser als Ausgangspunkt für die Cluster-Bildung verwendet werden kann. Die Entfernung wird mit dem Parameter Suchentfernung definiert.
  • Automatische Anpassung (HDBSCAN): Legt die Anzahl der Features fest, die sich in der Nachbarschaft jedes Punktes befinden (einschließlich des Punktes), die beim Schätzen der Dichte berücksichtigt werden. Diese Zahl entspricht gleichzeitig der beim Extrahieren von Clustern zulässigen Mindestgröße für Cluster.

Long
Suchentfernung

Die maximal berücksichtigte Entfernung.

Für die Cluster-Mitgliedschaft muss die angegebene Minimale Anzahl Features pro Cluster innerhalb dieser Entfernung gefunden werden. Einzelne Cluster werden um mindestens diese Entfernung voneinander getrennt. Wenn sich ein Feature in größerer Entfernung vom nächstliegenden Feature im Cluster befindet, wird es nicht in den Cluster aufgenommen.

Linear Unit
Data Store
(optional)

Gibt den ArcGIS Data Store für das Speichern der Ausgabe an. Die Standardvorgabe ist der Big Data Store vom Typ "spatiotemporal". Alle in einem Big Data Store vom Typ "spatiotemporal" gespeicherten Ergebnisse werden im WGS84 gespeichert. Ergebnisse, die in einem Data Store vom Typ "relational" gespeichert werden, behalten ihr Koordinatensystem bei.

  • Big Data Store vom Typ "spatiotemporal"Die Ausgabe wird in einem Big Data Store vom Typ "spatiotemporal" gespeichert. Dies ist die Standardeinstellung.
  • Data Store vom Typ "relational"Die Ausgabe wird in einem Data Store vom Typ "relational" gespeichert.
String
Methode der Cluster-Bildung
(optional)

Gibt die Methode an, die zum Definieren von Clustern verwendet wird.

  • Definierte Entfernung (DBSCAN) Verwendet eine angegebene Entfernung, um dichte Cluster vom schwächeren Rauschen zu trennen. DBSCAN ist die schnellste dieser Methoden der Cluster-Bildung, sollte aber nur dann verwendet werden, wenn mit einer klaren Entfernung, mit der sich alle möglicherweise vorhandenen Cluster definieren lassen, gearbeitet werden kann. Dies führt zu Clustern mit ähnlichen Dichten. Dies ist die Standardeinstellung.
  • Automatische Anpassung (HDBSCAN) Verwendet variierende Entfernungen, um Cluster variierender Dichten vom schwächeren Rauschen zu trennen. HDBSCAN ist die datenabhängigste dieser Methoden der Cluster-Bildung und erfordert die wenigsten Benutzereingaben.
String
Zeit zum Suchen von Clustern verwenden
(optional)

Gibt an, ob die Suche von Clustern mit DBSCAN anhand der Zeit erfolgt.

  • Aktiviert – Cluster vom Typ "spatiotemporal" werden anhand einer Suchentfernung und einer Suchdauer gefunden.
  • Deaktiviert – Räumliche Cluster werden mithilfe einer Suchentfernung gefunden, während die Zeit unberücksichtigt bleibt. Dies ist die Standardeinstellung.
Boolean
Suchdauer
(optional)

Bei der Suche nach Cluster-Mitgliedern muss die angegebene minimale Anzahl Punkte innerhalb dieser Zeitdauer gefunden werden, damit ein Cluster gebildet werden kann.

Time Unit

Abgeleitete Ausgabe

BeschriftungErläuterungDatentyp
Ausgabe-Feature-Layer

Die Ausgabepunkt-Cluster.

Feature-Set

arcpy.geoanalytics.FindPointClusters(input_points, output_name, minimum_points, search_distance, {data_store}, {clustering_method}, {use_time}, {search_duration})
NameErläuterungDatentyp
input_points

Die Point-Feature-Class, die die Punkt-Cluster enthält.

Feature Set
output_name

Der Name des Ausgabe-Feature-Service.

String
minimum_points

Dieser Parameter wird je nach ausgewählter Methode der Cluster-Bildung auf unterschiedliche Weise verwendet:

  • Definierte Entfernung (DBSCAN): Legt die Anzahl der Features fest, die sich in einer bestimmten Entfernung von einem Punkt befinden müssen, damit dieser als Ausgangspunkt für die Cluster-Bildung verwendet werden kann. Die Entfernung wird mit dem Parameter Suchentfernung definiert.
  • Automatische Anpassung (HDBSCAN): Legt die Anzahl der Features fest, die sich in der Nachbarschaft jedes Punktes befinden (einschließlich des Punktes), die beim Schätzen der Dichte berücksichtigt werden. Diese Zahl entspricht gleichzeitig der beim Extrahieren von Clustern zulässigen Mindestgröße für Cluster.

Long
search_distance

Die maximal berücksichtigte Entfernung.

Für die Cluster-Mitgliedschaft muss die angegebene Minimale Anzahl Features pro Cluster innerhalb dieser Entfernung gefunden werden. Einzelne Cluster werden um mindestens diese Entfernung voneinander getrennt. Wenn sich ein Feature in größerer Entfernung vom nächstliegenden Feature im Cluster befindet, wird es nicht in den Cluster aufgenommen.

Linear Unit
data_store
(optional)

Gibt den ArcGIS Data Store für das Speichern der Ausgabe an. Die Standardeinstellung ist SPATIOTEMPORAL_DATA_STORE. Alle in einem Big Data Store vom Typ "spatiotemporal" gespeicherten Ergebnisse werden im WGS84 gespeichert. Ergebnisse, die in einem Data Store vom Typ "relational" gespeichert werden, behalten ihr Koordinatensystem bei.

  • SPATIOTEMPORAL_DATA_STOREDie Ausgabe wird in einem Big Data Store vom Typ "spatiotemporal" gespeichert. Dies ist die Standardeinstellung.
  • RELATIONAL_DATA_STOREDie Ausgabe wird in einem Data Store vom Typ "relational" gespeichert.
String
clustering_method
(optional)

Gibt die Methode an, die zum Definieren von Clustern verwendet wird.

  • DBSCAN Verwendet eine angegebene Entfernung, um dichte Cluster vom schwächeren Rauschen zu trennen. DBSCAN ist die schnellste dieser Methoden der Cluster-Bildung, sollte aber nur dann verwendet werden, wenn mit einer klaren Entfernung, mit der sich alle möglicherweise vorhandenen Cluster definieren lassen, gearbeitet werden kann. Dies führt zu Clustern mit ähnlichen Dichten. Dies ist die Standardeinstellung.
  • HDBSCAN Verwendet variierende Entfernungen, um Cluster variierender Dichten vom schwächeren Rauschen zu trennen. HDBSCAN ist die datenabhängigste dieser Methoden der Cluster-Bildung und erfordert die wenigsten Benutzereingaben.
String
use_time
(optional)

Gibt an, ob die Suche von Clustern mit DBSCAN anhand der Zeit erfolgt.

  • TIMECluster vom Typ "spatiotemporal" werden anhand einer Suchentfernung und einer Suchdauer gefunden.
  • NO_TIMERäumliche Cluster werden mithilfe einer Suchentfernung gefunden, während die Zeit unberücksichtigt bleibt. Dies ist die Standardeinstellung.
Boolean
search_duration
(optional)

Bei der Suche nach Cluster-Mitgliedern muss die angegebene minimale Anzahl Punkte innerhalb dieser Zeitdauer gefunden werden, damit ein Cluster gebildet werden kann.

Time Unit

Abgeleitete Ausgabe

NameErläuterungDatentyp
output

Die Ausgabepunkt-Cluster.

Feature-Set

Codebeispiel

FindPointClusters – Beispiel (eigenständiges Skript)

Das folgende Skript veranschaulicht die Verwendung des Werkzeugs FindPointClusters im Python-Fenster.

#-------------------------------------------------------------------------------
# Name: FindPointClusters.py
# Description: Finds Point Clusters of rodent infestations
#
# Requirements: ArcGIS GeoAnalytics Server
# Import system modules
import arcpy
# Set local variables
inputPoints = "https://myGeoAnalyticsMachine.domain.com/geoanalytics/rest/services/DataStoreCatalogs/bigDataFileShares_countyData/BigDataCatalogServer/rat_sightings"
minimumPoints = 10
outputName = "RodentClusters"
searchDistance = "1 Kilometers"
dataStore = "SPATIOTEMPORAL_DATA_STORE"
clusterMethod = "DBSCAN"
# Execute Find Point Clusters
arcpy.geoanalytics.FindPointClusters(inputPoints, outputName, mimimumPoints, 
                                     searchDistance, dataStore, clusterMethod)

Umgebungen

Sonderfälle

Ausgabe-Koordinatensystem

Das Koordinatensystem, das für die Analyse verwendet wird. Die Analyse wird im Eingabe-Koordinatensystem ausgeführt, sofern nicht anders durch diesen Parameter angegeben. Für GeoAnalytics Tools werden die Endergebnisse im Data Store vom Typ "spatiotemporal" in WGS84 gespeichert.

Lizenzinformationen

  • Basic: Erfordert ArcGIS GeoAnalytics Server
  • Standard: Erfordert ArcGIS GeoAnalytics Server
  • Advanced: Erfordert ArcGIS GeoAnalytics Server

Verwandte Themen