Multivariate Cluster-Bildung (Spatial Statistics)

Zusammenfassung

Findet natürliche Feature-Cluster ausschließlich basierend auf bestimmten Feature-Attributwerten.

Weitere Informationen zur Funktionsweise von Multivariate Cluster-Bildung

Abbildung

Werkzeugbild "Multivariate Cluster-Bildung"

Verwendung

  • Mit diesem Werkzeug wird eine Ausgabe-Feature-Class anhand der in der Analyse verwendeten Felder sowie anhand eines Ganzzahlfeldes mit der Bezeichnung CLUSTER_ID erstellt. Das Standard-Rendering basiert auf dem Feld CLUSTER_ID und gibt an, zu welchem Cluster die einzelnen Features gehören. Wenn Sie drei zu erstellende Cluster angeben, enthält jeder Datensatz im Feld CLUSTER_ID eine 1, 2 oder 3. Die Ausgabe-Feature-Class enthält auch das Binärfeld IS_SEED. Das Feld IS_SEED gibt an, welche Features als Startpunkte für die Bildung von Clustern herangezogen wurden. Die Anzahl der Werte ungleich 0 im Feld IS_SEED entspricht dem Wert, den Sie für den Parameter Clusteranzahl eingegeben haben.

  • Die Werte des Parameters Eingabe-Features können Punkte, Linien oder Polygone sein.

  • Mit diesem Werkzeug werden Meldungen und Diagramme erstellt, mit denen Sie die Merkmale der identifizierten Cluster leichter verstehen. Um auf die Meldungen zuzugreifen, zeigen Sie mit der Maus auf die Fortschrittsleiste, klicken Sie auf die Pop-out-Schaltfläche, oder erweitern Sie den Abschnitt Details anzeigen im Bereich Geoverarbeitung. Sie können auch auf die Meldungen für eine frühere Ausführung des Werkzeugs Multivariate Cluster-Bildung über den Geoverarbeitungsverlauf zugreifen. Sie können die Diagramme über den Bereich Inhalt öffnen.

  • Weitere Informationen zu den ausgegebenen Meldungen und Diagrammen finden Sie unter Funktionsweise der multivariaten Cluster-Bildung.

  • Die Felder für den Parameter Analysefelder müssen numerisch sein und sollten verschiedene Werte enthalten. Felder ohne Variation (d. h. Felder, die in jedem Datensatz denselben oder einen sehr ähnlichen Wert aufweisen) werden in der Analyse nicht berücksichtigt, jedoch in den Parameterwert Ausgabe-Features einbezogen. Kategoriefelder können mit dem Werkzeug Multivariate Cluster-Bildung verwendet werden, sofern sie als Dummy-Variablen dargestellt werden (Wert 1 für alle Features einer Kategorie und Wert 0 für alle anderen Features).

  • Das Werkzeug Multivariate Cluster-Bildung bildet nicht-räumliche Cluster. Sie können die Vorgabe von Nachbarschafts- oder anderer Proximitätsanforderungen hinsichtlich der zu erstellenden Cluster für manche Anwendungen festlegen. In solchen Fällen verwenden Sie das Werkzeug Räumlich eingeschränkte multivariate Cluster-Bildung, um räumlich zusammenhängende Cluster zu erstellen.

  • Bei diesem Werkzeug empfiehlt es sich, mit einer einzigen Variable für den Parameter Analysefelder zu starten und ggf. Variablen hinzuzufügen. Sind weniger Analysefelder vorhanden, ist es einfacher, die Ergebnisse zu interpretieren. Ebenso können die Variablen, die sich am besten als Diskriminatoren eignen, einfacher bestimmt werden, wenn weniger Felder vorhanden sind.

  • Für den Parameter Initialisierungsmethode gibt es drei Optionen: Optimierte Ursprungspositionen, Benutzerdefinierte Ursprungspositionen und Zufällige Ursprungspositionen. Ursprünge bezeichnen diejenigen Features, aus denen einzelne Cluster gebildet werden. Wenn Sie beispielsweise die Zahl 3 für den Parameter Clusteranzahl eingeben, startet die Analyse mit drei Ursprungs-Features. Bei der Standardoption Optimierte Ursprungspositionen wird der erste Ursprung nach dem Zufallsprinzip ausgewählt und sichergestellt, dass die danach ausgewählten Ursprünge Features darstellen, die innerhalb des Datenbereichs weit voneinander entfernt sind (Attributwerte). Durch Auswählen anfänglicher Ursprünge, die unterschiedliche Abschnitte innerhalb des Datenbereichs erfassen, erhalten Sie eine bessere Performance. In manchen Fällen stehen bestimmte Features für einzelne Eigenschaften, die Sie durch unterschiedliche Cluster darstellen möchten. In diesem Fall können Sie diese Positionen bereitstellen, indem Sie ein Ursprungsfeld erstellen, um diese besonderen Features zu identifizieren. Verwenden Sie Null für das erstellte Ursprungsfeld, es sei denn, es handelt sich um ein anfängliches Ursprungs-Feature; verwenden Sie dafür den Wert 1. Wählen Sie dann die Option Benutzerdefinierte Ursprungspositionen für den Parameter Initialisierungsmethode aus. Wenn Sie eine Empfindlichkeitsanalyse durchführen möchten, um zu ermitteln, welche Features sich immer in demselben Cluster befinden, verwenden Sie die Option Zufällige Ursprungspositionen für den Parameter Initialisierungsmethode. Bei dieser Option werden die Ursprungs-Features nach dem Zufallsprinzip ausgewählt.

    Hinweis:

    Wenn zufällige Ursprünge verwendet werden, können Sie einen Ursprung auswählen, um den Zufallszahlengenerator durch die Umgebungseinstellung "Zufallszahlengenerator" zu initiieren. Der von diesem Werkzeug verwendete Wert "Zufallszahlengenerator" ist jedoch immer Mersenne Twister.

  • Alle Werte von 1 im Parameter Initialisierungsfeld werden als Ursprung interpretiert. Wenn Ursprungspositionen angegeben werden, wird der Parameter Clusteranzahl deaktiviert und das Werkzeug sucht alle Cluster mit Einträgen ungleich Null im Parameter Initialisierungsfeld.

  • Wenn Sie den Wert des Parameters Anzahl der Cluster, der sich am besten für Ihre Daten eignet, nicht kennen, können Sie verschiedene Werte für die Anzahl der Cluster testen und sich notieren, welche Werte die beste Clusterdifferenzierung ermöglichen. Wenn Sie den Parameter Anzahl der Cluster leer lassen, wertet das Werkzeug die optimale Anzahl der Cluster aus, indem eine Pseudo-F-Statistik für die Cluster-Bildung von Lösungen mit 2 bis 30 Clustern berechnet und die optimale Anzahl Cluster im Meldungsfenster angezeigt wird. Wenn Sie einen optionalen Parameterwert für Ausgabetabelle für die Auswertung der Anzahl der Cluster angeben, wird ein Diagramm erstellt, in dem die Pseudo-F-Statistik-Werte für Lösungen mit 2 bis 30 Clustern angezeigt werden. Die höchsten Werte der Pseudo-F-Statistik weisen auf Lösungen hin, mit denen bei Maximierung sowohl der Ähnlichkeiten innerhalb von Clustern als auch der Unterschiede zwischen Clustern eine optimale Performance erzielt werden kann. Wenn für den Parameterwert Anzahl der Cluster keine anderen Kriterien gelten, verwenden Sie eine Zahl, die mit einem der höchsten Werte der Pseudo-F-Statistik verknüpft ist. Schema zur Pseudo-F-Statistik zur Ermittlung der optimalen Anzahl Cluster

  • Dieses Werkzeug verwendet den k-Means- oder k-Medoids-Algorithmus zum Partitionieren von Features in Cluster. Wenn Zufällige Ursprungspositionen für den Parameter Initialisierungsmethode ausgewählt wurde, basiert der Algorithmus auf Heuristik und kann bei jeder Ausführung des Werkzeugs zu einem anderen Ergebnis führen (auch wenn Sie dieselben Daten und Werkzeugparameter verwenden). Der Grund dafür ist, dass bei der Ermittlung der anfänglichen Ursprungs-Features für die Bildung von Clustern eine Zufallskomponente zum Einsatz kommt. Aufgrund dieser heuristischen Lösung ist die Bestimmung der optimalen Gruppenanzahl etwas aufwändiger und die F-Statistik kann wegen unterschiedlicher anfänglicher Ursprungs-Features bei jeder Ausführung des Werkzeugs anders ausfallen. Existiert für Ihre Daten allerdings ein bestimmtes Muster, sind die Lösungen der einzelnen Ausführungen etwas konsistenter. Um die optimale Clusteranzahl einfacher ermitteln zu können, löst das Werkzeug für jede Clusteranzahl von 2 bis 30 zehn Mal auf und verwendet den höchsten der zehn Pseudo-F-Statistik-Werte.

  • Die Optionen k-Means und k-Medoids erzeugen normalerweise ähnliche Ergebnisse. k-Medoids ist jedoch resistenter gegenüber Rauschen und Ausreißern im Parameterwert Eingabe-Features. k-Means ist im Allgemeinen schneller als k-Medoids und wird bei großen Datenmengen empfohlen.

  • Die einem Feature-Set zugewiesene Anzahl Cluster kann zwischen den einzelnen Ausführungen variieren. Wenn Sie Features basierend auf einer Einkommensvariablen in zwei Cluster partitionieren, werden in der ersten Analyse die Features mit hohem Einkommen möglicherweise als Cluster 2 und die Features mit niedrigem Einkommen als Cluster 1 markiert. Führen Sie dieselbe Analyse ein zweites Mal aus, werden die Features mit hohem Einkommen möglicherweise als Cluster 1 markiert. Möglicherweise stellen Sie fest, dass einige Features für mittleres Einkommen einem anderen Cluster angehören als zuvor.

Parameter

BeschriftungErläuterungDatentyp
Eingabe-Features

Die Feature-Class oder der vorhandene Feature-Layer, für die bzw. den Cluster erzeugt werden.

Feature Layer
Ausgabe-Features

Die erstellte Ausgabe-Feature-Class mit allen Features, den angegebenen Analysefeldern und einem Feld, das angibt, zu welchem Cluster die einzelnen Features gehören.

Feature Class
Analysefelder

Eine Liste mit Feldern, mit deren Hilfe Sie die Cluster voneinander abgrenzen können.

Field
Methode der Cluster-Bildung
(optional)

Gibt den verwendeten Cluster-Algorithmus an.

Die Optionen k-Means und k-Medoids erzeugen normalerweise ähnliche Ergebnisse. k-Medoids ist jedoch resistenter gegenüber Rauschen und Ausreißern im Parameterwert Eingabe-Features. k-Means ist im Allgemeinen schneller als k-Medoids und wird bei großen Datenmengen empfohlen.

  • k-MeansDer Parameterwert Eingabe-Features wird mit dem k-Means-Algorithmus gruppiert. Dies ist die Standardeinstellung.
  • k-MedoidsDer Parameterwert Eingabe-Features wird mit dem k-Medoids-Algorithmus gruppiert.
String
Initialisierungsmethode
(optional)

Gibt an, wie anfängliche Ursprünge für die Bildung von Clustern ermittelt werden. Wenn Sie beispielsweise angeben, dass drei Cluster erstellt werden sollen, beginnt die Analyse mit drei Ursprüngen.

  • Optimierte UrsprungspositionenUrsprungs-Features werden ausgewählt, um die Analyseergebnisse und die Performance zu optimieren. Dies ist die Standardeinstellung.
  • Benutzerdefinierte UrsprungspositionenEinträge ungleich 0 im Parameterwert Initialisierungsfeld werden als Startpunkte für die Bildung der Cluster herangezogen.
  • Zufällige UrsprungspositionenAnfängliche Ursprungs-Features werden nach dem Zufallsprinzip ausgewählt.
String
Initialisierungsfeld
(optional)

Das numerische Feld, durch das Ursprungs-Features identifiziert werden. Features, die in diesem Feld den Wert 1 aufweisen, werden für die Bildung von Clustern herangezogen. Jeder Ursprung ergibt einen Cluster, deshalb müssen mindestens zwei Ursprungs-Features angegeben werden.

Field
Anzahl der Cluster
(optional)

Die Anzahl an zu erstellenden Clustern. Wenn Sie diesen Parameter leer lassen, wertet das Werkzeug die optimale Anzahl der Cluster aus, indem eine Pseudo-F-Statistik für die Cluster-Bildung von Lösungen mit 2 bis 30 Clustern berechnet wird.

Dieser Parameter ist deaktiviert, wenn die Ursprungspositionen in einem Initialisierungsfeld bereitgestellt wurden.

Long
Ausgabetabelle zur Auswertung der Anzahl der Cluster
(optional)

Die Tabelle, die die berechnete Pseudo-F-Statistik für die Lösungen mit 2 bis 30 Clustern zum Auswerten der optimalen Anzahl der Cluster enthält. Auf das Diagramm, das über diese Tabelle erstellt wird, können Sie über die Standalone-Tabellen im Bereich Inhalt zugreifen.

Table

arcpy.stats.MultivariateClustering(in_features, output_features, analysis_fields, {clustering_method}, {initialization_method}, {initialization_field}, {number_of_clusters}, {output_table})
NameErläuterungDatentyp
in_features

Die Feature-Class oder der vorhandene Feature-Layer, für die bzw. den Cluster erzeugt werden.

Feature Layer
output_features

Die erstellte Ausgabe-Feature-Class mit allen Features, den angegebenen Analysefeldern und einem Feld, das angibt, zu welchem Cluster die einzelnen Features gehören.

Feature Class
analysis_fields
[analysis_field,...]

Eine Liste mit Feldern, mit deren Hilfe Sie die Cluster voneinander abgrenzen können.

Field
clustering_method
(optional)

Gibt den verwendeten Cluster-Algorithmus an.

Die Optionen K_MEANS und K_MEDOIDS erzeugen normalerweise ähnliche Ergebnisse. K_MEDOIDS ist jedoch resistenter gegenüber Rauschen und Ausreißern im Parameterwert in_features. K_MEANS ist im Allgemeinen schneller als K_MEDOIDS und wird bei großen Datenmengen empfohlen.

  • K_MEANSDer Parameterwert in_features wird mit dem k-Means-Algorithmus gruppiert. Dies ist die Standardeinstellung.
  • K_MEDOIDSDer Parameterwert in_features wird mit dem k-Medoids-Algorithmus gruppiert.
String
initialization_method
(optional)

Gibt an, wie anfängliche Ursprünge für die Bildung von Clustern ermittelt werden. Wenn Sie beispielsweise angeben, dass drei Cluster erstellt werden sollen, beginnt die Analyse mit drei Ursprüngen.

  • OPTIMIZED_SEED_LOCATIONSUrsprungs-Features werden ausgewählt, um die Analyseergebnisse und die Performance zu optimieren. Dies ist die Standardeinstellung.
  • USER_DEFINED_SEED_LOCATIONSEinträge ungleich 0 im Parameterwert initialization_field werden als Startpunkte für die Bildung der Cluster herangezogen.
  • RANDOM_SEED_LOCATIONSAnfängliche Ursprungs-Features werden nach dem Zufallsprinzip ausgewählt.
String
initialization_field
(optional)

Das numerische Feld, durch das Ursprungs-Features identifiziert werden. Features, die in diesem Feld den Wert 1 aufweisen, werden für die Bildung von Clustern herangezogen. Jeder Ursprung ergibt einen Cluster, deshalb müssen mindestens zwei Ursprungs-Features angegeben werden.

Field
number_of_clusters
(optional)

Die Anzahl an zu erstellenden Clustern. Wenn Sie diesen Parameter leer lassen, wertet das Werkzeug die optimale Anzahl der Cluster aus, indem eine Pseudo-F-Statistik für die Cluster-Bildung von Lösungen mit 2 bis 30 Clustern berechnet wird.

Dieser Parameter ist deaktiviert, wenn die Ursprungspositionen in einem Initialisierungsfeld bereitgestellt wurden.

Long
output_table
(optional)

Die Tabelle, die die berechnete Pseudo-F-Statistik für die Lösungen mit 2 bis 30 Clustern zum Auswerten der optimalen Anzahl der Cluster enthält. Auf das Diagramm, das über diese Tabelle erstellt wird, können Sie über die Standalone-Tabellen im Bereich Inhalt zugreifen.

Table

Codebeispiel

MultivariateClustering – Beispiel 1 (Python-Fenster)

Das folgende Skript im Python-Fenster veranschaulicht, wie Sie die Funktion MultivariateClustering verwenden.

import arcpy
arcpy.env.workspace = r"C:\Analysis"
arcpy.MultivariateClustering_stats("District_Vandalism", "outVandalism", 
                                   ["TOTPOP", "VACANT_CY", "UNEMP"], "K_MEANS", 
                                    "OPTIMIZED_SEED_LOCATIONS", None, "5")
MultivariateClustering – Beispiel 2 (eigenständiges Skript)

Im folgenden eigenständigen Python-Skript wird veranschaulicht, wie Sie die Funktion MultivariateClustering verwenden.

# Clustering Vandalism data in a metropolitan area
# using the Multivariate Clustering Tool

# Import system modules
import arcpy

# Set environment property to overwrite existing output, by default
arcpy.env.overwriteOutput = True

try:
    # Set the current workspace (to avoid having to specify the full path to
    # the feature classes each time)
    arcpy.env.workspace = r"C:\GA"

    # Join the 911 Call Point feature class to the Block Group Polygon feature 
    # class
    # Process: Spatial Join
    fieldMappings = arcpy.FieldMappings()
    fieldMappings.addTable("ReportingDistricts.shp")
    fieldMappings.addTable("Vandalism2006.shp")

    sj = arcpy.SpatialJoin_analysis("ReportingDistricts.shp", 
                                    "Vandalism2006.shp", "Dist_Vand.shp", 
                                    "JOIN_ONE_TO_ONE","KEEP_ALL", fieldMappings, 
                                    "COMPLETELY_CONTAINS")

    # Use the Multivariate Clustering tool to create groups based on different 
    # variables or analysis fields
    # Process: Cluster Similar Features  
    ga = arcpy.MultivariateClustering_stats("District_Vandalism", "outVandalism", 
                                            ["Join_Count", "TOTPOP", "VACANT_CY", "UNEMP"],
	             																														"K_MEANS", "OPTIMIZED_SEED_LOCATIONS", 
                                            None, 5)
    
    # Use Summary Statistic tool to get the Mean of variables used to group
    # Process: Summary Statistics
    SumStat = arcpy.Statistics_analysis("outVandalism", "outSS", 
                                        [["Join_Count", "MEAN"], 
                                         ["VACANT_CY", "MEAN"], 
                                         ["TOTPOP_CY", "MEAN"], 
                                         ["UNEMP_CY", "MEAN"]], 
                                        "GSF_CLUSTER")

except arcpy.ExecuteError:
    # If an error occurred when running the tool, print out the error message.
    print(arcpy.GetMessages())

Umgebungen

Sonderfälle

Ausgabe-Koordinatensystem

Die Feature-Geometrie wird vor der Analyse auf das Ausgabe-Koordinatensystem projiziert. Alle mathematischen Berechnungen basieren auf dem Raumbezug des Ausgabe-Koordinatensystems. Wenn das Ausgabekoordinatensystem auf Grad, Minuten und Sekunden basiert, werden geodätische Entfernungen mithilfe von Sehnenentfernungen geschätzt.

Zufallszahlengenerator

Der verwendete Zufallsgeneratortyp ist stets Mersenne Twister.

Lizenzinformationen

  • Basic: Ja
  • Standard: Ja
  • Advanced: Ja

Verwandte Themen