Multivariate Cluster-Bildung (Spatial Statistics)

Zusammenfassung

Findet natürliche Feature-Cluster ausschließlich basierend auf bestimmten Feature-Attributwerten.

Weitere Informationen zur Funktionsweise des Werkzeugs Multivariate Cluster-Bildung

Abbildung

Diagramm zur multivariaten Cluster-Bildung

Verwendung

  • Mit diesem Werkzeug wird eine Ausgabe-Feature-Class mit den in der Analyse verwendeten Feldern sowie einem neuen ganzzahligen Feld mit der Bezeichnung CLUSTER_ID erstellt. Das Standard-Rendering basiert auf dem Feld CLUSTER_ID und gibt an, zu welchem Cluster die einzelnen Features gehören. Wenn Sie drei zu erstellende Cluster angeben, enthält jeder Datensatz im Feld CLUSTER_ID eine 1, 2 oder 3. Die Ausgabe-Feature-Class enthält auch das Binärfeld IS_SEED. Das Feld IS_SEED gibt an, welche Features als Startpunkte für die Bildung von Clustern herangezogen wurden. Die Anzahl der Werte ungleich 0 im Feld IS_SEED entspricht dem Wert, den Sie für den Parameter Clusteranzahl eingegeben haben.

  • Als Eingabe-Features können Punkte, Linien oder Polygone verwendet werden.

  • Mit diesem Werkzeug werden Meldungen und Diagramme erstellt, mit denen Sie die Merkmale der identifizierten Cluster leichter verstehen. Sie können auf die Meldungen zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen, auf die Pop-out-Schaltfläche klicken oder den Abschnitt Details anzeigen im Bereich Geoverarbeitung erweitern. Sie können auch auf die Meldungen für eine frühere Ausführung des Werkzeugs Multivariate Cluster-Bildung über den Geoverarbeitungsverlauf zugreifen. Die erstellten Schemas können über den Bereich Inhalt aufgerufen werden.

  • Weitere Informationen zu den ausgegebenen Meldungen und Diagrammen finden Sie unter Funktionsweise der multivariaten Cluster-Bildung.

  • Die Analysefelder müssen numerisch sein und verschiedene Werte enthalten. Felder ohne Variation (d. h. Felder, die in jedem Datensatz denselben oder einen sehr ähnlichen Wert aufweisen) werden in der Analyse nicht berücksichtigt, jedoch in die Ausgabe-Features einbezogen. Kategoriefelder können mit dem Werkzeug Multivariate Cluster-Bildung verwendet werden, sofern sie als Dummy-Variablen dargestellt werden (Wert 1 für alle Features einer Kategorie und Wert 0 für alle anderen Features).

  • Das Werkzeug Multivariate Cluster-Bildung bildet nicht-räumliche Cluster. Die Vorgabe von Nachbarschafts- oder anderer Proximitätsanforderungen hinsichtlich der zu erstellenden Cluster ist bei manchen Anwendungen empfehlenswert. In solchen Fällen verwenden Sie das Werkzeug Räumlich eingeschränkte multivariate Cluster-Bildung, um räumlich zusammenhängende Cluster zu erstellen.

  • Zwar ist man geneigt, möglichst viele Analysefelder aufzunehmen, allerdings hat es sich bei diesem Werkzeug bewährt, zunächst mit einer einzigen Variablen zu beginnen und danach zusätzliche Variablen hinzuzufügen. Sind weniger Analysefelder vorhanden, ist es einfacher, die Ergebnisse zu interpretieren. Ebenso können die Variablen, die sich am besten als Diskriminatoren eignen, einfacher bestimmt werden, wenn weniger Felder vorhanden sind.

  • Für die Initialisierungsmethode gibt es drei Optionen: Optimierte Ursprungspositionen, Benutzerdefinierte Ursprungspositionen und Zufällige Ursprungspositionen. Ursprünge bezeichnen diejenigen Features, aus denen einzelne Cluster gebildet werden. Wenn Sie beispielsweise die Zahl 3 für den Parameter Clusteranzahl eingeben, startet die Analyse mit drei Ursprungs-Features. Bei der Standardoption Optimierte Ursprungspositionen wird der erste Ursprung nach dem Zufallsprinzip ausgewählt und sichergestellt, dass die danach ausgewählten Ursprünge Features darstellen, die innerhalb des Datenbereichs weit voneinander entfernt sind (Attributwerte). Durch Auswählen anfänglicher Ursprünge, die unterschiedliche Abschnitte innerhalb des Datenbereichs erfassen, erhalten Sie eine bessere Performance. In manchen Fällen stehen bestimmte Features für einzelne Eigenschaften, die Sie durch unterschiedliche Cluster darstellen möchten. In diesem Fall können Sie diese Positionen bereitstellen, indem Sie ein Ursprungsfeld erstellen, um diese besonderen Features zu identifizieren. Dieses Feld sollte für alle Features, außer den anfänglichen Ursprungs-Features, Nullen aufweisen. Geben Sie für die anfänglichen Ursprungs-Features den Wert 1 ein. Wählen Sie anschließend den Wert Benutzerdefinierte Ursprungspositionen für den Parameter Initialisierungsmethode aus. Wenn Sie eine Empfindlichkeitsanalyse durchführen möchten, um zu ermitteln, welche Features sich immer in demselben Cluster befinden, können Sie die Option Zufällige Ursprungspositionen für den Parameter Initialisierungsmethode auswählen. Bei dieser Option werden die Ursprungs-Features nach dem Zufallsprinzip ausgewählt.

    Hinweis:

    Wenn zufällige Ursprünge verwendet werden, können Sie einen Ursprung auswählen, um den Zufallszahlengenerator durch die Umgebungseinstellung "Zufallszahlengenerator" zu initiieren. Der von diesem Werkzeug verwendete Zufallszahlengenerator ist jedoch immer Mersenne Twister.

  • Alle Werte vom Typ 1 im Initialisierungsfeld werden als Seed interpretiert. Wenn Ursprungspositionen angegeben werden sollen, wird der Parameter Clusteranzahl deaktiviert und das Werkzeug sucht alle Cluster mit Einträgen ungleich Null im Initialisierungsfeld.

  • Manchmal ist Ihnen die Anzahl der Cluster, die sich für Ihre Daten am besten eignet, bekannt. Wenn dem nicht so ist, müssen Sie möglicherweise verschiedene Werte für die Clusteranzahl ausprobieren, um herauszufinden, welche Werte die beste Clusterdifferenzierung ermöglichen. Wenn Sie den Parameter Anzahl der Cluster leer lassen, wertet das Werkzeug die optimale Anzahl der Cluster aus, indem eine Pseudo-F-Statistik für die Cluster-Bildung von Lösungen mit 2 bis 30 Clustern berechnet und die optimale Anzahl Cluster im Meldungsfenster angezeigt wird. Wenn Sie eine optionale Ausgabetabelle für die Auswertung der Anzahl der Cluster angeben, wird ein Diagramm erstellt, in dem die Pseudo-F-Statistik-Werte für Lösungen mit 2 bis 30 Clustern angezeigt werden. Die höchsten Werte der Pseudo-F-Statistik weisen auf Lösungen hin, mit denen bei Maximierung sowohl der Ähnlichkeiten innerhalb von Clustern als auch der Unterschiede zwischen Clustern eine optimale Performance erzielt werden kann. Wenn Sie für die Auswahl der Clusteranzahl kein anderes Kriterium heranziehen können, verwenden Sie eine Zahl, die mit einem der höchsten Werte der Pseudo-F-Statistik verknüpft ist. Schema zur Pseudo-F-Statistik zur Ermittlung der optimalen Anzahl Cluster

  • Dieses Werkzeug verwendet den k-Means- oder k-Medoids-Algorithmus zum Partitionieren von Features in Cluster. Wenn Zufällige Ursprungspositionen als Initialisierungsmethode ausgewählt wurde, basiert der Algorithmus auf Heuristik und kann bei jeder Ausführung des Werkzeugs zu einem anderen Ergebnis führen (auch wenn dieselben Daten und Werkzeugparameter verwendet werden). Der Grund dafür ist, dass bei der Ermittlung der anfänglichen Ursprungs-Features für die Bildung von Clustern eine Zufallskomponente zum Einsatz kommt. Aufgrund dieser heuristischen Lösung ist die Bestimmung der optimalen Gruppenanzahl etwas aufwändiger und die F-Statistik kann wegen unterschiedlicher anfänglicher Ursprungs-Features bei jeder Ausführung des Werkzeugs anders ausfallen. Existiert für Ihre Daten allerdings ein bestimmtes Muster, sind die Lösungen der einzelnen Ausführungen etwas konsistenter. Um die optimale Clusteranzahl einfacher ermitteln zu können, löst das Werkzeug für jede Clusteranzahl von 2 bis 30 zehn Mal auf und verwendet den höchsten der zehn Pseudo-F-Statistik-Werte.

  • k-Means und k-Medoids sind beliebte Algorithmen für die Cluster-Bildung, die im Allgemeinen zu ähnlichen Ergebnissen führen. k-Medoids ist jedoch resistenter gegenüber Rauschen und Ausreißern in den Eingabe-Features. k-Means ist im Allgemeinen schneller als k-Medoids und wird bei großen Datenmengen bevorzugt.

  • Die einem Feature-Set zugewiesene Anzahl Cluster kann zwischen den einzelnen Ausführungen variieren. Angenommen, Sie unterteilen Features basierend auf einer Einkommensvariablen in zwei Cluster. Wenn Sie die Analyse das erste Mal ausführen, kann es sein, dass die Features für hohes Einkommen mit Cluster 2 und die Features für niedriges Einkommen mit Cluster 1 bezeichnet werden. Wenn Sie dieselbe Analyse ein weiteres Mal ausführen, werden die Features für hohes Einkommen möglicherweise mit Cluster 1 bezeichnet. Eventuell stellen Sie fest, dass einige Features für mittleres Einkommen einem anderen Cluster angehören als zuvor.

Parameter

BeschriftungErläuterungDatentyp
Eingabe-Features

Die Feature-Class bzw. der Feature-Layer, für die/den Sie Cluster erstellen möchten.

Feature Layer
Ausgabe-Features

Die neu erstellte Ausgabe-Feature-Class mit allen Features, den angegebenen Analysefeldern und einem Feld, das angibt, zu welchem Cluster die einzelnen Features gehören.

Feature Class
Analysefelder

Eine Liste mit Feldern, mit deren Hilfe Sie die Cluster voneinander abgrenzen können.

Field
Methode der Cluster-Bildung
(optional)

Der verwendete Algorithmus für die Cluster-Bildung. k-Means ist die Standardeinstellung.

k-Means und k-Medoids sind beliebte Algorithmen für die Cluster-Bildung, die im Allgemeinen zu ähnlichen Ergebnissen führen. k-Medoids ist jedoch resistenter gegenüber Rauschen und Ausreißern in den Eingabe-Features. k-Means ist im Allgemeinen schneller als k-Medoids und wird bei großen Datenmengen bevorzugt.

  • K-MittelwertDie Eingabe-Features werden mit dem k-Means-Algorithmus gruppiert. Dies ist die Standardeinstellung.
  • k-MedoidsDie Eingabe-Features werden mit dem k-Medoids-Algorithmus gruppiert.
  • K-Mittelwertin_features wird mit dem k-Means-Algorithmus gruppiert. Dies ist die Standardeinstellung.
  • k-MedoidsDie Eingabe-Features werden mit dem k-Medoids-Algorithmus gruppiert.
String
Initialisierungsmethode
(optional)

Gibt an, wie anfängliche Ursprünge für die Bildung von Clustern ermittelt werden. Wenn Sie beispielsweise angeben, dass drei Cluster erstellt werden sollen, beginnt die Analyse mit drei Ursprüngen.

  • Optimierte UrsprungspositionenUrsprungs-Features werden ausgewählt, um die Analyseergebnisse und die Performance zu optimieren. Dies ist die Standardeinstellung.
  • Benutzerdefinierte UrsprungspositionenEinträge ungleich 0 im Initialisierungsfeld werden als Startpunkte für die Bildung der Cluster herangezogen.
  • Zufällige UrsprungspositionenAnfängliche Ursprungs-Features werden nach dem Zufallsprinzip ausgewählt.
String
Initialisierungsfeld
(optional)

Das numerische Feld, durch das Ursprungs-Features identifiziert werden. Features, die in diesem Feld den Wert 1 aufweisen, werden für die Bildung von Clustern herangezogen. Alle anderen Features sollten Nullen enthalten.

Field
Anzahl der Cluster
(optional)

Die Anzahl der zu erstellenden Cluster. Wenn Sie diesen Parameter leer lassen, wertet das Werkzeug die optimale Anzahl der Cluster aus, indem eine Pseudo-F-Statistik für die Cluster-Bildung von Lösungen mit 2 bis 30 Clustern berechnet wird.

Dieser Parameter ist deaktiviert, wenn die Ursprungspositionen in einem Initialisierungsfeld bereitgestellt wurden.

Long
Ausgabetabelle zur Auswertung der Anzahl der Cluster
(optional)

Wenn Sie diesen Wert angeben, enthält die erstellte Tabelle die berechnete Pseudo-F-Statistik für die Lösungen mit 2 bis 30 Clustern zum Auswerten der optimalen Anzahl der Cluster. Auf das Diagramm, das über diese Tabelle erstellt wird, können Sie über die Standalone-Tabellen im Bereich Inhalt zugreifen.

Table

arcpy.stats.MultivariateClustering(in_features, output_features, analysis_fields, {clustering_method}, {initialization_method}, {initialization_field}, {number_of_clusters}, {output_table})
NameErläuterungDatentyp
in_features

Die Feature-Class bzw. der Feature-Layer, für die/den Sie Cluster erstellen möchten.

Feature Layer
output_features

Die neu erstellte Ausgabe-Feature-Class mit allen Features, den angegebenen Analysefeldern und einem Feld, das angibt, zu welchem Cluster die einzelnen Features gehören.

Feature Class
analysis_fields
[analysis_field,...]

Eine Liste mit Feldern, mit deren Hilfe Sie die Cluster voneinander abgrenzen können.

Field
clustering_method
(optional)

Der verwendete Algorithmus für die Cluster-Bildung.K_MEANS ist die Standardeinstellung.

K_MEANS und K_MEDOIDS sind beliebte Algorithmen für die Cluster-Bildung, die im Allgemeinen zu ähnlichen Ergebnissen führen. K_MEDOIDS ist jedoch resistenter gegenüber Rauschen und Ausreißern in in_features. K_MEANS ist im Allgemeinen schneller als K_MEDOIDS und wird bei großen Datenmengen bevorzugt.

  • K_MEANSin_features wird mit dem k-Means-Algorithmus gruppiert. Dies ist die Standardeinstellung.
  • K_MEDOIDSDie Eingabe-Features werden mit dem k-Medoids-Algorithmus gruppiert.
String
initialization_method
(optional)

Gibt an, wie anfängliche Ursprünge für die Bildung von Clustern ermittelt werden. Wenn Sie beispielsweise angeben, dass drei Cluster erstellt werden sollen, beginnt die Analyse mit drei Ursprüngen.

  • OPTIMIZED_SEED_LOCATIONSUrsprungs-Features werden ausgewählt, um die Analyseergebnisse und die Performance zu optimieren. Dies ist die Standardeinstellung.
  • USER_DEFINED_SEED_LOCATIONSEinträge ungleich 0 im initialization_field werden als Startpunkte für die Bildung der Cluster herangezogen.
  • RANDOM_SEED_LOCATIONSAnfängliche Ursprungs-Features werden nach dem Zufallsprinzip ausgewählt.
String
initialization_field
(optional)

Das numerische Feld, durch das Ursprungs-Features identifiziert werden. Features, die in diesem Feld den Wert 1 aufweisen, werden für die Bildung von Clustern herangezogen. Alle anderen Features sollten Nullen enthalten.

Field
number_of_clusters
(optional)

Die Anzahl der zu erstellenden Cluster. Wenn Sie diesen Parameter leer lassen, wertet das Werkzeug die optimale Anzahl der Cluster aus, indem eine Pseudo-F-Statistik für die Cluster-Bildung von Lösungen mit 2 bis 30 Clustern berechnet wird.

Dieser Parameter ist deaktiviert, wenn die Ursprungspositionen in einem Initialisierungsfeld bereitgestellt wurden.

Long
output_table
(optional)

Wenn Sie diesen Wert angeben, enthält die erstellte Tabelle die berechnete Pseudo-F-Statistik für die Lösungen mit 2 bis 30 Clustern zum Auswerten der optimalen Anzahl der Cluster. Auf das Diagramm, das über diese Tabelle erstellt wird, können Sie über die Standalone-Tabellen im Bereich Inhalt zugreifen.

Table

Codebeispiel

MultivariateClustering – Beispiel 1 (Python-Fenster)

Das folgende Skript veranschaulicht die Verwendung des Werkzeugs MultivariateClustering im Python-Fenster.

import arcpy
arcpy.env.workspace = r"C:\Analysis"
arcpy.MultivariateClustering_stats("District_Vandalism", "outVandalism", 
                                   ["TOTPOP", "VACANT_CY", "UNEMP"], "K_MEANS", 
                                    "OPTIMIZED_SEED_LOCATIONS", None, "5")
MultivariateClustering – Beispiel 2 (eigenständiges Skript)

Das folgende eigenständige Python-Skript veranschaulicht die Verwendung des Werkzeugs MultivariateClustering.

# Clustering Vandalism data in a metropolitan area
# using the Multivariate Clustering Tool
# Import system modules
import arcpy
# Set environment property to overwrite existing output, by default
arcpy.env.overwriteOutput = True
try:
    # Set the current workspace (to avoid having to specify the full path to
    # the feature classes each time)
    arcpy.env.workspace = r"C:\GA"
    # Join the 911 Call Point feature class to the Block Group Polygon feature 
    # class
    # Process: Spatial Join
    fieldMappings = arcpy.FieldMappings()
    fieldMappings.addTable("ReportingDistricts.shp")
    fieldMappings.addTable("Vandalism2006.shp")
    sj = arcpy.SpatialJoin_analysis("ReportingDistricts.shp", 
                                    "Vandalism2006.shp", "Dist_Vand.shp", 
                                    "JOIN_ONE_TO_ONE","KEEP_ALL", fieldMappings, 
                                    "COMPLETELY_CONTAINS")
    # Use the Multivariate Clustering tool to create groups based on different 
    # variables or analysis fields
    # Process: Cluster Similar Features  
    ga = arcpy.MultivariateClustering_stats("District_Vandalism", "outVandalism", 
                                            ["Join_Count", "TOTPOP", "VACANT_CY", "UNEMP"],
	             																														"K_MEANS", "OPTIMIZED_SEED_LOCATIONS", 
                                            None, 5)
    
    # Use Summary Statistic tool to get the Mean of variables used to group
    # Process: Summary Statistics
    SumStat = arcpy.Statistics_analysis("outVandalism", "outSS", 
                                        [["Join_Count", "MEAN"], 
                                         ["VACANT_CY", "MEAN"], 
                                         ["TOTPOP_CY", "MEAN"], 
                                         ["UNEMP_CY", "MEAN"]], 
                                        "GSF_CLUSTER")
except arcpy.ExecuteError:
    # If an error occurred when running the tool, print out the error message.
    print(arcpy.GetMessages())

Umgebungen

Sonderfälle

Ausgabe-Koordinatensystem

Die Feature-Geometrie wird vor der Analyse auf das Ausgabe-Koordinatensystem projiziert. Alle mathematischen Berechnungen basieren auf dem Raumbezug des Ausgabe-Koordinatensystems. Wenn das Ausgabekoordinatensystem auf Grad, Minuten und Sekunden basiert, werden geodätische Entfernungen mithilfe von Sehnenentfernungen geschätzt.

Zufallszahlengenerator

Der verwendete Zufallsgeneratortyp ist stets Mersenne Twister.

Lizenzinformationen

  • Basic: Ja
  • Standard: Ja
  • Advanced: Ja

Verwandte Themen