Funktionsweise des Werkzeugs "Multivariate Cluster-Bildung"

Bei der Betrachtung unserer Umgebung ist es für uns ganz natürlich, das Gesehene zu organisieren, zu gruppieren, zu differenzieren und zu katalogisieren, um es besser zu verstehen. Dieser mentale Klassifizierungsprozess ist für das Lernen und Verstehen von entscheidender Bedeutung. Genauso können Sie auch das Werkzeug Multivariate Cluster-Bildung einsetzen, um mehr über Ihre Daten zu erfahren und diese besser zu verstehen. Ausgehend von der Anzahl der zu erstellenden Cluster wird nach einer Lösung gesucht, bei der alle Features innerhalb eines bestimmten Clusters möglichst ähnlich und alle Cluster als Ganzes möglichst verschieden voneinander sind. Die Ähnlichkeit von Features basiert auf der Gruppe von Attributen, die Sie für den Parameter Analysefelder angeben, und Cluster werden mithilfe des k-Means-Algorithmus erstellt.

Tipp:

Cluster-Bildungs-, Gruppierungs- und Klassifizierungsverfahren zählen zu den am häufigsten verwendeten Methoden beim maschinellen Lernen. Das Werkzeug Multivariate Cluster-Bildung verwendet unüberwachte Methoden zum maschinellen Lernen, um natürliche Cluster in Ihren Daten zu ermitteln. Diese Klassifizierungsmethoden gelten als unüberwacht, da keine vorklassifizierten Features erforderlich sind, um die Methode zum Suchen von Daten in den Clustern anzuleiten oder zu trainieren.

Es gibt Hunderte von Cluster-Analysealgorithmen wie diese, die alle als NP-Schwierig klassifiziert sind. Dies bedeutet, dass Sie für eine Lösung, die eine bestmögliche Maximierung von sowohl Ähnlichkeiten innerhalb einer Gruppe als auch Unterschieden zwischen Gruppen bietet, alle möglichen Kombinationen der für die Cluster-Bildung ausgewählten Features ausprobieren müssen. Wenn nur eine Handvoll Features vorliegt, mag dies noch machbar sein, andernfalls wird das Problem recht schnell unlösbar.

Nicht nur ist es beinahe unmöglich sicherzustellen, dass eine optimale Lösung gefunden wurde, es ist auch unrealistisch, einen Cluster-Algorithmus zu finden, der bei allen denkbaren Daten- und Szenariotypen optimal funktioniert. Cluster haben die unterschiedlichsten Formen, Größen und Dichten; Attributdaten können eine Vielzahl von Bereichen, Symmetrie, Kontinuität und Maßeinheiten umfassen. Dies erklärt, warum im Verlauf der letzten 50 Jahre so viele verschiedene Cluster-Analysealgorithmen entwickelt wurden. Daher stellen Sie sich diese Werkzeuge am besten als Werkzeuge vor, mit deren Hilfe Sie mehr über die zugrunde liegenden Strukturen von Daten erfahren können.

Potenzielle Anwendungsbereiche

Mögliche Anwendungsbereiche des Werkzeugs lauten wie folgt:

  • Angenommen, Ihnen liegen Salmonellenproben von landwirtschaftlichen Betrieben in Ihrem Bundesland vor und zu den Attributen gehören Typ/Klasse, Ort und Datum/Uhrzeit. Zum besseren Verständnis der Übertragungs- und Verbreitungswege der Bakterien können Sie die Proben mit dem Werkzeug Multivariate Cluster-Bildung in einzelne "Ausbrüche" unterteilen. Obwohl die Analyse selbst nicht räumlich ist, können Sie in den Ergebnissen ein räumliches Muster der Ausbreitung erkennen. Nach Festlegung der Cluster können Sie die einzelnen Ausbrüche mit anderen Werkzeugen zur Analyse räumlicher Muster, wie beispielsweise Standardabweichungsellipse, Mittelwert für Mittelpunkt oder Near, analysieren.
  • Falls Sie Daten zu Tiersichtungen sammeln, um deren Reviere besser kennenzulernen, kann das Werkzeug Multivariate Cluster-Bildung hilfreich sein. Zu verstehen, wo und wann sich Lachse in unterschiedlichen Lebensphasen sammeln, kann z. B. beim Aufbau von Schutzgebieten helfen und dadurch zur erfolgreichen Vermehrung beitragen.
  • Die Erstellung von Clustern für Kunden nach Kaufverhalten, demografischen Eigenschaften, Fahrgewohnheiten oder anderen Verhaltensattributen kann Ihnen dabei helfen, eine effiziente Marketingstrategie für die Produkte Ihres Unternehmens zu entwickeln.

Eingaben

Dieses Werkzeug verwendet Punkt-, Polylinien oder Polygon-Eingabe-Features, einen Pfad für die Ausgabe-Features, ein oder mehrere Analysefelder sowie ganzzahlige Werte zur Darstellung der zu erstellenden Anzahl der Cluster. Außerdem ist eine Reihe optionaler Parameter verfügbar, darunter Optionen für die Initialisierungsmethode und eine Ausgabetabelle für die Auswertung der Anzahl der Cluster.

Analysefelder

Wählen Sie numerische Felder aus, die Verhältniswert-, Intervall- oder Ordinalwert-Maßsysteme darstellen. Nominalwert-Daten können zwar mit (binären) Dummy-Variablen dargestellt werden, sie funktionieren in der Regel jedoch nicht so gut wie andere numerische Variablentypen. Sie können beispielsweise eine Variable namens "Ländlich" erstellen und jedem Feature (z. B. jedem Zählbezirk) eine 1 zuweisen, wenn der Bezirk überwiegend ländlich ist, und eine 0, wenn er überwiegend städtisch ist. Eine besser geeignete Repräsentation dieser Variable wäre die mit jedem Feature verknüpfte Menge bzw. der Anteil an ländlicher Fläche.

Hinweis:

Die Werte der Analysefelder werden vom Werkzeug standardisiert, da Variablen mit hohen Varianzen (bei denen Datenwerte weit um den Mittelwert verteilt sind) einen größeren Einfluss auf die Cluster haben als Variablen mit kleinen Varianzen. Die Standardisierung der Attributwerte umfasst eine Z-Transformation, wobei der Mittelwert aller Werte von jedem Wert subtrahiert und durch die Standardabweichung für alle Werte dividiert wird. Bei der Standardisierung werden alle Attribute in denselben Maßstab überführt, auch wenn sie von sehr unterschiedlichen Zahlentypen dargestellt werden: Verhältnisse (Zahlen von 0 bis 1,0), Bevölkerung (mit Werten von über 1 Million) und Entfernungen (z. B. Kilometer).

Wählen Sie Variablen, die Ihrer Meinung nach eine gute Unterscheidung der Feature-Cluster voneinander ermöglichen. Angenommen, Sie möchten beispielsweise Cluster aus Schulbezirken nach Schülerleistungen basierend auf standardisierten Leistungstests bilden. Sie können Analysefelder wählen, die Prüfungsergebnisse insgesamt, Ergebnisse für einzelne Fächer wie Mathematik oder Lesen, den Anteil an Schülern, der eine Mindestnote erreicht, usw. umfassen. Bei Ausführung des Werkzeugs Multivariate Cluster-Bildung wird der Wert R2 für jede Variable berechnet und im Meldungsfenster angezeigt. In der nachfolgenden Zusammenfassung basiert die Gruppierung der Schulbezirke auf den Prüfungsergebnissen der Schüler, dem Prozentsatz Erwachsener im Gebiet, die keinen Abschluss an einer weiterführenden Schule gemacht haben, den Ausgaben pro Schüler und dem durchschnittlichen Schüler-Lehrer-Verhältnis. Beachten Sie, dass die Variable "TestScores" (Prüfungsergebnisse) den höchsten R2-Wert aufweist. Dies weist darauf hin, dass dies die effektivste Variable für die Einteilung der Schulbezirke in Cluster ist. Der R2-Wert gibt an, inwieweit die Variation bei den ursprünglichen TestScores-Daten nach der Cluster-Bildung erhalten geblieben ist. Je größer also der R2-Wert für eine bestimmte Variable ist, desto besser funktioniert die Unterscheidung zwischen den Features durch die Variable.

Zusammenfassung der Variablen für multivariate Cluster-Bildung

Detailinformationen:

R2 wird wie folgt berechnet:

(TSS - ESS) / TSS

Hierbei ist TSS die Quadratsumme der Gesamtstreuung und ESS die Quadratsumme der erklärten Streuung. TSS wird berechnet, indem Abweichungen vom globalen Mittelwert einer Variablen quadriert und anschließend summiert werden. ESS wird auf die gleiche Weise berechnet, abgesehen davon, dass Abweichungen clusterweise verarbeitet werden: Jeder Wert wird vom Mittelwert des Clusters, dem er angehört, subtrahiert und anschließend quadriert und summiert.

Anzahl der Cluster

In einigen Fällen ist Ihnen die für Ihre Frage oder Ihr Problem geeignete Anzahl von Clustern bekannt, und Sie können diese für den Parameter Anzahl der Cluster eingeben. In vielen Fällen liegen jedoch keinerlei Kriterien für die Auswahl einer bestimmten Clusteranzahl vor. Stattdessen bietet sich die Verwendung der Anzahl an, die die beste Unterscheidung zwischen Feature-Ähnlichkeiten und -Unterschieden sicherstellt. In dieser Situation können Sie den Parameter Anzahl der Cluster leer lassen und mit dem Werkzeug Multivariate Cluster-Bildung bewerten, wie effektiv die Unterteilung der Features in 2, 3, 4 und bis zu 30 Cluster ist. Die Effektivität einer Cluster-Bildung wird mit der Pseudo-F-Statistik nach Calinski/Harabasz gemessen; hierbei handelt es sich um ein Verhältnis der Varianz zwischen Clustern und der Varianz innerhalb von Clustern: Anders gesagt handelt es sich um ein Verhältnis, das die Ähnlichkeit innerhalb einer Gruppe und den Unterschied zwischen Gruppen widerspiegelt:

Pseudo-F-Statistik nach Calinski/Harabasz

Methode der Cluster-Bildung

Das Werkzeug Multivariate Cluster-Bildung verwendet standardmäßig den k-Means-Algorithmus. Ziel des k-Means-Algorithmus ist es, Features so zu unterteilen, dass über alle Cluster hinweg die Unterschiede zwischen den Features eines Clusters minimiert werden. Da der Algorithmus NP-Schwierig ist, wird zum Clustern von Features eine Greedy-Heuristik verwendet. Der Greedy-Algorithmus konvergiert immer gegen ein lokales Minimum, findet jedoch nicht immer das globale (optimale) Minimum.

Der k-Means-Algorithmus identifiziert zunächst die Ursprungs-Features, aus denen die einzelnen Cluster erstellt werden. Folglich stimmt die Anzahl der Ursprungs-Features immer mit der Anzahl der Cluster überein. Der erste Ursprung wird nach dem Zufallsprinzip ausgewählt. Zur Auswahl der übrigen Ursprungs-Features (bei der nach wie vor eine Zufallskomponente verwendet wird) wird jedoch eine Gewichtung angewendet, die die Auswahl nachfolgender Ursprungs-Features bevorzugt, die im Datenraum am weitesten vom vorhandenen Satz Ursprungs-Features entfernt sind (dieser Teil des Algorithmus wird als k-Means ++ bezeichnet). Aufgrund der Zufallskomponente bei der Suche nach Ursprungs-Features kann es sein, dass bei Auswahl von Optimierte Ursprungspositionen oder Zufällige Ursprungspositionen als Initialisierungsmethode jede Ausführung des Werkzeugs zu anderen Ergebnissen der Cluster-Bildung führt.

Nachdem die Ursprungs-Features identifiziert wurden, werden alle Features dem nächsten Ursprungs-Feature zugewiesen (im Datenraum am nächsten gelegen). Für jedes Feature-Cluster wird ein arithmetischer Datenmittelpunkt berechnet, und jedes Feature wird dem nächstgelegenen Mittelpunkt neu zugewiesen. Die Berechnung eines arithmetischen Datenmittelpunktes für die einzelnen Cluster und die anschließende Neuzuweisung von Features zum nächstgelegenen Mittelpunkt wird solange fortgesetzt, bis sich die Cluster-Mitgliedschaft stabilisiert hat (bis maximal 100 Iterationen).

Wie der k-Means-Algorithmus identifiziert auch k-Medoids zunächst die Ursprungs-Features, aus denen die einzelnen Cluster erstellt werden. Bei jedem Ursprungs-Feature handelt es sich um ein tatsächliches Feature in Eingabe-Features. Diese Ursprungs-Features werden Medoids genannt. Alle Features werden dem nächsten Medoid zugewiesen (im Datenraum am nächsten gelegen). Dies ist die ursprüngliche Cluster-Lösung. Die Summe der Entfernung (im Datenraum) zwischen den Medoid- und allen Nicht-Medoid-Features wird berechnet. Zur Verfeinerung dieser Lösung wird der Medoid in jedem Cluster durch die einzelnen Nicht-Medoid-Features ausgetauscht und die Summe der Entfernungen (im Datenraum) zwischen allen Medoid- und Nicht-Medoid-Features berechnet. Wird die Summe der Entfernungen durch den Austausch größer, wird dieser rückgängig gemacht; andernfalls wird das ausgetauschte Feature zum neuen Medoid. Der Prozess der Suche nach neuen Medoids und der anschließenden Neuzuweisung von Features zum nächstgelegenen Medoid wird fortgesetzt, bis sich die Cluster-Mitgliedschaft stabilisiert hat.

K-Means und k-Medoids sind beliebte Algorithmen für die Cluster-Bildung, die im Allgemeinen zu ähnlichen Ergebnissen führen. K-Medoids ist jedoch resistenter gegenüber Rauschen und Ausreißern in den Eingabe-Features. K-Means ist im Allgemeinen schneller als k-Medoids und wird bei großen Datenvolumen bevorzugt.

Ausgaben

Das Werkzeug Multivariate Cluster-Bildung erstellt verschiedene Ausgaben. Sie können auf die Meldungen über den Bereich Geoverarbeitung zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen und auf die Schaltfläche Fortschritt des Werkzeugs klicken oder den Abschnitt "Meldungen" am unteren Rand des Bereichs Geoverarbeitung einblenden. Sie können auch über den Geoverarbeitungsverlauf auf die Meldungen von einer zuvor ausgeführten multivariaten Cluster-Bildung zugreifen.

Meldungsfenster für multivariate Cluster-Bildung

Die Standardausgabe des Werkzeugs Multivariate Cluster-Bildung ist eine neue Ausgabe-Feature-Class, die die in der Analyse verwendeten Felder sowie ein neues ganzzahliges Feld namens CLUSTER_ID enthält, das angibt, welchem Cluster die einzelnen Features angehören. Diese Ausgabe-Feature-Class wird dem Inhaltsverzeichnis hinzugefügt, wobei ein eindeutiges Farbrendering-Schema auf das Feld CLUSTER_ID angewendet wird. Das Feld IS_SEED gibt an, welche Features als Ursprungswerte ausgewählt und für die Bildung von Clustern herangezogen wurden.

Ergebnis der multivariaten Cluster-Bildung
Beispiel für die Ergebnisse der multivariaten Cluster-Bildung

Diagrammausgaben des Werkzeugs "Multivariate Cluster-Bildung"

Es werden mehrere Diagrammtypen erstellt, um die erstellten Cluster zusammenzufassen. Boxplots dienen zur Anzeige von Informationen zu den Eigenschaften des jeweiligen Clusters und zu den Eigenschaften der jeweiligen Variablen, die in der Analyse verwendet werden. Anhand der nachfolgenden Grafik wird die Interpretation von Boxplots und ihrer Zusammenfassungswerte für jedes Analysefeld und erstellte Cluster erläutert, 1. Quartil, globaler Medianwert, 3. Quartil, maximaler Datenwert, und Datenausreißer (Werte kleiner oder größer als das 1,5-fache des Interquartil-Bereichs). Zeigen Sie mit der Maus auf den Boxplot im Diagramm, um diese Werte und den Wert des Interquartil-Bereichs anzuzeigen. Alle Punktmarkierungen, die außerhalb des Minimums oder Maximums (oberer oder unterer Whisker) liegen, stellen Datenausreißer dar.

Detailinformationen:

Der Interquartil-Bereich (IQR) ist das 3. Quartil minus das 1. Quartil. Niedrige Ausreißer sind Werte kleiner als 1,5*IQR (Q1-1,5*IQR), hohe Ausreißer sind Werte größer als 1,5*IQR (Q3+1,5*IQR). Ausreißer werden in den Boxplots als Punktsymbole angezeigt.

Zusammenfassung von Boxplots

Das parallele Standard-Boxplot-Diagramm fasst sowohl die Cluster als auch die darin enthaltenen Variablen zusammen. Das Werkzeug Multivariate Cluster-Bildung wurde beispielsweise für Zählbezirke ausgeführt, um 4 Cluster zu erstellen. Im nachstehenden Diagramm stellt Cluster 2 (rot) Zählbezirke mit Mieten dar, die im Vergleich zu anderen Clustern überdurchschnittlichen hoch sind. Außerdem stellt Cluster 2 Zählbezirke mit den höchsten Werten für von Frauen geführten Haushalten mit Kindern (FHH_CHILD), den höchsten Werten für die Anzahl von Wohneinheiten (HSE_UNITS) und den höchsten Werten für Kinder unter 5 Jahren dar. Cluster 4 (dunkelgelb) spiegelt Zählbezirke mit den höchsten mittleren Mieten, der fast niedrigsten Anzahl von Haushalten, die von Frauen mit Kindern geführt werden, und mit der überdurchschnittlichen Anzahl von Wohneinheiten wider. Cluster 3 (grün) gibt Zählbezirke mit der geringsten Anzahl der von Frauen geführten Haushalten mit Kindern, der geringsten Anzahl von Kindern unter 5, der geringsten Anzahl von Wohneinheiten und der fast niedrigsten Miete (nicht so niedrig wie in Cluster 1) an. Zeigen Sie mit der Maus auf jeden Knoten der Mittellinien, um den Durchschnittswert des Clusters für jedes Analysefeld anzuzeigen.

Box-Plots zur multivariaten Cluster-Bildung

Nachdem Sie die allgemeine Zusammenfassung der Analyse mit den parallelen Boxplots oben überprüft haben, können Sie die Boxplots der einzelnen Cluster überprüfen, indem Sie auf der Registerkarte Reihe des Bereichs Diagrammeigenschaften zu Nebeneinander wechseln. In dieser Datenansicht ist leicht zu erkennen, welche Gruppe den höchsten und niedrigsten Wertebereich innerhalb der einzelnen Variablen aufweist. Boxplots werden für jede Variable in jedem Cluster erstellt, damit Sie erkennen können, wie die Werte der einzelnen Cluster mit denen anderer Cluster in Beziehung stehen. Zeigen Sie mit der Maus auf den Boxplot der jeweiligen Variable, um den Minimal-, Maximal- und Mittelwert für jede Variable in den einzelnen Clustern anzuzeigen. Das nachstehende Diagramm zeigt beispielsweise, dass Cluster 4 (dunkelgelb) die höchsten Werte für die MEDIANRENT-Variable und Zählbezirke mit einem Wertebereich von 354 bis 813 aufweist.

Box-Plots zur multivariaten Cluster-Bildung

Außerdem wird ein Balkendiagramm erstellt, das die Anzahl der Features pro Cluster anzeigt. Durch Auswahl der einzelnen Balken werden auch die Features des Clusters in der Karte ausgewählt, was für die weitere Analyse hilfreich sein kann.

Balkendiagramm zur Anzahl der Features pro Cluster

Wenn Sie den Parameter Anzahl der Cluster leer lassen, bewertet das Werkzeug die optimale Anzahl der Cluster basierend auf Ihren Daten. Wenn Sie einen Pfad für die Ausgabetabelle für die Auswertung der Anzahl der Cluster angeben, wird ein Diagramm erstellt, das die berechnete Pseudo-F-Statistik anzeigt. Die höchste Spitze im Diagramm ist die größte F-Statistik und gibt an, wie viele Cluster die angegebenen Features und Variablen am effektivsten unterscheiden. Im folgenden Diagramm ist die mit vier Gruppen verknüpfte F-Statistik am höchsten. Auch fünf Gruppen mit einer hohen Pseudo-F-Statistik wären eine gute Wahl.

Pseudo-F-Statistik-Diagramm
Diagramm zur Pseudo-F-Statistik zur Ermittlung der optimalen Anzahl der Cluster

Best Practices

Zwar ist man geneigt, möglichst viele Analysefelder für das Werkzeug Multivariate Cluster-Bildung aufzunehmen, allerdings hat es sich bei diesem Werkzeug bewährt, zunächst mit einer einzigen Variablen zu beginnen. Sind weniger Analysefelder vorhanden, ist es einfacher, die Ergebnisse zu interpretieren. Ebenso können die Variablen, die sich am besten als Diskriminatoren eignen, einfacher bestimmt werden, wenn weniger Felder vorhanden sind.

In vielen Szenarien führen Sie das Werkzeug Multivariate Cluster-Bildung vermutlich mehrmals aus, um nach der optimalen Anzahl der Cluster und der effektivsten Kombination von Analysefeldern zu suchen, die die bestmögliche Einteilung der Features in Cluster ermöglicht.

Denken Sie daran, sich das Diagramm der F-Statistik anzusehen, wenn das Werkzeug den Wert "30" als optimale Anzahl von Clustern zurückgibt. Die Auswahl der Anzahl von Clustern und die Interpretation des F-Statistik-Diagramms ist eine Kunst, und eine niedrigere Anzahl von Clustern ist für Ihre Analyse möglicherweise geeigneter.

Zusätzliche Ressourcen

Jain, A. K. 2009. "Data Clustering: 50 years beyond K-Means." Pattern Recognition Letters.

Hinde, A., T. Whiteway, R. Ruddick, and A. D. Heap. 2007. "Seascapes of the Australian Margin and adjacent sea floor: Keystroke Methodology." in Geoscience Australia, Record 2007/10, 58pp.