Funktionsweise der Gruppierungsanalyse

Bei der Betrachtung unserer Umgebung ist es für uns ganz natürlich, das Gesehene zu organisieren, zu gruppieren, zu differenzieren und zu katalogisieren, um es besser zu verstehen. Dieser mentale Klassifizierungsprozess ist für das Lernen und Verstehen von entscheidender Bedeutung. Genauso können Sie auch das Werkzeug Gruppierungsanalyse einsetzen, um mehr über Ihre Daten zu erfahren und diese besser zu verstehen. Ausgehend von der Anzahl der zu erstellenden Gruppen wird nach einer Lösung gesucht, bei der alle Features innerhalb einer bestimmten Gruppe möglichst ähnlich und alle Gruppen als Ganzes möglichst verschieden voneinander sind. Die Ähnlichkeit von Features basiert auf dem Satz von Attributen, die Sie für den Parameter Analysefelder angeben, und kann optional auch räumliche Eigenschaften oder Raum-Zeit-Eigenschaften umfassen. Wenn Räumliche Einschränkungen für Raum oder Raum-Zeit angegeben werden, sucht der Algorithmus mithilfe eines Konnektivitätsdiagramms (minimaler Spannbaum) nach natürlichen Gruppierungen. Wurde Keine räumliche Einschränkung angegeben, verwendet das Werkzeug Gruppierungsanalyse einen k-Means-Algorithmus.

Tipp:

Gruppierungs- und Klassifizierungsverfahren zählen zu den am häufigsten verwendeten Methoden beim maschinellen Lernen. Das Werkzeug Gruppierungsanalyse verwendet unüberwachte Methoden zum maschinellen Lernen, um natürliche Gruppierungen in Ihren Daten zu ermitteln. Diese Klassifizierungsmethoden gelten als unüberwacht, da keine vorklassifizierten Features angeleitet oder trainiert werden müssen, um die Gruppierungen Ihrer Daten zu ermitteln.

Es gibt Hunderte von Cluster-Analysealgorithmen wie diese, alle sind als NP-Schwierig klassifiziert. Dies bedeutet, dass Sie alle möglichen Kombinationen der zu gruppierenden Features ausprobieren müssen, um sicherzustellen, dass eine Lösung sowohl Ähnlichkeiten innerhalb einer Gruppe als auch Unterschiede zwischen Gruppen perfekt maximiert. Wenn nur eine Handvoll Features vorliegt, mag dies noch machbar sein, andernfalls wird das Problem recht schnell unlösbar.

Nicht nur ist es fast unmöglich sicherzustellen, dass eine optimale Lösung gefunden wurde, es ist auch unrealistisch zu versuchen, einen Gruppierungsalgorithmus zu finden, der für alle möglichen Datenszenarien optimal funktioniert. Gruppen haben die unterschiedlichsten Formen, Größen und Dichten; Attributdaten können eine Vielzahl von Bereichen, Symmetrie, Kontinuität und Maßeinheiten umfassen. Dies erklärt, warum im Verlauf der letzten 50 Jahre so viele verschiedene Cluster-Analysealgorithmen entwickelt wurden. Daher stellen Sie sich die Gruppierungsanalyse am besten als ein Untersuchungswerkzeug vor, mit dessen Hilfe Sie mehr über die zugrunde liegenden Strukturen von Daten erfahren können.

Potenzielle Anwendungsbereiche

Mögliche Anwendungsbereiche des Werkzeugs lauten wie folgt:

  • Angenommen, Ihnen liegen Salmonellenproben von landwirtschaftlichen Betrieben in Ihrem Bundesland vor und zu den Attributen gehören Typ/Klasse, Ort und Datum/Uhrzeit. Zum besseren Verständnis der Übertragungs- und Verbreitungswege der Bakterien können Sie die Proben mit dem Werkzeug Gruppierungsanalyse in einzelne "Ausbrüche" unterteilen. Sie können beispielsweise eine Raum-Zeit-Einschränkung verwenden, da Proben desselben Ausbruchs zeitlich und räumlich nahe beieinander liegen und auch mit dem gleichen Typ oder der gleichen Klasse von Bakterien verknüpft sein werden. Nach Festlegung der Gruppen können Sie die einzelnen Ausbrüche mit anderen Werkzeuge zur Analyse räumlicher Muster, wie beispielsweise Standardabweichungsellipse, Mittelwert für Mittelpunkt oder Near analysieren.
  • Falls Sie Daten zu Tiersichtungen sammeln, um deren Reviere besser kennenzulernen, kann das Werkzeug Gruppierungsanalyse hilfreich sein. Zu verstehen, wo und wann sich Lachse in unterschiedlichen Lebensphasen sammeln, kann z. B. beim Aufbau von Schutzgebieten helfen und dadurch zur erfolgreichen Vermehrung beitragen.
  • Als Agrarwissenschaftler möchten Sie vielleicht die unterschiedlichen Bodenarten in Ihrem Untersuchungsgebiet klassifizieren. Indem Sie die Gruppierungsanalyse auf die in einer Reihe von Proben gefundenen Bodenmerkmale anwenden, können Sie Cluster von eindeutigen, räumlich zusammenhängenden Bodenarten identifizieren.
  • Die Gruppierung von Kunden nach Kaufverhalten, demografischen Eigenschaften und Fahrgewohnheiten kann Ihnen dabei helfen, eine effiziente Marketingstrategie für die Produkte Ihres Unternehmens zu entwickeln.
  • Städteplaner müssen Städte häufig in eindeutige Nachbarschaften aufteilen, um öffentliche Einrichtungen effizient verorten und lokale Aktivitäten und gesellschaftliches Engagement wirksam fördern zu können. Die Anwendung der Gruppierungsanalyse auf die physischen und demografischen Eigenschaften von Stadtblöcken kann Planern dabei helfen, räumlich zusammenhängende Stadtgebiete mit ähnlichen physischen und demografischen Eigenschaften aufzuzeigen.
  • Ökologischer Fehlschluss (Ecological Fallacy) ist ein bekanntes Problem bei statistischen Schlussfolgerungen, wenn eine Analyse auf aggregierten Daten basiert. Häufig steht das für die Analyse verwendete Aggregationsschema in keinem Zusammenhang mit den zu analysierenden Gegebenheiten. Volkszählungsdaten beispielsweise werden auf Basis von Bevölkerungsverteilungen aggregiert, die nicht unbedingt die richtige Wahl für die Analyse von Waldbränden sind. Eine effektive Methode zur Verringerung von Aggregationsverzerrung und zur Vermeidung von ökologischem Fehlschluss besteht darin, die kleinstmöglichen Aggregationseinheiten in homogene Bereiche für einen Satz Attribute zu unterteilen, die genau zu den anstehenden analytischen Fragen passen.

Eingaben

Dieses Werkzeug arbeitet mit Punkt-, Polylinien- oder Polygon-Eingabe-Features, einem eindeutigen ID-Feld, einem Pfad für die Ausgabe-Feature-Class, einem oder mehreren Analysefeldern, einem Ganzzahlwert für die zu erstellende Gruppenanzahl und dem Typ der Räumlichen Einschränkung (sofern vorhanden), die innerhalb des Gruppierungsalgorithmus angewendet werden soll. Weiterhin gibt es eine Reihe optionaler Parameter, darunter einen zum Erstellen einer Ausgabeberichtsdatei im PDF-Format.

Analysefelder

Wählen Sie numerische Felder aus, die Verhältniswert-, Intervall- oder Ordinalwert-Maßsysteme darstellen. Nominalwert-Daten können zwar mit (binären) Dummy-Variablen dargestellt werden, sie funktionieren in der Regel jedoch nicht so gut wie andere numerische Variablentypen. Sie können beispielsweise eine Variable namens "Ländlich" erstellen und jedem Feature (z. B. jedem Zählbezirk) eine 1 zuweisen, wenn der Bezirk überwiegend ländlich ist, und eine 0, wenn er überwiegend städtisch ist. Eine besser geeignete Repräsentation dieser Variablen zur Verwendung mit der Gruppierungsanalyse wäre jedoch die mit jedem Feature verknüpfte Menge bzw. der Anteil an ländlicher Fläche.

Hinweis:

Die Werte in den Analysefeldern werden vom Werkzeug standardisiert, da Variablen mit hohen Abweichungen (bei denen Datenwerte weit um den Mittelwert verteilt sind) einen größeren Einfluss auf die Cluster als auf Variablen mit kleinen Abweichungen haben. Die Standardisierung der Attributwerte umfasst eine Z-Transformation, wobei der Mittelwert aller Werte von jedem Wert subtrahiert und durch die Standardabweichung für alle Werte dividiert wird. Bei der Standardisierung werden alle Attribute in denselben Maßstab überführt, auch wenn sie von sehr unterschiedlichen Zahlentypen dargestellt werden: Verhältnisse (Zahlen von 0 bis 1,0), Bevölkerung (mit Werten von über einer Million) und Entfernungen (z. B. Kilometer).

Wählen Sie Variablen, die Ihrer Meinung nach eine gute Unterscheidung der Feature-Gruppen voneinander ermöglichen. Angenommen beispielsweise, Sie möchten Schulbezirke nach Schülerleistungen basierend auf standardisierten Leistungstests gruppieren. Sie können Analysefelder wählen, die Prüfungsergebnisse insgesamt, Ergebnisse für einzelne Fächer wie Mathematik oder Lesen, den Anteil an Schülern, der eine Mindestnote erreicht, usw. umfassen. Wenn Sie das Werkzeug Gruppierungsanalyse ausführen, wird für jede Variable ein R2-Wert berechnet. In der nachfolgenden Zusammenfassung basiert die Gruppierung der Schulbezirke auf den Prüfungsergebnissen der Schüler, dem Prozentsatz Erwachsener im Gebiet, die keinen Abschluss an einer weiterführenden Schule gemacht haben, den Ausgaben pro Schüler und dem durchschnittlichen Schüler-Lehrer-Verhältnis. Beachten Sie, dass die Variable "TestScores" (Prüfungsergebnisse) den höchsten R2-Wert aufweist. Dies weist darauf hin, dass dies die effektivste Variable für die Einteilung der Schulbezirke in Gruppen ist. Der R2-Wert gibt an, inwieweit die Variation bei den ursprünglichen TestScores-Daten nach der Gruppierung erhalten geblieben ist; je größer also der R2-Wert für eine bestimmte Variable ist, desto besser unterscheidet die Variable zwischen den Features.

Zusammenfassung der Variablen in Gruppierungsanalyse

Detailinformationen:

R2 wird wie folgt berechnet:

(TSS - ESS) / TSS

Hierbei ist TSS die Quadratsumme der Gesamtstreuung und ESS die Quadratsumme der erklärten Streuung. TSS wird berechnet, indem Abweichungen vom globalen Mittelwert einer Variablen quadriert und anschließend summiert werden. ESS wird auf die gleiche Weise berechnet, bis auf die Ausnahme, dass Abweichungen gruppenweise verarbeitet werden: Jeder Wert wird vom Mittelwert der Gruppe, der er angehört, subtrahiert und anschließend quadriert und summiert.

Gruppenanzahl

Manchmal ist Ihnen die Anzahl an Gruppen, die sich für Ihre Frage oder Ihr Problem am besten eignet, bekannt. Wenn Sie beispielsweise fünf Verkaufsleiter jeweils einer eigenen, zusammenhängenden Region zuweisen möchten, verwenden Sie den Wert 5 für den Parameter Gruppenanzahl. In vielen Fällen liegen jedoch keinerlei Kriterien für die Auswahl einer bestimmten Gruppenanzahl vor; stattdessen möchten Sie einfach die Anzahl verwenden, die die beste Unterscheidung zwischen Feature-Ähnlichkeiten und -Unterschieden bietet. In dieser Situation können Sie den Parameter Optimale Gruppenanzahl überprüfen aktivieren und das Werkzeug Gruppierungsanalyse bewerten lassen, wie effektiv die Unterteilung der Features in 2, 3, 4 und bis zu 15 Gruppen ist. Die Effektivität einer Gruppierung wird mit der Pseudo-F-Statistik nach Calinski/Harabasz gemessen; hierbei handelt es sich um ein Verhältnis, das die Ähnlichkeit innerhalb einer Gruppe und die Unterschiede zwischen Gruppen widerspiegelt:

Pseudo-F-Statistik nach Calinski/Harabasz

Angenommen, Sie möchten vier räumlich angrenzende Gruppen erstellen. In diesem Fall erstellt das Werkzeug einen minimalen Spannbaum, der sowohl die räumliche Struktur der Features als auch deren zugehörige Analysefeldwerte widerspiegelt. Anschließend bestimmt das Werkzeug die optimale Stelle, an der der Baum geteilt wird, um zwei getrennte Gruppierungen zu erstellen. Als Nächstes wird festgelegt, welche der beiden resultierenden Gruppen geteilt werden soll, um die beste dritte Gruppenlösung zu erhalten. Eine der beiden Gruppen wird geteilt, die andere Gruppe bleibt erhalten. Schließlich bestimmt das Werkzeug, welche der resultierenden drei Gruppen geteilt werden soll, um die besten vier Gruppen zu erhalten. Bei jeder Teilung zeichnet sich die beste Lösung dadurch aus, dass sowohl die Ähnlichkeit innerhalb einer Gruppe als auch die Unterschiede zwischen Gruppen maximiert werden. Eine Gruppe kann nicht mehr geteilt werden (ausgenommen willkürlich), wenn die Analysefeldwerte für alle Features innerhalb dieser Gruppe identisch sind. Falls alle resultierenden Gruppen identische Features enthalten, beendet das Werkzeug Gruppierungsanalyse die Erstellung neuer Gruppen auch dann, wenn die angegebene Anzahl von Gruppen noch nicht erreicht wurde. Es gibt keine Grundlage, um eine Gruppe zu teilen, wenn alle Analysefelder identische Werte haben.

Räumliche Einschränkung

Wenn die resultierenden Gruppen in räumlicher Nähe zueinander liegen sollen, geben Sie eine räumliche Einschränkung an. Die Kontiguitäts-Optionen sind für Polygon-Feature-Classes aktiviert und geben an, dass Features nur dann derselben Gruppe angehören können, wenn sie über eine gemeinsame Kante (Nur Kontiguitätskanten) bzw. entweder über eine gemeinsame Kante oder einen gemeinsamen Stützpunkt (Kontiguitätsecken und -kanten) mit einem anderen Mitglied der Gruppe verfügen. Die Polygon-Nachbarschaftsoptionen sind jedoch keine gute Wahl, wenn das Dataset Cluster von nicht zusammenhängenden Polygonen oder Polygone ganz ohne zusammenhängende Nachbarn enthält.

Nicht zusammenhängende Polygone

Die Optionen Delaunay-Triangulation und Nächste Nachbarn (K) sind beide für Punkt- oder Polygon-Features geeignet; durch diese Optionen wird festgelegt, dass ein Feature nur dann in eine Gruppe aufgenommen wird, wenn mindestens ein anderes Gruppenmitglied ein natürlicher Nachbar (Delaunay-Triangulation) oder der nächste Nachbar (K) ist. Wenn Sie beispielsweise Nächste Nachbarn (K) auswählen und den Wert 12 für den Parameter Anzahl der Nachbarn eingeben, gehört jedes Feature in einer Gruppe zu den 12 nächsten Nachbarn mindestens eines weiteren Features in der Gruppe.

Die Option Delaunay-Triangulation sollte nicht für Datasets mit lagegleichen Features verwendet werden. Da die Delaunay-Triangulationsmethode Features zur Bestimmung von Nachbarschaftsbeziehungen in Thiessen-Polygone konvertiert (insbesondere bei Polygon-Features und manchmal auch bei peripheren Features im Dataset), kann es außerdem sein, dass die Ergebnisse dieser Option nicht immer den Erwartungen entsprechen. In der folgenden Abbildung sind einige der gruppierten ursprünglichen Polygone nicht zusammenhängend; nach der Konvertierung in Thiessen-Polygone haben jedoch alle gruppierten Features eine Kante gemeinsam.

Beispiel für Delaunay-Triangulation
Für die Delaunay-Triangulation definiert die Nachbarschaft von Thiessen-Polygonen Nachbarschaftsbeziehungen.

Wenn die resultierenden Gruppen sowohl räumlich als auch zeitlich nahe beieinander liegen sollen, erstellen Sie mit dem Werkzeug Räumliche Gewichtungsmatrix erstellen eine Datei mit räumlicher Gewichtungsmatrix (SWM), und wählen Sie die Option Raum-Zeit-Fenster für den Parameter Konzeptualisierung von räumlichen Beziehungen aus. Anschließend können Sie die SWM-Datei, die Sie mit dem Werkzeug Räumliche Gewichtungsmatrix erstellen erstellt haben, für den Parameter Gewichtungsmatrix-Datei verwenden, wenn Sie die Gruppierungsanalyse ausführen.

Hinweis:

Zwar werden die räumlichen Beziehungen zwischen Features in einer SWM-Datei gespeichert und vom Werkzeug Gruppierungsanalyse zum Anwenden räumlicher Einschränkungen verwendet, tatsächlich findet während der Gruppierung jedoch keine Gewichtung statt. Mit der SWM-Datei wird lediglich nachverfolgt, welche Features in dieselbe Gruppe aufgenommen werden können und welche nicht.

Für viele Analysen ist die Anwendung einer räumlichen oder räumlich-zeitlichen Einschränkung weder erforderlich noch hilfreich. Angenommen beispielsweise, Sie möchten Straftaten nach Täterattributen (Größe, Alter, Schwere der Straftat usw.) gruppieren. Straftaten, die von derselben Person begangen werden, liegen tendenziell in räumlicher Nähe, die Feststellung, dass alle in einem bestimmten Gebiet begangenen Straftaten von derselben Person verübt worden, es ist jedoch unwahrscheinlich. Für diese Art von Analyse setzen Sie den Parameter Räumliche Einschränkungen auf Keine räumliche Einschränkung. Sie können jedoch einige räumliche Variablen (z. B. Nähe zu Banken) in die Liste der Analysefelder aufnehmen, um einige der räumlichen Aspekte der zu analysierenden Straftaten zu erfassen.

k-Means

Wenn Sie den Parameter Räumliche Einschränkungen auf Keine räumliche Einschränkung festlegen, wird zur Gruppierung ein k-Means-Algorithmus verwendet. Ziel des k-Means-Algorithmus ist es, Features so zu unterteilen, dass die Unterschiede zwischen den Features in einer Gruppe über alle Gruppen hinweg minimiert werden. Da der Algorithmus NP-Schwierig ist, wird zum Gruppieren von Features eine Greedy-Heuristik verwendet. Der Greedy-Algorithmus konvergiert immer zu einem lokalen Minimum, findet jedoch nicht immer das globale (optimale) Minimum.

Der k-Means-Algorithmus identifiziert zunächst die Ursprungs-Features, aus denen die einzelnen Gruppen erstellt werden. Folglich stimmt die Anzahl der Ursprungs-Features immer mit der Gruppenzahl überein. Der erste Ursprung wird nach dem Zufallsprinzip ausgewählt. Zur Auswahl der übrigen Ursprungs-Features (bei der nach wie vor eine Zufallskomponente verwendet wird) wird jedoch eine Gewichtung angewendet, die die Auswahl nachfolgender Ursprungs-Features bevorzugt, die im Datenraum am weitesten vom vorhandenen Satz Ursprungs-Features entfernt sind (dieser Teil des Algorithmus wird als k-Means ++ bezeichnet). Aufgrund der Zufallskomponente bei der Suche nach Ursprungs-Features kann es sein, dass bei Auswahl von Ursprüngliche Standorte bestimmen oder Zufällige Ursprungswerte verwenden als Initialisierungsmethode bei jeder Ausführung des Werkzeugs andere Gruppierungsergebnisse entstehen.

Nachdem die Ursprungs-Features identifiziert wurden, werden alle Features dem nächsten Ursprungs-Feature zugewiesen (im Datenraum am nächsten gelegen). Für jedes Feature-Cluster wird ein arithmetischer Datenmittelpunkt berechnet, und jedes Feature wird dem nächstgelegenen Mittelpunkt neu zugewiesen. Der Prozess der Berechnung eines arithmetischen Datenmittelpunktes für die einzelnen Gruppen und der anschließenden Neuzuweisung von Features zum nächstgelegenen Mittelpunkt wird solange fortgesetzt, bis sich die Gruppenmitgliedschaft stabilisiert hat (bis maximal 100 Iterationen).

Minimaler Spannbaum

Wenn Sie eine räumliche Einschränkung angeben, um die Gruppenmitgliedschaft auf zusammenhängende oder in der Nachbarschaft liegende Features zu beschränken, erstellt das Werkzeug zunächst ein Konnektivitätsdiagramm, das die Nachbarschaftsbeziehungen zwischen Features darstellt. Aus dem Konnektivitätsdiagramm wird ein minimaler Spannbaum entwickelt, in dem sowohl räumliche Beziehungen zwischen Features als auch Ähnlichkeiten von Feature-Daten zusammengefasst werden. Features werden im minimalen Spannbaum als Knoten dargestellt, die durch gewichtete Kanten verbunden sind. Die Gewichtung der einzelnen Kanten ist proportional zur Ähnlichkeit der durch sie verbundenen Objekte. Nach der Erstellung des minimalen Spannbaums wird ein Zweig (eine Kante) des Baums beschnitten, sodass zwei minimale Spannbäume entstehen. Die zu beschneidende Kante wird so gewählt, dass die Unterschiede in den resultierenden Gruppen minimiert werden, während gleichzeitig (wenn möglich) Einzelelemente (Gruppen mit nur einem Feature) vermieden werden. Bei jeder Iteration wird einer der minimalen Spannbäume durch diesen Beschneidungsvorgang geteilt, bis die gewünschte Gruppenanzahl erreicht ist. Die verwendete veröffentlichte Methode wird als SKATER bezeichnet (Spatial "K"luster Analysis by Tree Edge Removal). Zwar wird bei jeder Iteration der Zweig zum Beschneiden ausgewählt, der die Gruppenähnlichkeit optimiert, es gibt jedoch keine Garantie dafür, dass das Endergebnis optimal ist.

Ausgaben

Das Werkzeug Gruppierungsanalysen erstellt verschiedene Ausgaben. Sie können auf alle diese Ausgaben (auch auf die optionale PDF-Berichtsdatei) über den Bereich Geoverarbeitung zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen und auf die Pop-out-SchaltflächeFortschritt des Werkzeugs klicken oder den Abschnitt "Meldungen" am unteren Rand des Bereichs Geoverarbeitung einblenden. Sie können auch über den Geoverarbeitungsverlauf auf die Meldungen von einer zuvor ausgeführten Gruppierungsanalyse zugreifen.

Die Standardausgabe des Werkzeugs Gruppierungsanalyse ist eine neue Ausgabe-Feature-Class, die die in der Analyse verwendeten Felder sowie ein neues ganzzahliges Feld namens SS_GROUP enthält, das angibt, welcher Gruppe die einzelnen Features angehören. Diese Ausgabe-Feature-Class wird dem Inhaltsverzeichnis hinzugefügt, wobei ein eindeutiges Farbrendering-Schema auf das Feld SS_GROUP angewendet wird. Eine ungefüllte Darstellung zeigt Features an, die keiner Gruppe hinzugefügt werden konnten, normalerweise, weil sie keine benachbarten Features haben. Wenn Sie den Parameter Räumliche Einschränkungen auf Keine räumliche Einschränkung festlegen, wird der Ausgabe-Feature-Class das zusätzliche Feld SS_SEED hinzugefügt, um anzuzeigen, welche Ursprungs-Features zur Erstellung von Gruppen verwendet wurden.

Ausgabe-Feature-Class der Gruppierungsanalyse
Gruppierung mit räumlicher Einschränkung "Nachbarschaft".

Berichtsdatei der Gruppierungsanalyse

Wenn Sie für den Parameter Ausgabeberichtsdatei einen Pfad angeben, wird eine PDF-Datei mit einer Zusammenfassung der erstellten Gruppen erzeugt.

Hinweis:

Die Erstellung der optionalen Berichtsdatei kann sehr viel Zeit in Anspruch nehmen. Während die Gruppierungsanalyse immer eine Ausgabe-Feature-Class erstellt, aus der die Gruppenzugehörigkeit hervorgeht, wird die PDF-Berichtsdatei daher nicht erstellt, wenn Sie mehr als 15 Gruppen oder mehr als 15 Variablen festlegen.

Der Bericht enthält verschiedene Boxplots, daher ist das erste Element im Bericht eine Grafik, die die Interpretation dieser Diagramme erläutert (siehe unten). Die Boxplots des Gruppierungsanalyse-Berichts enthalten graphische Darstellungen von neun Zusammenfassungswerten für jedes Analysefeld und jede Gruppe: minimaler Datenwert, unteres Quartil, Mittelwert, oberes Quartil, maximaler Datenwert, Datenausreißer (Werte kleiner oder größer als das 1,5-fache des Interquartil-Bereichs), Gruppenminimum, Gruppenmittelwert und Gruppenmaximum. Alle "+"-Markierungen, die außerdem des oberen oder unteren Whisker liegen, stellen Datenausreißer dar.
Detailinformationen:

Der Interquartil-Bereich (IQR) ist das obere Quartil minus das untere Quartil. Niedrige Ausreißer sind Werte kleiner als 1,5*IQR (Q1-1,5*IQR), hohe Ausreißer sind Werte größer als 1,5*IQR (Q3+1,5*IQR). Ausreißer werden in den Boxplots als "+"-Symbole angezeigt.

Auf der ersten Seite des Berichts werden die Variablen (die Analysefelder) innerhalb der einzelnen Gruppen miteinander verglichen. Im folgenden Bericht beispielsweise wurde die Gruppierungsanalyse für Zählbezirke durchgeführt, um vier Gruppen zu erstellen. Summenstatistiken für die einzelnen Gruppen werden in verschiedenen Farben gedruckt (blau, rot, grün und goldfarben). Der erste Satz Summenstatistiken wird in Schwarz gedruckt, weil es sich hierbei um die globalen Werte für Mittelwert, Standardabweichung (Std.Abw.), Minimum, Maximum und R2 für alle Daten in jedem Analysefeld handelt. Je größer der R2-Wert für eine bestimmte Variable ist, desto besser unterscheidet diese Variable die Features. Nach den globalen Zusammenfassungen werden die Werte für Mittelwert, Standardabweichung, Minimum, Maximum und Anteil für jede Variable in jeder Gruppe aufgeführt. Im nachfolgenden Bericht enthält beispielsweise Gruppe 1 (Blau) 52 Prozent des Wertebereichs in der globalen Variable "AGE_UNDER5"; der globale Wertebereich liegt zwischen 0 und 1.453 Kindern unter 5 Jahren, und die blaue Gruppe enthält Bezirke mit 488 bis 1.246 Kindern unter 5 Jahren. Der Mittelwert für die Anzahl an Kindern unter 5 für die Bezirke in der blauen Gruppe beträgt 805,3750. Das Boxplot rechts neben der statistischen Zusammenfassung der blauen Gruppe zeigt die Beziehung der Gruppenwerte zu den globalen Werten für das gleiche Analysefeld. Beachten Sie, dass der blaue Punkt im Boxplot außerhalb des oberen Quartils liegt und dass die erste blaue vertikale Linie (die den Minimalwert für die Bezirke der blauen Gruppe darstellt) oberhalb des globalen Mittelwertes für dieses Feld liegt. Wenn Sie die Stellen betrachten, an denen die blauen Punkte für alle Variablen innerhalb der Boxplots liegen, können Sie feststellen, dass mit Ausnahme der Variablen MEDIANRENT die Mittelwerte in allen Analysefeldern oberhalb des oberen Quartils liegen. Diese Gruppe hat verglichen mit den anderen Gruppen den höchsten Wertebereich.

Detailinformationen:

Der Anteilswert ist das Verhältnis des Gruppen- und des globalen Bereichs. Für Gruppe 1 und die Variable AGE_UNDER5 beispielsweise wird der 52-Prozent-Anteil berechnet, indem der Gruppenbereich (1246-488=758) durch den globalen Bereich (1453-0=1453) geteilt wird; dies ergibt bei Rundung auf zwei signifikante Stellen einen Anteil von 0,52.

Gruppenzusammenfassung
Abschnitt 1 des Ausgabeberichts.

Im zweiten Abschnitt des Berichts werden die Variablenbereiche für die einzelnen Gruppen für jeweils ein Analysefeld (Variable) verglichen. In dieser Datenansicht ist leicht zu erkennen, welche Gruppe den höchsten und niedrigsten Wertebereich innerhalb der einzelnen Variablen aufweist. Die Minimal-, Mittel- und Maximalwerte werden auf dem Boxplot aller Werte dargestellt. Gruppe 4 (orange) weist die niedrigsten Werte für die Variable MEDIANRENT auf. Die Minimal-, Mittel- und Maximalwerte für diese Gruppe sind niedriger als die jeder anderen Gruppe.

Variablenzusammenfassung
Abschnitt 2 des Ausgabeberichts.

Das parallele Boxplot-Diagramm fasst sowohl die Gruppen als auch die darin enthaltenen Variablen zusammen. Im nachstehenden Diagramm stellt Gruppe 1 (blau) Zählbezirke mit durchschnittlichen Mieten, den höchsten Werten für von Frauen geführten Haushalten mit Kindern (FHH_CHILD), die höchsten Werte für die Anzahl von Wohneinheiten (HSE_UNITS) und die höchsten Werte für Kinder unter 5 Jahren dar. Gruppe 2 (rot) stellt Zählbezirke mit den höchsten mittleren Mieten, der geringsten Anzahl an von Frauen geführten Haushalten mit Kindern, mehr als der durchschnittlichen Anzahl von Wohneinheiten (jedoch weniger als in den Bezirken der Gruppen 1 oder 3) und die wenigsten Kinder unter 5 Jahren dar.

Boxplot der Gruppierungsanalyse
Paralleles Boxplot im Ausgabebericht.

Wenn Sie den Parameter Optimale Gruppenanzahl überprüfen aktivieren, enthält die PDF-Berichtsdatei ein Diagramm mit Werten der Pseudo-F-Statistik. Der eingekreiste Punkt im Diagramm ist die größte F-Statistik und zeigt an, wie viele Gruppen die angegebenen Features und Variablen am effektivsten unterscheiden. Im folgenden Diagramm ist die mit vier Gruppen verknüpfte F-Statistik am höchsten. Auch fünf Gruppen, mit einer hohen Pseudo-F-Statistik, wären eine gute Wahl.

Pseudo-F-Statistik-Diagramm
Pseudo-F-Statistik-Plot im Ausgabebericht.

Empfehlungen

Zwar ist man geneigt, möglichst viele Analysefelder aufzunehmen, die Gruppierungsanalyse funktioniert jedoch am besten, wenn zunächst nur eine einzige Variable und Berechnung verwendet wird. Sind weniger Analysefelder vorhanden, ist es einfacher, die Ergebnisse zu interpretieren. Ebenso können die Variablen, die sich am besten als Diskriminatoren eignen, einfacher bestimmt werden, wenn weniger Felder vorhanden sind.

In vielen Szenarien führen Sie das Werkzeug Gruppierungsanalyse vermutlich mehrmals aus, um nach der optimalen Gruppenanzahl, den effektivsten räumlichen Einschränkungen und der Kombination von Analysefeldern zu suchen, die die bestmögliche Einteilung der Features in Gruppen bietet. Da die Erstellung des Ausgabeberichts sehr viel Zeit in Anspruch nehmen kann, empfiehlt es sich nicht, den Bericht zu erstellen, während Sie mit verschiedenen Eingabeparametern experimentieren.

Zusätzliche Ressourcen

Duque, J. C., R. Ramos, and J. Surinach. 2007. "Supervised Regionalization Methods: A Survey" in International Regional Science Review 30: 195–220.

Assuncao, R. M., M. C. Neves, G. Camara, and C. Da Costa Freitas. 2006. "Efficient Regionalisation Techniques for Socio-economic Geographical Units using Minimum Spanning Trees" in International Journal of Geographical Information Science 20 (7): 797–811.

Jain, A. K. 2009. "Data Clustering: 50 years beyond K-Means." Pattern Recognition Letters.

Hinde, A., T. Whiteway, R. Ruddick, and A. D. Heap. 2007. "Seascapes of the Australian Margin and adjacent sea floor: Keystroke Methodology." in Geoscience Australia, Record 2007/10, 58pp.