Bei der Betrachtung unserer Umgebung ist es für uns ganz natürlich, das Gesehene zu organisieren, zu gruppieren, zu differenzieren und zu katalogisieren, um es besser zu verstehen. Dieser mentale Klassifizierungsprozess ist für das Lernen und Verstehen von entscheidender Bedeutung. Genauso können Sie auch das Werkzeug Räumlich eingeschränkte multivariate Cluster-Bildung einsetzen, um mehr über Ihre Daten zu erfahren und diese besser zu verstehen. Ausgehend von der Anzahl der zu erstellenden Cluster wird nach einer Lösung gesucht, bei der alle Features innerhalb eines bestimmten Clusters möglichst ähnlich und alle Cluster als Ganzes möglichst verschieden voneinander sind. Die Ähnlichkeit von Features basiert auf den verschiedenen Attributen, die Sie für den Parameter Analysefelder angeben, und kann optional Einschränkungen der Größe der Cluster umfassen. Der von diesem Werkzeug verwendete Algorithmus verwendet ein Konnektivitätsdiagramm (minimaler Spannbaum) sowie eine Methode mit der Bezeichnung SKATER, um natürliche Cluster in Ihren Daten und Beweisakkumulation zu suchen, um die Wahrscheinlichkeit einer Cluster-Mitgliedschaft zu bewerten.
Tipp:
Cluster-Bildungs-, Gruppierungs- und Klassifizierungsverfahren zählen zu den am häufigsten verwendeten Methoden beim maschinellen Lernen. Das Werkzeug Räumlich eingeschränkte multivariate Cluster-Bildung verwendet unüberwachte Methoden zum maschinellen Lernen, um die natürliche Cluster-Bildung in Ihren Daten zu ermitteln. Diese Klassifizierungsmethoden gelten als unüberwacht, da sie nicht mit vorklassifizierten Features vorbereitet oder trainiert werden müssen, um die Cluster in den Daten zu ermitteln.
Es gibt Hunderte von Cluster-Analysealgorithmen wie diese, alle sind als NP-Schwierig klassifiziert. Dies bedeutet, dass Sie für eine Lösung, die eine bestmögliche Maximierung von sowohl Ähnlichkeiten innerhalb eines Clusters als auch Unterschieden zwischen Clustern bietet, alle möglichen Kombinationen der für die Cluster-Bildung ausgewählten Features ausprobieren müssen. Wenn nur eine Handvoll Features vorliegt, mag dies noch machbar sein, andernfalls wird das Problem recht schnell unlösbar.
Nicht nur ist es beinahe unmöglich sicherzustellen, dass eine optimale Lösung gefunden wurde, es ist auch unrealistisch, einen Cluster-Algorithmus zu finden, der bei allen denkbaren Datenszenarien optimal funktioniert. Cluster haben die unterschiedlichsten Formen, Größen und Dichten; Attributdaten können eine Vielzahl von Bereichen, Symmetrie, Kontinuität und Maßeinheiten umfassen. Dies erklärt, warum im Verlauf der letzten 50 Jahre so viele verschiedene Cluster-Analysealgorithmen entwickelt wurden. Daher stellen Sie sich die räumlich eingeschränkte multivariate Cluster-Bildung am besten als exploratives Werkzeug vor, mit dessen Hilfe Sie mehr über die zugrunde liegenden Strukturen von Daten erfahren können.
Potenzielle Anwendungsbereiche
Mögliche Anwendungsbereiche des Werkzeugs lauten wie folgt:
- Falls Sie Daten zu Tiersichtungen sammeln, um deren Reviere besser kennenzulernen, kann das Werkzeug Räumlich eingeschränkte multivariate Cluster-Bildung hilfreich sein. Zu verstehen, wo und wann sich Lachse in unterschiedlichen Lebensphasen sammeln, kann z. B. beim Aufbau von Schutzgebieten helfen und dadurch zur erfolgreichen Vermehrung beitragen.
- Als Agrarwissenschaftler möchten Sie vielleicht die unterschiedlichen Bodenarten in Ihrem Untersuchungsgebiet klassifizieren. Indem Sie die Räumlich eingeschränkte multivariate Cluster-Bildung auf die in einer Reihe von Proben gefundenen Bodenmerkmale anwenden, können Sie Cluster von eindeutigen, räumlich zusammenhängenden Bodenarten identifizieren.
- Die Erstellung von Clustern für Kunden nach Kaufverhalten, demografischen Eigenschaften und Fahrgewohnheiten kann Ihnen dabei helfen, eine effiziente Marketingstrategie für die Produkte Ihres Unternehmens zu entwickeln.
- Städteplaner müssen Städte häufig in eindeutige Nachbarschaften aufteilen, um öffentliche Einrichtungen effizient verorten und lokale Aktivitäten und gesellschaftliches Engagement wirksam fördern zu können. Die Anwendung des Werkzeugs Räumlich eingeschränkte multivariate Cluster-Bildung auf die physischen und demografischen Eigenschaften von Stadtblöcken kann Planern dabei helfen, räumlich zusammenhängende Stadtgebiete mit ähnlichen physischen und demografischen Eigenschaften aufzuzeigen.
- Ökologischer Fehlschluss (Ecological Fallacy) ist ein bekanntes Problem bei statistischen Schlussfolgerungen, wenn eine Analyse auf aggregierten Daten basiert. Häufig steht das für die Analyse verwendete Aggregationsschema in keinem Zusammenhang mit den zu analysierenden Gegebenheiten. Volkszählungsdaten beispielsweise werden auf Basis von Bevölkerungsverteilungen aggregiert, die nicht unbedingt die richtige Wahl für die Analyse von Waldbränden sind. Eine effektive Methode zur Verringerung von Aggregationsverzerrung und zur Vermeidung von ökologischem Fehlschluss besteht darin, die kleinstmöglichen Aggregationseinheiten in homogene Bereiche für einen Satz Attribute zu unterteilen, die genau zu den anstehenden analytischen Fragen passen.
Eingaben
Dieses Werkzeug arbeitet mit Punkt- oder Polygon-Eingabe-Features, einem Pfad für die Ausgabe-Features, mindestens einem Analysefeld, einem ganzzahligen Wert für die zu erstellende Clusteranzahl und dem Typ der Räumlichen Einschränkung, die innerhalb des Cluster-Algorithmus angewendet werden soll. Außerdem ist eine Reihe optionaler Parameter verfügbar, mit denen Cluster-Größenbeschränkungen für eine minimale oder maximale Anzahl von Features pro Cluster bzw. eine minimale oder maximale Attributwertsumme pro Cluster sowie eine Ausgabetabelle für die Auswertung der Anzahl der Cluster festgelegt werden kann.
Analysefelder
Wählen Sie numerische Felder aus, die Verhältniswert-, Intervall- oder Ordinalwert-Maßsysteme darstellen. Nominalwert-Daten können zwar mit (binären) Dummy-Variablen dargestellt werden, sie funktionieren in der Regel jedoch nicht so gut wie andere numerische Variablentypen. Sie können beispielsweise eine Variable namens "Ländlich" erstellen und jedem Feature (z. B. jedem Zählbezirk) den Wert 1 zuweisen, wenn der Bezirk überwiegend ländlich ist, und den Wert 0, wenn er überwiegend städtisch ist. Eine besser geeignete Repräsentation dieser Variablen zur Verwendung mit dem Werkzeug Räumlich eingeschränkte multivariate Cluster-Bildung wäre jedoch die mit jedem Feature verknüpfte Menge bzw. der Anteil an ländlicher Fläche.
Hinweis:
Die Werte in den Analysefeldern werden vom Werkzeug standardisiert, da Variablen mit hohen Abweichungen (bei denen Datenwerte weit um den Mittelwert verteilt sind) einen größeren Einfluss auf die Cluster als auf Variablen mit kleinen Abweichungen haben. Die Standardisierung der Attributwerte umfasst eine Z-Transformation, wobei der Mittelwert aller Werte von jedem Wert subtrahiert und durch die Standardabweichung für alle Werte dividiert wird. Bei der Standardisierung werden alle Attribute in denselben Maßstab überführt, auch wenn sie von sehr unterschiedlichen Zahlentypen dargestellt werden: Verhältnisse (Zahlen von 0 bis 1,0), Bevölkerung (mit Werten von über einer Million) und Entfernungen (z. B. Kilometer).
Wählen Sie Variablen, die Ihrer Meinung nach eine gute Unterscheidung der Feature-Cluster voneinander ermöglichen. Angenommen, Sie möchten beispielsweise Cluster aus Schulbezirken nach Schülerleistungen basierend auf standardisierten Leistungstests bilden. Sie können Analysefelder wählen, die Prüfungsergebnisse insgesamt, Ergebnisse für einzelne Fächer wie Mathematik oder Lesen, den Anteil an Schülern, der eine Mindestnote erreicht, usw. umfassen. Bei Ausführung des Werkzeugs Räumlich eingeschränkte multivariate Cluster-Bildung wird der Wert R2 für jede Variable berechnet und im Meldungsfenster angezeigt. In der nachfolgenden Zusammenfassung basiert die Cluster-Bildung für die Schulbezirke auf den Prüfungsergebnissen der Schüler, dem Prozentsatz an Erwachsenen im Gebiet, die keinen Abschluss an einer weiterführenden Schule gemacht haben, den Ausgaben pro Schüler und dem durchschnittlichen Verhältnis von Schülern zu Lehrern. Beachten Sie, dass die Variable "TestScores" (Prüfungsergebnisse) den höchsten R2-Wert aufweist. Dies weist darauf hin, dass dies die effektivste Variable für die Einteilung der Schulbezirke in Cluster ist. Der R2-Wert gibt an, inwieweit die Variation bei den ursprünglichen TestScores-Daten nach der Cluster-Bildung erhalten geblieben ist. Je größer also der R2-Wert für eine bestimmte Variable ist, desto besser funktioniert die Unterscheidung zwischen den Features durch die Variable.
Detailinformationen:
R2 wird wie folgt berechnet:
(TSS - ESS) / TSS
Hierbei ist TSS die Quadratsumme der Gesamtstreuung und ESS die Quadratsumme der erklärten Streuung. TSS wird berechnet, indem Abweichungen vom globalen Mittelwert einer Variablen quadriert und anschließend summiert werden. ESS wird auf die gleiche Weise berechnet, bis auf die Ausnahme, dass Abweichungen gruppenweise verarbeitet werden: Jeder Wert wird vom Mittelwert der Gruppe, der er angehört, subtrahiert und anschließend quadriert und summiert.
Cluster-Größenbeschränkungen
Die Größe der Cluster kann mit dem Parameter Clustergrößenbeschränkungen verwaltet werden. Sie können minimale oder maximale Schwellenwerte festlegen, die jeder Cluster erfüllen muss. Die Größenbeschränkungen können entweder der Anzahl der Features entsprechen, die jeder Cluster enthält, oder die Summe eines Attributwerts darstellen. Beispiel: Wenn Sie einen Cluster für die US-Landkreise basierend auf verschiedenen wirtschaftlichen Variablen bilden, können Sie festlegen, dass jeder Cluster eine minimale Bevölkerung von 5 Millionen und eine maximale Bevölkerung von 25 Millionen aufweisen soll. Sie können auch festlegen, dass jeder Cluster mindestens 30 Landkreise enthalten muss.
Wenn die Beschränkung Maximum pro Cluster angegeben wird, beginnt der Algorithmus mit einem einzelnen Cluster und teilt die Cluster, die räumlich zusammenhängend sind und ähnliche Werte aufweisen. Es werden neue Cluster erstellt, bis alle Cluster-Größen unter dem Wert Maximum pro Cluster liegen, indem bei jeder Teilung alle Variablen berücksichtigt werden.
SKATER bildet Cluster durch die räumliche Partitionierung von Daten, die ähnliche Werte für interessante Features aufweisen. Der Parameter Cluster-Größenbeschränkungen werden möglicherweise nicht für alle Cluster berücksichtigt. Dies tritt auf, wenn definierte Cluster-Größenbeschränkungen sich nicht für optimale Cluster-Definitionen anbieten.
SKATER bildet Cluster durch die räumliche Partitionierung von Daten, die ähnliche Werte für alle angegebenen Analysefelder aufweisen. Die Cluster-Größenbeschränkungen werden möglicherweise nicht für alle Cluster berücksichtigt. Dies kann auftreten, wenn sowohl die maximale als auch die minimale Einschränkung auf Werte festgelegt wurde, die nah beieinander liegen. Es kann jedoch auch auf die Art zurückzuführen sein, in der der minimale Spannbaum basierend auf räumlichen Einschränkungen erstellt wurde. Sollte dies der Fall sein, wird das Werkzeug beendet und die Cluster, die die Größenbeschränkungen nicht erfüllt haben, werden im Meldungsfenster angezeigt.
Anzahl der Cluster
In einigen Fällen ist Ihnen die Anzahl der Cluster bekannt, die für Ihre Frage oder Ihr Problem am besten geeignet ist. Wenn Sie beispielsweise fünf Verkaufsleiter jeweils einer eigenen, zusammenhängenden Region zuweisen möchten, verwenden Sie den Wert 5 für den Parameter Clusteranzahl. In vielen Fällen liegen jedoch keinerlei Kriterien für die Auswahl einer bestimmten Clusteranzahl vor. Stattdessen bietet sich die Verwendung der Anzahl an, die die beste Unterscheidung zwischen Feature-Ähnlichkeiten und -Unterschieden sicherstellt. In dieser Situation können Sie den Parameter Anzahl der Cluster leer lassen und anhand des Werkzeugs Räumlich eingeschränkte multivariate Cluster-Bildung bewerten, wie effektiv die Unterteilung der Features in 2, 3, 4 und bis zu 30 Cluster ist. Die Effektivität einer Cluster-Bildung wird mit der Pseudo-F-Statistik nach Calinski/Harabasz gemessen; hierbei handelt es sich um ein Verhältnis der Varianz zwischen Clustern und der Varianz innerhalb von Clustern: Anders gesagt handelt es sich um ein Verhältnis, das die Ähnlichkeit innerhalb einer Gruppe und den Unterschied zwischen Gruppen wie folgt widerspiegelt:
Angenommen, Sie möchten vier räumlich angrenzende Cluster erstellen. In diesem Fall erstellt das Werkzeug einen minimalen Spannbaum, der sowohl die räumliche Struktur der Features als auch deren zugehörige Analysefeldwerte widerspiegelt. Anschließend bestimmt das Werkzeug die optimale Stelle, an der der Baum geteilt wird, um zwei getrennte Cluster zu erstellen. Als Nächstes wird festgelegt, welcher der beiden resultierenden Cluster geteilt werden soll, um den besten dritten Cluster zu erhalten. Einer der beiden Cluster wird geteilt, der andere bleibt erhalten. Schließlich bestimmt das Werkzeug, welche der resultierenden drei Cluster geteilt werden soll, um die besten vier Cluster-Lösungen zu erhalten. Bei jeder Teilung besteht die beste Lösung darin, die Ähnlichkeit innerhalb der Cluster und die Unterschiede zwischen Clustern zu maximieren. Ein Cluster kann nicht weiter unterteilt werden (ausgenommen willkürlich), wenn die Analysefeldwerte für alle Features innerhalb dieses Clusters identisch sind. Falls alle resultierenden Cluster identische Features enthalten, beendet das Werkzeug Räumlich eingeschränkte multivariate Cluster-Bildung die Erstellung neuer Cluster auch dann, wenn der angegebene Wert Anzahl der Cluster noch nicht erreicht wurde. Es gibt keine Grundlage, um einen Cluster zu teilen, wenn alle Analysefelder identische Werte haben.
Räumliche Einschränkungen
Der Parameter Räumliche Einschränkungen stellt sicher, dass die resultierenden Cluster in räumlicher Nähe zueinander liegen. Die für Polygon-Feature-Classes aktivierten Nachbarschaftsoptionen geben an, dass Features nur dann demselben Cluster angehören können, wenn sie über eine gemeinsame Kante (Nur benachbarte Kanten) oder über eine gemeinsame Kante bzw. einen gemeinsamen Stützpunkt (Benachbarte Kanten/Ecken) mit einem anderen Mitglied des Clusters verfügen. Die Polygon-Nachbarschaftsoptionen sind jedoch keine gute Wahl, wenn das Dataset Cluster von nicht zusammenhängenden Polygonen oder Polygone ganz ohne zusammenhängende Nachbarn enthält.
Die Option Gekürzte Delaunay-Triangulation ist für Punkt- oder Polygon-Features geeignet; durch diese Option wird sichergestellt, dass ein Feature nur dann in einen Cluster aufgenommen wird, wenn mindestens ein weiteres Cluster-Mitglied ein natürlicher Nachbar (Delaunay-Triangulation) ist. Bei der Delaunay-Triangulation wird konzeptionell, ausgehend von den Schwerpunkten der Features, ein nicht überlappendes Netz aus Dreiecken erstellt. Jedes Feature entspricht einem Dreiecksknoten. Knoten, die über eine gemeinsame Kante verfügen, gelten als Nachbarn. Diese Dreiecke werden anschließend auf eine konvexe Hülle zugeschnitten, sodass Features keine Nachbarn anderer Features außerhalb der konvexen Hülle sein können. Diese Option sollte nicht für Datasets mit lagegleichen Features verwendet werden. Da die Delaunay-Triangulationsmethode Features zur Bestimmung von Nachbarschaftsbeziehungen in Thiessen-Polygone konvertiert (insbesondere bei Polygon-Features und manchmal auch bei peripheren Features im Dataset), kann es außerdem sein, dass die Ergebnisse dieser Option nicht immer den Erwartungen entsprechen. Beachten Sie in der folgenden Abbildung, dass einige der gruppierten ursprünglichen Polygone nicht zusammenhängend sind. Nach der Konvertierung in Thiessen-Polygone haben jedoch alle gruppierten Features eine gemeinsame Kante.
Wenn die resultierenden Cluster sowohl räumlich als auch zeitlich nahe beieinander liegen sollen, erstellen Sie mit dem Werkzeug Räumliche Gewichtungsmatrix erstellen eine Datei mit räumlicher Gewichtungsmatrix (SWM), und wählen Sie die Option Raum-Zeit-Fenster für den Parameter Konzeptualisierung von räumlichen Beziehungen aus. Anschließend können Sie die SWM-Datei, die Sie mit dem Werkzeug Räumliche Gewichtungsmatrix erstellen erstellt haben, für den Parameter Gewichtungsmatrix-Datei verwenden, wenn Sie das Werkzeug Räumlich eingeschränkte multivariate Cluster-Bildung ausführen.
Hinweis:
Zwar werden die räumlichen Beziehungen zwischen Features in einer SWM-Datei gespeichert und vom Werkzeug Räumlich eingeschränkte multivariate Cluster-Bildung zum Anwenden räumlicher Einschränkungen verwendet, tatsächlich findet während der Gruppierung jedoch keine Gewichtung statt. Mit der SWM-Datei wird lediglich nachverfolgt, welche Features in denselben Cluster aufgenommen werden können und welche nicht.
Minimaler Spannbaum
Um die Cluster-Mitgliedschaft auf zusammenhängende oder in der Nachbarschaft liegende Features zu beschränken, erstellt das Werkzeug zunächst ein Konnektivitätsdiagramm, das die Nachbarschaftsbeziehungen zwischen Features darstellt. Aus dem Konnektivitätsdiagramm wird ein minimaler Spannbaum entwickelt, in dem sowohl räumliche Beziehungen zwischen Features als auch Ähnlichkeiten von Feature-Daten zusammengefasst werden. Features werden im minimalen Spannbaum als Knoten dargestellt, die durch gewichtete Kanten verbunden sind. Die Gewichtung der einzelnen Kanten ist proportional zur Ähnlichkeit der durch sie verbundenen Objekte. Nach der Erstellung des minimalen Spannbaums wird ein Zweig (eine Kante) des Baums beschnitten, sodass zwei minimale Spannbäume entstehen. Die zu beschneidende Kante wird so gewählt, dass die Unterschiede in den resultierenden Clustern minimiert werden, während gleichzeitig (wenn möglich) Einzelelemente, d. h. Cluster mit nur einem Feature, vermieden werden. Bei jeder Iteration wird einer der minimalen Spannbäume auf diese Weise geteilt, bis die gewünschte Clusteranzahl erreicht ist. Die verwendete veröffentlichte Methode wird als SKATER bezeichnet (Spatial "K"luster Analysis by Tree Edge Removal). Zwar wird bei jeder Iteration derjenige Zweig zum Beschneiden ausgewählt, der die Clusterähnlichkeit optimiert, jedoch gibt es keine Garantie dafür, dass das Endergebnis optimal ist.
Mitgliedschaftswahrscheinlichkeiten
Mit dem Parameter Permutationen zum Berechnen von Mitgliedschaftswahrscheinlichkeiten wird die Anzahl der Permutationen zur Berechnung der Wahrscheinlichkeit der Cluster-Mitgliedschaft anhand der Beweisakkumulation definiert. Mitgliedschaftswahrscheinlichkeiten werden im Feld PROB in die Ausgabe-Feature-Class aufgenommen. Eine hohe Mitgliedschaftswahrscheinlichkeit gibt an, dass das Feature dem Cluster, dem es zugewiesen ist, ähnelt und in dessen Nachbarschaft liegt, und dass Sie sicher sein können, dass das Feature dem Cluster angehört, dem es zugewiesen wurde. Eine niedrige Wahrscheinlichkeit kann darauf hinweisen, dass sich das Feature deutlich von dem Cluster, das ihm durch den SKATER-Algorithmus zugewiesen wurde, unterscheidet oder dass das Feature in einen anderen Cluster eingeschlossen werden könnte, wenn für einen der Parameter Analysefelder, Cluster-Größenbeschränkungen oder Räumliche Einschränkungen eine Änderung vorgenommen würde.
Anhand der von Ihnen angegebenen Permutationen wird die Anzahl der zufälligen Spannbäume festgelegt, die erstellt werden sollen, um die räumliche Einschränkung von SKATER zu irritieren. Anschließend berechnet der Algorithmus die für jeden zufälligen Spannbaum angegebene Anzahl der Cluster. Anhand der ursprünglichen durch SKATER definierten Cluster wird die Häufigkeit verfolgt, mit der Mitglieder eines Clusters unter den sich ändernden Spannbäumen gruppiert werden. Features, die aufgrund geringer Änderungen am Spannbaum für Cluster-Wechsel anfällig sind, erhalten geringe Mitgliedschaftswahrscheinlichkeiten; Features, die keine Cluster wechseln, erhalten hingegen hohe Mitgliedschaftswahrscheinlichkeiten.
Durch die Berechnung dieser Wahrscheinlichkeiten kann sich die Ausführungszeit bei größeren Datasets deutlich erhöhen. Es empfiehlt sich, zuerst eine Iteration durchzuführen und die optimale Clusteranzahl für die Analyse zu ermitteln. Berechnen Sie anschließend die Wahrscheinlichkeiten für die Analyse in einer weiteren Ausführung des Werkzeugs. Sie können die Performance auch steigern, indem Sie unter "Umgebungen" den Parameter Faktor für parallele Verarbeitung auf "50" erhöhen.
Ausgaben
Das Werkzeug Räumlich eingeschränkte multivariate Cluster-Bildung erstellt verschiedene Ausgaben. Sie können auf die Meldungen über den Bereich Geoverarbeitung zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen und auf die Schaltfläche klicken oder den Abschnitt "Meldungen" am unteren Rand des Bereichs Geoverarbeitung einblenden. Sie können auch über den Geoverarbeitungsverlauf auf die Meldungen einer vorherigen Ausführung des Werkzeugs Räumlich eingeschränkte multivariate Cluster-Bildung zugreifen.
Die Standardausgabe des Werkzeugs Räumlich eingeschränkte multivariate Cluster-Bildung ist eine neue Ausgabe-Feature-Class, die die in der Analyse verwendeten Felder sowie ein neues ganzzahliges Feld namens CLUSTER_ID enthält, das die Gruppe angibt, der die einzelnen Features angehören. Diese Ausgabe-Feature-Class wird dem Inhaltsverzeichnis hinzugefügt, wobei ein eindeutiges Farbrendering-Schema auf das Feld CLUSTER_ID angewendet wird.
Diagrammausgaben des Werkzeugs "Räumlich eingeschränkte multivariate Cluster-Bildung"
Es werden mehrere Diagrammtypen erstellt, um die erstellten Cluster zusammenzufassen. Boxplots dienen zur Anzeige von Informationen zu den Eigenschaften des jeweiligen Clusters und zu den Eigenschaften der jeweiligen Variablen, die in der Analyse verwendet werden. Anhand der nachfolgenden Grafik wird die Interpretation von Boxplots und ihrer Zusammenfassungswerte für jedes Analysefeld und erstellte Cluster erläutert, 1. Quartil, globaler Medianwert, 3. Quartil, maximaler Datenwert, und Datenausreißer (Werte kleiner oder größer als das 1,5-fache des Interquartil-Bereichs). Zeigen Sie mit der Maus auf den Boxplot im Diagramm, um diese Werte und den Wert des Interquartil-Bereichs anzuzeigen. Alle Punktmarkierungen, die außerhalb des Minimums oder Maximums (oberer oder unterer Whisker) liegen, stellen Datenausreißer dar.
Detailinformationen:
Der Interquartil-Bereich (IQR) ist das 3. Quartil minus das 1. Quartil. Niedrige Ausreißer sind Werte kleiner als 1,5*IQR (Q1-1,5*IQR), hohe Ausreißer sind Werte größer als 1,5*IQR (Q3+1,5*IQR). Ausreißer werden in den Boxplots als Punktsymbole angezeigt.
Das parallele Standard-Boxplot-Diagramm fasst sowohl die Cluster als auch die darin enthaltenen Variablen zusammen. Das Werkzeug Räumlich eingeschränkte multivariate Cluster-Bildung wurde beispielsweise für Zählbezirke ausgeführt, um vier Cluster zu erstellen. Im nachstehenden Diagramm stellt Cluster 2 (rot) Zählbezirke mit ca. durchschnittlichen Mieten, den höchsten Werten für von Frauen geführten Haushalten mit Kindern (FHH_CHILD), den höchsten Werten für die Anzahl von Wohneinheiten (HSE_UNITS) und den höchsten Werten für Kinder unter 5 Jahren dar. Cluster 2 (dunkelgelb) spiegelt Zählbezirke mit den höchsten mittleren Mieten, der fast niedrigsten Anzahl von Haushalten, die von Frauen mit Kindern geführt werden, und mit der überdurchschnittlichen Anzahl von Wohneinheiten wider. Cluster 3 (grün) gibt Zählbezirke mit der geringsten Anzahl der von Frauen geführten Haushalten mit Kindern, der geringsten Anzahl von Kindern unter 5, der geringsten Anzahl von Wohneinheiten und der fast niedrigsten Miete (nicht so niedrig wie in Cluster 1) an. Zeigen Sie mit der Maus auf jeden Knoten der Mittellinien, um den Durchschnittswert des Clusters für jedes Analysefeld anzuzeigen.
Nachdem Sie die allgemeine Zusammenfassung der Analyse mit den parallelen Boxplots oben überprüft haben, können Sie die Boxplots der einzelnen Cluster überprüfen, indem Sie auf der Registerkarte Reihe des Bereichs Diagrammeigenschaften zu Nebeneinander wechseln. In dieser Datenansicht ist zu erkennen, welche Gruppe den höchsten und niedrigsten Wertebereich innerhalb der einzelnen Variablen aufweist. Boxplots werden für jede Variable in jedem Cluster erstellt, damit Sie erkennen können, wie die Werte der einzelnen Cluster mit denen anderer Cluster in Beziehung stehen. Zeigen Sie mit der Maus auf den Boxplot der jeweiligen Variable, um den Minimal-, Maximal- und Mittelwert für jede Variable in den einzelnen Clustern anzuzeigen. Das nachstehende Diagramm zeigt beispielsweise, dass Cluster 4 (goldfarben) die höchsten Werte für die MEDIANRENT-Variable und Zählbezirke mit einem Wertebereich von 354 bis 813 aufweist.
Außerdem wird ein Balkendiagramm erstellt, das die Anzahl der Features pro Cluster anzeigt. Durch Auswahl der einzelnen Balken werden auch die Features des Clusters in der Karte ausgewählt, was für die weitere Analyse hilfreich sein kann.
Wenn Sie den Parameter Anzahl der Cluster leer lassen, bewertet das Werkzeug die optimale Anzahl der Cluster basierend auf Ihren Daten. Durch die Angabe eines Pfads für die Ausgabetabelle für die Auswertung der Anzahl der Cluster wird ein Diagramm erstellt, das die berechnete Pseudo-F-Statistik anzeigt. Die höchste Spitze im Diagramm ist die größte F-Statistik und gibt an, wie viele Cluster die angegebenen Features und Variablen am effektivsten unterscheiden. Im folgenden Diagramm ist die mit vier Gruppen verknüpfte F-Statistik am höchsten. Auch fünf Gruppen, mit einer hohen Pseudo-F-Statistik, wären eine gute Wahl.
Best Practices
Zwar ist man geneigt, möglichst viele Analysefelder für das Werkzeug Räumlich eingeschränkte multivariate Cluster-Bildung aufzunehmen, allerdings hat es sich bei diesem Werkzeug bewährt, zunächst mit einer einzigen Variablen zu beginnen. Sind weniger Analysefelder vorhanden, ist es einfacher, die Ergebnisse zu interpretieren. Ebenso können die Variablen, die sich am besten als Diskriminatoren eignen, einfacher bestimmt werden, wenn weniger Felder vorhanden sind.
In vielen Szenarien führen Sie das Werkzeug Räumlich eingeschränkte multivariate Cluster-Bildung vermutlich mehrmals aus, bevor die optimale Anzahl der Cluster, die effektivsten räumlichen Einschränkungen und die Kombination von Analysefeldern gefunden wurde, die die bestmögliche Einteilung der Features in Cluster bietet.
Denken Sie daran, sich das Diagramm der F-Statistik anzusehen, wenn das Werkzeug den Wert "30" als optimale Anzahl von Clustern zurückgibt. Die Auswahl der Anzahl von Clustern und die Interpretation des F-Statistik-Diagramms ist eine Kunst, und eine niedrigere Anzahl von Clustern ist für Ihre Analyse möglicherweise geeigneter.
Zusätzliche Ressourcen
Duque, J. C., R. Ramos, and J. Surinach. 2007. "Supervised Regionalization Methods: A Survey" in International Regional Science Review 30: 195–220.
Assuncao, R. M., M. C. Neves, G. Camara, and C. Da Costa Freitas. 2006. "Efficient Regionalisation Techniques for Socio-economic Geographical Units using Minimum Spanning Trees" in International Journal of Geographical Information Science 20 (7): 797–811.