Das Werkzeug Cluster- und Ausreißeranalyse identifiziert mithilfe eines Features-Satzes (Eingabe-Feature-Class) und eines Analysefeldes (Eingabefeld) räumliche Cluster von Features mit hohen oder niedrigen Werten. Das Werkzeug identifiziert außerdem räumliche Ausreißer. Zu diesem Zweck berechnet das Werkzeug einen Local Morans I-Wert, ein Z-Ergebnis, einen Pseudo-p-Wert und einen Code, der den Clustertyp für jedes statistisch signifikante Feature darstellt. Die Z-Ergebnisse und Pseudo-p-Werte stellen die statistische Signifikanz der berechneten Indexwerte dar.
Berechnungen
Zusätzliche mathematische Gleichungen für die Local Morans I-Statistik anzeigen.
Interpretation
Ein positiver Wert für I bedeutet, dass ein Feature von benachbarten Features mit ähnlich hohen oder niedrigen Werten umgeben ist. Dieses Feature ist Teil eines Clusters. Ein negativer Wert für I bedeutet, dass ein Feature von benachbarten Features mit unterschiedlichen Werten umgeben ist. Dieses Feature ist ein Ausreißer. In beiden Fällen muss der p-Wert des Features klein genug sein, damit der Cluster oder Ausreißer als statistisch signifikant betrachtet werden. Weitere Informationen zum Bestimmen der statistischen Signifikanz finden Sie unter Was ist ein Z-Wert? Was ist ein p-Wert? Beachten Sie, dass der Local Morans I-Index (I) ein relativer Messwert ist, der nur im Kontext des entsprechenden berechneten Z-Wertes oder p-Wertes interpretiert werden kann. Die in der Ausgabe-Feature-Class angegebenen Z-Werte und p-Werte werden für Mehrfachtests und räumliche Abhängigkeit nicht korrigiert.
Das Feld für den Cluster-Ausreißer-Typ (COType) unterscheidet zwischen einem statistisch signifikanten Cluster mit hohen Werten (HH), einem Cluster mit niedrigen Werten (LL), Ausreißern, bei denen ein hoher Wert von hauptsächlich niedrigen Werten (HL) umgeben ist, und Ausreißern, bei denen ein niedriger Wert von hauptsächlich hohen Werten (HL) umgeben ist. Die statistische Signifikanz ist auf das Konfidenzniveau von 95 Prozent eingestellt. Wenn keine FDR-Korrektur angewendet wird, gelten Features mit p-Werten von weniger als 0,05 als statistisch signifikant. Die FDR-Korrektur reduziert den Schwellenwert für p-Werte von 0,05 auf einen Wert, der das Konfidenzniveau von 95 Prozent bei Mehrfachtests besser widerspiegelt.
Output
Mit diesem Werkzeug wird eine neue Ausgabe-Feature-Class erstellt, die die folgenden Attribute für jedes Feature in der Eingabe-Feature-Class enthält: Local Morans I-Index, Z-Wert, p-Wert und COType.
Bei Ausführung dieses Werkzeugs wird dem Inhaltsverzeichnis die Ausgabe-Feature-Class automatisch hinzugefügt, wobei das Standard-Rendering auf das Feld COType angewendet wird. Das Rendering wird durch eine Layer-Datei in <ArcGIS Pro>\Resources\ArcToolBox\Templates\Layers definiert. Sie können das Standard-Rendering nach Bedarf erneut anwenden, indem Sie das Werkzeug Symbolisierung aus Layer anwenden verwenden.
Permutationen
Permutationen werden verwendet, um zu bestimmen, mit welcher Wahrscheinlichkeit die tatsächliche räumliche Verteilung der analysierten Werte durch einen Vergleich der Werte mit einer Reihe von willkürlich generierten Werten ermittelt werden könnte. Selbst bei einer zufälligen räumlichen Verteilung kommt es aufgrund der Willkürlichkeit in einem bestimmten Ausmaß zu Cluster-Bildung. Permutationen generieren viele zufällige Datasets und vergleichen diese Werte mit dem Local Morans I-Wert der Originaldaten. Dazu werden die Nachbarschaftswerte um jedes Feature von jeder Permutation zufällig neu angeordnet. Für diese zufälligen Daten wird dann der Local Morans I-Wert berechnet. Durch die Untersuchung der Verteilung des aus den Permutationen generierten Local Morans I-Wertes können Sie die Spanne der Local Morans I-Werte erkennen, die begründet auf den Zufall zurückzuführen sein kann. Wenn Ihre Daten ein statistisch signifikantes räumliches Muster enthalten, sollten die aus den Permutationen generierten Local Morans I-Werte erwartungsgemäß weniger Cluster-Bildung zeigen als der Local Morans I-Wert, der aus den Originaldaten generiert wurde. Daraufhin wird ein Pseudo-p-Wert berechnet, indem der Anteil der Local Morans I-Werte bestimmt wird, die aus den Permutationen generiert wurden und eine höhere Cluster-Bildung als die Originaldaten aufweisen. Wenn dieser Anteil (der Pseudo-p-Wert) klein ist (unter 0,05), können Sie darauf schließen, dass die Daten statistisch signifikante Cluster enthalten.
Bei der Auswahl der Anzahl von Permutationen muss zwischen Genauigkeit und erhöhter Verarbeitungszeit abgewogen werden. Eine Erhöhung der Anzahl von Permutationen führt zu einer höheren Genauigkeit, da die Spanne möglicher Werte für den Pseudo-p-Wert zunimmt. Bei 99 Permutationen etwa liegt die Genauigkeit des Pseudo-p-Wertes bei 0,01 und bei 999 Permutationen bei 0,001. Diese Werte werden berechnet, indem 1 durch die Anzahl der Permutationen plus 1 geteilt wird: 1/(1+99) und 1/(1+999). Zu Beginn einer Problemanalyse kann eine niedrigere Anzahl von Permutationen verwendet werden, es empfiehlt sich jedoch, die Anzahl der Permutationen für die Berechnung des Endergebnisses auf die höchstmögliche praktikable Zahl hochzusetzen.
Richtlinien für bewährte Methoden
- Ergebnisse sind nur zuverlässig, wenn die Eingabe-Feature-Class mindestens 30 Features enthält.
- Für dieses Werkzeug ist ein Eingabefeld wie z. B. eine Zählung, eine Rate oder eine andere numerische Messung erforderlich. Wenn Sie Punktdaten analysieren und jeder Punkt ein einzelnes Ereignis repräsentiert, gibt es möglicherweise kein bestimmtes numerisches Attribut für die Analyse (eine Rangstufe des Schweregrades, eine Zählung oder eine andere Messung). Wenn Sie Bereiche mit vielen Ereignissen (Hot-Spots) und/oder Bereiche mit sehr wenigen Ereignissen (Cold-Spots) finden möchten, müssen Sie die Ereignisdaten zusammenfassen, bevor Sie die Analyse durchführen. Das Werkzeug Hot-Spot-Analyse (Getis-Ord Gi*) eignet sich auch für die Suche nach Hot-Spots und Cold-Spots. Statistisch signifikante Ausreißer (ein hoher Wert, der von niedrigen Werten umgeben ist, oder ein niedriger Wert, der von hohen Werten umgeben ist) können jedoch nur mit dem Werkzeug Cluster- und Ausreißeranalyse (Anselin Local Morans I) identifiziert werden.
- Wählen Sie eine geeignete Konzeptualisierung von räumlichen Beziehungen.
- Durch die Auswahl der Konzeptualisierung Raum-Zeit-Fenster können Sie Raum-Zeit-Cluster und Ausreißer ermitteln. Weitere Informationen finden Sie unter Raum-Zeit-Cluster-Analyse.
- Wählen Sie ein geeignetes Entfernungsband oder eine geeignete Schwellenwertentfernung.
- Jedes Feature sollte mindestens einen Nachbarn aufweisen.
- Kein Feature sollte alle anderen Features als Nachbarn haben.
- Besonders wenn die Werte für das Eingabefeld verzerrt sind, sollte jedes Feature etwa acht Nachbarn haben.
Potenzielle Anwendungsbereiche
Konzentrationen hoher Werte, Konzentrationen niedriger Werte und räumliche Ausreißer werden mit dem Werkzeug Cluster- und Ausreißeranalyse (Anselin Local Morans I) identifiziert. Das Werkzeug erleichtert Ihnen die Beantwortung verschiedener Fragen, z. B.:
- Wo liegen die schärfsten Grenzen zwischen Reichtum und Armut in einem Untersuchungsgebiet?
- Gibt es Bereiche in einem Untersuchungsgebiet mit anomalem Ausgabeverhalten?
- In welchen Bereichen eines Untersuchungsgebiets finden sich unerwartet hohe Diabetesraten?
Anwendungsmöglichkeiten gibt es in vielen Bereichen, einschließlich Wirtschaft, Ressourcenverwaltung, Biogeographie, politischer Geographie und Demografie.
Zusätzliche Ressourcen
Anselin, Luc. "Local Indicators of Spatial Association–LISA," Geographical Analysis 27(2): 93–115, 1995.
Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. Esri Press, 2005.