Funktionsweise von "Lokale Ausreißeranalyse"

Mit dem Werkzeug Lokale Ausreißeranalyse werden signifikante Cluster und Ausreißer in Ihren Daten identifiziert. Es werden Positionen im Untersuchungsgebiet ermittelt, die sich statistisch gesehen räumlich und zeitlich von ihren Nachbarn unterscheiden. Als Eingabe dient ein Raum-Zeit-NetCDF-Würfel, der entweder mit dem Werkzeug Raum-Zeit-Würfel durch Aggregieren von Punkten erstellen oder dem Werkzeug Raum-Zeit-Würfel aus definierten Positionen erstellen generiert wird. Dann wird mit den Werten Konzeptualisierung von räumlichen Beziehungen eine Raum-Zeit-Implementierung der Anselin Local Morans I-Statistik (Cluster- und Ausreißeranalyse) für jeden Abschnitt berechnet. Zu diesem Zweck berechnet das Werkzeug einen Local Morans I-Index, einen Pseudo-p-Wert und einen Typcode (CO_TYPE), der den Cluster- oder Ausreißerkategorietyp für jeden statistisch signifikanten Abschnitt im Eingabe-Raum-Zeit-Würfel darstellt. Die Pseudo-p-Werte stellen die statistische Signifikanz der berechneten Indexwerte dar, und deren Genauigkeit hängt von der Anzahl der Permutationen ab.

Potenzielle Anwendungsbereiche

Anwendungsmöglichkeiten für das Werkzeug Lokale Ausreißeranalyse gibt es in vielen Bereichen, einschließlich Wirtschaft, Ressourcenverwaltung, politischer Geographie, Demografie, öffentlicher Gesundheit und Betrugsprävention. Mit diesem Werkzeug können Sie u. a. die folgenden Fragen beantworten:

  • Gibt es Bereiche mit anomalem Ausgabeverhalten in meinem Untersuchungsgebiet?
  • Gab es einen Zeitraum, in dem im Untersuchungsgebiet unerwartet viele Krankheiten ausgebrochen sind?
  • Gibt es Gemeinden, in denen die Einwohner wesentlich mehr Wasser verbrauchen als in den Nachbargemeinden? Oder umgekehrt: In welchen Gemeinden ist der Wasserverbrauch stetig niedriger, sodass Empfehlungen zur Wassereinsparung entwickelt werden können?
  • Gibt es Orte in meiner Region mit einer signifikant zunehmenden Zahl von eingereichten Versicherungsansprüchen im letzten Monat?

Werkzeugausgaben

Dieses Werkzeug erstellt verschiedene Ausgaben. Die wichtigste Ausgabe ist eine zweidimensionale Karte, die der Karte nach der Durchführung des Werkzeugs als eine Übersicht der einzelnen Positionen im Zeitverlauf hinzugefügt wird. Die Kategorien lauten wie folgt:

TypnameDefinition
Niemals signifikant

Never Significant

Eine Position, an der nie ein statistisch signifikanter CO_TYPE aufgetreten ist.

Nur Hoch-hoch-Cluster

Only High-High Cluster

Eine Position, an der der einzige statistisch signifikante Typ im Laufe der Zeit aus Hoch-hoch-Clustern bestand.

Nur Hoch-niedrig-Cluster

Only High-Low Outlier

Eine Position, an der der einzige statistisch signifikante Typ im Laufe der Zeit aus Hoch-niedrig-Ausreißern bestand.

Nur Niedrig-hoch-Cluster

Only Low-High Outlier

Eine Position, an der der einzige statistisch signifikante Typ im Laufe der Zeit aus Niedrig-hoch-Ausreißern bestand.

Nur Niedrig-niedrig-Cluster

Only Low-Low Cluster

Eine Position, an der der einzige statistisch signifikante Typ im Laufe der Zeit aus Niedrig-niedrig-Clustern bestand.

Mehrere Typen

Multiple Types

Eine Position, an der mehrere Typen von statistisch signifikanten Cluster- und Ausreißertypen im Laufe der Zeit aufgetreten sind (z. B. Niedrig-hoch-Ausreißer in einigen Zeiträumen und Hoch-hoch-Cluster in anderen Zeiträumen).

Zusätzlich erscheint während der Ausführung von Werkzeugen unten im Bereich Geoverarbeitung eine Zusammenfassung der Analyseergebnisse in Form von Meldungen. Sie können auf die Meldungen zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen, auf die Schaltfläche Pop-out klicken oder den Abschnitt "Meldungen" im Bereich Geoverarbeitung erweitern. Sie können auch auf die Meldungen für ein zuvor ausgeführtes Werkzeug über den Geoverarbeitungsverlauf zugreifen.

Diese Meldungen enthalten Informationen zum Eingabe-Raum-Zeit-Würfel wie den Zeitraum, die zeitliche Verzerrung und die Anzahl der analysierten Abschnitte und Positionen. Darüber hinaus enthalten sie wichtige Informationen zu Ausreißern, die im letzten Zeitschritt aufgetreten sind, sowie eine Übersicht der Schlüsselzeitschritte, die von Interesse sein könnten. Wenn es beispielsweise darum ging, Gebiete mit unterdurchschnittlicher Performance in Ihrem Vertriebsgebiet zu ermitteln, und Sie nach Niedrig-hoch-Ausreißern suchen, finden Sie in den Meldungen den Schlüsselzeitschritt mit der höchsten Anzahl von Niedrig-hoch-Ausreißern.

Beispiel für Meldungen der lokalen Ausreißeranalyse

Dieses Werkzeug erstellt eine neue Ausgabe-Feature-Class mit den folgenden Feldern, die eine Zusammenfassung der Abschnitte an jeder Position des Eingabe-Raum-Zeit-Würfels bieten:

AliasFeldname
Number of OutliersNUM_OUT
Percentage of OutliersPERC_OUT
Number of Low ClustersN_LOW_CLS
Percentage of Low ClustersP_LOW_CLS
Number of Low OutliersN_LOW_OUT
Percentage of Low OutliersP_LOW_OUT
Number of High ClustersN_HIGH_CLS
Percentage of High ClustersP_HIGH_CLS
Number of High OutliersN_HIGH_OUT
Percentage of High OutliersP_HIGH_OUT

Positionen mit No Spatial Neighbors, die zur Berechnung der Analyse nur auf zeitliche Nachbarn zurückgreifen können

NO_SP_NBR

Positionen mit einem Outlier in the Most Recent Time Step

OUT_R_TIME
Cluster Outlier Type

CO_TYPE

Zusätzliche Summenstatistiken einschließlich der Summe, dem minimalen, maximalen und durchschnittlichen Wert, der Standardabweichung und dem Medianwert der analysierten Variable.

SUM_VALUE, MIN_VALUE, MAX_VALUE, MEAN_VALUE, STD_VALUE und MED_VALUE

Abschließend fügt das Werkzeug Lokale Ausreißeranalyse dem Eingabe-Raum-Zeit-Würfel mehrere neue Variablen hinzu. Sollten diese Variablen bereits vorhanden sein (bei mehrmaliger Ausführung des Werkzeugs Lokale Ausreißeranalyse für dieselbe Analysevariable), werden sie überschrieben, sodass der Würfel stets die aktuellen Analyseergebnisse enthält.

Sie können diese Variablen mit ArcGIS Pro darstellen. Unter Visualisieren des Raum-Zeit-Würfels werden Strategien dafür beschrieben.

Interpretation

Als Hilfe bei der Interpretation der Ergebnisse des Werkzeugs Lokale Ausreißeranalyse können die Ergebnisvariablen, die dem Würfel hinzugefügt wurden, mit dem Werkzeug Raum-Zeit-Würfel in 3D visualisieren angezeigt werden. Der Index, p-Wert und Cluster Outlier Analysis Type für jeden Abschnitt können durch die Auswahl des Anzeigedesigns Cluster and outlier results visualisiert werden. Ein Index mit einem positiven Wert bedeutet, dass ein Abschnitt von benachbarten Abschnitten mit ähnlich hohen oder niedrigen Attributwerten umgeben ist. Dieser Abschnitt ist Teil eines Clusters. Ein Index mit einem negativen Wert bedeutet, dass ein Abschnitt von benachbarten Abschnitten mit anderen Werten umgeben ist. Dieser Abschnitt ist ein Ausreißer. In beiden Fällen muss der Pseudo-p-Wert oder p-Wert des Features klein genug sein, dass der Cluster oder Ausreißer als statistisch signifikant betrachtet wird. Weitere Informationen zum Bestimmen der statistischen Signifikanz finden Sie unter Was ist ein Z-Wert? Was ist ein p-Wert?. Beachten Sie, dass der Local Morans I-Index (I) ein relativer Messwert ist, der nur im Kontext der dafür generierten Referenzverteilung und dem zugehörigen berechneten Pseudo-p-Wert oder p-Wert interpretiert werden kann. Der in der Ausgabe-Feature-Class angegebene Pseudo-p-Wert oder die p-Werte werden im Hinblick auf Mehrfachtests und räumliche Abhängigkeit korrigiert.

Beim Cluster- oder Ausreißertyp wird zwischen einem statistisch signifikanten Cluster mit hohen Werten (Hoch-hoch), einem Cluster mit niedrigen Werten (Niedrig-niedrig), Ausreißern, bei denen ein hoher Wert von hauptsächlich niedrigen Werten umgeben ist (Hoch-niedrig), und Ausreißern, bei denen ein niedriger Wert von hauptsächlich hohen Werten umgeben ist (Hoch-niedrig), unterschieden. Die statistische Signifikanz ist auf das Konfidenzniveau von 95 Prozent eingestellt. Diese Signifikanz stellt eine FDR-Korrektur dar, mit der der Schwellenwert für den p-Wert von 0,05 auf einen Wert angepasst wird, der das Konfidenzniveau von 95 Prozent bei der Berücksichtigung von Mehrfachtests besser widerspiegelt.

Standardeinstellungen für "Nachbarschaft"

Um herauszufinden, ob der Abschnittswert an einer Position räumlich und zeitlich zu einem statistisch signifikanten Hot- oder Cold-Spot oder einem statistisch signifikanten Ausreißer zählt, wird jeder Abschnitt im Kontext seiner benachbarten Raum-Zeit-Abschnitte bewertet. Bei der Standardausgabe dieses Werkzeugs verwendet man die Methode Feste Entfernung, um Beziehungen zwischen den Abschnitten zu definieren. Die Parameterwerte für Nachbarschaftsentfernung und Nachbarschaftszeitintervall definieren die Ausdehnung der Nachbarschaft jedes Abschnitts (den Kontext für die jeweilige Abschnittsanalyse). Angenommen, die Abschnittsbemaßung beträgt 400 Meter mal 400 Meter mal 1 Tag. Wenn Sie die Nachbarschaftsentfernung auf 801 Meter und das Nachbarschaftszeitintervall auf 2 festlegen, erstrecken sich die räumlichen Nachbarn horizontal und vertikal auf zwei Abschnitte sowie einen Abschnitt diagonal nach außen, wie hier gezeigt:

Räumliche Nachbarn (Beispiel)

Daneben gibt es zeitliche Nachbarn. Alle Abschnitte an derselben Position wie das Ziel und seine räumlichen Nachbarn (vorstehend abgebildet) für die übereinstimmenden oder zwei vorangegangenen Zeiträume – in diesem Beispiel insgesamt drei Tage – werden als Nachbarn einbezogen. Beachten Sie, dass zeitliche Nachbarn nur rückwirkend dargestellt sind und dass ein Nachbarschaftszeitintervall in Höhe von 2 drei Zeitintervalle einschließt. Um sicherzustellen, dass jede Position über mindestens einen zeitlichen Nachbarn verfügt, wird für die Abschnitte im ersten Zeitintervall kein Local Morans-Index berechnet. Die Abschnittswerte im ersten Zeitintervall werden jedoch in die Berechnung des globalen Durchschnitts einbezogen.

Sollten Sie keinen Wert für den Parameter Nachbarschaftsentfernung angeben, wird er automatisch berechnet. Die Formel ergibt sich aus der Berechnung zur Bestimmung des Standardsuchradius für die Kerndichte. Wird für das Nachbarschaftszeitintervall kein Wert angegeben, wird als Standardwert 1 verwendet.

Es gibt weitere Möglichkeiten, Nachbarschaftsbeziehungen mithilfe des Parameters Konzeptualisierung von räumlichen Beziehungen zu definieren. Für jede Option findet das Werkzeug zuerst räumliche Nachbarn und anschließend Abschnitte an denselben Positionen aus N vorangegangenen Zeitintervallen, wobei N dem von Ihnen angegebenen Nachbarschaftszeitintervall entspricht.

Ihre Auswahl für den Parameter Konzeptualisierung von räumlichen Beziehungen sollte inhärente Beziehungen unter den Features, die analysiert werden, widerspiegeln. Je realistischer Sie modellieren können, wie Features im Raum interagieren, desto genauer werden die Ergebnisse. Empfehlungen werden unter Auswählen einer Konzeptualisierung räumlicher Beziehungen: Empfehlungen beschrieben.

Permutationen

Permutationen werden verwendet, um zu bestimmen, mit welcher Wahrscheinlichkeit die tatsächliche räumliche Verteilung der analysierten Werte durch einen Vergleich der Werte mit einer Reihe von willkürlich generierten Werten ermittelt werden könnte. Selbst bei einer zufälligen räumlichen Verteilung kommt es aufgrund der Willkürlichkeit in einem bestimmten Ausmaß zu Cluster-Bildung. Permutationen generieren viele zufällige Datasets und vergleichen diese Werte mit dem Local Morans I-Wert der Originaldaten. Dazu werden die Nachbarschaftswerte um jeden Abschnitt von jeder Permutation zufällig neu angeordnet. Für diese zufälligen Daten wird dann der Local Morans I-Wert berechnet. Durch die Untersuchung der Verteilung des aus den Permutationen generierten Local Morans I-Wertes können Sie die Spanne der Local Morans I-Werte erkennen, die begründet auf den Zufall zurückzuführen sein kann. Wenn Ihre Daten ein statistisch signifikantes räumliches Muster enthalten, sollten die aus den Permutationen generierten Local Morans I-Werte erwartungsgemäß weniger Cluster-Bildung zeigen als der Local Morans I-Wert, der aus den Originaldaten generiert wurde. Daraufhin wird ein Pseudo-p-Wert berechnet, indem der Anteil der Local Morans I-Werte bestimmt wird, die aus den Permutationen generiert wurden und eine höhere Cluster-Bildung als die Originaldaten aufweisen. Wenn dieser Anteil (der Pseudo-p-Wert) klein ist (unter 0,05), können Sie darauf schließen, dass die Daten statistisch signifikante Cluster enthalten.

Bei der Auswahl der Anzahl von Permutationen muss zwischen Genauigkeit und erhöhter Verarbeitungszeit abgewogen werden. Eine Erhöhung der Anzahl von Permutationen führt zu einer höheren Genauigkeit, da die Spanne möglicher Werte für den Pseudo-p-Wert zunimmt. Bei 99 Permutationen etwa liegt die Genauigkeit des Pseudo-p-Wertes bei 0,01 (1/99+1) und bei 999 Permutationen bei 0,001 (1/999+1). Zu Beginn einer Problemanalyse kann eine niedrigere Anzahl von Permutationen verwendet werden, es empfiehlt sich jedoch, die Anzahl der Permutationen für die Berechnung des Endergebnisses auf die höchstmögliche praktikable Zahl hochzusetzen.

Zusätzliche Quellen

Anselin, Luc. "Local Indicators of Spatial Association–LISA," Geographical Analysis 27(2): 93–115, 1995.

Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. Esri Press, 2005.