Funktionsweise des Werkzeugs "Räumliche Ausreißer erkennen"

Das Werkzeug Räumliche Ausreißer erkennen erkennt globale oder lokale räumliche Ausreißer in Punkt-Features. Ein globaler Ausreißer ist ein Punkt, der sich weit entfernt von allen anderen Punkten in der Feature-Class befindet. Ein lokaler Ausreißer ist ein Punkt, der weiter von seinen Nachbarn entfernt ist als es die Dichte der Punkte in der Umgebung erwarten ließe. Neben der Klassifizierung von Eingabe-Punkten als Ausreißer oder Inlier kann mit dem Werkzeug eine Raster-Oberfläche mit dem berechneten lokalen Ausreißer-Faktor (LOF) im Untersuchungsgebiet erzeugt werden. Mit dieser lässt sich bestimmen, wie neue Beobachtungen unter Berücksichtigung der räumlichen Verteilung Ihrer Daten klassifiziert werden. Ferner lässt sich mit dem Werkzeug die Auswahl der erforderlichen Parameter optimieren, z. B. die Anzahl der Nachbarn und der Prozentsatz an Positionen, die als Ausreißer gelten.

Potenzielle Anwendungsbereiche

Potenzielle Anwendungsbereiche des Werkzeugs:

  • Eine Organisation, die Stationen zur Überwachung der Luftqualität betreibt und diese für die Oberflächeninterpolation nutzt, möchte anhand der abgelegensten Stationen herausfinden, an welchen Stellen zusätzliche Datenerfassungen erforderlich sind.
  • Blutspendeaktionen werden in der Regel an Orten mit besonders vielen potenziellen Spender durchgeführt, um die Fahrtzeit für die einzelnen Spender möglichst gering zu halten. Um auch wichtige Spender, die weiter entfernt wohnen, zum Spenden zu veranlassen, sind aber möglicherweise weitere Kontaktaufnahmen und besondere Anreize erforderlich. Ein Koordinator könnte diese potenziellen Spender, die als räumliche Ausreißer gelten, ermitteln und ihnen einen Anreiz bieten, um sie trotz des weiteren Anfahrtwegs zur Teilnahme an der Blutspendeaktion zu motivieren.

Globale und lokale räumliche Ausreißer

Ausreißer im Raum sind als Punkte definiert, deren Positionen nicht dem typischen Muster der restlichen Punkte im Dataset entsprechen. Das bedeutet im einfachsten Fall, dass ein Punkt weit vom Rest der Punkte entfernt ist. Dieser Fall wird als globaler Ausreißer bezeichnet. Zum Beispiel können auf einer Karte der Notaufnahmen in einem Staat bestimmte Notaufnahmen in Gebieten mit niedriger Bevölkerungszahl als globale Ausreißer angegeben werden, wenn sie in größerer Entfernung liegen als in Gebieten mit höherer Bevölkerungszahl. Manchmal ist es jedoch aussagekräftiger, die Punkte zu erkennen, deren Position vom Muster der Punkte im betreffenden Gebiet abweicht. Ein solcher Punkt wird als lokaler Ausreißer bezeichnet. Im Beispiel der Notaufnahmen in einem Staat wäre ein lokaler räumlicher Ausreißer ein Krankenhaus, das weit von anderen Notaufnahmen entfernt ist, wobei auch die unterschiedlich hohe Dichte an Notaufnahmen in diesem Staat berücksichtigt wird. Damit könnten Notaufnahmen in Gebieten mit höherer Bevölkerungszahl erkannt werden, die für mehr Menschen zuständig sind als Notaufnahmen in der Umgebung. So ließen sich Gebiete mit weniger Zugang zur Notfallversorgung identifizieren.

Die folgende Abbildung zeigt ein typisches Ergebnis der Erkennung räumlicher Ausreißer mit Ausreißern in Orange und Inliern in Grau. Globale Ausreißer sind auf der rechten Seite dargestellt. Lokale Ausreißer für einen kleinen Teil des Bundesstaates Washington sind auf der linken Seite dargestellt. Bei einem Blick auf alle Punkte im ganzen Land sind die lokalen Punkte scheinbar keine Ausreißer. In ihrem lokalen Gebiet sind sie aber signifikant weit von einem lokalen Punkte-Cluster entfernt.

Lokale und globale Ausreißer

Globale Ausreißer sind auf der rechten Seite dargestellt. Lokale Ausreißer für ein kleines Gebiet sind auf der linken Seite dargestellt.

Werkzeugausgaben

Das Werkzeug stellt ein Ausgabe-Feature-Layer bereit, in dem die Features, die als räumliche Ausreißer ausgewiesen werden, hervorgehoben sind. Ausreißer werden in Orange symbolisiert und Inlier in halbtransparentem Grau, sodass die räumliche Dichte der Inlier visuell erfasst werden kann.

Identifizierte räumliche Ausreißer

Der Feature-Layer enthält zwei Diagramme: Ein Balkendiagramm mit der Anzahl der Ausreißer und Inlier und ein Histogramm mit der Verteilung der LOF-Werte (für lokale Ausreißer) oder Nachbarentfernungswerte (für globale Ausreißer).

Am Balkendiagramm mit der Anzahl der Ausreißer lassen sich die unmittelbare Anzahl der Ausreißer ablesen und alle Ausreißer in der Ausgabeanalyse auswählen.

Histogramm mit der Anzahl der Ausreißer

Das Histogramm mit der Verteilung der LOF-Werte oder Nachbarentfernungswerte enthält einen Durchschnittswert sowie den Schwellenwert, der zwischen Ausreißern und Inliern unterscheidet.

Histogramm der LOF-Werte

Wenn für den Parameter Ausgabe-Vorhersage-Raster ein Wert eingegeben wird, wird ein Ausgabe-Raster mit dem berechneten LOF-Wert aller Zellen im Untersuchungsgebiet erzeugt.

Ausgabe-Raster-Oberfläche

Im Ausgabe-Raster werden die LOF-Werte als kontinuierliche Oberfläche angezeigt.

Erkennen von globalen räumlichen Ausreißern

Globale Ausreißer sind einfacher als lokale Ausreißer. Bei der Erkennung globaler Ausreißer werden die Ausreißer bestimmt, indem die Entfernung zu einem seiner nächsten Nachbarn bestimmt wird. Diese Entfernung wird als Nachbarentfernung bezeichnet. Standardmäßig wird der nächste Nachbar verwendet. Mit dem Parameter Anzahl der Nachbarn können Sie jedoch diese Zahl ändern. Wenn zum Beispiel der Wert 3 angegeben wird, wird für jeden Punkt die Entfernung zum drittnächsten Nachbarn berechnet. Die Punkte mit den größten Nachbarentfernungen liegen am weitesten von ihren nächsten Nachbarn entfernt, und jeder Punkt in einer Nachbarentfernung über einem bestimmten Schwellenwert wird als globaler Ausreißer erkannt.

Der Schwellenwert für die Erkennung wird durch die Verteilung der Nachbarentfernungen und den Wert des Parameters Erkennungsempfindlichkeit bestimmt. Den Schwellenwert können Sie mit einem Boxplot visualisieren, indem Sie eine Anzahl von Interquartil-Bereichen (der Bereich der mittleren 50 Prozent der Daten) zum dritten Quartil hinzufügen. Bei der Empfindlichkeitsoption Hoch wird ein Interquartil-Bereich zum dritten Quartil hinzugefügt. Bei der Empfindlichkeit Mittel werden 1,5 Interquartil-Bereiche hinzugefügt. Bei der Empfindlichkeit Niedrig werden zwei Interquartil-Bereiche hinzugefügt. Beachten Sie, dass höhere Empfindlichkeiten zu niedrigeren Schwellenwerten führen. Damit können kürzere Nachbarentfernungen als globale Ausreißer erkannt werden.

Boxplot-Regel für globale Ausreißer

Für den Boxplot der Nachbarentfernungen werden die Schwellenwerte für niedrige, mittlere und hohe Empfindlichkeit angezeigt.

Erkennen von lokalen räumlichen Ausreißern

Es ist häufig wichtiger, auffällige Positionen (Ausreißer) zu identifizieren als typische Positionen (Cluster). Als ein Beispiel ist die Erkennung von potenziell betrügerischen Finanztransaktionen zu nennen, die häufig an untypischen Positionen auftreten, welche sich von den typischen räumlichen Transaktionsmustern unterscheiden.

Trotzdem sind die meisten Strategien zur Ermittlung von Ausreißern eher darauf ausgerichtet, dass zunächst Cluster identifiziert und dann die verbleibenden Features als Begleiterscheinung für räumliche Ausreißer verwendet werden. Zum Beispiel bietet das Werkzeug Dichte-basierte Cluster-Bildung viele Ansätze zur Definition und Identifizierung von räumlichen Clustern, während die Identifizierung von Ausreißern auf Features beschränkt wird, die die Kriterien eines Clusters nicht erfüllen und die binär als Rauschen-Features ausgewiesen werden. Folglich ist die alleinige Anwendung von Cluster-Ansätzen zur Identifizierung von räumlichen Ausreißern mit mindestens zwei Nachteilen verbunden. Erstens sind Cluster-Ansätze naturgemäß darauf ausgerichtet, Cluster statt Ausreißer zu definieren und identifizieren. Zweitens werden Beobachtungen häufig auf rein binäre Weise als Ausreißer ausgewiesen, ohne dass es eine Toleranz oder ein quantitatives Maß gäbe, inwieweit es sich um einen Ausreißer handelt.

Mit dem lokalen Ausreißer-Faktor (LOF) lassen sich diese Nachteile ausgleichen, da er die Ausreißer identifiziert und ein Maß für die Abgeschiedenheit eines Features bereitstellt. Ferner vergleicht dieser Ansatz anhand von lokalen Dichtemustern die Dichte der Nachbarschaft eines Features im Verhältnis zu den Nachbarschaften anderer Features in seiner Umgebung. Dies ermöglicht die Unterscheidung zwischen globalen Ausreißern, d. h. Punkten, die im Kontext des gesamten Untersuchungsgebiets auffällig sind, und lokalen Ausreißern, d. h. Punkten, die im Kontext ihrer unmittelbaren Umgebung auffällig sind. Mit dem Fokus auf lokalen Ausreißern können komplexere lokale Phänomene näher beleuchtet werden, die wie das zuvor erwähnte Beispiel aus dem Bereich Finanztransaktionen eine eingehendere Untersuchung erfordern.

Definieren von Kriterien zur Ermittlung von lokalen räumlichen Ausreißern

Damit mit dem Werkzeug die räumlichen Ausreißer erfasst und identifiziert werden können, ist ein Wert für den Parameter Anzahl der Nachbarn, der für jedes Feature ausgewertet wird, und ein Wert für den Parameter Prozentsatz an Positionen, die als Ausreißer gelten im Untersuchungsgebiet erforderlich; diese Kriterien sind wesentlich für die Bestimmung der Größe der Nachbarschaft bei der LOF-Berechnung sowie für den Schwellenwert für das Ausweisen von Ausreißern und Inliern.

  • Der Parameter Anzahl der Nachbarn legt für jedes Feature eine Nachbarschaft fest. Die LOF-Berechnung errechnet anhand dieser Nachbarschaft eine Erreichbarkeitsentfernung und eine lokale Erreichbarkeitsdichte, die die Vergleichsgrundlage dafür bilden, die räumliche Entfernung eines Features von den Features in seinem unmittelbaren Umkreis zu schätzen.
  • Der Parameter Prozentsatz an Positionen, die als Ausreißer gelten legt den Schwellenwert für das Ausweisen von Features als Ausreißer oder Inlier fest. Der Schwellenwert legt anhand der berechneten LOF-Werte für alle Features in den Eingabedaten die Anzahl der Features mit den größten LOF-Werten fest, die als Ausreißer ausgewiesen werden.

Entsprechend Ihrem vorhandenen Fachwissen sollten Sie helfen, diese Parameterwerte festzulegen; siehe hierzu die folgenden Beispiele:

  • Ein Verkehrsingenieur kann anhand der Anzahl der Auffahrunfälle an einer Kreuzung beurteilen, wann ein systembedingtes Sicherheitsproblem vorliegt; er kann diesen Wert für den Parameter "Anzahl der Nachbarn" verwenden, der für die Feststellung von räumlichen Ausreißern ausgewertet wird.
  • Dem Koordinator einer Blutspendeaktion liegt eine Liste potenzieller freiwilliger Spender vor. Er verfügt über ein Budget, sodass er den 10 % der am weitesten entfernt wohnenden Kandidaten als Entschädigung für ihre weite Anreise zur Blutspendeeinrichtung einen Anreiz bieten kann; zur Unterstützung der Planung von Standorten und Anreizen für die Blutspendeaktion wird dann für den Parameter "Prozentsatz an Positionen, die als Ausreißer gelten" der Wert "10 %" verwendet.

Wenn die Werte der Parameter Anzahl der Nachbarn und Prozentsatz an Positionen, die als Ausreißer gelten unbekannt sind oder Sie datenabhängige Werte für diese Parameter erkunden möchten, können Sie mit dem Werkzeug anhand der räumlichen Verteilung der Daten nach Parameterwerten suchen. Weitere Informationen und eine detaillierte Erläuterung zu diesem Ansatz finden Sie im Abschnitt Datenabhängige Parameterauswahl weiter unten.

Lokaler Ausreißer-Faktor

Die Berechnung des lokalen Ausreißer-Faktors ist der wichtigste Mechanismus zur Identifizierung und Beschreibung von räumlichen Ausreißern. Sie besteht aus vier Schritten: der Bestimmung einer Nachbarschaft, dem Herausfinden der Erreichbarkeitsentfernung, der Berechnung der lokalen Erreichbarkeitsdichte und der eigentlichen Berechnung des lokalen Ausreißer-Faktors. Die Schritte werden in den folgenden Abschnitten beschrieben.

Bestimmen einer Nachbarschaft und Herausfinden der Erreichbarkeitsentfernung

Für jede Position wird anhand einer angegebenen Mindestanzahl von Features eine lokale Nachbarschaft bestimmt. Dieser Ansatz wird in der Regel als "k-nächster Nachbar" bezeichnet, wobei k der angegebenen Mindestanzahl von Features in der Umgebung des aktuell analysierten Features entspricht. Die folgende Abbildung zeigt ein Beispielszenario für Feature A; die Anzahl der Nachbarn k beträgt 4

Nachbarschaft von Feature A

Die Features 1, 2, 3 und 4 bilden die Nachbarschaft von Feature A und werden jetzt als B bezeichnet.

Wenn die Nachbarschaft eines Features bestimmt ist, entspricht die Erreichbarkeitsentfernung der größeren der beiden Entfernungen zwischen A und B oder zwischen B und dem k-nächsten Nachbarn.

Formel für Erreichbarkeitsentfernung

Die folgende Abbildung zeigt die Erreichbarkeitsentfernung für Punkt A in einem Szenario mit k = 4.

Erreichbarkeitsentfernung von Feature A

Ebenso weist jedes Feature eine Erreichbarkeitsentfernung auf, die durch seine k-nächsten Nachbarn definiert ist.

Herausfinden der lokalen Erreichbarkeitsdichte

Wenn für jedes Feature eine Erreichbarkeitsentfernung ermittelt wurde, wird der Durchschnitt der Erreichbarkeitsentfernungen aller Features in der Nachbarschaft des Features berechnet. Anhand dieses Werts wird die lokale Erreichbarkeitsdichte bestimmt; dies ist ein Maß für die räumliche Dichte der Nachbarschaft des Features. Die lokale Erreichbarkeitsdichte entspricht dem Kehrwert der durchschnittlichen Erreichbarkeitsentfernung für alle Features in der Nachbarschaft eines Features.

Formel für die lokale Erreichbarkeitsdichte

Eine weitere Möglichkeit der Konzeptualisierung der lokalen Erreichbarkeitsdichte besteht in der Berechnung der Erreichbarkeitsentfernung für alle Features, also B1 bis B4, die zur Nachbarschaft von Feature A gehören, siehe hierzu die nachfolgende Abbildung.

Erreichbarkeitsentfernung der einzelnen Nachbarn

Die Gesamtentfernung ist durch die Anzahl der Features (im vorliegenden Fall 4) zu teilen, und dann wird der Kehrwert gebildet (Division des Ergebnisses durch 1).

Es ist noch eine weitere Konzeptualisierung möglich, da die durchschnittliche Erreichbarkeitsentfernung für Features mit abnehmender Erreichbarkeitsdichte zunimmt. Folglich nimmt die durchschnittliche Erreichbarkeitsentfernung für Features mit zunehmender Erreichbarkeitsdichte ab.

Lokale Erreichbarkeitsdichte – Vergleich

Berechnen des lokalen Ausreißer-Faktors

Wenn die lokale Erreichbarkeitsdichte für alle Features feststeht, besteht der letzte Schritt der Berechnung des lokalen Ausreißer-Faktors in der Ermittlung des Verhältnisses zwischen der lokalen Erreichbarkeitsdichte eines Features und der lokalen Erreichbarkeitsdichte jedes einzelnen seiner Nachbarn. Der Durchschnitt dieser Verhältniswerte entspricht dem lokalen Ausreißer-Faktor.

Formel für lokalen Ausreißer-Faktor

Wenn Sie erfassen möchten, wie Sie daran erkennen können, ob ein Feature ein räumlicher Ausreißer ist, bedenken Sie, dass der lokale Ausreißer-Faktor zunimmt, wenn die lokale Erreichbarkeitsdichte eines Features abnimmt (die Nachbarschaft eines Features also weniger dicht ist) und die lokale Erreichbarkeitsdichte seiner Nachbarn zunimmt (die Nachbarschaft des Nachbarn eines Features also dichter ist): das Feature ist abgelegener, weil seine räumliche Dichte gering ist, während die räumlichen Dichten seiner benachbarten Features höher sind.

Wenn die lokalen Ausreißer-Faktoren für alle Features berechnet sind, verwendet das Werkzeug den Parameterwert für den Prozentsatz der Positionen, die als Ausreißer ausgewiesen werden sollen, um Features als Ausreißer und Inlier auszuweisen. Folglich gehört die Auswahl eines geeigneten Prozentsatzes zu den wichtigsten Kriterien bei der Definition und Interpretation der Analyseergebnisse.

Datenabhängige Parameterauswahl

Die Parameter Anzahl der Nachbarn und Prozentsatz an Positionen, die als Ausreißer gelten haben einen großen Einfluss auf das Ergebnis der LOF-Berechnung und die festgestellten räumlichen Ausreißer. Zwar wird für die Auswahl geeigneter Parameterwerte Fachwissen empfohlen, trotzdem kann es sein, dass nicht jede Frage bei der räumlichen Analyse einen eindeutigen Wert für diese Kriterien enthält.

Wenn logische Werte für die Anzahl der Nachbarn bzw. den Prozentsatz der Positionen, die als Ausreißer gelten, vor der Analyse unbekannt sind oder Sie datenabhängig Ergebnisse auswerten möchten, kann das Werkzeug auf der Basis der räumlichen Verteilung der Eingabe-Features automatisch nach den geeigneten Parameterwerten suchen. Dazu führt das Werkzeug eine Suche durch, indem es Kombinationen aus der Anzahl der Nachbarn, k und dem Prozentsatz der Positionen, die als Ausreißer gelten – bezeichnet als c –, miteinander vergleicht, und diesen Wert in einen Parameter für die Anzahl der Positionen, die als Ausreißer gelten – bezeichnet als n–, umwandelt.

Für jedes Paar aus Parameter und Wert [(c1, k1), (c2, k2), …] wird anschließend der lokale Ausreißer-Faktor berechnet. Die resultierenden LOF-Werte werden absteigend sortiert, und der Mittelwert des log(LOF) der obersten n Ausreißer wird anhand einer t-Statistik Tci,kj mit dem Mittelwert des log(LOF) der folgenden n Inlier (zweitgrößter LOF) verglichen.

Die optimale Anzahl an Nachbarn und der LOF-Schwellenwert können mit einer optimierten Raster-Suche ermittelt werden.

Finden Sie mit den vorgegebenen Werten für c, den jeweils besten Wert für k: Tc1,k2, Tc2,k3, Tc3,k2. Finden Sie dann den besten Wert für c, k heraus.

Bevor Sie fortfahren, sollten Sie Folgendes beachten:

  • Anhand eines Werts für c ermittelt das Werkzeug den Wert für k, der die Signifikanz der t-Statistik maximiert. Das ist der Wert für die nächsten Nachbarn, der die LOF-Differenz zwischen der Ausreißer- und der Inlier-Gruppe maximiert.
  • Das Werkzeug ermittelt den Wert für c, der nach der Bereinigung um n die t-Statistiken maximiert.

Vergleich zwischen Ausreißern und Inliern.

Der t-Test wird zwischen den Mittelwerten der Ausreißer- und Inlier-Gruppen durchgeführt.

Die Suche erfolgt für eine Domäne von k- and c-Werten, die durch die Anzahl der Eingabe-Punkte festgelegt wurde, wobei jede durch das Werkzeug im Hinblick auf die Auswahl von Parameterwerten getroffene Entscheidung als Meldung in einem Bericht gespeichert wird.

Hinweis:

In Eingabe-Datasets mit vielen Features überprüft das Werkzeug nur einen Teil der Werte für die Anzahl der Nachbarn und der LOF-Schwellenwerte.

Ausgaben – Überlegungen und Interpretationen

Bei der Interpretation der Ausgaben dieses Werkzeugs gibt es einige wichtige Aspekte zu berücksichtigen.

  • Es ist nicht möglich, die für ein Eingabe-Dataset berechneten LOF-Werte mit den berechneten LOF-Werten eines anderen Datasets zu vergleichen. Die LOF-Berechnungen sind von der räumlichen Verteilung der Eingabe-Features im Dataset abhängig; folglich führen Unterschiede zwischen einzelnen Datasets zu unterschiedlichen Berechnungen der lokalen Erreichbarkeitsdichten und LOF-Werte.
  • Die berechneten LOF-Ergebnisse zwischen einem Punkt in den Ausgabe-Features und einer Zelle im Vorhersage-Raster der Ausgabe, die mit dem Punkt übereinstimmt, können sich unterscheiden. Der Grund für diesen Unterschied liegt darin, dass zur Nachbarschaft des Punkts die Nachbarn in seiner Umgebung gehören, aber nicht der Punkt selbst; in der mit dem Punkt übereinstimmenden Raster-Zelle allerdings ist der Punkt als Nachbar enthalten.
  • Geringe Unterschiede in den für den Parameter Prozentsatz der Positionen, die als Ausreißer gelten übergebenen Werte können in der Ausgabe zum selben Prozentsatz für Positionen führen, die als Ausreißer gelten. Dies kann vorkommen, wenn Ähnlichkeiten in der räumlichen Verteilung der Features zum einem identischen LOF-Wert für mehrere Features führen und dieser LOF-Schwellenwert festgelegt wird, selbst wenn sich der Prozentsatz marginal unterscheidet.
    • Stellen Sie sich ein einfaches Dataset mit 10 Features vor, dessen LOF-Berechnung zu folgenden Werten führt: [0, 1, 2, 3, 4, 5, 9, 9, 9, 9]. In diesem Beispiel würde der Prozentsatz 10 für die Positionen, die als Ausreißer gelten, dazu führen, dass die ersten 10 Prozent der LOF-Werte ausgewählt werden, was einem LOF-Schwellenwert von 9 entspricht. Entsprechend würden, wenn für die Positionen, die als Ausreißer gelten, der Prozentsatz 40 übergeben würde, die ersten 40 Prozent der LOF-Werte ausgewählt, was wiederum einem LOF-Schwellenwert von 9 entspricht. Daher ist die ausgegebene Anzahl der Ausreißer für alle Prozentsätze zwischen 10 und 40 identisch.

Zusätzliche Referenzen

Weitere Informationen zum lokalen Ausreißer-Faktor sowie zum Optimieren von Parametern finden Sie in den folgenden Quellen:

  • Breunig, M. M., Kriegel, H. P., Ng, R. T., Sander, J. (2000). "LOF: identifying density-based local outliers." Proceedings of the 2000 ACM SIGMOD international conference on Management of data. (S. 93-104).
  • Xu, Z., Kakde, D., Chaudhuri, A. (2019). "Automatic Hyperparameter Tuning Method for Local Outlier Factor, with Applications to Anomaly Detection." 2019 IEEE International Conference on Big Data (S. 4201-4207)