Funktionsweise des Werkzeugs "Erkennung räumlicher Ausreißer"

Das Werkzeug Erkennung räumlicher Ausreißer berechnet einen lokalen Ausreißer-Faktor (Local Outlier Factor, LOF); dieser misst, wie weit abseits Punkte in einem Untersuchungsgebiet von anderen Punkten in der lokalen Nachbarschaft liegen. Neben der Klassifizierung von Eingabe-Punkten als Ausreißer oder Inlier kann mit dem Werkzeug eine Raster-Oberfläche mit dem berechneten lokalen Ausreißer-Faktor im Untersuchungsgebiet erzeugt werden. Mit dieser lässt sich bestimmen, wie neue Beobachtungen unter Berücksichtigung der räumlichen Verteilung Ihrer Daten klassifiziert werden. Ferner lässt sich mit dem Werkzeug die Auswahl der erforderlichen Parameter optimieren, z. B. die Anzahl der Nachbarn und der Prozentsatz an Positionen, die als Ausreißer gelten.

Potenzielle Anwendungsbereiche

Potenzielle Anwendungsbereiche des Werkzeugs:

  • Eine Organisation, die Stationen zur Überwachung der Luftqualität betreibt und diese für die Oberflächeninterpolation nutzt, möchte anhand der abgelegensten Stationen herausfinden, an welchen Stellen zusätzliche Datenerfassungen erforderlich sind.
  • Blutspendeaktionen werden in der Regel an Orten mit besonders vielen potenziellen Spender durchgeführt, um die Fahrtzeit für die einzelnen Spender möglichst gering zu halten. Um auch wichtige Spender, die weiter entfernt wohnen, zum Spenden zu veranlassen, sind aber möglicherweise weitere Kontaktaufnahmen und besondere Anreize erforderlich. Ein Koordinator könnte diese potenziellen Spender, die als räumliche Ausreißer gelten, ermitteln und ihnen einen Anreiz bieten, um sie trotz des weiteren Anfahrtwegs zur Teilnahme an der Blutspendeaktion zu motivieren.

Definieren von Kriterien zur Ermittlung von räumlichen Ausreißern

Damit mit dem Werkzeug die räumlichen Ausreißer erfasst und identifiziert werden können, ist ein Wert für den Parameter Anzahl der Nachbarn, der für jedes Feature ausgewertet wird, und ein Wert für den Parameter Prozentsatz an Positionen, die als Ausreißer gelten im Untersuchungsgebiet erforderlich; diese Kriterien sind wesentlich für die Bestimmung der Größe der Nachbarschaft bei der LOF-Berechnung sowie für den Schwellenwert für das Ausweisen von Ausreißern und Inliern.

  • Der Parameter Anzahl der Nachbarn legt für jedes Feature eine Nachbarschaft fest. Die LOF-Berechnung errechnet anhand dieser Nachbarschaft eine Erreichbarkeitsentfernung und eine lokale Erreichbarkeitsdichte, die die Vergleichsgrundlage dafür bilden, die räumliche Entfernung eines Features von den Features in seinem unmittelbaren Umkreis zu schätzen.
  • Der Parameter Prozentsatz an Positionen, die als Ausreißer gelten legt den Schwellenwert für das Ausweisen von Features als Ausreißer oder Inlier fest. Der Schwellenwert legt anhand der berechneten LOF-Werte für alle Features in den Eingabedaten die Anzahl der Features mit den größten LOF-Werten fest, die als Ausreißer ausgewiesen werden.

Entsprechend Ihrem vorhandenen Fachwissen sollten Sie helfen, diese Parameterwerte festzulegen; siehe hierzu die folgenden Beispiele:

  • Ein Verkehrsingenieur kann anhand der Anzahl der Auffahrunfälle an einer Kreuzung beurteilen, wann ein systembedingtes Sicherheitsproblem vorliegt; er kann diesen Wert für den Parameter "Anzahl der Nachbarn" verwenden, der für die Feststellung von räumlichen Ausreißern ausgewertet wird.
  • Dem Koordinator einer Blutspendeaktion liegt eine Liste potenzieller freiwilliger Spender vor. Er verfügt über ein Budget, sodass er den 10 % der am weitesten entfernt wohnenden Kandidaten als Entschädigung für ihre weite Anreise zur Blutspendeeinrichtung einen Anreiz bieten kann; zur Unterstützung der Planung von Standorten und Anreizen für die Blutspendeaktion wird dann für den Parameter "Prozentsatz an Positionen, die als Ausreißer gelten" der Wert "10 %" verwendet.

Werkzeugausgaben

Das Werkzeug stellt ein Ausgabe-Feature-Layer bereit, in dem die Features, die als räumliche Ausreißer ausgewiesen werden, hervorgehoben sind. Ausreißer werden in Orange symbolisiert und Inlier in halbtransparentem Grau, sodass die räumliche Dichte der Inlier visuell erfasst werden kann.

Identifizierte räumliche Ausreißer

Der Feature-Layer enthält zwei Diagramme: ein Balkendiagramm mit der Anzahl der Ausreißer und Inlier und ein Histogramm mit der Verteilung der LOF-Werte.

Am Balkendiagramm mit der Anzahl der Ausreißer lassen sich die unmittelbare Anzahl der Ausreißer ablesen und alle Ausreißer in der Ausgabeanalyse auswählen.

Histogramm mit der Anzahl der Ausreißer

Das Histogramm mit der Verteilung der LOF-Werte enthält einen LOF-Durchschnittswert sowie den LOF-Schwellenwert, der zwischen Ausreißern und Inliern unterscheidet.

Histogramm der LOF-Werte

Wenn für den Parameter Ausgabe-Vorhersage-Raster ein Wert eingegeben wird, wird ein Ausgabe-Raster mit dem berechneten LOF-Wert aller Zellen im Untersuchungsgebiet erzeugt.

Ausgabe-Raster-Oberfläche

Im Ausgabe-Raster werden die LOF-Werte als kontinuierliche Oberfläche angezeigt.

Informationen zur Erkennung räumlicher Ausreißer

Es ist häufig wichtiger, auffällige Positionen (Ausreißer) zu identifizieren als typische Positionen (Cluster). Als ein Beispiel ist die Erkennung von potenziell betrügerischen Finanztransaktionen zu nennen, die häufig an untypischen Positionen auftreten, welche sich von den typischen räumlichen Transaktionsmustern unterscheiden.

Trotzdem sind die meisten Strategien zur Ermittlung von Ausreißern eher darauf ausgerichtet, dass zunächst Cluster identifiziert und dann die verbleibenden Features als Begleiterscheinung für räumliche Ausreißer verwendet werden. Zum Beispiel bietet das Werkzeug "Dichte-basierte Cluster-Bildung" viele Ansätze zur Definition und Identifizierung von räumlichen Clustern, während die Identifizierung von Ausreißern auf Features beschränkt wird, die die Kriterien eines Clusters nicht erfüllen und die binär als Rauschen-Features ausgewiesen werden. Folglich ist die alleinige Anwendung von Cluster-Ansätzen zur Identifizierung von räumlichen Ausreißern mit mindestens zwei Nachteilen verbunden. Erstens sind Cluster-Ansätze naturgemäß darauf ausgerichtet, Cluster statt Ausreißer zu definieren und identifizieren. Zweitens werden Beobachtungen häufig auf rein binäre Weise als Ausreißer ausgewiesen, ohne dass es eine Toleranz oder ein quantitatives Maß gäbe, inwieweit es sich um einen Ausreißer handelt.

Mit dem lokalen Ausreißer-Faktor (LOF) lassen sich diese Nachteile ausgleichen, da er die Ausreißer identifiziert und ein Maß für die Abgeschiedenheit eines Features bereitstellt. Ferner vergleicht dieser Ansatz anhand von lokalen Dichtemustern die Dichte der Nachbarschaft eines Features im Verhältnis zu den Nachbarschaften anderer Features in seiner Umgebung. Dies ermöglicht die Unterscheidung zwischen globalen Ausreißern, d. h. Punkten, die im Kontext des gesamten Untersuchungsgebiets auffällig sind, und lokalen Ausreißern, d. h. Punkten, die im Kontext ihrer unmittelbaren Umgebung auffällig sind. Mit dem Fokus auf lokalen Ausreißern können komplexere lokale Phänomene näher beleuchtet werden, die wie das zuvor erwähnte Beispiel aus dem Bereich Finanztransaktionen eine eingehendere Untersuchung erfordern.

Lokaler Ausreißer-Faktor

Die Berechnung des lokalen Ausreißer-Faktors ist der wichtigste Mechanismus zur Identifizierung und Beschreibung von räumlichen Ausreißern. Sie besteht aus vier Schritten: der Bestimmung einer Nachbarschaft, dem Herausfinden der Erreichbarkeitsentfernung, der Berechnung der lokalen Erreichbarkeitsdichte und der eigentlichen Berechnung des lokalen Ausreißer-Faktors. Die Schritte werden in den folgenden Abschnitten beschrieben.

Bestimmen einer Nachbarschaft und Herausfinden der Erreichbarkeitsentfernung

Für jede Position wird anhand einer angegebenen Mindestanzahl von Features eine lokale Nachbarschaft bestimmt. Dieser Ansatz wird in der Regel als "k-nächster Nachbar" bezeichnet, wobei k der angegebenen Mindestanzahl von Features in der Umgebung des aktuell analysierten Features entspricht. Die folgende Abbildung zeigt ein Beispielszenario für Feature A; die Anzahl der Nachbarn k beträgt 4

Nachbarschaft von Feature A

Die Features 1, 2, 3 und 4 bilden die Nachbarschaft von Feature A und werden jetzt als B bezeichnet.

Wenn die Nachbarschaft eines Features bestimmt ist, entspricht die Erreichbarkeitsentfernung der größeren der beiden Entfernungen zwischen A und B oder zwischen B und dem k-nächsten Nachbarn.

Formel für Erreichbarkeitsentfernung

Die folgende Abbildung zeigt die Erreichbarkeitsentfernung für Punkt A in einem Szenario mit k = 4.

Erreichbarkeitsentfernung von Feature A

Ebenso weist jedes Feature eine Erreichbarkeitsentfernung auf, die durch seine k-nächsten Nachbarn definiert ist.

Herausfinden der lokalen Erreichbarkeitsdichte

Wenn für jedes Feature eine Erreichbarkeitsentfernung ermittelt wurde, wird der Durchschnitt der Erreichbarkeitsentfernungen aller Features in der Nachbarschaft des Features berechnet. Anhand dieses Werts wird die lokale Erreichbarkeitsdichte bestimmt; dies ist ein Maß für die räumliche Dichte der Nachbarschaft des Features. Die lokale Erreichbarkeitsdichte entspricht dem Kehrwert der durchschnittlichen Erreichbarkeitsentfernung für alle Features in der Nachbarschaft eines Features.

Formel für die lokale Erreichbarkeitsdichte

Eine weitere Möglichkeit der Konzeptualisierung der lokalen Erreichbarkeitsdichte besteht in der Berechnung der Erreichbarkeitsentfernung für alle Features, also B1 bis B4, die zur Nachbarschaft von Feature A gehören, siehe hierzu die nachfolgende Abbildung.

Erreichbarkeitsentfernung der einzelnen Nachbarn

Die Gesamtentfernung ist durch die Anzahl der Features (im vorliegenden Fall 4) zu teilen, und dann wird der Kehrwert gebildet (Division des Ergebnisses durch 1).

Es ist noch eine weitere Konzeptualisierung möglich, da die durchschnittliche Erreichbarkeitsentfernung für Features mit abnehmender Erreichbarkeitsdichte zunimmt. Folglich nimmt die durchschnittliche Erreichbarkeitsentfernung für Features mit zunehmender Erreichbarkeitsdichte ab.

Lokale Erreichbarkeitsdichte – Vergleich

Berechnen des lokalen Ausreißer-Faktors

Wenn die lokale Erreichbarkeitsdichte für alle Features feststeht, besteht der letzte Schritt der Berechnung des lokalen Ausreißer-Faktors in der Ermittlung des Verhältnisses zwischen der lokalen Erreichbarkeitsdichte eines Features und der lokalen Erreichbarkeitsdichte jedes einzelnen seiner Nachbarn. Der Durchschnitt dieser Verhältniswerte entspricht dem lokalen Ausreißer-Faktor.

Formel für lokalen Ausreißer-Faktor

Wenn Sie erfassen möchten, wie Sie daran erkennen können, ob ein Feature ein räumlicher Ausreißer ist, bedenken Sie, dass der lokale Ausreißer-Faktor zunimmt, wenn die lokale Erreichbarkeitsdichte eines Features abnimmt (die Nachbarschaft eines Features also weniger dicht ist) und die lokale Erreichbarkeitsdichte seiner Nachbarn zunimmt (die Nachbarschaft des Nachbarn eines Features also dichter ist): das Feature ist abgelegener, weil seine räumliche Dichte gering ist, während die räumlichen Dichten seiner benachbarten Features höher sind.

Wenn die lokalen Ausreißer-Faktoren für alle Features berechnet sind, verwendet das Werkzeug den Parameterwert für den Prozentsatz der Positionen, die als Ausreißer ausgewiesen werden sollen, um Features als Ausreißer und Inlier auszuweisen. Folglich gehört die Auswahl eines geeigneten Prozentsatzes zu den wichtigsten Kriterien bei der Definition und Interpretation der Analyseergebnisse.

Ausgaben – Überlegungen und Interpretationen

Bei der Interpretation der Ausgaben dieses Werkzeugs gibt es einige wichtige Aspekte zu berücksichtigen.

  • Es ist nicht möglich, die für ein Eingabe-Dataset berechneten LOF-Werte mit den berechneten LOF-Werten eines anderen Datasets zu vergleichen. Die LOF-Berechnungen sind von der räumlichen Verteilung der Eingabe-Features im Dataset abhängig; folglich führen Unterschiede zwischen einzelnen Datasets zu unterschiedlichen Berechnungen der lokalen Erreichbarkeitsdichten und LOF-Werte.
  • Die berechneten LOF-Ergebnisse zwischen einem Punkt in den Ausgabe-Features und einer Zelle im Vorhersage-Raster der Ausgabe, die mit dem Punkt übereinstimmt, können sich unterscheiden. Der Grund für diesen Unterschied liegt darin, dass zur Nachbarschaft des Punkts die Nachbarn in seiner Umgebung gehören, aber nicht der Punkt selbst; in der mit dem Punkt übereinstimmenden Raster-Zelle allerdings ist der Punkt als Nachbar enthalten.
  • Geringe Unterschiede in den für den Parameter Prozentsatz der Positionen, die als Ausreißer gelten übergebenen Werte können in der Ausgabe zum selben Prozentsatz für Positionen führen, die als Ausreißer gelten. Dies kann vorkommen, wenn Ähnlichkeiten in der räumlichen Verteilung der Features zum einem identischen LOF-Wert für mehrere Features führen und dieser LOF-Schwellenwert festgelegt wird, selbst wenn sich der Prozentsatz marginal unterscheidet.
    • Stellen Sie sich ein einfaches Dataset mit 10 Features vor, dessen LOF-Berechnung zu folgenden Werten führt: [0, 1, 2, 3, 4, 5, 9, 9, 9, 9]. In diesem Beispiel würde der Prozentsatz 10 für die Positionen, die als Ausreißer gelten, dazu führen, dass die ersten 10 Prozent der LOF-Werte ausgewählt werden, was einem LOF-Schwellenwert von 9 entspricht. Entsprechend würden, wenn für die Positionen, die als Ausreißer gelten, der Prozentsatz 40 übergeben würde, die ersten 40 Prozent der LOF-Werte ausgewählt, was wiederum einem LOF-Schwellenwert von 9 entspricht. Daher ist die ausgegebene Anzahl der Ausreißer für alle Prozentsätze zwischen 10 und 40 identisch.

Zusätzliche Referenzen

Weitere Informationen zum lokalen Ausreißer-Faktor finden Sie in den folgenden Quellen:

  • Breunig, M. M., Kriegel, H. P., Ng, R. T., Sander, J. (2000). "LOF: identifying density-based local outliers." Proceedings of the 2000 ACM SIGMOD international conference on Management of data. (S. 93-104).