Ausreißer in Zeitseriendaten sind Werte, die sich erheblich von den Mustern und Trends anderer Werte in der Zeitserie unterscheiden. So würden z. B. eine große Zahl von Onlinekäufen zu Feiertagen oder eine hohe Zahl von Verkehrsunfällen aufgrund starker Regenfälle möglicherweise als Ausreißer erkannt. Einfache Dateneingabefehler, wie das Vergessen einer Dezimalstelle, sind eine weitere häufige Quelle für Ausreißer. Es ist wichtig, Ausreißer in einer Zeitserienvorhersage zu identifizieren, denn diese beeinflussen das Modell für die Vorhersage künftiger Werte. Auch eine geringe Anzahl von Ausreißern in der Zeitserie einer Position kann sich negativ auf die Genauigkeit und die Zuverlässigkeit von Vorhersagen auswirken. Positionen mit Ausreißern, insbesondere am Anfang oder Ende der Zeitserie, können zu irreführenden Vorhersagen führen. Wenn Sie diese Positionen kennen, können Sie besser einschätzen, wie verlässlich die für eine Position vorhergesagten Werte sind.
Sie können Ausreißer an jeder Position eines Raum-Zeit-Würfels mit den Werkzeugen Kurvenanpassungsvorhersage, Vorhersage mit exponentiellem Glätten und Forest-basierte Vorhersage identifizieren, indem Sie für den Parameter Ausreißeroption die Option Ausreißer identifizieren angeben.
Visualisieren und Untersuchen von Ausreißern
Wenn Sie eines der Vorhersagewerkzeuge mit der Option zur Identifizierung von Ausreißern ausgeführt haben, können Sie der Ausgabe-Feature-Symbolisierung, den Zeitseriendiagrammen, den 2D- oder 3D-Visualisierungen des Ausgabe-Raum-Zeit-Würfels und den Geoverarbeitungsmeldungen Informationen zu den festgestellten Ausreißern entnehmen.
Pop-up-Diagramme
Wenn Sie auf der Karte auf ein Ausgabe-Feature klicken, wird im Bereich Pop-up ein Pop-up-Diagramm mit dem Zeitserien- und Vorhersagemodell eingeblendet, wobei die ermittelten Ausreißern als große Punkte dargestellt werden. Die folgende Abbildung zeigt die Zeitserie eines Features mit einem identifizierten Ausreißer:
Visualisieren des Raum-Zeit-Würfels
Die Ausreißer in einem Raum-Zeit-Würfel können in den Werkzeugen Raum-Zeit-Würfel in 2D visualisieren und Raum-Zeit-Würfel in 3D visualisieren mithilfe des Parameters Anzeigedesign (Option Zeitserien-Ausreißerergebnisse) in 2D und 3D visualisiert werden.
In der 2D-Feature-Ausgabe werden die Ausgabe-Features durch die Anzahl der Ausreißer an den einzelnen Positionen symbolisiert; sie enthalten dieselben Pop-up-Diagramme, in denen die Zeitserien und die identifizierten Ausreißer angezeigt werden.
In der 3D-Feature-Ausgabe zeigen die Ausgabe-Features die Positionen und Zeiten der identifizierten Ausreißer in einer 3D-Szene an. Alle Raum-Zeit-Abschnitte, deren Werte als Ausreißer in einer Zeitserie identifiziert werden, sind mit Über angepasstem Wert oder Unter angepasstem Wert beschriftet, je nachdem, ob der Wert oberhalb oder unterhalb der angepasste Werte des Vorhersagemodells liegt. Ausreißer oberhalb des angepassten Werts werden in Violett dargestellt und Ausreißer unterhalb des angepassten Werts in Grün. Raum-Zeit-Abschnitte, die nicht als Ausreißer identifiziert werden, sind mit Kein Ausreißer beschriftet und werden in Hellgrün dargestellt.
Zudem enthalten die 3D-Features zwei Diagramme. Im Diagramm In 3D-Zeitreihe visualisieren wird der Durchschnittswert der Zeitserie über die Zeitintervalle des Raum-Zeit-Würfels als Linienplot dargestellt. Dieses Diagramm wird auch erstellt, wenn für den Parameter Anzeigedesign die Option Ergebnisse vorhersagen ausgewählt wird; es enthält keine Informationen zur Erkennung von Ausreißern.
Das zweite Diagramm zeigt die Anzahl der Ausreißer oberhalb oder unterhalb des angepassten Werts im Zeitverlauf. Es handelt sich um ein gestapeltes Balkendiagramm mit der Gesamtzahl der Ausreißer oberhalb und unterhalb des angepassten Werts in jedem Zeitintervall des Raum-Zeit-Würfels. Hiermit können Sie ermitteln, an welchem Datum es besonders viele Ausreißer gab, und Sie können erkennen, ob die Werte ungewöhnlich hoch oder niedrig waren.
Geoverarbeitungsmeldungen
Die Geoverarbeitungsmeldungen enthalten einen Abschnitt Zusammenfassung der Zeitserienausreißer. Im ersten Bereich dieses Abschnitts werden die Anzahl und der Prozentsatz der Positionen mit mindestens einem Ausreißer angezeigt. So erhalten Sie schnell einen Überblick darüber, wie gut das Vorhersagemodell insgesamt auf die Zeitserie passt. Im zweiten Bereich wird eine Summenstatistik (Minimum, Mittelwert und Maximum) der Anzahl der Ausreißer je Position und Zeitintervall angezeigt. So können Sie erkunden, wie häufig Ausreißer an einzelnen Positionen und Zeitintervallen aufgetreten sind. Dieser Abschnitt zeigt zudem das Zeitintervall mit der höchsten Anzahl an Ausreißern an. Hieran können Sie erkennen, an welchem Datum es besonders viele Ausreißer gab.
Kontextbezogene und globale Ausreißer
Es gibt verschiedene Arten von Zeitserienausreißern, die mit dem Werkzeug festgestellt werden können. Obwohl alle Arten auf dieselbe Weise festgestellt werden, ist es zur Klärung, warum bestimmte Zeitschritte als Ausreißer erkannt wurden und andere nicht, hilfreich, die verschiedenen Arten zu verstehen.
Zur einfachsten Art gehören globale Ausreißer, deren Raw-Werte wesentlich größer oder kleiner sind als die restlichen Werte. Solche Ausreißer weisen häufig auf Abweichungen oder besondere Ereignisse wie Feiertage hin. Das nachstehende Diagramm zeigt einen globalen Ausreißer. Der Ausreißer wurde als solcher erkannt, weil sein Wert die Werte der restlichen Daten in der Zeitserie wesentlich überschreitet.
Es sind allerdings nicht zwangsläufig die größten oder kleinsten Werte einer Zeitserie, die als Ausreißer deklariert werden. Manchmal werden Werte auch anhand des Kontexts als Ausreißer identifiziert, nämlich wenn ihre Werte wesentlich größer oder kleiner sind als die Muster oder Trends der Zeitserie erwarten lassen. Solche Muster und Trends sind Bestandteil des Vorhersagemodells, das als Basislinie für die Ermittlung von kontextbezogenen Ausreißern fungiert. Nehmen wir z. B. eine Zeitserie mit der jährlichen Durchschnittstemperatur. Da die Durchschnittstemperaturen in den letzten Jahrzehnten angestiegen sind, spiegelt sich dies auch im angepassten Vorhersagemodell wider. Das bedeutet, dass ein Temperaturwert, der 1950 als typisch und nicht als Ausreißer angesehen würde, wahrscheinlich im Jahr 2020 als Ausreißer angesehen werden würde. Mit anderen Worten: Eine typische Temperatur von 1950 würde für die Standards des Jahres 2020 als niedrig angesehen werden.
Das nachstehende Diagramm zeigt eine Zeitserie mit einem kontextbezogenen und einem globalen Ausreißer. Der Wert des kontextbezogenen Ausreißers ist zwar nicht der kleinste Wert der Zeitserie, trotzdem wurde er als Ausreißer nach unten identifiziert, weil er nach unten hin am stärksten vom orangefarbenen Vorhersagemodell abweicht.
Ob Werte als Ausreißer identifiziert werden, ist ferner davon abhängig, wie gut das Vorhersagemodell auf die Zeitserie passt. Wenn das Vorhersagemodell im Allgemeinen mit den Zeitseriendaten übereinstimmt, können auch Werte, die lediglich geringfügig abweichen, als Ausreißer identifiziert werden. Entsprechend gelten manche Werte, auch wenn sie stärker vom Vorhersagemodell abweichen, nicht als Ausreißer, wenn das Modell weniger gut mit den Zeitseriendaten übereinstimmt.
Das nachstehende Diagramm zeigt mehrere Werte, die als Ausreißer identifiziert wurden. Diese Werte weichen auf den ersten Blick nicht besonders stark vom orangefarbenen Vorhersagemodell ab, ihre Abweichung ist aber wesentlich größer als die der restlichen Werte der Zeitserie.
Generalized ESD-Test auf Zeitserienausreißer
Der Generalized Extreme Studentized Deviate(ESD)-Test testet jede Position eines Raum-Zeit-Würfels auf Ausreißer. Dies ist kein einzelner Test, sondern eine Reihe von Tests (so genannte Grubbs-Tests), die auf dem angegebenen Konfidenzniveau jeweils eine Überprüfung auf eine bestimmte Anzahl von Ausreißern durchführen. Der erste Test prüft, ob das Dataset exakt einen Ausreißer enthält. Der zweite Test untersucht das Dataset auf exakt zwei Ausreißer. Der dritte Test sucht nach exakt drei Ausreißern. Dieser Prozess wird bis zum Wert des Parameters Maximale Anzahl von Ausreißern (standardmäßig 5 Prozent der Zeitintervalle, abgerundet) fortgesetzt. Das Werkzeug gibt dann die Ausreißer zurück, die mit der größten Anzahl an statistisch signifikanten Ausreißern verbunden sind. Bei einem Maximalwert von drei Ausreißern gilt zum Beispiel: Wenn der Test auf einen Ausreißer statistisch signifikant ist, der Test auf zwei Ausreißer statistisch nicht signifikant und der Test auf drei Ausreißern statistisch signifikant, gibt das Werkzeug drei Ausreißer zurück. Entsprechend gibt das Werkzeug zwei Ausreißer zurück, wenn der Test auf einen Ausreißer statistisch signifikant, der Test auf zwei Ausreißer statistisch signifikant und der Test auf drei Ausreißer statistisch nicht signifikant ist.
Bei einer Zeitserie mit T angepassten Zeitintervallen wird der Test folgendermaßen ausgeführt (wobei i zwischen 1 und der maximalen Anzahl an Ausreißern liegt):
- Berechnung des Residuums jedes Zeitintervalls t durch Subtraktion des Werts des Vorhersagemodells vom Raw-Wert:
- Berechnung des Mittelwert und der Standardabweichung des Residuums.
- Berechnung der Teststatistik durch Division der maximalen absoluten Abweichung vom Mittelwert durch die Standardabweichung:
- Vergleich der Teststatistik mit dem folgenden kritischen Wert: , wobei t α,T-i-1 den kritischen Wert in einem zweiseitigen Test der t-Verteilung mit T-i+1 Freiheitsgraden auf dem Konfidenzniveau (1 - α / (2(T-i+1))) und α das (durch das Konfidenzniveau bestimmte) Signifikanzniveau darstellt.
- Wenn die Teststatistik den kritischen Wert überschreitet, ist der Test auf exakt i Ausreißer statistisch signifikant.
- Entfernung des mit dem maximalen absoluten Residuum verknüpften Werts und Wiederholung der Schritte 2 bis 5 für alle Zeitintervalle, die noch nicht entfernt wurden, und Erhöhung von i um eins. Der Mittelwert und die Standardabweichung des Residuums ändern sich dadurch, dass der Wert bei jeder Wiederholung entfernt wird. Durch diese Neuberechnung des Mittelwerts und der Standardabweichung wird der Einfluss der Ausreißer auf das Vorhersagemodell korrigiert.
- Rückgabe der Ausreißer, die mit der größten Anzahl statistisch signifikanter Ausreißern verknüpft sind.
Da dieser Test für jede Position im Raum-Zeit-Würfel unabhängig durchgeführt wird, kann es vorkommen, dass die Anzahl der Ausreißer an den verschiedenen Positionen variiert. Die Anzahl der Ausreißer an den einzelnen Positionen lässt sich im Feld Number of Model Fit Outliers der Ausgabe-Features ablesen.
Empfehlungen und Beschränkungen
Bei der Identifizierung von Ausreißern in einer Zeitserie sind einige wichtige Überlegungen und Beschränkungen zu berücksichtigen:
- Wenn Sie das Werkzeug Forest-basierte Vorhersage verwenden, empfiehlt es sich, einen Wert für den Parameter Zeitintervallfenster einzugeben, anstatt den Parameter leer zu lassen und die Schätzung an jeder Position für ein anderes Zeitintervallfenster vorzunehmen. Bei jeder Position verwendet das Forest-Modell die Werte im ersten Zeitintervallfenster, um das Vorhersagemodell zu trainieren. Ausreißer werden nur für die verbleibenden Zeitintervalle gesucht. Wenn bei unterschiedlichen Positionen eine unterschiedliche Anzahl von Zeitintervallen vom Forest-Training ausgeschlossen werden, können Summenstatistiken wie die mittlere, minimale und maximale Anzahl der Ausreißer je Zeitintervall oder je Position einen falschen Eindruck erwecken.
- Der Generalized ESD-Test schätzt den kritischen Wert mithilfe von Annäherungen. Am genauesten sind diese Annäherungen in Zeitserien mit mindestens 25 Zeitintervallen.
- Wenn Sie andere Vorhersagemodelle und Vorhersagewerkzeuge verwenden, kann es sein, dass andere Zeitintervalle als Ausreißer identifiziert werden. Es empfiehlt sich, nur Ausreißer für das Vorhersagemodell zu ermitteln, das am besten mit den Werten der Zeitserie übereinstimmt.
Zusätzliche Ressourcen
Weitere Informationen zum Generalized ESD-Test und zum Test nach Grubbs finden Sie in den folgenden Quellen:
- Grubbs, F. (1950). "Sample Criteria for Testing Outlying Observations". Annals of Mathematical Statistics 21(1):27–58. https://doi.org/10.1214/aoms/1177729885
- Rosner, B. (1983). "Percentage Points for a Generalized ESD Many-Outlier Procedure". Technometrics 25(2):165-172.
Verwandte Themen
- Überblick über die Toolbox "Space Time Pattern Mining"
- Überblick über das Toolset "Zeitserienvorhersage"
- Kurvenanpassungsvorhersage
- Vorhersage mit exponentiellem Glätten
- Vorhersagen nach Position auswerten
- Forest-basierte Vorhersage
- Funktionsweise der Kurvenanpassungsvorhersage
- Funktionsweise der Vorhersage mit exponentiellem Glätten
- Funktionsweise der Forest-basierten Vorhersage
- Forest-basierte Klassifizierung und Regression
- Funktionsweise des Werkzeugs "Forest-basierte Klassifizierung und Regression"