Das Werkzeug zum Glätten von Zeitserien glättet eine numerische Variable mindestens einer Zeitserie mithilfe von zentriert, vorwärts und rückwärts gleitenden Durchschnittswerten sowie einer adaptiven Methode, die auf lokaler linearer Regression basiert.
Verfahren zum Glätten von Zeitserien finden breite Anwendung in der Wirtschaft, Meteorologie, Ökologie und anderen Bereichen, die sich mit Daten beschäftigen, die über einen bestimmten Zeitraum hinweg erfasst wurden. Das Glätten von Zeitdaten offenbart häufig längerfristige Trends oder Zyklen, während Rauschen und kurzfristige Fluktuationen geglättet werden.
Potenzielle Anwendungsbereiche
Das Glätten von Zeitserien kann auf alle Zeitseriendaten angewendet werden, von denen bekannt ist, dass sie Rauschen oder kurzfristige Fluktuationen enthalten. Sie können das Werkzeug beispielsweise in folgenden Anwendungsszenarien verwenden:
- Tägliche Fälle von Influenza werden üblicherweise in der epidemiologischen Forschung und Planung verwendet. Am Wochenende entdeckte Fälle von Influenza werden jedoch oft erst am Montag gemeldet, wodurch die Fallzahlen vom Montag größer und die Fallzahlen am Wochenende kleiner erscheinen als sie sein sollten. Um dies zu korrigieren, können Sie einen rückwärts gleitenden Durchschnitt mit einem Zeitfenster von 6 Tagen verwenden. Bei Verwendung von 6 Tagen wird der Wert des aktuellen Tages und der vorherigen 6 Tage für insgesamt 1 Woche gemittelt.
- Sie verfügen über langfristige Temperaturdaten, die stündlich gemessen werden. Bei der Darstellung in einer Zeitserie enthalten die Daten zu viel Rauschen und sind zu umfangreich, um klare Muster und Trends zu erkennen. Sie können den allgemeinen Trend der Daten mithilfe der lokalen linearen Regression mit adaptiver Bandbreite erfassen, um eine übersichtlichere Visualisierung und Analyse zu ermöglichen. Die adaptive Bandbreitenmethode verwendet in einigen Abschnitten der Zeitserie größere Zeitfenster als in anderen, je nach der Datenmenge, die benötigt wird, um jeden Abschnitt effektiv zu glätten.
Glättungsmethoden
Für das Werkzeug stehen vier Glättungsmethoden zur Verfügung.
Die Methode Rückwärts gleitender Durchschnitt (auch als einfacher gleitender Durchschnitt bezeichnet) ist eine weit verbreitete und einfache Glättungsmethode, die jeden Wert glättet, indem der Durchschnitt des Wertes und aller vorherigen Werte innerhalb des Zeitfensters berechnet wird. Ein Vorteil dieser Methode ist, dass sie sofort auf Streaming-Daten angewendet werden kann: Wenn ein neuer Wert aufgezeichnet wird, kann er sofort unter Verwendung vorheriger Daten in der Zeitserie geglättet werden. Diese Methode hat jedoch den Nachteil, dass sich der Wert, der geglättet wird, nicht in der Mitte des Zeitfensters befindet, sodass alle Informationen nur von einer Seite des Wertes stammen. Dies kann unerwartete Ergebnisse zur Folge haben, wenn die Trends der Daten auf beiden Seiten des geglätteten Wertes nicht gleich sind.
Die Methode Vorwärts gleitender Durchschnitt funktioniert analog zum rückwärts gleitenden Durchschnitt, aber der geglättete Wert ist stattdessen der Durchschnitt des Wertes und aller nachfolgenden Werte innerhalb des Zeitfensters. Sie hat genauso den Nachteil, dass alle für die Glättung verwendeten Informationen nur von einer Seite des Wertes stammen.
Die Methode Zentriert gleitender Durchschnitt glättet jeden Wert durch Bildung des Mittelwertes innerhalb des Zeitfensters, wobei der Wert, der geglättet wird, in der Mitte des Fensters liegt. Bei dieser Methode wird das Zeitfenster so aufgeteilt, dass die Hälfte des Fensters vor der Zeit des zu glättenden Wertes und die andere Hälfte des Fensters danach verwendet wird. Diese Methode hat den Vorteil, dass Informationen vor und nach dem Zeitpunkt des geglätteten Wertes verwendet werden, sodass sie normalerweise stabiler ist und eine geringere Verzerrung aufweist.
Die Methode Lokale lineare Regression mit adaptiver Bandbreite (auch als "Friedman's super smoother" bezeichnet) glättet die Werte unter Verwendung eines zentrierten Zeitfensters und passt lineare Regressionsmodelle (gerade Linie) an die Daten in mehreren Zeitfenstern an. Die Länge der Zeitfenster kann sich für jeden Wert ändern, sodass einige Abschnitte der Zeitserie größere Fenster verwenden, um mehr Informationen in das Modell einzubeziehen. Diese Methode hat den Vorteil, dass das Zeitfenster nicht angegeben werden muss und vom Werkzeug geschätzt werden kann. Es ist außerdem die Methode, die am besten für die Modellierung von Daten mit komplexen Trends geeignet ist. Wenn im Werkzeug ein Wert für das Zeitfenster angegeben wird, dann wird ein einzelnes Zeitfenster verwendet, um alle Datensätze zu glätten, und die Methode entspricht der lokalen linearen Regression. Eine vollständige Beschreibung der Methode finden Sie in dem im Abschnitt Zusätzliche Quellen genannten Papier.
Der Parameter Am Start und am Ende ein kürzeres Zeitfenster anwenden dient zur Steuerung des Zeitfensters am Start und am Ende der Zeitserie. Wenn kein kürzeres Fenster angewendet wird, sind die geglätteten Werte für jeden Datensatz, bei dem sich das Zeitfenster über den Start oder das Ende der Zeitserie hinaus erstreckt, gleich NULL. Bei einer Verkleinerung des Zeitfensters wird es am Start und am Ende gekürzt, und die Werte innerhalb des Fensters werden für die Glättung verwendet. Wenn beispielsweise tägliche Daten vorliegen und Sie einen rückwärts gleitenden Durchschnitt mit einem Zeitfenster von zwei Tagen verwenden, sind die geglätteten Werte der ersten beiden Tage NULL, wenn das Zeitfenster nicht gekürzt wird (beachten Sie, dass der zweite Tag nur einen Tag hinter dem Start der Zeitserie liegt). Am dritten Tag (zwei Tage nach dem Start der Zeitserie) erstreckt sich das zweitägige Zeitfenster nicht über den Start hinaus, sodass der geglättete Wert des dritten Tages den Durchschnitt der Werte der ersten drei Tage darstellt.
Werkzeugausgaben
Die primäre Ausgabe des Werkzeugs ist eine Feature-Class oder Tabelle, die die ursprünglichen Werte, die geglätteten Werte und die Anzahl der Nachbarn enthält, die zum Glätten der Position verwendet wurden. Der Alias des Feldes der geglätteten Werte zeigt die Glättungsmethode und das Zeitfenster der Analyse an (bei Verwendung einer adaptiven Bandbreite wird das Zeitfenster nicht angezeigt). Wenn Sie die Eingabedaten anhängen, werden diese Felder an die Eingabe-Features oder die Tabelle angehängt. Bei der lokalen linearen Regression mit adaptiver Bandbreite ist die Anzahl der Nachbarn möglicherweise kein ganzzahliger Wert. Nähere Informationen hierzu finden Sie unten im Abschnitt Lokale lineare Regression mit adaptiver Bandbreite.
Zeitseriendiagramme
Sie können den Parameter Zeitserien-Pop-ups aktivieren verwenden, um für jeden Ausgabe-Datensatz Pop-up-Diagramme zu erstellen. Klicken Sie bei Feature-Ausgaben auf ein Feature auf der Karte, um die ursprünglichen Werte und die geglätteten Werte der Zeitserie des betreffenden Features anzuzeigen. Um die Pop-ups für die Tabellenausgabe aufzurufen, klicken Sie mit der rechten Maustaste auf einen Datensatz in der Attributtabelle.
In den Ausgabe-Features oder der Tabelle ist auch ein Liniendiagramm enthalten, das die geglätteten Werte der einzelnen Zeitserien anzeigt.
Hinweis:
Bei der Anzeige des Diagramms kann es zu Performance-Problemen kommen, wenn die Eingabedaten eine große Anzahl an Zeitserien enthalten.
Geoverarbeitungsmeldungen
In den Geoverarbeitungsmeldungen ist der Abschnitt Glättungszusammenfassung enthalten, der Informationen zu den Glättungsergebnissen für die einzelnen Zeitserien umfasst. Zu den Informationen gehören der R2-Wert und die Summenstatistiken für die Anzahl an zeitlichen Nachbarn (Minimum, Maximum, Mittelwert, Medianwert und Standardabweichung).
Lokale lineare Regression mit adaptiver Bandbreite
Durch die lokale lineare Regression mit adaptiver Bandbreite werden bei jedem Zeitschritt unter Verwendung der benachbarten Zeitwerte lokale lineare Modelle erstellt, wobei die Anzahl der Nachbarn für jeden Zeitschritt unterschiedlich sein kann. Bei jedem Zeitschritt werden mehrere lineare Regressionen mit jeweils einer unterschiedlichen Anzahl an Nachbarn durchgeführt. Die Modelle werden geglättet und gemischt, um die beste Anpassung an die Daten und gleichzeitig eine weiterhin effektive Glättung zu erzielen.
In der unten stehenden Abbildung ist eine Zeitserie mit 200 Zeitschritten gezeigt. Die grauen Punkte stellen die ursprünglichen verrauschten Zeitserienwerte dar und die roten und blauen Linien jeweils ein Glättungsergebnis mit einer festen Anzahl an Nachbarn. Bei der roten Linie wurden 20 Nachbarn verwendet, was keine effektive Glättung der kurzfristigen Schwankungen in den Daten ergibt. Dies wird insbesondere auf der rechten Seite des Diagramms erkenntlich, wo die rote Linie gezackt und uneben aussieht. Bei der blauen Linie werden 80 Nachbarn verwendet. Sie ist zu glatt, als dass sie in der ersten Hälfte der Zeitserie Spitze und Tiefpunkt erreicht. Die grüne Linie stellt eine optimale Mischung aus der roten und blauen Linie dar, durch die ein geeigneter Glättungsgrad über die gesamte Zeitserie hinweg aufrechterhalten wird. Für die grüne Linie werden in den Zeitserienabschnitten, in denen die rote Linie gezackt ist, mehr Nachbarn verwendet und in den Abschnitten, in denen die blaue Linie zu glatt ist, werden weniger Nachbarn verwendet.
In einigen Abschnitten der Zeitserie liegt die grüne Linie näher an der roten Linie, während sie in anderen Abschnitten näher an der blauen Linie liegt. Ausschlaggebend ist, welche Linie im jeweiligen Zeitschritt besser an die Zeitserie angepasst ist. In der unten stehenden Abbildung ist eine Zeitserie gezeigt, wobei die Ansicht bei Zeitschritt 134 vergrößert wurde. Die rote Linie liegt näher an der Mitte der Punktwolke als die blaue Linie, daher liegt die grüne Linie näher an der roten als an der blauen Linie.
Die Anzahl an Nachbarn, die in einem Zeitschritt verwendet werden, bestimmt sich aus einer linearen Interpolation zwischen der Anzahl der Nachbarn der roten und der blauen Linie. Die Gewichtung bestimmt die Linie, die eine bessere Anpassung bietet. Die nachfolgende Abbildung zeigt, dass bis etwa Zeitschritt 150 die rote Linie die beste Anpassung für die Mehrzahl der Zeitschritte bietet und ab Zeitschritt 150 die blaue Linie die beste Anpassung für die Mehrzahl der Zeitschritte bietet. Die optimale Anzahl an Nachbarn für Zeitschritt 134 beträgt 26,4 und liegt damit näher an 20 Nachbarn als an 80 Nachbarn.
Eine vollständige Beschreibung der lokalen linearen Regression mit adaptiver Bandbreite finden Sie in den folgenden Quellen:
- Friedman, J. H. (1984). "A variable span smoother". USDOE Office of Science (SC). SLAC-PUB-3477. https://doi.org/10.2172/1447470