Das Werkzeug Vorhersage mit exponentiellem Glätten nutzt die exponentielle Glättungsmethode nach Holt-Winters, um die Zeitserie an jeder Position eines Raum-Zeit-Würfels in saisonale und Trendkomponenten zu zerlegen, damit für jede Position zukünftige Zeitintervalle effektiv vorher gesagt werden können. Die primäre Ausgabe enthält eine Karte des letzten vorhergesagten Zeitintervalls sowie Informationsmeldungen und Pop-up-Diagramme. Sie können auch einen neuen Raum-Zeit-Würfel mit den Daten aus dem ursprünglichen Würfel erstellen, wobei die vorhergesagten Werte angehängt werden. Sie können außerdem Ausreißer in jeder Zeitserie suchen lassen, um die Positionen und Zeiten zu identifizieren, die erheblich von den Mustern und Trends des Restes der Zeitserie abweichen.
Potenzielle Anwendungsbereiche
Das exponentielle Glätten ist eine der ältesten und am besten untersuchten Methoden für die Vorhersage von Zeitserien. Es ist besonders effektiv, wenn die Werte einer Zeitserie einem allmählichen Trend folgen und saisonales Verhalten aufweisen, bei dem die Werte im Verlauf einer bestimmten Anzahl von Zeitintervallen einem wiederholten zyklischen Muster folgen.
Sie können dieses Werkzeug beispielsweise in folgenden Anwendungsszenarien verwenden:
- Das Gesundheitsamt einer Stadt kann mit dem Werkzeug während einer Hitzewelle die stündliche Temperatur in der Innenstadt vorhersagen, um Vorbereitungen für hitzebedingte Erkrankungen zu treffen.
- Eine Einzelhandelskette kann mit diesem Werkzeug die Nachfrage nach einzelnen Artikeln für jeden Tag der kommenden Woche vorhersagen.
Vorhersage und Validierung
Beim Vorhersagen jeder Zeitserien erstellt das Werkzeug zwei Modelle. Das erste ist das Vorhersagemodell, mit dem die Werte zukünftiger Zeitintervalle vorhergesagt werden. Das zweite ist das Validierungsmodell, mit dem die vorhergesagten Werte validiert werden.
Vorhersagemodell
Das Vorhersagemodell wird konstruiert, indem exponentielles Glätten für die Zeitserienwerte an jeder Position des Raum-Zeit-Würfels durchgeführt wird. Dann werden mit diesem Modell die zukünftigen Zeitintervalle vorhergesagt. Die Übereinstimmung des exponentiellen Glättungsmodells mit jeder Zeitserie wird mit dem Vorhersage-RMSE (Root Mean Square Error) gemessen, der der Quadratwurzel der durchschnittlichen quadrierten Differenz zwischen dem exponentiellen Glättungsmodell und den Werten der Zeitserie entspricht.
, wobei T für die Anzahl der Zeitintervalle, ct für den angepassten Wert aus dem exponentiellen Glätten und rt für den Raw-Wert der Zeitserie zum Zeitpunkt t steht.
Die folgende Abbildung zeigt die Raw-Werte einer Zeitserie und ein an die Zeitserie angepasstes exponentielle Glättungsmodell sowie Vorhersagen für zwei zukünftige Zeitintervalle. Der Vorhersage-RMSE misst, wie stark die angepassten Werte aus dem Modell von den Raw-Werten der Zeitserie abweichen.
Der Vorhersage-RMSE misst nur, wie genau das exponentielle Glättungsmodell mit den Raw-Werten der Zeitserie übereinstimmt. Er misst nicht, wie genau das Vorhersagemodell tatsächlich zukünftige Werte vorhersagt. Es kommt häufig vor, dass Modelle zwar weitgehend mit einer Zeitserie übereinstimmen, aber keine genauen Vorhersagen liefern, wenn sie extrapoliert werden. Das Validierungsmodell bietet eine Lösung für dieses Problem.
Validierungsmodell
Mit dem Validierungsmodell lässt sich bestimmen, wie genau das Vorhersagemodell zukünftige Werte für jede Zeitserie vorhersagen kann. Es wird konstruiert, indem einige der letzten Zeitintervalle jeder Zeitserie ausgeschlossen werden und das exponentielle Glättungsmodell an die nicht ausgeschlossenen Daten angepasst wird. Anschließend wird dieses Modell verwendet, um die Werte der Daten vorherzusagen, die zurückgehalten wurden, und die vorhergesagten Werte werden mit den ausgeblendeten Raw-Werten verglichen. Standardmäßig werden für die Validierung 10 Prozent der Zeitintervalle zurückgehalten, aber diese Zahl kann mithilfe des Parameters Für die Validierung auszuschließende Anzahl an Zeitintervallen geändert werden. Die Anzahl der ausgeschlossen Zeitintervalle darf 25 Prozent der Zeitintervalle nicht überschreiten, und es wird keine Validierung durchgeführt, wenn 0 angegeben wird. Die Genauigkeit der Vorhersagen wird gemessen, indem eine Validierungs-RMSE-Statistik berechnet wird, die der Quadratwurzel der durchschnittlichen quadrierten Differenz zwischen den vorhergesagten und den Raw-Werten der ausgeschlossenen Zeitintervalle entspricht.
, wobei T für die Anzahl der Zeitintervalle, m für die Anzahl der für die Validierung zurückgehaltenen Zeitintervalle, ct für den Vorhersagewert aus den ersten T-m-Zeitintervallen und rt für den Raw-Wert der zum Zeitpunkt t der für die Validierung zurückgehaltenen Zeitserien steht.
Die folgende Abbildung zeigt ein exponentielles Glättungsmodell, das an die erste Hälfte einer Zeitserie angepasst und anschließend zur Vorhersage der zweiten Hälfte der Zeitserie verwendet wurde. Der Validierungs-RMSE misst, wie stark die vorhergesagten Werte von den Raw-Werten der zurückgehaltenen Zeitintervalle abweichen.
Das Validierungsmodell ist wichtig, denn es kann die vorhergesagten Werte direkt mit den Raw-Werten vergleichen, um zu messen, wie genau die Vorhersagen des exponentiellen Glättungsmodells sind. Es wird zwar nicht zur Vorhersage verwendet, dient jedoch der Begründung des Vorhersagemodells.
Hinweis:
Die Validierung bei der Zeitserienvorhersage ähnelt, ist aber nicht identisch mit einer häufig verwendeten Technik, die als Kreuzvalidierung bezeichnet wird. Der Unterschied besteht darin, dass bei der Validierung von Vorhersagen immer die letzten Zeitintervalle für die Validierung ausgeschlossen werden, während bei der Kreuzvalidierung entweder eine zufällige Teilmenge der Daten oder jeder Wert der Reihe nach ausgeschlossen wird.
Interpretation
Bei der Interpretation der Vorhersage-RMSE- und Validierungs-RMSE-Werte gilt es einiges zu beachten.
- Die RMSE-Werte können nicht direkt miteinander verglichen werden, da sie unterschiedliche Sachverhalte messen. Der Vorhersage-RMSE misst die Übereinstimmung des Modells mit den Raw-Werten der Zeitserie, während der Validierungs-RMSE misst, wie genau das Modell zukünftige Werte vorhersagen kann. Da der Vorhersage-RMSE größere Datenmengen verwendet und nicht extrapoliert, ist er normalerweise kleiner als der Validierungs-RMSE.
- Beide RMSE-Werte liegen in den Einheiten der Daten vor. Wenn es sich bei den Daten beispielsweise um Temperaturmesswerte in Grad Celsius handelt, ist ein Validierungs-RMSE von 50 sehr hoch, denn er gibt an, dass die vorhergesagten Werte um durchschnittlich etwa 50 Grad von den tatsächlichen Werten abweichen. Handelt es sich bei den Daten dagegen um den Tagesumsatz in US-Dollar eines großen Einzelhandelsgeschäfts, ist derselbe Validierungs-RMSE von 50 äußerst niedrig, denn er gibt an, dass der vorhergesagte Tagesumsatz nur um durchschnittlich 50 US-Dollar pro Tag von den tatsächlichen Werten abweicht.
Erstellen des exponentiellen Glättungsmodells
Es gibt verschiedene Arten von exponentiellem Glätten, jedoch wird bei allen die Zeitserie in mehrere Komponenten unterteilt. Die Werte jeder Komponente werden geschätzt, indem die Komponenten von früheren Zeitintervallen so exponentiell gewichtet werden, dass der Einfluss jedes Zeitintervalls im Zeitverlauf exponentiell abnimmt. Jede Komponente wird rekursiv über ein Zustandsraummodell definiert, und jede Komponente hängt von alle anderen Komponenten ab. Alle Parameter werden mit der Maximum-Likelihood-Methode geschätzt.
In diesem Werkzeug sind alle Komponenten additiv. Daher ist das Vorhersagemodell die Summe der einzelnen Komponenten. Wenn eine saisonale Komponente verwendet wird, nutzt das Werkzeug die gedämpfte saisonale Methode nach Holt-Winters. Wenn keine saisonale Komponente verwendet wird, nutzt das Werkzeug die gedämpfte Trendmethode. Details dieser Komponenten und die Gleichungen, die das Zustandsraummodell definieren, finden Sie im Lehrbuch im Abschnitt Zusätzliche Ressourcen.
Trendkomponente
Die erste Komponente des exponentiellen Glättungsmodells ist die Trendkomponente. Diese Komponente wird verwendet, um allmähliche und systematische Änderungen in der Zeitserie zu modellieren. Sie wird geschätzt, indem die Werte jedes Zeitintervalls mit der Differenz zwischen dessen Wert und dem Wert des vorherigen Zeitintervalls exponentiell gewichtet werden. Die Trendkomponente wird direkt verwendet, wenn Vorhersagen mit dem letzten vom Modell ermittelten Trend durchgeführt werden. Damit die Vorhersagen dem letzten Trend nicht unendlich folgen, wird der Trend jedoch gedämpft, sodass er im Zeitverlauf allmählich abflacht. Durch Dämpfen wird der Trend abgeflacht, indem die Neigung des Trendwertes bei jedem Zeitintervall mit einem exponentiell abnehmenden Wert multipliziert wird. Das Ausmaß der Dämpfung wird vom Modell geschätzt. Daher kann der Trend in einigen Modellen schneller oder langsamer abflachen (bzw. im Extremfall gar nicht abflachen) als in anderen Modellen, wenn weiter in der Zukunft liegende Werte vorhergesagt werden.
Saisonale Komponente
Die zweite Komponente der exponentiellen Glättung ist die saisonale Komponente. Sie wird verwendet, um Muster in den Daten zu modellieren, die sich in einer bestimmten Anzahl von Zeitintervallen wiederholen. Form und Magnitude des Musters innerhalb einer Saison können sich ändern. Die Dauer einer Saison muss allerdings für die vollständige Zeitserie identisch sein. Beispiel: Temperaturen weisen ein saisonales Verhalten auf, das Tagen und Nächten entspricht, wobei die niedrigsten Temperaturen nachts und die höchsten Temperaturen tagsüber auftreten. Im Verlauf des Jahres geht die Sonne zu unterschiedlichen Uhrzeiten auf (und daher ändern sich Form und Magnitude des Temperaturmusters innerhalb eines Tages), die Dauer einer Saison ist immer ein Tag.
Wie die Trendkomponente wird auch die saisonale Komponente eines bestimmten Zeitintervalls durch exponentielles Gewichten der saisonalen Werte vorheriger Zeitintervalle bestimmt. Statt jedoch die unmittelbar davor liegenden Zeitintervalle zu verwenden, wird nur das vorherige Zeitintervall gewichtet, das dem gleichen Punkt in einem saisonalen Zyklus entspricht. Wenn die Länge einer Saison beispielsweise vier Zeitintervallen entspricht, gewichtet die saisonale Komponente die Werte der Zeitintervalle exponentiell, die 4, 8, 12 usw. Zeitintervalle davor liegen.
Wenn Sie die Anzahl der Zeitintervalle kennen, die einer Saison in Ihren Daten entsprechen, können Sie diese im Parameter Saisonlänge angeben. Dieser Wert wird daraufhin von jeder Position im Raum-Zeit-Würfel verwendet. Wenn Sie die Länge einer Saison nicht kennen oder die Saison für verschiedene Positionen unterschiedlich lang ist, kann der Parameter leer gelassen werden. In diesem Fall wird mithilfe einer spektralen Dichtefunktion für jede Position eine optimale Saisonlänge geschätzt. Weitere Informationen zu dieser Funktion finden Sie im Abschnitt Zusätzliche Quellen.
Wenn die mittels Spektralanalyse bestimmte optimale Saisonlänge für eine einzelne Position größer als 1, aber kleiner als ein Drittel der Anzahl der Zeitintervalle an der Position ist, wird dieser optimale Wert für die Saisonlänge festgelegt. Andernfalls wird für die Position keine saisonale Komponente verwendet. Die an der Position verwendete Saisonlänge wird im Feld Saisonlänge der Ausgabe-Features gespeichert. Wenn keine saisonale Komponente verwendet wird, ist der Wert in diesem Feld 1. Dieser Workflow wird in der folgenden Abbildung zusammengefasst:
Ebenenkomponente
Die Ebenenkomponente der exponentiellen Glättung stellt den Basislinienwert der Zeitserie dar und berücksichtigt saisonale Schwankungen und den Trend. Beim Anpassen des Vorhersagemodells auf den Eingabe-Raum-Zeit-Würfel wird die Ebene eines Zeitintervalls berechnet, indem vorherige Ebenen exponentiell gewichtet und dabei saisonale Schwankungen und der Trend berücksichtigt werden. Beim Vorhersagen der Zukunft bleibt die Ebenenkomponente mit der Ebenenkomponente des zuletzt gemessenen Zeitintervalls identisch. Die eigentlichen Vorhersagen basieren stattdessen auf den Trend- und saisonalen Komponenten.
Restkomponente und Konfidenzintervalle
Die letzte Komponente ist die Restkomponente (oder Fehlerkomponente). Diese Komponente ist die Differenz zwischen dem tatsächlichen Wert und dem von allen anderen Komponenten geschätzten Wert. Sie stellt die verbleibende Unsicherheit und den Restfehler in den Daten dar, nachdem die Trend-, saisonalen und Ebenenkomponenten modelliert wurden. Diese Komponente ist wichtig, da sie die Grundlage für Konfidenzintervalle bildet.
Für jedes vorhergesagte Zeitintervall berechnet das Werkzeug die oberen und unteren Grenzen eines 90-Prozent-Konfidenzintervalls für den vorhergesagten Wert. Der vorhergesagte Wert bei jedem Zeitintervall stellt die beste Schätzung für den zukünftigen Wert dar. Mit dem Konfidenzintervall können jedoch die Unsicherheit und der wahrscheinliche Bereich des tatsächlichen zukünftigen Wertes visualisiert werden. Die oberen und unteren Grenzen werden als Felder gespeichert und in Pop-up-Diagrammen der Ausgabe-Features angezeigt.
Beim Schätzen der Konfidenzintervalle wird angenommen, dass die Restwerte des Modells unabhängig und identisch normal verteilt sind. Mit dieser Annahme können Formeln für die Konfidenzintervalle abgeleitet werden. Diese Formeln und ihre Ableitungen finden Sie im Lehrbuch im Abschnitt Zusätzliche Ressourcen.
Visualisieren der Komponenten
Sie können die Komponenten Ihres exponentiellen Glättungsmodells visualisieren, indem Sie einen Ausgabe-Raum-Zeit-Würfel erstellen. Verwenden Sie diesen Würfel im Werkzeug Raum-Zeit-Würfel in 3D visualisieren mit der Option Ergebnisse vorhersagen für den Parameter Anzeigedesign. Ein Diagramm wird für die Ausgabe-Features erstellt, und Sie können die verschiedenen Komponenten des exponentiellen Glättungsmodells im Bereich Diagrammeigenschaften ein- und ausschalten. Wenn diese Komponenten zusammen hinzugefügt werden, erstellen Sie das Vorhersagemodell und die Vorhersagen für zukünftige Zeitintervalle. Die folgende Abbildung zeigt die einzelnen Komponenten des exponentiellen Glättungsmodells aus der ersten Abbildung dieses Themas:
Identifizieren von Zeitserienausreißern
Ausreißer in Zeitseriendaten sind Werte, die sich erheblich von den Mustern und Trends anderer Werte in der Zeitserie unterscheiden. So würden z. B. eine große Zahl von Onlinekäufen zu Feiertagen oder eine hohe Zahl von Verkehrsunfällen aufgrund starker Regenfälle wahrscheinlich als Ausreißer erkannt werden. Einfache Dateneingabefehler, wie das Vergessen einer Dezimalstelle, sind eine weitere häufige Quelle für Ausreißer. Die Identifizierung von Ausreißern ist bei der Zeitserienvorhersage sehr wichtig, da Ausreißer das Vorhersagemodell beeinflussen, das für zukünftige Werte eingesetzt wird. Selbst eine kleine Anzahl von Ausreißern in der Zeitserie einer Position kann die Genauigkeit und Zuverlässigkeit von Vorhersagen erheblich verringern. Positionen mit Ausreißern, insbesondere am Anfang oder Ende der Zeitserie, können zu irreführenden Vorhersagen führen. Wenn Sie diese Positionen kennen, können Sie besser einschätzen, wie verlässlich die für eine Position vorhergesagten Werte sind.
Ausreißer zeichnen sich nicht durch ihre reinen Werte aus, sondern vielmehr dadurch, wie stark sich ihre Werte von den angepassten Werten des Vorhersagemodells unterscheiden. Ob ein Wert als Ausreißer eingestuft wird oder nicht, hängt demnach vom Kontext und der Position und Zeit ab, die mit ihm verknüpft sind. Durch das Vorhersagemodell wird definiert, welcher Wert vor dem Hintergrund der gesamten Zeitserie erwartet wird, und Ausreißer sind die Werte, die erheblich von dieser Basislinie abweichen. Nehmen wir z. B. eine Zeitserie mit der jährlichen Durchschnittstemperatur. Da die Durchschnittstemperaturen in den letzten Jahrzehnten angestiegen sind, spiegelt sich dies auch im angepassten Vorhersagemodell wider. Das bedeutet, dass ein Temperaturwert, der 1950 als typisch und nicht als Ausreißer angesehen würde, wahrscheinlich im Jahr 2020 als Ausreißer angesehen werden würde. Mit anderen Worten: Eine typische Temperatur von 1950 würde für die Standards des Jahres 2020 als sehr niedrig angesehen werden.
Mit dem Parameter Ausreißer identifizieren können Sie die Zeitserienausreißer für jede Position finden lassen. Falls aktiviert, wird der Generalized Extreme Studentized Deviate (ESD)-Test für jede Position durchgeführt, um Zeitserienausreißer zu finden. Das Konfidenzniveau des Tests kann mit dem Parameter Konfidenzniveau angegeben werden. Als Standard werden 90 % verwendet. Der Generalized ESD-Test testet iterativ auf einen einzelnen Ausreißer, zwei Ausreißer, drei Ausreißer usw. an jeder Position bis zum Wert des Parameters Maximale Anzahl von Ausreißern (standardmäßig abgerundet 5 % der Anzahl der Zeitintervalle). Die größte statistisch signifikante Anzahl von Ausreißern wird zurückgegeben. Die Anzahl der Ausreißer an jeder Position ist in der Attributtabelle der Ausgabe-Features ersichtlich, und einzelne Ausreißer sind in den Pop-up-Diagrammen der Zeitserien zu sehen, die im nächsten Abschnitt behandelt werden.
Werkzeugausgaben
Die primäre Ausgabe dieses Werkzeugs enthält eine 2D-Feature-Class mit den Positionen des Eingabe-Raum-Zeit-Würfels, die durch das zuletzt vorhergesagte Zeitintervall symbolisiert wird, sowie die Vorhersagen für alle anderen Zeitintervalle, die als Felder gespeichert sind. Obwohl alle Positionen ohne Berücksichtigung von räumlichen Beziehungen unabhängig voneinander vorhergesagt werden, können auf der Karte räumliche Muster für Flächen mit ähnlichen Zeitserien dargestellt werden.
Pop-up-Diagramme
Wenn Sie mit dem Navigationswerkzeug Erkunden auf ein beliebiges Feature auf der Karte klicken, wird der Bereich Pop-up angezeigt. Dieser enthält die Werte des Raum-Zeit-Würfels und das angepasste exponentielle Glättungsmodell sowie die vorhergesagten Werte zusammen mit den Konfidenzintervallen von 90 Prozent für jede Vorhersage. Die Werte des Raum-Zeit-Würfels werden blau dargestellt und sind durch eine blaue Linie miteinander verbunden. Die angepassten Werte werden in Orange dargestellt und sind durch eine gestrichelte orangefarbene Linie miteinander verbunden. Die vorhergesagten Werte werden in Orange dargestellt und sind durch eine durchgezogene orangefarbene Linie miteinander verbunden, die die Vorhersage des Modells darstellt. Um jeden vorhergesagten Wert werden hellrote Konfidenzgrenzen gezeichnet. Wenn Sie auf einen beliebigen Punkt des Diagramms zeigen, sehen Sie sein Datum und seinen Wert. Wenn Sie die Erkennung von Ausreißern in Zeitserien aktiviert haben, werden diese außerdem als große violette Punkte angezeigt.
Hinweis:
Wenn die Ausgabe-Features als Shapefile (.shp) gespeichert werden, werden keine Pop-up-Diagramme erstellt.
Geoverarbeitungsmeldungen
Das Werkzeug gibt eine Reihe von Meldungen aus, die Informationen zur Ausführung des Werkzeugs enthalten. Die Meldungen bestehen aus drei Hauptabschnitten.
Im Abschnitt Details des Eingabe-Raum-Zeit-Würfels werden die Eigenschaften des Eingabe-Raum-Zeit-Würfels zusammen mit Informationen über die Anzahl der Zeitintervalle, Positionen und Raum-Zeit-Abschnitte angezeigt. Welche Eigenschaften im ersten Abschnitt angezeigt werden, hängt von der ursprünglichen Erstellung des Würfels ab, weshalb die Informationen von Würfel zu Würfel variieren.
Der Abschnitt Analysedetails enthält die Eigenschaften der Vorhersageergebnisse, darunter die Anzahl der vorhergesagten Zeitintervalle, die Anzahl der für die Validierung ausgeschlossenen Zeitintervalle, der prozentuale Anteil der Positionen mit saisonalen Schwankungen und Informationen über die vorhergesagten Zeitintervalle. Wenn Sie für den Parameter Saisonlänge keinen Wert angeben, wird eine Summenstatistik der geschätzten Saisonlängen angezeigt, einschließlich Minimum, Maximum, Mittelwert, Medianwert und Standardabweichung.
Der Abschnitt Zusammenfassung der positionsübergreifenden Genauigkeit enthält die Summenstatistik für die Vorhersage- und Validierungs-RMSE-Werte aller Positionen. Für jeden Wert werden das Minimum, das Maximum, der Mittelwert, der Medianwert und die Standardabweichung angezeigt.
Der Abschnitt Zusammenfassung der Zeitserienausreißer wird angezeigt, wenn Sie die Erkennung von Ausreißern mit dem Parameter Ausreißeroption aktiviert haben. Dieser Abschnitt enthält Informationen wie z. B. die Anzahl und den Prozentsatz der Positionen, die Ausreißer enthalten, das Zeitintervall, das die meisten Ausreißer enthält, und zusammenfassende Statistiken für die Anzahl der Ausreißer nach Position und Zeitintervall.
Hinweis:
Die Geoverarbeitungsmeldungen werden während der Ausführung des Werkzeugs am unteren Rand des Bereichs Geoverarbeitung angezeigt. Sie können auf diese Meldungen zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen, auf die Pop-out-Schaltfläche klicken oder den Abschnitt "Meldungen" im Bereich Geoverarbeitung erweitern. Über den Geoverarbeitungsverlauf können Sie auch auf die Meldungen für ein zuvor ausgeführtes Werkzeug zugreifen.
Felder der Ausgabe-Features
Neben der Objekt-ID, den Geometriefeldern und dem Feld mit Pop-up-Diagrammen enthalten die Ausgabe-Features folgende Felder:
- Positions-ID (LOCATION): Die ID der entsprechenden Position des Raum-Zeit-Würfels.
- Vorhersage für (Analysevariable) in (Zeitintervall) (FCAST_1, FCAST_2 usw.): Der Vorhersagewert für die einzelnen künftigen Zeitintervalle. Der Feldaliasname enthält den Namen der Analysevariablen und das Datum der Vorhersage. Ein Feld mit diesem Typ wird für jedes vorhergesagte Zeitintervall erstellt.
- Hohes Intervall für (Analysevariable) in (Zeitintervall) (HIGH_1, HIGH_2 usw.): Die obere Grenze eines Konfidenzintervalls von 90 Prozent für den vorhergesagten Wert jedes zukünftigen Zeitintervalls. Der Feldaliasname enthält den Namen der Analysevariablen und das Datum der Vorhersage. Ein Feld mit diesem Typ wird für jedes vorhergesagte Zeitintervall erstellt.
- Niedriges Intervall für (Analysevariable) in (Zeitintervall) (LOW_1, LOW_2 usw.): Die untere Grenze eines Konfidenzintervalls von 90 Prozent für den vorhergesagten Wert jedes zukünftigen Zeitintervalls. Der Feldaliasname enthält den Namen der Analysevariablen und das Datum der Vorhersage. Ein Feld mit diesem Typ wird für jedes vorhergesagte Zeitintervall erstellt.
- Root Mean Square Error der Vorhersage (F_RMSE): Der Vorhersage-RMSE.
- Root Mean Square Error der Validierung (V_RMSE): Der Validierungs-RMSE. Wenn keine Zeitintervalle für die Validierung ausgeschlossen wurden, wird dieses Feld nicht erstellt.
- Saisonlänge (SEASON): Die Anzahl der Zeitintervalle, die einer Saison entsprechen, für die Position. Der Wert 1 in diesem Feld bedeutet, dass es keine saisonalen Schwankungen gibt.
- Vorhersagemethode (METHOD): Ein Textfeld mit dem an der Position verwendeten Modell. Für dieses Werkzeug lautet der Wert immer exponentielles Glätten. Mit diesem Feld können Sie die im Werkzeug Vorhersagen nach Position auswerten verwendeten Modelle identifizieren.
- Anzahl der Modellanpassungsausreißer (N_OUTLIERS): Die Anzahl der in der Zeitserie der Position erkannten Ausreißer. Dieses Feld wird nur erstellt, wenn Sie Ausreißer mit dem Parameter Ausreißeroption erkennen lassen.
Ausgabe-Raum-Zeit-Würfel
Bei Angabe eines Ausgabe-Raum-Zeit-Würfels enthält der Ausgabe-Würfel alle ursprünglichen Werte aus dem Eingabe-Raum-Zeit-Würfel, wobei die vorhergesagten Werte angehängt werden. Dieser neue Raum-Zeit-Würfel kann mit dem Werkzeug Raum-Zeit-Würfel in 2D visualisieren oder Raum-Zeit-Würfel in 3D visualisieren angezeigt und als Eingabe für die Werkzeuge der Toolbox Space Space Time Pattern Mining verwendet werden, z. B. Trendanalyse von Hot-Spots und Zeitserie-Cluster-Bildung.
Mit dem Werkzeug Vorhersagen nach Position auswerten können mehrere vorhergesagte Raum-Zeit-Würfel verglichen und zusammengeführt werden. Auf diese Weise können Sie mit unterschiedlichen Vorhersagewerkzeugen und -parametern mehrere Vorhersagewürfel erstellen. Das Werkzeug ermittelt dann mit dem Vorhersage-RMSE oder dem Validierungs-RMSE die beste Vorhersage für jede Position.
Empfehlungen und Beschränkungen
Bei der Entscheidung, ob dieses Werkzeug für Ihre Daten geeignet ist und welche Parameter ausgewählt werden sollten, sind einige Punkte zu beachten.
- Verglichen mit anderen Vorhersagewerkzeugen im Toolset Zeitserienvorhersage empfiehlt sich dieses Werkzeug für Daten, die moderate Trends und ein ausgeprägtes saisonales Verhalten aufweisen. Das exponentielle Modell setzt voraus, dass das saisonale Verhalten und der Trend getrennt werden können. Es ist also besonders für Daten wirkungsvoll, deren Trend sich allmählich ändert und im Zeitverlauf einem einheitlichen saisonalen Muster folgt. Die saisonale Komponente des Modells ist optional. Das Werkzeug kann also auch für Daten ohne saisonale Schwankungen verwendet werden, es ist aber am effektivsten bei einem ausgeprägten saisonalen Verhalten.
- Die Entscheidung über die Anzahl der Zeitintervalle, die für die Validierung ausgeschlossen werden sollen, ist wichtig. Je mehr Zeitintervalle ausgeschlossen werden, desto weniger stehen für die Schätzung des Validierungsmodells zur Verfügung. Werden allerdings zu wenige Zeitintervalle ausgeschlossen, erfolgt die Schätzung des Validierungs-RMSE mit einer geringen Datenmenge und kann einen falschen Eindruck erwecken. Sie sollten so viele Zeitintervalle wie möglich ausschließen und gleichzeitig ausreichend Zeitintervalle behalten, um das Validierungsmodell zu schätzen. Es empfiehlt sich außerdem, mindestens so viele Zeitintervalle für die Validierung zurückzuhalten, wie vorhergesagt werden sollen, sofern der Raum-Zeit-Würfel eine entsprechende Anzahl an Zeitintervallen aufweist.
Zusätzliche Ressourcen
Weitere Informationen über Vorhersagen mit exponentiellem Glätten mithilfe einer Raum-Zeit-Methode bietet Ihnen das folgende Lehrbuch:
- Hyndman R., Koehler A., Ord K. und Snyder R. (2008). "Forecasting with Exponential Smoothing. The State Space Approach." https://doi.org/10.1007/978-3-540-71918-2
Weitere Informationen zur spektralen Dichtefunktion, mittels derer die Länge einer Saison geschätzt werden kann, finden Sie unter der Funktion findfrequency in den folgenden Quellen:
- Hyndman, R., Athanasopoulos, G., Bergmeir, C., Caceres, G., Chhay, L., O'Hara-Wild, M., Petropoulos, F., Razbash, S., Wang, E. und Yasmeen, F. (2019). "Forecasting functions for time series and linear models", R-Paketversion 8.7, https://pkg.robjhyndman.com/forecast.
- Hyndman, R. J. und Khandakar, Y. (2008). "Automatic time series forecasting: the forecast package for R", Journal of Statistical Software, 26(3), S. 1-22. https://www.jstatsoft.org/article/view/v027i03.