Das Werkzeug Forest-basierte Vorhersage verwendet die Forest-basierte Regression, um zukünftige Zeitintervalle eines Raum-Zeit-Würfels vorherzusagen. Die primäre Ausgabe enthält eine Karte des finalen vorhergesagten Zeitintervalls sowie Informationsmeldungen und Pop-up-Diagramme. Es können weitere erklärende Variablen angegeben werden, um die Vorhersage der Analysevariablen zu verbessern. Zudem können Sie verzögerte Effekte zwischen den erklärenden Variablen und der Analysevariablen, die vorhergesagt wird, schätzen und visualisieren. Sie können außerdem Ausreißer in jeder Zeitserie suchen lassen, um die Positionen und Zeiten zu identifizieren, die erheblich von den Mustern und Trends des Restes der Zeitserie abweichen.
Dieses Werkzeug verwendet den gleichen zugrunde liegenden Algorithmus wie das Werkzeug Forest-basierte Klassifizierung und Regression, wenn es für die Regression genutzt wird. Die zur Erstellung des Forest-Regressionsmodells verwendeten Trainingsdaten werden mithilfe von Zeitfenstern an jeder Position des Raum-Zeit-Würfels konstruiert.
Weitere Informationen zur Forest-basierten Klassifizierung und Regression
Potenzielle Anwendungsbereiche
Da Forest-Regressionsmodelle nur wenige Annahmen über die Daten machen, können sie in zahlreichen Kontexten verwendet werden. Im Vergleich zu anderen Vorhersagemethoden sind sie am effektivsten, wenn die Daten komplexe Trends oder Jahreszeiten aufweisen oder sich auf eine Weise verändern, die nicht allgemeinen mathematischen Funktionen wie Polynomen, Exponentialkurven oder Sinuswellen ähnelt.
Sie können dieses Werkzeug beispielsweise in folgenden Anwendungsszenarien verwenden:
- Ein Schulbezirk kann mit diesem Werkzeug die Anzahl der Schüler vorhersagen, die an jedem Tag in der folgenden Woche an jeder Schule im Bezirk fehlen werden.
- Ein Gouverneur kann die Anzahl der Krankenhauseinweisungen wegen einer Infektionskrankheit zwei Wochen in der Zukunft vorhersagen. Diese Vorhersage kann die Anzahl der positiven Testergebnisse als erklärende Variable einbeziehen, und das Werkzeug modelliert den verzögerten Effekt zwischen positiven Tests und Krankenhauseinweisungen.
- Manager öffentlicher Versorgungsbetriebe können mit diesem Werkzeug den Elektrizitäts- und Wasserbedarf des nächsten Monats in den Stadtteilen ihres Verwaltungsbezirks vorhersagen.
- Einzelhandelsgeschäfte können mit diesem Tool vorhersagen, wann einzelne Produkte ausverkauft sein werden, um den Bestand besser zu verwalten.
Vorhersage und Validierung
Beim Vorhersagen jeder Zeitserien erstellt das Werkzeug zwei Modelle. Das erste ist das Vorhersagemodell, mit dem die Werte zukünftiger Zeitintervalle vorhergesagt werden. Das zweite ist das Validierungsmodell, mit dem die vorhergesagten Werte validiert werden.
Vorhersagemodell
Das Vorhersagemodell wird konstruiert, indem ein Forest mit den Zeitserienwerten an jeder Position des Raum-Zeit-Würfels erstellt wird. Anschließend wird dieser Forest verwendet, um das nächste Zeitintervall vorherzusagen. Der vorhergesagte Wert für das neue Zeitintervall wird im Forest-Modell berücksichtigt, und das nächste Zeitintervall wird vorhergesagt. Dieser rekursive Prozess wird für alle zukünftigen Zeitintervalle fortgesetzt. Die Übereinstimmung des Forest mit jeder Zeitserie wird durch den Vorhersage-RMSE (Root Mean Square Error) gemessen, der der Quadratwurzel der durchschnittlichen quadrierten Differenz zwischen dem Forest-Modell und den Werten der Zeitserie entspricht.
, wobei T für die Anzahl der Zeitintervalle, ct für den Wert des Forest-Modells und rt für den Raw-Wert der Zeitserie zum Zeitpunkt t steht.
Die folgende Abbildung zeigt die Raw-Werte einer Zeitserie und ein an die Zeitserie angepasstes Forest-Modell sowie Vorhersagen für zwei zukünftige Zeitintervalle. Der Vorhersage-RMSE misst, wie stark die angepassten Werte aus dem Forest von den Raw-Werten der Zeitserie abweichen.
Der Vorhersage-RMSE misst nur, wie genau das Forest-Modell mit den Raw-Werten der Zeitserie übereinstimmt. Er misst nicht, wie genau das Vorhersagemodell tatsächlich zukünftige Werte vorhersagt. Es kommt häufig vor, dass ein Forest-Modell zwar weitgehend mit einer Zeitserie übereinstimmt, aber keine genauen Vorhersagen liefert, wenn es extrapoliert wird. Das Validierungsmodell bietet eine Lösung für dieses Problem.
Validierungsmodell
Mit dem Validierungsmodell lässt sich bestimmen, wie genau das Vorhersagemodell zukünftige Werte für jede Zeitserie vorhersagen kann. Es wird konstruiert, indem einige der letzten Zeitintervalle jeder Zeitserie ausgeschlossen werden und das Forest-Modell an die nicht ausgeschlossenen Daten angepasst wird. Anschließend wird dieses Forest-Modell verwendet, um die Werte der Daten vorherzusagen, die zurückgehalten wurden, und die vorhergesagten Werte werden mit den ausgeblendeten Raw-Werten verglichen. Standardmäßig werden für die Validierung 10 Prozent der Zeitintervalle zurückgehalten, aber diese Zahl kann mithilfe des Parameters Für die Validierung auszuschließende Anzahl an Zeitintervallen geändert werden. Die Anzahl der ausgeschlossen Zeitintervalle darf 25 Prozent der Zeitintervalle nicht überschreiten, und es wird keine Validierung durchgeführt, wenn 0 angegeben wird. Die Genauigkeit der Vorhersagen wird gemessen, indem eine Validierungs-RMSE-Statistik berechnet wird, die der Quadratwurzel der durchschnittlichen quadrierten Differenz zwischen den vorhergesagten und den Raw-Werten der ausgeschlossenen Zeitintervalle entspricht.
, wobei T für die Anzahl der Zeitintervalle, m für die Anzahl der für die Validierung zurückgehaltenen Zeitintervalle, ct für den Vorhersagewert aus den ersten T-m-Zeitintervallen und rt für den Raw-Wert der zum Zeitpunkt t der für die Validierung zurückgehaltenen Zeitserien steht.
Die folgende Abbildung zeigt ein Forest-Modell, das an die erste Hälfte einer Zeitserie angepasst und anschließend zur Vorhersage der zweiten Hälfte der Zeitserie verwendet wurde. Der Validierungs-RMSE misst, wie stark die vorhergesagten Werte von den Raw-Werten der zurückgehaltenen Zeitintervalle abweichen.
Das Validierungsmodell ist wichtig, denn es kann die vorhergesagten Werte direkt mit den Raw-Werten vergleichen, um zu messen, wie genau die Vorhersagen des Forest sind. Es wird zwar nicht zur Vorhersage verwendet, dient jedoch der Begründung des Vorhersagemodells.
Hinweis:
Die Validierung bei der Zeitserienvorhersage ähnelt, ist aber nicht identisch mit einer häufig verwendeten Technik, die als Kreuzvalidierung bezeichnet wird. Der Unterschied besteht darin, dass bei der Validierung von Vorhersagen immer die letzten Zeitintervalle für die Validierung ausgeschlossen werden, während bei der Kreuzvalidierung entweder eine zufällige Teilmenge der Daten oder jeder Wert der Reihe nach ausgeschlossen wird.
Interpretation
Bei der Interpretation der Vorhersage-RMSE- und Validierungs-RMSE-Werte gilt es einiges zu beachten.
- Die RMSE-Werte können nicht direkt miteinander verglichen werden, da sie unterschiedliche Sachverhalte messen. Der Vorhersage-RMSE misst die Übereinstimmung des Forest-Modells mit den Raw-Werten der Zeitserie, während der Validierungs-RMSE misst, wie genau das Forest-Modell zukünftige Werte vorhersagt. Da der Vorhersage-RMSE größere Datenmengen verwendet und nicht extrapoliert, ist er normalerweise kleiner als der Validierungs-RMSE.
- Beide RMSE-Werte liegen in den Einheiten der Daten vor. Wenn es sich bei den Daten beispielsweise um Temperaturmesswerte in Grad Celsius handelt, ist ein Validierungs-RMSE von 50 sehr hoch, denn er gibt an, dass die vorhergesagten Werte um durchschnittlich etwa 50 Grad von den tatsächlichen Werten abweichen. Handelt es sich bei den Daten dagegen um den Tagesumsatz in US-Dollar eines großen Einzelhandelsgeschäfts, ist derselbe Validierungs-RMSE von 50 äußerst niedrig, denn er gibt an, dass der vorhergesagte Tagesumsatz nur um durchschnittlich 50 US-Dollar pro Tag von den tatsächlichen Werten abweicht.
Erstellen und Trainieren des Forest-Modells
Um zukünftige Werte vorherzusagen, muss das Forest-Modell trainiert werden, indem für jede Position erklärende Variablen mit abhängigen Variablen verknüpft werden. Das Forest-Modell erfordert wiederholte Trainingsdaten, aber es gibt nur eine Zeitserie für jede Position. Um mehrere Sätze von erklärenden und abhängigen Variablen in einer einzigen Zeitserie zu erstellen, werden Zeitfenster konstruiert, in denen die Zeitintervalle innerhalb jedes Zeitfensters als erklärende Variablen verwendet werden und das auf das Zeitfenster folgende Zeitintervall die abhängige Variable darstellt. Wenn eine Position z. B. 20 Zeitintervalle aufweist und das Zeitfenster 5 Zeitintervalle enthält, gibt es 15 Sätze von erklärenden und abhängigen Variablen, die zum Trainieren des Forest an dieser Position verwendet werden können. Der erste Satz hat die Zeitintervalle 1, 2, 3, 4 und 5 als erklärende Variablen und das Zeitintervall 6 als abhängige Variable. Der zweite Satz hat die Zeitintervalle 2, 3, 4, 5 und 6 als erklärende Variablen und das Zeitintervall 7 als abhängige Variable. Der letzte Satz hat die Zeitintervalle 15, 16, 17, 18 und 19 als erklärende Variablen und das Zeitintervall 20 als abhängige Variable. Die Anzahl der Zeitintervalle in jedem Zeitfenster kann mithilfe des Parameters Zeitintervallfenster festgelegt werden. Der Wert für das Zeitfenster kann 1 betragen (sodass jedes Zeitfenster nur ein Zeitintervall enthält) und darf ein Drittel der Anzahl der Zeitintervalle an der Position nicht überschreiten.
Mithilfe des trainierten Forest-Modells werden die letzten Zeitintervalle der Position als erklärende Variablen zur Vorhersage des ersten zukünftigen Zeitintervalls verwendet. Das zweite zukünftige Zeitintervall wird dann mithilfe der vorherigen Zeitintervalle im Zeitfenster vorhergesagt, wobei eines dieser Zeitintervalle der erste vorhergesagte Wert ist. Entsprechend verwendet das dritte vorhergesagte Zeitintervall die vorherigen Zeitintervalle im Zeitfenster, wobei zwei dieser Zeitintervalle vorhergesagte Zeitintervalle sind. Dieser Prozess wird für alle zukünftigen Zeitintervalle fortgesetzt.
Die folgende Abbildung zeigt die Sätze von erklärenden und abhängigen Variablen, die zum Trainieren des Forest-Modells und zur Vorhersage der ersten sieben zukünftigen Zeitintervalle verwendet werden:
Erklärende Variablen und der Verzögerungseffekt
Obwohl Forest-Regressionsmodelle bereits komplexe Muster und Trends der Zeitserien erfassen können, können sie durch Einbeziehung zusätzlicher Informationen weiter verbessert werden. Zum Beispiel kann das Wissen um die Luftverschmutzung dabei helfen, die Anzahl der Besuche in der Notfallaufnahme wegen Asthma vorherzusagen, da die Luftverschmutzung bekanntermaßen ein Auslöser für Asthmaanfälle ist.
Mit dem Parameter Andere Variablen können Sie erklärende Variablen, die in demselben Eingabe-Raum-Zeit-Würfel gespeichert sind, einschließen, um mit einer multivariaten Forest-basierten Vorhersage die Analysevariable vorherzusagen. Um das multivariate Forest-Regressionsmodell zu trainieren, wird jede erklärende Variable in jedem Zeitfenster einbezogen und verwendet, um den nächsten Wert hinter dem Zeitfenster vorherzusagen. Diese Verwendung eines Zeitfensters für die Analysevariable entspricht der Vorgehensweise, die im Abschnitt Erstellen und Trainieren des Forest-Modells beschrieben ist. Beim Vorhersagen für neue Zeitschritte wird jede erklärende Variable unter Verwendung einer univariaten Forest-basierten Vorhersage vorhergesagt. Diese Vorhersagewerte werden beim Vorhersagen zukünftiger Werte der Analysevariablen als erklärende Variablen verwendet. Die Ergebnisse aller Vorhersagen (Analysevariable und alle erklärenden Variablen) werden im Ausgabe-Raum-Zeit-Würfel gespeichert.
Neben seiner Verwendung zum Verbessern der Vorhersage der Analysevariablen kann das Werkzeug auch verzögerte Effekte zwischen der Analysevariablen und den erklärenden Variablen schätzen und visualisieren. Ein Verzögerungseffekt liegt vor, wenn eine Verzögerung zwischen der Änderung in einer erklärenden Variablen und einer Änderung in der Analysevariablen zu beobachten ist, was in vielen Situationen, in denen Zeitserien mehrerer Variablen beteiligt sind, der Fall ist. Zum Beispiel haben Ausgaben für Werbung oft einen verzögerten Effekt auf die Umsatzerlöse, da die Menschen die Anzeigen erst eine gewisse Zeit sehen müssen, bevor sie sich für einen Kauf entscheiden. Im vorherigen Beispiel der Besuche in der Notfallaufnahme wegen Luftverschmutzung und Asthma könnte es auch eine Verzögerung zwischen der Zunahme der Luftverschmutzung und der Zunahme der Besuche in der Notfallaufnahme geben, da es Zeit braucht, bis sich negative Wirkungen auf die Gesundheit so weit angesammelt haben, dass eine Notfallversorgung erforderlich ist.
Die folgende Abbildung zeigt den Verzögerungseffekt, bei dem sich Änderungen im Wert der blauen Zeitserie um vier Tage verzögert hinter der orangefarbenen Linie bemerkbar machen.
Wenn es eine Verzögerung zwischen erklärenden Variablen und der Analysevariablen gibt, gewinnen Sie weitere Informationen über diese Analysevariable, da Sie einen Blick in eine Vergangenheit werfen, die um die Dauer der Verzögerung zurückliegt. Wenn es zum Beispiel zwischen den Ausgaben für Werbung und den Umsatzerlösen eine Verzögerung von zwei Wochen gibt, dann ist es beim Vorhersagen der Umsatzerlöse für einen bestimmten Tag informativer, sich die Ausgaben für Werbung zwei Wochen zuvor im Vergleich zu den Ausgaben in den letzten Tagen anzusehen.
Das Forest-Modell kann den Verzögerungseffekt zwischen Variablen erkennen und nutzen, da das gleitende Zeitfenster immer den Zeitschritt nach ihm vorhersagt. Der letzte Wert im Zeitfenster liegt immer genau einen Zeitschritt vor der Vorhersage, der nächste Wert zum letzten Zeitschritt liegt immer genau zwei Zeitschritte vor der Vorhersage und so weiter. Da sich das Zeitfenster verschiebt, wird jede erklärende Variable als separater Faktor für jeden Zeitschritt innerhalb des Zeitfensters dargestellt. Dadurch können verschiedene erklärende Variablen bei unterschiedlichen Verzögerungen verglichen werden, und es kann bestimmt werden, welche dieser Variablen für Vorhersagen am wichtigsten sind. Weitere Informationen finden Sie unter Funktionsweise des Werkzeugs "Forest-basierte Klassifizierung und Regression".
Das folgende Diagramm zeigt als Beispiel die wichtigen zeitverzögerten Variablen beim Vorhersagen der täglichen neuen Todesfälle im Zusammenhang mit der Coronavirus-Krankheit-2019 (COVID-19) unter Verwendung der Anzahl der Personen, die täglich einen Impfstoff erhalten haben, als erklärende Variable. Die Werte der X-Achse beziehen sich auf jeden Zeitschritt innerhalb des verwendeten Zeitfensters von 14 Tagen, sodass dieses Bild 14 Werte zeigt. Da die Werte der X-Achse die Anzahl der Zeitschritte vor der Vorhersage darstellen, gehen Sie in der Zeit zurück, während Sie sich im Diagramm von links nach rechts bewegen. Der Wert 1 ganz links steht für genau einen Tag vor der Vorhersage, was dem letzten Zeitschritt im Zeitfenster entspricht. Analog steht der Wert 14 ganz rechts für 14 Tage vor der Vorhersage, was dem ersten Zeitschritt im Zeitfenster von 14 Tagen entspricht. Bei jedem Zeitschritt repräsentieren die hell- und dunkelblauen Spalten die jeweilige Anzahl der Positionen, an denen festgestellt wurde, dass dieser Faktor zu den wichtigsten Faktoren beim Vorhersagen der täglichen neuen Todesfälle im Zusammenhang mit COVID-19 gehört. Das bedeutet: Je größer die Anzahl ist, desto wichtiger ist dieser Faktor insgesamt an den Positionen. Der dunkelblaue Balken stellt die Analysevariable, die neuen Todesfälle im Zusammenhang mit COVID-19, dar. Am höchsten sind die Balken in den ersten drei bis vier Zeitverzögerungen, was darauf hinweist, dass die Anzahl der Todesfälle der vorherigen drei bis vier Tage die stärkste Vorhersagekraft für die Todesfälle am Folgetag besitzt. Obwohl diese Daten es nicht zeigen, kann sich eine Variable "selbst verzögern", wie zum Beispiel bei zyklischen Variablen wie der Temperatur, bei der wegen des Tag-und-Nacht-Zyklus ein Blick 24 Stunden zurück mehr Vorhersagekraft hat als ein Blick 2 Stunden zurück. Die hellblauen Balken stellen die Anzahl der am Tag neu verabreichten Impfstoffe dar. Die höchsten hellblauen Balken treten im Zeitfenster 10 bis 14 Tage in der Vergangenheit auf (die Balken am weitesten rechts), was darauf hinweist, dass sich Zunahmen oder Abnahmen in der Zahl der Impfstoffe auf die Anzahl der Todesfälle 10 bis 14 Tage in der Zukunft auswirken. Diese Verzögerung von 10 bis 14 Tagen entspricht der Zeit, die notwendig ist, damit sich eine Spitzenimmunität nach einer Impfung entwickelt.
Das Diagramm Gewichtung für Zeitverzögerung wird bei der Ausgabetabelle, die durch den optionalen Parameter Ausgabetabelle zur Bedeutung generiert wird, eingefügt. Diese Tabelle enthält eine Zeile für jede Position des Raum-Zeit-Würfels und stellt die wichtigsten Faktoren für jede Position dar. Wie viele Faktoren an einer Position für wichtig erachtet werden, hängt vom Parameter Schwellenwert für Wichtigkeit ab. Wenn zum Beispiel der Wert 15 angegeben wird, werden die obersten 15 Prozent der Faktoren für jede Position in die Tabelle und das Diagramm einbezogen. Der Standardwert ist 10.
Um die Tabelle und das Diagramm zu erstellen, müssen Sie mindestens eine erklärende Variable im Parameter Andere Variablen einfügen. Da die Anzahl der Zeitverzögerungen in Tabelle und Diagramm dem Wert des Parameters Zeitintervallfenster entspricht, muss das Zeitfenster breiter sein als jeder verzögerte Effekt, den Sie erfassen möchten. Zum Beispiel könnten Sie mit einem Zeitfenster von einer Woche den verzögerten Effekt der Impfstoffe auf die Anzahl der Todesfälle im Zusammenhang mit COVID-19 nicht erfassen.
Saisonale Schwankungen und die Auswahl eines Zeitfensters
Die Anzahl der Zeitintervalle innerhalb jedes Zeitintervallfensters ist eine wichtige Entscheidung für das Forest-Modell. Eine entscheidende Überlegung ist, ob die Zeitserie saisonale Schwankungen aufweist, sich also natürliche zyklische Muster über eine bestimmte Anzahl von Zeitintervallen wiederholen. Beispielsweise weist die Temperatur in Abhängigkeit von den Jahreszeiten jährliche saisonale Zyklen auf. Da das Zeitfenster verwendet wird, um verknüpfte erklärende und abhängige Variablen zu erstellen, ist es am effektivsten, wenn diese erklärenden Variablen alle aus demselben saisonalen Zyklus stammen, sodass die saisonale Korrelation zwischen den erklärenden Variablen möglichst gering ist. Es wird empfohlen, für die Länge des Zeitintervallfensters die Anzahl der Zeitintervalle in einer natürlichen Saison zu verwenden. Wenn Ihre Daten mehrere Saisons anzeigen, wird empfohlen, die Länge der längsten Saison zu verwenden.
Wenn Sie die Anzahl der Zeitintervalle kennen, die einer Saison in Ihren Daten entsprechen, können Sie diese im Parameter Zeitintervallfenster angeben; dieser Wert wird daraufhin von jeder Position im Raum-Zeit-Würfel verwendet. Wenn Sie die Länge einer Saison nicht kennen oder die Saison für verschiedene Positionen unterschiedlich lang ist, kann der Parameter leer gelassen werden. In diesem Fall wird mithilfe einer spektralen Dichtefunktion für jede Position eine optimale Saisonlänge geschätzt. Weitere Informationen zu dieser Funktion finden Sie im Abschnitt Zusätzliche Quellen.
Wenn die mittels Spektralanalyse bestimmte optimale Saisonlänge für eine einzelne Position größer als 1, aber nicht größer als ein Drittel der Anzahl der Zeitintervalle an der Position ist, wird dieser optimale Wert für das Zeitintervallfenster festgelegt. Andernfalls werden 25 Prozent (abgerundet) der Anzahl der Zeitintervalle an der Position für das Zeitintervallfenster verwendet. Auf diese Weise wird sichergestellt, dass mindestens ein Zeitintervall im Fenster vorhanden ist und mindestens drei komplette saisonale Zyklen als erklärende Variablen verwendet werden. Der an der Position verwendete Zeitintervallwert wird im Feld Time Window der Ausgabe-Features gespeichert. Das Feld Is Seasonal der Ausgabe-Features enthält den Wert 1, wenn das Zeitintervallfenster mithilfe der Spektralanalyse bestimmt wurde; andernfalls enthält es den Wert 0. Dieser Workflow wird in der folgenden Abbildung zusammengefasst:
Ansätze bei der Vorhersage
Es gibt vier Möglichkeiten, um die zum Trainieren des Forest verwendeten erklärenden und abhängigen Variablen darzustellen. Diese Optionen werden mit dem Parameter Vorhersageansatz angegeben.
Die erste Option ist Modell mit Wert erstellen. Diese Option verwendet die Raw-Werte in den Raum-Zeit-Abschnitten für die erklärenden und abhängigen Variablen. Bei Auswahl dieser Option liegen die vorhergesagten Werte im Bereich der abhängigen Variablen. Sie sollten diese Option deshalb nicht verwenden, wenn Ihre Daten Trends aufweisen, die zu- oder abnehmende Werte für die Zukunft vorhersagen. Die folgende Abbildung zeigt die Variablensätze, die zum Trainieren des Modells für eine einzelne Position verwendet werden, wobei jede Zeile den Satz erklärender Variablen und die verknüpfte abhängige Variable anzeigt. T ist die Anzahl der Zeitintervalle im Raum-Zeit-Würfel, W ist die Anzahl der Zeitintervalle in jedem Zeitintervallfenster, und Xt ist der Raw-Wert der Zeitserie zum Zeitpunkt t.
Die zweite Option ist Modell mit Wert nach Trendbereinigung erstellen. Dies ist die Standardoption des Werkzeugs. Diese Option entfernt (lineare) Trends erster Ordnung für die gesamte Zeitserie an jeder Position, und diese trendbereinigten Werte werden als erklärende und abhängige Variablen verwendet. Mit dieser Option können die Vorhersagen diesem Trend in die Zukunft folgen, sodass die vorhergesagten Werte außerhalb des Bereichs der abhängigen Variablen geschätzt werden können. Die folgende Abbildung zeigt die Variablensätze, die zum Trainieren des Modells für eine einzelne Position verwendet werden, wobei jede Zeile den Satz erklärender Variablen und die verknüpfte abhängige Variable anzeigt. T ist die Anzahl der Zeitintervalle im Raum-Zeit-Würfel, W ist die Anzahl der Zeitintervalle in jedem Zeitintervallfenster, und Dt ist der trendbereinigte Wert der Zeitserie zum Zeitpunkt t.
Die dritte Option ist Modell nach Residuum erstellen. Diese Option erstellt ein OLS-Regressionsmodell (Ordinary Least Squares), um die abhängige Variable basierend auf den erklärenden Variablen innerhalb jedes Zeitfensters vorherzusagen. Das Residuum dieses Regressionsmodells (die Differenz zwischen der OLS-Vorhersage und dem Raw-Wert der abhängigen Variable) wird verwendet, um die abhängigen Variable beim Trainieren des Forest darzustellen. Die folgende Abbildung zeigt die Variablensätze, die zum Trainieren des Modells für eine einzelne Position verwendet werden, wobei jede Zeile den Satz erklärender Variablen und die verknüpfte abhängige Variable anzeigt. T ist die Anzahl der Zeitintervalle im Raum-Zeit-Würfel, W ist die Anzahl der Zeitintervalle in jedem Zeitintervallfenster, Xt is der Wert der Zeitserie zum Zeitpunkt t, und X^t (Xt-hat) ist der geschätzte OLS-Wert zum Zeipunkt t.
Die letzte Option ist Modell nach trendbereinigtem Residuum erstellen. Diese Option entfernt (lineare) Trends erster Ordnung für die gesamte Zeitserie an einer Position. Anschließend wird ein OLS-Regressionsmodell erstellt, um die trendbereinigte abhängige Variable basierend auf den trendbereinigten erklärenden Variablen innerhalb jedes Zeitfensters vorherzusagen. Das Residuum dieses Regressionsmodells (die Differenz zwischen der OLS-Vorhersage und dem trendbereinigten Wert der abhängigen Variable) wird verwendet, um die abhängigen Variable beim Trainieren des Forest darzustellen. Die folgende Abbildung zeigt die Variablensätze, die zum Trainieren des Modells für eine einzelne Position verwendet werden, wobei jede Zeile den Satz erklärender Variablen und die verknüpfte abhängige Variable anzeigt. T ist die Anzahl der Zeitintervalle im Raum-Zeit-Würfel, W ist die Anzahl der Zeitintervalle in jedem Zeitintervallfenster, Dt is der trendbereinigte Wert der Zeitserie zum Zeitpunkt t, und D^t (Dt-hat) ist der geschätzte OLS-Wert zum Zeitpunkt t.
Erstellen von Konfidenzintervallen
Das Werkzeug berechnet Konfidenzintervalle von 90 Prozent für jedes vorhergesagte Zeitintervall. Diese werden als Felder in den Ausgabe-Features sowie in den im nächsten Abschnitt erläuterten Pop-up-Diagrammen angezeigt. Zur Berechnung der oberen und unteren Grenze des Konfidenzintervalls für das erste vorhergesagte Zeitintervall wird die Quantil-Random-Forest-Regression verwendet. Um den Wert eines zukünftigen Zeitpunkts vorherzusagen, werden die Beobachtungen innerhalb jedes Blattes eines Baumes gemittelt. Bei der Quantil-Regression wird jedoch jede Beobachtung innerhalb jedes Blattes verwendet, was eine Verteilung der vorhergesagten Werte für das erste Zeitintervall zur Folge hat. Das Konfidenzintervall von 90 Prozent wird mithilfe des 5. und 95. Quantils dieser Verteilung erstellt.
Das Konfidenzintervall für die zweite Vorhersage wird auf ähnliche Weise berechnet, dabei aber unter Berücksichtigung des Konfidenzintervalls der ersten Vorhersage angepasst. Zur Erstellung einer Verteilung für das zweite vorhergesagte Zeitintervall wird wiederum eine Quantil-Regression verwendet, wobei das erste vorhergesagte Zeitintervall als Einzelwert behandelt wird und das 5. und 95. Quantil der Verteilung berechnet werden. Die tatsächliche Konfidenz für die zweite Vorhersage wird durch Addition der Längen der Konfidenzgrenzen beider Vorhersagen berechnet. Die obere Grenze der zweiten Vorhersage ist gleich der Länge der oberen Grenze für die erste Vorhersage plus die Länge der oberen Konfidenzgrenze für die zweite Vorhersage (bei der Berechnung wird vorausgesetzt, dass die erste Vorhersage ein Einzelwert und keine Verteilung ist). Die untere Grenze wird auf ähnliche Weise berechnet, indem die Längen der unteren Konfidenzgrenzen addiert werden. Die Berechnung des Konfidenzintervalls für das dritte vorhergesagte Zeitintervall erfolgt, indem erneut die Quantil-Regression durchgeführt wird und die Längen der Fehlergrenzen für alle drei Vorhersagen addiert werden. Dieser Prozess wird so lange fortgesetzt, bis alle Zeitintervalle vorhergesagt wurden. Durch das Addieren der Fehlergrenzen wird sichergestellt, dass der Fehler durch die Projektionen weitergegeben wird und die Länge der Konfidenzbänder im Zeitverlauf zunimmt.
Hinweis:
Die Konfidenzgrenzen für das zweite Zeitintervall und darüber hinaus werden konservativ berechnet, indem die Fehler früherer Vorhersagen addiert werden. Das tatsächliche Konfidenzniveau dieser Intervalle beträgt mindestens 90 Prozent, könnte aber auch höher sein.
Identifizieren von Zeitserienausreißern
Ausreißer in Zeitseriendaten sind Werte, die sich erheblich von den Mustern und Trends anderer Werte in der Zeitserie unterscheiden. So würden z. B. eine große Zahl von Onlinekäufen zu Feiertagen oder eine hohe Zahl von Verkehrsunfällen aufgrund starker Regenfälle wahrscheinlich als Ausreißer erkannt werden. Einfache Dateneingabefehler, wie das Vergessen einer Dezimalstelle, sind eine weitere häufige Quelle für Ausreißer. Die Identifizierung von Ausreißern ist bei der Zeitserienvorhersage sehr wichtig, da Ausreißer das Vorhersagemodell beeinflussen, das für zukünftige Werte eingesetzt wird. Selbst eine kleine Anzahl von Ausreißern in der Zeitserie einer Position kann die Genauigkeit und Zuverlässigkeit von Vorhersagen erheblich verringern. Positionen mit Ausreißern, insbesondere am Anfang oder Ende der Zeitserie, können zu irreführenden Vorhersagen führen. Wenn Sie diese Positionen kennen, können Sie besser einschätzen, wie verlässlich die für eine Position vorhergesagten Werte sind.
Ausreißer zeichnen sich nicht durch ihre reinen Werte aus, sondern vielmehr dadurch, wie stark sich ihre Werte von den angepassten Werten des Vorhersagemodells unterscheiden. Ob ein Wert als Ausreißer eingestuft wird oder nicht, hängt demnach vom Kontext und der Position und Zeit ab, die mit ihm verknüpft sind. Durch das Vorhersagemodell wird definiert, welcher Wert vor dem Hintergrund der gesamten Zeitserie erwartet wird, und Ausreißer sind die Werte, die erheblich von dieser Basislinie abweichen. Nehmen wir z. B. eine Zeitserie mit der jährlichen Durchschnittstemperatur. Da die Durchschnittstemperaturen in den letzten Jahrzehnten angestiegen sind, spiegelt sich dies auch im angepassten Vorhersagemodell wider. Das bedeutet, dass ein Temperaturwert, der 1950 als typisch und nicht als Ausreißer angesehen würde, wahrscheinlich im Jahr 2020 als Ausreißer angesehen werden würde. Mit anderen Worten: Eine typische Temperatur von 1950 würde für die Standards des Jahres 2020 als sehr niedrig angesehen werden.
Mit dem Parameter Ausreißer identifizieren können Sie die Zeitserienausreißer für jede Position finden lassen. Falls aktiviert, wird der Generalized Extreme Studentized Deviate (ESD)-Test für jede Position durchgeführt, um Zeitserienausreißer zu finden. Das Konfidenzniveau des Tests kann mit dem Parameter Konfidenzniveau angegeben werden. Als Standard werden 90 % verwendet. Der Generalized ESD-Test testet iterativ auf einen einzelnen Ausreißer, zwei Ausreißer, drei Ausreißer usw. an jeder Position bis zum Wert des Parameters Maximale Anzahl von Ausreißern (standardmäßig abgerundet 5 % der Anzahl der Zeitintervalle). Die größte statistisch signifikante Anzahl von Ausreißern wird zurückgegeben. Die Anzahl der Ausreißer an jeder Position ist in der Attributtabelle der Ausgabe-Features ersichtlich, und einzelne Ausreißer sind in den Pop-up-Diagrammen der Zeitserien zu sehen, die im nächsten Abschnitt behandelt werden.
Werkzeugausgaben
Die primäre Ausgabe dieses Werkzeugs enthält eine 2D-Feature-Class mit den Positionen des Eingabe-Raum-Zeit-Würfels, die durch das zuletzt vorhergesagte Zeitintervall symbolisiert wird, sowie die Vorhersagen für alle anderen Zeitintervalle, die als Felder gespeichert sind. Obwohl alle Positionen ohne Berücksichtigung von räumlichen Beziehungen unabhängig voneinander vorhergesagt werden, können auf der Karte räumliche Muster für Flächen mit ähnlichen Zeitserien dargestellt werden.
Pop-up-Diagramme
Wenn Sie mit dem Navigationswerkzeug Erkunden auf ein beliebiges Feature auf der Karte klicken, wird der Bereich Pop-up angezeigt. Dieser enthält die Werte des Raum-Zeit-Würfels und das angepasste Forest-Modell sowie die vorhergesagten Werte zusammen mit den Konfidenzintervallen von 90 Prozent für jede Vorhersage. Die Werte des Raum-Zeit-Würfels werden blau dargestellt und sind durch eine blaue Linie miteinander verbunden. Die angepassten Werte werden in Orange dargestellt und sind durch eine gestrichelte orangefarbene Linie miteinander verbunden. Die vorhergesagten Werte werden orangefarben dargestellt und sind durch eine durchgezogene orangefarbene Linie miteinander verbunden, die die Vorhersage des Forest-Modells darstellt. Um jeden vorhergesagten Wert werden hellrote Konfidenzgrenzen gezeichnet. Wenn Sie auf einen beliebigen Punkt des Diagramms zeigen, werden dessen Datum und Wert angezeigt. Wenn Sie die Erkennung von Ausreißern in Zeitserien aktiviert haben, werden diese außerdem als große violette Punkte angezeigt.
Hinweis:
Wenn die Ausgabe-Features als Shapefile (.shp) gespeichert werden, werden keine Pop-up-Diagramme erstellt. Wenn die Konfidenzintervalle über das Diagramm hinausgehen, wird die Schaltfläche Vollständigen Datenbereich anzeigen über dem Diagramm angezeigt, mit der Sie das Diagramm so erweitern können, dass das gesamte Konfidenzintervall angezeigt wird.
Geoverarbeitungsmeldungen
Das Werkzeug gibt eine Reihe von Meldungen aus, die Informationen zur Ausführung des Werkzeugs enthalten. Die Meldungen bestehen aus drei Hauptabschnitten.
Im Abschnitt Details des Eingabe-Raum-Zeit-Würfels werden die Eigenschaften des Eingabe-Raum-Zeit-Würfels zusammen mit Informationen über die Anzahl der Zeitintervalle, Positionen und Raum-Zeit-Abschnitte angezeigt. Welche Eigenschaften im ersten Abschnitt angezeigt werden, hängt von der ursprünglichen Erstellung des Würfels ab, weshalb die Informationen von Würfel zu Würfel variieren.
Der Abschnitt Analysedetails enthält die Eigenschaften der Vorhersageergebnisse, darunter die Anzahl der vorhergesagten Zeitintervalle, die Anzahl der für die Validierung ausgeschlossenen Zeitintervalle, der prozentuale Anteil der Positionen, für die mithilfe der Spektralanalyse saisonale Schwankungen ermittelt wurden, und Informationen über die vorhergesagten Zeitintervalle. Wenn Sie für den Parameter Zeitintervallfenster keinen Wert angeben, wird eine Summenstatistik des geschätzten Zeitintervallfensters angezeigt, einschließlich Minimum, Maximum, Mittelwert, Medianwert und Standardabweichung.
Der Abschnitt Zusammenfassung der positionsübergreifenden Genauigkeit enthält die Summenstatistik für die Vorhersage- und Validierungs-RMSE-Werte aller Positionen. Für jeden Wert werden das Minimum, das Maximum, der Mittelwert, der Medianwert und die Standardabweichung angezeigt.
Der Abschnitt Zusammenfassung der Zeitserienausreißer wird angezeigt, wenn Sie die Erkennung von Ausreißern mit dem Parameter Ausreißeroption aktiviert haben. Dieser Abschnitt enthält Informationen wie z. B. die Anzahl und den Prozentsatz der Positionen, die Ausreißer enthalten, das Zeitintervall, das die meisten Ausreißer enthält, und zusammenfassende Statistiken für die Anzahl der Ausreißer nach Position und Zeitintervall.
Hinweis:
Die Geoverarbeitungsmeldungen werden während der Ausführung des Werkzeugs am unteren Rand des Bereichs Geoverarbeitung angezeigt. Sie können auf diese Meldungen zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen, auf die Pop-out-Schaltfläche klicken oder den Abschnitt "Meldungen" im Bereich Geoverarbeitung erweitern. Über den Geoverarbeitungsverlauf können Sie auch auf die Meldungen für ein zuvor ausgeführtes Werkzeug zugreifen.
Felder der Ausgabe-Features
Neben der Objekt-ID, den Geometriefeldern und dem Feld mit Pop-up-Diagrammen enthalten die Ausgabe-Features folgende Felder:
- Positions-ID (LOCATION): Die ID der entsprechenden Position des Raum-Zeit-Würfels.
- Vorhersage für (Analysevariable) in (Zeitintervall) (FCAST_1, FCAST_2 usw.): Der Vorhersagewert für die einzelnen künftigen Zeitintervalle. Der Feldaliasname enthält den Namen der Analysevariablen und das Datum der Vorhersage. Ein Feld mit diesem Typ wird für jedes vorhergesagte Zeitintervall erstellt.
- Hohes Intervall für (Analysevariable) in (Zeitintervall) (HIGH_1, HIGH_2 usw.): Die obere Grenze eines Konfidenzintervalls von 90 Prozent für den vorhergesagten Wert jedes zukünftigen Zeitintervalls. Der Feldaliasname enthält den Namen der Analysevariablen und das Datum der Vorhersage. Ein Feld mit diesem Typ wird für jedes vorhergesagte Zeitintervall erstellt.
- Niedriges Intervall für (Analysevariable) in (Zeitintervall) (LOW_1, LOW_2 usw.): Die untere Grenze eines Konfidenzintervalls von 90 Prozent für den vorhergesagten Wert jedes zukünftigen Zeitintervalls. Der Feldaliasname enthält den Namen der Analysevariablen und das Datum der Vorhersage. Ein Feld mit diesem Typ wird für jedes vorhergesagte Zeitintervall erstellt.
- Root Mean Square Error der Vorhersage (F_RMSE): Der Vorhersage-RMSE.
- Root Mean Square Error der Validierung (V_RMSE): Der Validierungs-RMSE. Wenn keine Zeitintervalle für die Validierung ausgeschlossen wurden, wird dieses Feld nicht erstellt.
- Zeitfenster (TIMEWINDOW): Das an der Position verwendete Zeitintervallfenster.
- Ist saisonal (IS_SEASON): Boolesche Variable, die angibt, ob das Zeitintervallfenster an der Position durch die spektrale Dichte bestimmt wurde. Der Wert 1 gibt an, dass durch Spektralanalyse saisonale Schwankungen ermittelt wurden, während der Wert 0 angibt, dass keine saisonalen Schwankungen ermittelt wurden. Wenn für den Parameter Zeitfenster ein Wert festgelegt wurde, weisen alle Positionen in diesem Feld den Wert 0 auf.
- Vorhersagemethode (METHOD): Ein Textfeld, das die Parameter des Forest-Modells anzeigt, z. B. den Zufallsursprung, die Anzahl der Bäume, die Stichprobengröße, den Vorhersageansatz und ob das Zeitintervallfenster vom Benutzer angegeben oder durch das Werkzeug ermittelt wurde. Mit diesem Feld können Sie Ergebnisse reproduzieren und die im Werkzeug Vorhersagen nach Position auswerten verwendeten Modelle identifizieren.
- Anzahl der Modellanpassungsausreißer (N_OUTLIERS): Die Anzahl der in der Zeitserie der Position erkannten Ausreißer. Dieses Feld wird nur erstellt, wenn Sie Ausreißer mit dem Parameter Ausreißeroption erkennen lassen.
Ausgabe-Raum-Zeit-Würfel
Bei Angabe eines Ausgabe-Raum-Zeit-Würfels enthält der Ausgabe-Würfel alle ursprünglichen Werte aus dem Eingabe-Raum-Zeit-Würfel, wobei die vorhergesagten Werte angehängt werden. Dieser neue Raum-Zeit-Würfel kann mit dem Werkzeug Raum-Zeit-Würfel in 2D visualisieren oder Raum-Zeit-Würfel in 3D visualisieren angezeigt und als Eingabe für die Werkzeuge der Toolbox Space Space Time Pattern Mining verwendet werden, z. B. Trendanalyse von Hot-Spots und Zeitserie-Cluster-Bildung.
Mit dem Werkzeug Vorhersagen nach Position auswerten können mehrere vorhergesagte Raum-Zeit-Würfel verglichen und zusammengeführt werden. Auf diese Weise können Sie mit unterschiedlichen Vorhersagewerkzeugen und -parametern mehrere Vorhersagewürfel erstellen. Das Werkzeug ermittelt dann mit dem Vorhersage-RMSE oder dem Validierungs-RMSE die beste Vorhersage für jede Position.
Empfehlungen und Beschränkungen
Bei der Entscheidung, ob dieses Werkzeug für Ihre Daten geeignet ist und welche Parameter ausgewählt werden sollten, sind einige Punkte zu beachten.
- Verglichen mit anderen Vorhersagewerkzeugen im Toolset Zeitserienvorhersage ist dieses Werkzeug das komplexeste, trifft allerdings auch die wenigsten Annahmen über die Daten. Es wird für Zeitserien mit komplexen Shapes und Trends empfohlen, die mit einfachen oder glatten mathematischen Funktionen schwierig zu modellieren sind. Außerdem wird es empfohlen, wenn die Annahmen anderer Methoden nicht zutreffen.
- Die Entscheidung über die Anzahl der Zeitintervalle, die für die Validierung ausgeschlossen werden sollen, ist wichtig. Je mehr Zeitintervalle ausgeschlossen werden, desto weniger stehen für die Schätzung des Validierungsmodell zur Verfügung. Werden allerdings zu wenige Zeitintervalle ausgeschlossen, erfolgt die Schätzung des Validierungs-RMSE mit einer geringen Datenmenge und kann einen falschen Eindruck erwecken. Sie sollten so viele Zeitintervalle wie möglich ausschließen und gleichzeitig ausreichend Zeitintervalle behalten, um das Validierungsmodell zu schätzen. Es empfiehlt sich außerdem, mindestens so viele Zeitintervalle für die Validierung zurückzuhalten, wie vorhergesagt werden sollen, sofern der Raum-Zeit-Würfel eine entsprechende Anzahl an Zeitintervallen aufweist.
- Dieses Werkzeug kann zu instabilen und unzuverlässigen Vorhersagen führen, wenn derselbe Wert innerhalb der Zeitserie mehrfach wiederholt wird. Eine häufige Ursache für wiederholte identische Werte ist die Null-Inflation, bei der die Daten Anzahlwerte darstellen, und viele Zeitintervalle den Wert 0 aufweisen.
- Wenn Sie Ausreißer finden lassen möchten, empfiehlt es sich, einen Wert für den Parameter Zeitintervallfenster einzugeben, anstatt den Parameter leer zu lassen und die Schätzung an jeder Position für ein anderes Zeitintervallfenster vorzunehmen. Bei jeder Position verwendet das Forest-Modell die Zeitintervalle im ersten Zeitintervallfenster, um das Vorhersagemodell zu trainieren. Ausreißer werden nur für die verbleibenden Zeitintervalle gesucht. Wenn bei unterschiedlichen Positionen eine unterschiedliche Anzahl von Zeitintervallen vom Training ausgeschlossen werden, können Summenstatistiken wie die mittlere, minimale und maximale Anzahl der Ausreißer je Zeitintervall oder je Position einen falschen Eindruck erwecken. Diese Statistiken werden nur für Zeitintervalle berechnet, die für jede Position vorhanden sind.
Zusätzliche Quellen
Weitere Informationen zu Forest-Modellen finden Sie in den folgenden Quellen:
- Breiman, Leo. (2001). "Random Forests". Machine Learning 45 (1): 5-32. https://doi.org/10.1023/A:1010933404324.
- Breiman, L., J.H. Friedman, R.A. Olshen und C.J. Stone. (2017). Classification and regression trees. New York: Routledge. Kapitel 4.
Zusätzliche Ressourcen und Quellen zu Forest-Modellen finden Sie unter Verwendung von Forest-basierter Klassifizierung und -Regression.
Weitere Informationen zur spektralen Dichtefunktion, mittels derer die Länge von Zeitfenstern geschätzt werden kann, finden Sie unter der Funktion findfrequency in den folgenden Quellen:
- Hyndman R, Athanasopoulos G, Bergmeir C, Caceres G, Chhay L, O'Hara-Wild M, Petropoulos F, Razbash S, Wang E, und Yasmeen F (2019). "Forecasting functions for time series and linear models", R-Paketversion 8.7, https://pkg.robjhyndman.com/forecast.
- Hyndman, R. J. und Khandakar, Y. (2008). "Automatic time series forecasting: the forecast package for R", Journal of Statistical Software, 26(3), S. 1-22. https://www.jstatsoft.org/article/view/v027i03.
Weitere Informationen zum Einbinden von erklärenden Variablen und zum Verzögerungseffekt finden Sie in der folgenden Quelle:
- Zheng, H. und Kusiak, A. (2009). "Prediction of Wind Farm Power Ramp Rates: A Data-Mining Approach."ASME. J. Sol. Energy Eng, 131(3): 031011. https://doi.org/10.1115/1.3142727.
Weitere Informationen zur Erstellung von Konfidenzintervallen aus Forest-Regressionsmodellen finden Sie in der folgenden Quelle:
- Meinshausen, Nicolai. "Quantile regression forests". Journal of Machine Learning Research 7. Juni (2006): 983-999.