Das Werkzeug Forest-basierte Vorhersage verwendet die Forest-basierte Regression, um zukünftige Zeitintervalle eines Raum-Zeit-Würfels vorherzusagen. Die primäre Ausgabe enthält eine Karte des finalen vorhergesagten Zeitintervalls sowie Informationsmeldungen und Pop-up-Diagramme. Es können weitere erklärende Variablen angegeben werden, um die Vorhersage der Analysevariablen zu verbessern. Zudem können Sie verzögerte Effekte zwischen den erklärenden Variablen und der Analysevariablen, die vorhergesagt wird, schätzen und visualisieren. Sie können auch auswählen, Forest-basierte Modelle für jede Position unabhängig zu erstellen, ein einzelnes über alle Positionen trainiertes Modell zu erstellen oder separate Modelle in jedem Zeitserien-Cluster zu erstellen. Sie können außerdem Ausreißer in jeder Zeitserie suchen lassen, um die Positionen und Zeiten zu identifizieren, die erheblich von den Mustern und Trends des Restes der Zeitserie abweichen.
Dieses Werkzeug verwendet den gleichen zugrunde liegenden Algorithmus wie das Werkzeug Forest-basierte und geboostete Klassifizierung und Regression, wenn es für die Regression genutzt wird. Die zur Erstellung des Forest-Regressionsmodells verwendeten Trainingsdaten werden mithilfe von Zeitfenstern für jede Variable des Raum-Zeit-Würfels konstruiert.
Weitere Informationen zur Forest-basierten und geboosteten Klassifizierung und Regression
Potenzielle Anwendungsbereiche
Da Forest-Regressionsmodelle nur wenige Annahmen über die Daten machen, können sie in zahlreichen Kontexten verwendet werden. Im Vergleich zu anderen Vorhersagemethoden sind sie am effektivsten, wenn die Daten komplexe Trends oder Jahreszeiten aufweisen oder sich auf eine Weise verändern, die nicht allgemeinen mathematischen Funktionen wie Polynomen, Exponentialkurven oder Sinuswellen ähnelt.
Sie können dieses Werkzeug beispielsweise in folgenden Anwendungsszenarien verwenden:
- Ein Schulbezirk kann mit diesem Werkzeug die Anzahl der Schüler vorhersagen, die an jedem Tag in der folgenden Woche an jeder Schule im Bezirk fehlen werden.
- Ein Gouverneur kann die Anzahl der Krankenhauseinweisungen wegen einer Infektionskrankheit zwei Wochen in der Zukunft vorhersagen. Diese Vorhersage kann die Anzahl der positiven Testergebnisse als erklärende Variable einbeziehen, und das Werkzeug modelliert den verzögerten Effekt zwischen positiven Tests und Krankenhauseinweisungen.
- Manager öffentlicher Versorgungsbetriebe können mit diesem Werkzeug den Elektrizitäts- und Wasserbedarf des nächsten Monats in den Stadtteilen ihres Verwaltungsbezirks vorhersagen.
- Einzelhandelsgeschäfte können mit diesem Tool vorhersagen, wann einzelne Produkte ausverkauft sein werden, um den Bestand besser zu verwalten.
- Stadtplaner können mit diesem Werkzeug die Bevölkerungsentwicklung vorhersagen, um den Bedarf an Wohnungen, Energie, Lebensmitteln und Infrastruktur zu bewerten. Städte mit ähnlichen Größen und Bevölkerungstrends können in einem Cluster gruppiert werden, und für jede Gruppe können Forest-basierte Modelle erstellt werden.
Vorhersage und Validierung
Beim Vorhersagen jeder Zeitserien erstellt das Werkzeug zwei Modelle. Das erste ist das Vorhersagemodell, mit dem die Werte zukünftiger Zeitintervalle vorhergesagt werden. Das zweite ist das Validierungsmodell, mit dem die vorhergesagten Werte validiert werden.
Hinweis:
In diesem Abschnitt wird die Option Einzelne Position des Parameters Modellmaßstab beschrieben. Die Optionen Gesamter Würfel und Zeitserien funktionieren analog. Weitere Informationen finden Sie unter Erweitern des Modellmaßstabs.
Vorhersagemodell
Das Vorhersagemodell wird konstruiert, indem ein Forest mit den Zeitserienwerten an jeder Position des Raum-Zeit-Würfels erstellt wird. Anschließend wird dieser Forest verwendet, um das nächste Zeitintervall vorherzusagen. Der vorhergesagte Wert für das neue Zeitintervall wird im Forest-Modell berücksichtigt, und das nächste Zeitintervall wird vorhergesagt. Dieser rekursive Prozess wird für alle zukünftigen Zeitintervalle fortgesetzt. Die Übereinstimmung des Forest mit jeder Zeitserie wird durch den Vorhersage-RMSE (Root Mean Square Error) gemessen, der der Quadratwurzel der durchschnittlichen quadrierten Differenz zwischen dem Forest-Modell und den Werten der Zeitserie entspricht.
, wobei T für die Anzahl der Zeitintervalle, ct für den Wert des Forest-Modells und rt für den Raw-Wert der Zeitserie zum Zeitpunkt t steht.
Die folgende Abbildung zeigt die Raw-Werte einer Zeitserie und ein an die Zeitserie angepasstes Forest-Modell sowie Vorhersagen für zwei zukünftige Zeitintervalle. Der Vorhersage-RMSE misst, wie stark die angepassten Werte aus dem Forest von den Raw-Werten der Zeitserie abweichen.
Der Vorhersage-RMSE misst nur, wie genau das Forest-Modell mit den Raw-Werten der Zeitserie übereinstimmt. Er misst nicht, wie genau das Vorhersagemodell tatsächlich zukünftige Werte vorhersagt. Es kommt häufig vor, dass ein Forest-Modell zwar weitgehend mit einer Zeitserie übereinstimmt, aber keine genauen Vorhersagen liefert, wenn es extrapoliert wird. Das Validierungsmodell bietet eine Lösung für dieses Problem.
Validierungsmodell
Mit dem Validierungsmodell lässt sich bestimmen, wie genau das Vorhersagemodell zukünftige Werte für jede Zeitserie vorhersagen kann. Es wird konstruiert, indem einige der letzten Zeitintervalle jeder Zeitserie ausgeschlossen werden und das Forest-Modell an die nicht ausgeschlossenen Daten angepasst wird. Anschließend wird dieses Forest-Modell verwendet, um die Werte der Daten vorherzusagen, die zurückgehalten wurden, und die vorhergesagten Werte werden mit den ausgeblendeten Raw-Werten verglichen. Standardmäßig werden für die Validierung 10 Prozent der Zeitintervalle zurückgehalten, aber diese Zahl kann mithilfe des Parameters Für die Validierung auszuschließende Anzahl an Zeitintervallen geändert werden. Die Anzahl der ausgeschlossen Zeitintervalle darf 25 Prozent der Zeitintervalle nicht überschreiten, und es wird keine Validierung durchgeführt, wenn 0 angegeben wird. Die Genauigkeit der Vorhersagen wird gemessen, indem eine Validierungs-RMSE-Statistik berechnet wird, die der Quadratwurzel der durchschnittlichen quadrierten Differenz zwischen den vorhergesagten und den Raw-Werten der ausgeschlossenen Zeitintervalle entspricht.
, wobei T für die Anzahl der Zeitintervalle, m für die Anzahl der für die Validierung zurückgehaltenen Zeitintervalle, ct für den Vorhersagewert aus den ersten T-m-Zeitintervallen und rt für den Raw-Wert der zum Zeitpunkt t der für die Validierung zurückgehaltenen Zeitserien steht.
Die folgende Abbildung zeigt ein Forest-Modell, das an die erste Hälfte einer Zeitserie angepasst und zur Vorhersage der zweiten Hälfte der Zeitserie verwendet wurde. Der Validierungs-RMSE misst, wie stark die vorhergesagten Werte von den Raw-Werten der zurückgehaltenen Zeitintervalle abweichen.
Das Validierungsmodell ist wichtig, denn es kann die vorhergesagten Werte direkt mit den Raw-Werten vergleichen, um zu messen, wie genau die Vorhersagen des Forest sind. Es wird zwar nicht zur Vorhersage verwendet, dient jedoch der Begründung des Vorhersagemodells.
Hinweis:
Die Validierung bei der Zeitserienvorhersage ähnelt, ist aber nicht identisch mit einer häufig verwendeten Technik, die als Kreuzvalidierung bezeichnet wird. Der Unterschied besteht darin, dass bei der Validierung von Vorhersagen immer die letzten Zeitintervalle für die Validierung ausgeschlossen werden, während bei der Kreuzvalidierung entweder eine zufällige Teilmenge der Daten oder jeder Wert der Reihe nach ausgeschlossen wird.
Interpretation
Bei der Interpretation der Vorhersage-RMSE- und Validierungs-RMSE-Werte gilt es einiges zu beachten.
- Die RMSE-Werte können nicht direkt miteinander verglichen werden, da sie unterschiedliche Sachverhalte messen. Der Vorhersage-RMSE misst die Übereinstimmung des Forest-Modells mit den Raw-Werten der Zeitserie, während der Validierungs-RMSE misst, wie genau das Forest-Modell zukünftige Werte vorhersagt. Da der Vorhersage-RMSE größere Datenmengen verwendet und nicht extrapoliert, ist er normalerweise kleiner als der Validierungs-RMSE.
- Beide RMSE-Werte liegen in den Einheiten der Daten vor. Wenn es sich bei den Daten beispielsweise um Temperaturmesswerte in Grad Celsius handelt, ist ein Validierungs-RMSE von 50 sehr hoch, denn er gibt an, dass die vorhergesagten Werte um durchschnittlich etwa 50 Grad von den tatsächlichen Werten abweichen. Handelt es sich bei den Daten dagegen um den Tagesumsatz in US-Dollar eines großen Einzelhandelsgeschäfts, ist derselbe Validierungs-RMSE von 50 äußerst niedrig, denn er gibt an, dass der vorhergesagte Tagesumsatz nur um durchschnittlich 50 US-Dollar pro Tag von den tatsächlichen Werten abweicht.
Erstellen und Trainieren des Forest-Modells
Um zukünftige Werte vorherzusagen, muss das Forest-Modell trainiert werden, indem für jede Position erklärende Variablen mit abhängigen Variablen verknüpft werden. Das Forest-Modell erfordert wiederholte Trainingsdaten, aber es gibt nur eine Zeitserie für jede Position. Um mehrere Sätze von erklärenden und abhängigen Variablen in einer einzigen Zeitserie zu erstellen, werden Zeitfenster konstruiert, in denen die Zeitintervalle innerhalb jedes Zeitfensters als erklärende Variablen verwendet werden und das auf das Zeitfenster folgende Zeitintervall die abhängige Variable darstellt. Wenn eine Position z. B. 20 Zeitintervalle aufweist und das Zeitfenster 4 Zeitintervalle enthält, gibt es 16 Sätze von erklärenden und abhängigen Variablen, die zum Trainieren des Forest an dieser Position verwendet werden können. Der erste Satz weist die Zeitintervalle 1, 2, 3 und 4 als erklärende Variablen und das Zeitintervall 5 als abhängige Variable auf. Der zweite Satz weist die Zeitintervalle 2, 3, 4 und 5 als erklärende Variablen und das Zeitintervall 6 als abhängige Variable auf. Der letzte Satz weist die Zeitintervalle 16, 17, 18 und 19 als erklärende Variablen und das Zeitintervall 20 als abhängige Variable auf. Die Anzahl der Zeitintervalle in jedem Zeitfenster kann mithilfe des Parameters Zeitintervallfenster festgelegt werden. Der Wert für das Zeitfenster kann 1 betragen (sodass jedes Zeitfenster nur ein Zeitintervall enthält) und darf ein Drittel der Anzahl der Zeitintervalle an der Position nicht überschreiten.
Mithilfe des trainierten Forest-Modells werden die letzten Zeitintervalle der Position als erklärende Variablen zur Vorhersage des ersten zukünftigen Zeitintervalls verwendet. Das zweite zukünftige Zeitintervall wird dann mithilfe der vorherigen Zeitintervalle im Zeitfenster vorhergesagt, wobei eines dieser Zeitintervalle der erste vorhergesagte Wert ist. Entsprechend verwendet das dritte vorhergesagte Zeitintervall die vorherigen Zeitintervalle im Zeitfenster, wobei zwei dieser Zeitintervalle vorhergesagte Zeitintervalle sind. Dieser Prozess wird für alle zukünftigen Zeitintervalle fortgesetzt.
Die folgende Abbildung zeigt die Sätze von erklärenden und abhängigen Variablen, die zum Trainieren des Forest-Modells und zur Vorhersage der ersten sieben zukünftigen Zeitintervalle verwendet werden:
Erweitern des Modellmaßstabs
Sie können nicht nur Vorhersagemodelle an jeder Position erstellen, sondern auch Positionen gruppieren und ein einzelnes Vorhersagemodell erstellen, dass für alle Positionen in der Gruppe verwendet wird. Durch die Gruppierung von Positionen können Sie Analysen mit unterschiedlichen Maßstäben durchführen, z. B. Modelle der Stadtbevölkerung gruppiert nach der Gesamtgröße der Bevölkerung. Darüber hinaus können Sie ein globales Modell mit allen Positionen in einer Gruppe erstellen.
Gruppiert verwenden die freigegebenen Vorhersagemodelle die Zeitfenster aller Positionen in der Gruppe als Trainingsdaten. Es stehen also viel mehr Daten zur Verfügung, um Muster und Trends der Zeitserien zu erkennen, als für jede einzelne Position. Dies ist besonders für kurze Zeitserien wichtig, wenn nur begrenzte Trainingsdaten in jeder Zeitserie verfügbar sind. Wenn alle Zeitserien in der Gruppe ähnliche Werte und Muster aufweisen, ermöglichen diese zusätzlichen Trainingsdaten genauere Vorhersagen an jeder Position in der Gruppe, indem die Muster der anderen Positionen einbezogen werden. Wenn die Zeitserien der Positionen in der Gruppe jedoch sehr unterschiedliche Werte und Muster aufweisen, verringert das Einbeziehen von deren Mustern die Genauigkeit der Vorhersagen. Es ist also wichtig, nur ähnliche Zeitserien zu gruppieren.
Sie können den Analysemaßstab mit dem Parameter Modellmaßstab definieren. Mit der Standardoption Einzelne Position werden für eine Analyse im lokalen Maßstab an jeder Position unabhängige Modelle erstellt. Mit der Option Gesamter Würfel wird für eine Analyse im globalen Modell mit allen Positionen ein einzelnes Modell erstellt. Mit der Option Zeitserien-Cluster-Bildung wird für alle Cluster im Ergebnis der Zeitserien-Cluster-Bildung für eine Analyse im Maßstab der Cluster ein Modell erstellt (wenn die Cluster Regionen bilden, ist es eine Analyse im regionalen Maßstab). Die Variable mit den Ergebnissen der Zeitserien-Cluster-Bildung wird im Parameter Cluster-Variable angegeben.
In der folgenden Abbildung ist ein Beispiel für das Erstellen eines einzelnen Modells für den gesamten Würfel mit sieben Positionen dargestellt:
In der folgenden Abbildung ist ein Beispiel für das Erstellen separater Modelle für jeden von zwei Zeitserien-Clustern dargestellt:
Einbeziehen anderer Variablen und des Verzögerungseffekts
Obwohl Forest-Regressionsmodelle bereits komplexe Muster und Trends der Zeitserien erfassen können, können Sie sie durch Einbeziehen zusätzlicher Informationen aus anderen relevanten Variablen weiter verbessern. Zum Beispiel kann das Wissen um die Luftverschmutzung dabei helfen, die Anzahl der Besuche in der Notfallaufnahme wegen Asthma vorherzusagen, da die Luftverschmutzung bekanntermaßen ein Auslöser für Asthmaanfälle ist.
Mit dem Parameter Andere Variablen können Sie zugehörige Variablen, die in demselben Eingabe-Raum-Zeit-Würfel gespeichert sind, einschließen, um mit einer multivariaten Forest-basierten Vorhersage die Analysevariable vorherzusagen. Um das multivariate Forest-Regressionsmodell zu trainieren, wird jede andere Variable in jedem Zeitfenster einbezogen und verwendet, um den nächsten Wert hinter dem Zeitfenster vorherzusagen. Diese Verwendung eines Zeitfensters für die Analysevariable entspricht der Vorgehensweise, die im Abschnitt Erstellen und Trainieren des Forest-Modells beschrieben ist.
Beim Vorhersagen für neue Zeitschritte wird jede zugehörige Variable unter Verwendung einer univariaten Forest-basierten Vorhersage vorhergesagt. Diese Vorhersagewerte werden beim Vorhersagen zukünftiger Werte der Analysevariablen als erklärende Variablen verwendet. Die Ergebnisse aller Vorhersagen (Analysevariable und alle erklärenden Variablen) werden im Ausgabe-Raum-Zeit-Würfel gespeichert.
Sie können das Werkzeug Forest-basierte Vorhersage auch verwenden, um verzögerte Effekte zwischen der Analysevariablen und den anderen Variablen zu schätzen und zu visualisieren. Ein Verzögerungseffekt liegt vor, wenn eine Verzögerung zwischen der Änderung in anderen Variablen und einer Änderung in der Analysevariablen zu beobachten ist, was in vielen Situationen, in denen Zeitserien mehrerer Variablen beteiligt sind, der Fall ist. Zum Beispiel haben Ausgaben für Werbung oft einen verzögerten Effekt auf die Umsatzerlöse, da die Menschen die Anzeigen erst eine gewisse Zeit sehen müssen, bevor sie sich für einen Kauf entscheiden. Im obigen Beispiel der Besuche in der Notaufnahme wegen Asthma und der Luftverschmutzung kann es eine Verzögerung zwischen einer Zunahme der Luftverschmutzung und einer Zunahme der Besuche in der Notaufnahme geben, da es einige Zeit dauert, bis die negativen Auswirkungen auf die Gesundheit einen Besuch der Notaufnahme erfordern.
Die folgende Abbildung zeigt den Verzögerungseffekt, bei dem sich Änderungen im Wert der blauen Zeitserie um vier Tage verzögert hinter der orangefarbenen Linie bemerkbar machen:
Wenn es eine Verzögerung zwischen erklärenden Variablen und der Analysevariablen gibt, gewinnen Sie weitere Informationen über diese Analysevariable, da Sie einen Blick in eine Vergangenheit werfen, die um die Dauer der Verzögerung zurückliegt. Wenn es zum Beispiel zwischen den Ausgaben für Werbung und den Umsatzerlösen eine Verzögerung von zwei Wochen gibt, dann ist es beim Vorhersagen der Umsatzerlöse für einen bestimmten Tag informativer, sich die Ausgaben für Werbung zwei Wochen zuvor im Vergleich zu den Ausgaben in den letzten Tagen anzusehen.
Das Forest-Modell kann den Verzögerungseffekt zwischen Variablen erkennen und nutzen, da das gleitende Zeitfenster immer den Zeitschritt nach ihm vorhersagt. Der letzte Wert im Zeitfenster liegt immer genau einen Zeitschritt vor der Vorhersage, der nächste Wert zum letzten Zeitschritt liegt immer genau zwei Zeitschritte vor der Vorhersage und so weiter. Da sich das Zeitfenster verschiebt, wird jede erklärende Variable als separater Faktor für jeden Zeitschritt innerhalb des Zeitfensters dargestellt. Dadurch können verschiedene erklärende Variablen bei unterschiedlichen Verzögerungen verglichen werden, und es kann bestimmt werden, welche dieser Variablen für Vorhersagen am wichtigsten sind. Weitere Informationen finden Sie unter Funktionsweise des Werkzeugs "Forest-basierte und geboostete Klassifizierung und Regression".
Das folgende Diagramm zeigt beispielsweise zeitverzögerte Variablen von einzelnen Landkreisen bei der Vorhersage der täglichen neuen Todesfälle im Zusammenhang mit der Coronavirus-Krankheit-2019 (COVID-19) Anfang 2021. Im Modell wird die Anzahl der täglich geimpften Personen als erklärende Variable verwendet. Die Werte der X-Achse beziehen sich auf jeden Zeitschritt innerhalb des verwendeten Zeitfensters von 14 Tagen, sodass dieses Bild 14 Werte zeigt. Da die Werte der X-Achse die Anzahl der Zeitschritte vor der Vorhersage darstellen, gehen Sie in der Zeit zurück, während Sie sich im Diagramm von links nach rechts bewegen. Der Wert 1 ganz links steht für genau einen Tag vor der Vorhersage, was dem letzten Zeitschritt im Zeitfenster entspricht. Analog steht der Wert 14 ganz rechts für 14 Tage vor der Vorhersage, was dem ersten Zeitschritt im Zeitfenster von 14 Tagen entspricht. Bei jedem Zeitschritt repräsentieren die hell- und dunkelblauen Spalten die jeweilige Anzahl der Positionen, an denen festgestellt wurde, dass dieser Faktor zu den wichtigsten Faktoren beim Vorhersagen der täglichen neuen Todesfälle im Zusammenhang mit COVID-19 gehört. Das bedeutet: Je größer die Anzahl ist, desto wichtiger ist dieser Faktor insgesamt an den Positionen. Der dunkelblaue Balken stellt die Analysevariable, die neuen Todesfälle im Zusammenhang mit COVID-19, dar. Am höchsten sind die Balken in den ersten drei bis vier Zeitverzögerungen, was darauf hinweist, dass die Anzahl der Todesfälle der vorherigen drei bis vier Tage die stärkste Vorhersagekraft für die Todesfälle am Folgetag besitzt. Obwohl diese Daten es nicht zeigen, kann sich eine Variable "selbst verzögern", wie zum Beispiel bei zyklischen Variablen wie der Temperatur, bei der wegen des Tag-und-Nacht-Zyklus ein Blick 24 Stunden zurück mehr Vorhersagekraft hat als ein Blick 2 Stunden zurück. Die hellblauen Balken stellen die Anzahl der am Tag neu verabreichten Impfstoffe dar. Die höchsten hellblauen Balken treten im Zeitfenster 10 bis 14 Tage in der Vergangenheit auf (die Balken am weitesten rechts), was darauf hinweist, dass sich Zunahmen oder Abnahmen in der Zahl der Impfstoffe auf die Anzahl der Todesfälle 10 bis 14 Tage in der Zukunft auswirken. Diese Verzögerung von 10 bis 14 Tagen entspricht der Zeit, die notwendig ist, damit sich eine Spitzenimmunität nach einer Impfung entwickelt.
Das Diagramm Gewichtung für Zeitverzögerung wird bei der Ausgabetabelle, die durch den optionalen Parameter Ausgabetabelle zur Bedeutung generiert wird, eingefügt.
Für den Modellmaßstab Einzelne Position enthält die Tabelle für jede wichtige Variable an jeder Position eine Zeile. Wie viele Faktoren an einer Position für wichtig erachtet werden, hängt vom Wert des Parameters Schwellenwert für Wichtigkeit ab. Wenn zum Beispiel der Wert 15 angegeben wird, werden die obersten 15 Prozent der Faktoren für jede Position in die Tabelle und das Diagramm einbezogen. Der Standardwert ist 10. Um die Tabelle und das Diagramm zu erstellen, müssen Sie mindestens eine andere Variable im Parameter Andere Variablen einfügen. Da die Anzahl der Zeitverzögerungen in Tabelle und Diagramm dem Wert des Parameters Zeitintervallfenster entspricht, muss das Zeitfenster breiter sein als jeder verzögerte Effekt, den Sie erfassen möchten. Zum Beispiel könnten Sie mit einem Zeitfenster von einer Woche den verzögerten Effekt der Impfstoffe auf die Anzahl der Todesfälle im Zusammenhang mit COVID-19 nicht erfassen.
Für den Modellmaßstab Gesamter Würfel müssen keine weiteren Variablen angegeben werden, um die Tabelle und das Diagramm zu erstellen. Auf der Y-Achse wird der Raw-Wert der prozentualen Gewichtung dargestellt (nicht die Anzahl von Positionen über dem Schwellenwert), da alle Positionen das gleiche Vorhersagemodell verwenden. Die folgende Abbildung zeigt das Diagramm Gewichtung für Zeitverzögerung für die Analyse des gesamten Würfels mit zwölf Zeitverzögerungen und drei Variablen:
Für den Modellmaßstab Zeitserien-Cluster-Bildung wird das Diagramm nur erstellt, wenn keine anderen Variablen angegeben wurden. Das Diagramm zeigt ein Raster von Diagrammen, getrennt nach Cluster. Die folgende Abbildung zeigt Gewichtung für Zeitverzögerung für drei Zeitserien-Cluster:
Korrekturen wegen geringer Variabilität
Wenn eine der Variablen in der Analyse an einer Position keine ausreichende Variabilität aufweist, kann das Forest-basierte Vorhersagemodell an der Position nicht trainiert und geschätzt werden. Wenn die Analysevariable für jedes Zeitintervall an einer Position konstant ist, wird die Position aus dem Training ausgeschlossen. Der konstante Wert wird bei jedem zukünftigen Zeitintervall vorhergesagt, und Konfidenzintervalle sind in den Vorhersagen nicht enthalten.
Wenn die Position zwei eindeutige Werte in der Zeitserie aufweist, werden zwei zusätzliche Überprüfungen für die Analysevariable und jede andere Variable durchgeführt. Bestimmen Sie zuerst für alle Zeitintervalle den Anteil, der einen konstanten Wert enthält. Bestimmen Sie dann nur für die Zeitintervalle, die aus der Validierung ausgeschlossen wurden, den Anteil, der einen konstanten Wert enthält. Wenn einer dieser Anteile mehr als zwei Drittel ausmacht, wird eine geringe Menge an Zufallsrauschen zu den Werten hinzugefügt, um Variabilität in der Zeitserie zu erstellen. Die Vorhersage- und Validierungsmodelle werden dann mit den neuen Werten berechnet. Das zu jedem Zeitintervall hinzugefügte Rauschen ist eine zufällige einheitliche Zahl zwischen 0 und 0,000001 (1e-6). Wenn der Bereich der Werte der Zeitserie weniger als 0,001 beträgt, ist das Rauschen einheitlich zwischen 0 und dem Bereichswert multipliziert mit 1e-6.
Auch mit hinzugefügtem Zufallsrauschen ist es möglich, dass das Forest-basierte Modell nach 30 Versuchen nicht berechnet werden kann. Dies tritt häufig bei sehr kurzen Zeitserien auf.
Saisonale Schwankungen und die Auswahl eines Zeitfensters
Die Anzahl der Zeitintervalle innerhalb jedes Zeitintervallfensters ist eine wichtige Entscheidung für das Forest-Modell. Eine entscheidende Überlegung ist, ob die Zeitserie saisonale Schwankungen aufweist, sich also natürliche zyklische Muster über eine bestimmte Anzahl von Zeitintervallen wiederholen. Beispielsweise weist die Temperatur in Abhängigkeit von den Jahreszeiten jährliche saisonale Zyklen auf. Da das Zeitfenster verwendet wird, um verknüpfte erklärende und abhängige Variablen zu erstellen, ist es am effektivsten, wenn diese erklärenden Variablen alle aus demselben saisonalen Zyklus stammen, sodass die saisonale Korrelation zwischen den erklärenden Variablen möglichst gering ist. Es wird empfohlen, für die Länge des Zeitintervallfensters die Anzahl der Zeitintervalle in einer natürlichen Saison zu verwenden. Wenn Ihre Daten mehrere Saisons anzeigen, wird empfohlen, die Länge der längsten Saison zu verwenden.
Wenn Sie die Anzahl der Zeitintervalle kennen, die einer Saison in Ihren Daten entsprechen, können Sie diese im Parameter Zeitintervallfenster angeben; dieser Wert wird daraufhin von jeder Position im Raum-Zeit-Würfel verwendet. Wenn Sie die Länge einer Saison nicht kennen oder die Saison für verschiedene Positionen unterschiedlich lang ist, kann der Parameter leer gelassen werden. In diesem Fall wird mithilfe einer spektralen Dichtefunktion für jede Position eine optimale Saisonlänge geschätzt. Weitere Informationen zu dieser Funktion finden Sie im Abschnitt Zusätzliche Quellen.
Wenn die mittels Spektralanalyse bestimmte optimale Saisonlänge für eine einzelne Position größer als 1, aber nicht größer als ein Drittel der Anzahl der Zeitintervalle an der Position ist, wird dieser optimale Wert für das Zeitintervallfenster festgelegt. Andernfalls werden 25 Prozent (abgerundet) der Anzahl der Zeitintervalle an der Position für das Zeitintervallfenster verwendet. Auf diese Weise wird sichergestellt, dass mindestens ein Zeitintervall im Fenster vorhanden ist und mindestens drei komplette saisonale Zyklen als erklärende Variablen verwendet werden. Der an der Position verwendete Zeitintervallwert wird im Feld Time Window der Ausgabe-Features gespeichert. Das Feld Is Seasonal der Ausgabe-Features enthält den Wert 1, wenn das Zeitintervallfenster mithilfe der Spektralanalyse bestimmt wurde; andernfalls enthält es den Wert 0. Dieser Workflow wird in der folgenden Abbildung zusammengefasst:
Für die Modellmaßstäbe Gesamter Würfel und Zeitserien-Cluster beträgt das standardmäßige Zeitfenster 25 Prozent (abgerundet) der Anzahl von Zeitschritten. Der Grund ist, dass unterschiedliche Positionen häufig ein anderes saisonales Verhalten aufweisen (beispielsweise beginnt der Winter an einigen Positionen früher als an anderen). Ein einzelner saisonaler Trend kann daher nicht geschätzt und für alle Positionen in der Gruppe verwendet werden.
Ansätze bei der Vorhersage
Es gibt vier Möglichkeiten, um die zum Trainieren des Forest verwendeten erklärenden und abhängigen Variablen darzustellen. Diese Optionen werden mit dem Parameter Vorhersageansatz angegeben.
Die erste Option ist Modell mit Wert erstellen. Diese Option verwendet die Raw-Werte in den Raum-Zeit-Abschnitten für die erklärenden und abhängigen Variablen. Bei Auswahl dieser Option liegen die vorhergesagten Werte im Bereich der abhängigen Variablen. Sie sollten diese Option deshalb nicht verwenden, wenn Ihre Daten Trends aufweisen, die zu- oder abnehmende Werte für die Zukunft vorhersagen. Die folgende Abbildung zeigt die Variablensätze, die zum Trainieren des Modells für eine einzelne Position verwendet werden, wobei jede Zeile den Satz erklärender Variablen und die verknüpfte abhängige Variable anzeigt. T ist die Anzahl der Zeitintervalle im Raum-Zeit-Würfel, W ist die Anzahl der Zeitintervalle in jedem Zeitintervallfenster, und Xt ist der Raw-Wert der Zeitserie zum Zeitpunkt t.
Hinweis:
Für die Modellmaßstäbe Gesamter Würfel und Zeitserien-Cluster ist nur der Vorhersageansatz Modell mit Wert erstellen verfügbar.
Die zweite Option ist Modell mit Wert nach Trendbereinigung erstellen. Dies ist die Standardoption des Werkzeugs. Diese Option entfernt (lineare) Trends erster Ordnung für die gesamte Zeitserie an jeder Position, und diese trendbereinigten Werte werden als erklärende und abhängige Variablen verwendet. Mit dieser Option können die Vorhersagen diesem Trend in die Zukunft folgen, sodass die vorhergesagten Werte außerhalb des Bereichs der abhängigen Variablen geschätzt werden können. Die folgende Abbildung zeigt die Variablensätze, die zum Trainieren des Modells für eine einzelne Position verwendet werden, wobei jede Zeile den Satz erklärender Variablen und die verknüpfte abhängige Variable anzeigt. T ist die Anzahl der Zeitintervalle im Raum-Zeit-Würfel, W ist die Anzahl der Zeitintervalle in jedem Zeitintervallfenster, und Dt ist der trendbereinigte Wert der Zeitserie zum Zeitpunkt t.
Die dritte Option ist Modell nach Residuum erstellen. Diese Option erstellt ein OLS-Regressionsmodell (Ordinary Least Squares), um die abhängige Variable basierend auf den erklärenden Variablen innerhalb jedes Zeitfensters vorherzusagen. Das Residuum dieses Regressionsmodells (die Differenz zwischen der OLS-Vorhersage und dem Raw-Wert der abhängigen Variable) wird verwendet, um die abhängigen Variable beim Trainieren des Forest darzustellen. Die folgende Abbildung zeigt die Variablensätze, die zum Trainieren des Modells für eine einzelne Position verwendet werden, wobei jede Zeile den Satz erklärender Variablen und die verknüpfte abhängige Variable anzeigt. T ist die Anzahl der Zeitintervalle im Raum-Zeit-Würfel, W ist die Anzahl der Zeitintervalle in jedem Zeitintervallfenster, Xt is der Wert der Zeitserie zum Zeitpunkt t, und X^t (Xt-hat) ist der geschätzte OLS-Wert zum Zeipunkt t.
Die letzte Option ist Modell nach trendbereinigtem Residuum erstellen. Diese Option entfernt (lineare) Trends erster Ordnung für die gesamte Zeitserie an einer Position. Anschließend wird ein OLS-Regressionsmodell erstellt, um die trendbereinigte abhängige Variable basierend auf den trendbereinigten erklärenden Variablen innerhalb jedes Zeitfensters vorherzusagen. Das Residuum dieses Regressionsmodells (die Differenz zwischen der OLS-Vorhersage und dem trendbereinigten Wert der abhängigen Variable) wird verwendet, um die abhängigen Variable beim Trainieren des Forest darzustellen. Die folgende Abbildung zeigt die Variablensätze, die zum Trainieren des Modells für eine einzelne Position verwendet werden, wobei jede Zeile den Satz erklärender Variablen und die verknüpfte abhängige Variable anzeigt. T ist die Anzahl der Zeitintervalle im Raum-Zeit-Würfel, W ist die Anzahl der Zeitintervalle in jedem Zeitintervallfenster, Dt is der trendbereinigte Wert der Zeitserie zum Zeitpunkt t, und D^t (Dt-hat) ist der geschätzte OLS-Wert zum Zeitpunkt t.
Erstellen von Konfidenzintervallen
Wenn mindestens zwei Zeitintervalle für die Validierung ausgeschlossen werden, berechnet das Werkzeug Konfidenzintervalle von 90 Prozent für jedes vorhergesagte Zeitintervall. Diese werden als Felder in den Ausgabe-Features sowie in den im Abschnitt Werkzeugausgaben beschriebenen Pop-up-Diagrammen angezeigt. Das Werkzeug konstruiert die Konfidenzintervalle, indem der Standardfehler für jeden Vorhersagewert geschätzt wird und Konfidenzgrenzen von 1,645 Standardfehlern oberhalb und unterhalb der einzelnen Vorhersagewerte erstellt werden.
Das Werkzeug führt die folgenden Berechnungen durch, um die Standardfehler zu schätzen:
- Berechnen Sie den Validierungs-RMSE von Ein-Schritt-voraus-Vorhersagen mithilfe von Zeitfenstern der Größe T, um für die Validierung ausgeschlossene Zeitintervalle vorherzusagen. Der Ein-Schritt-voraus-Validierungs-RMSE kann nur mit Zeitfenstern berechnet werden, die nicht zum Trainieren des Vorhersagemodells verwendet wurden und die mindestens ein Zeitintervall nach dem vorherzusagenden Fenster aufweisen. Das erste Zeitfenster sind die letzten T Zeitintervalle vor den ausgeschlossenen Zeitintervallen, und es sagt das erste auszuschließende Zeitintervall vorher. Das zweite Zeitfenster sind die letzten (T-1) Zeitintervalle und das erste ausgeschlossene Zeitintervall (der Wert wird zurückgegeben, um den RMSE zu berechnen), und es sagt das zweite ausgeschlossene Zeitintervall vorher. Das letzte Zeitfenster sagt die letzten ausgeschlossenen Zeitintervalle mithilfe der vorherigen T Zeitintervalle (an das Dataset zurückgegeben) vorher. Für den Maßstab "Einzelne Position" berechnet die Ein-Schritt-voraus-Vorhersage den RMSE mithilfe von M Werten für M Zeitintervalle, die für die Validierung zurückgehalten wurden. Für die Modellmaßstäbe "Gesamter Würfel" oder "Zeitserien-Cluster" trägt jede Position in der Gruppe M Werte zur Ein-Schritt-voraus-RMSE-Berechnung bei.
- Berechnen Sie den Validierungs-RMSE von Zwei-Schritte-voraus-Vorhersagen ebenfalls mithilfe von Zeitfenstern innerhalb der ausgeschlossenen Zeitintervalle. Jedes Fenster verwendet den vorhergesagte Wert von Schritt 1 als letztes Zeitintervall, um das nächste ausgeschlossene Zeitintervall vorherzusagen. Für Zwei-Schritte-voraus-Vorhersagen trägt jede Position (M-1) Werte zur Zwei-Schritte-voraus-RMSE-Berechnung bei.
- Berechnen Sie den Validierungs-RMSE von K-Schritte-voraus-Vorhersagen, bis K=M. Jede Position verwendet die vorhergesagten Werte der (K-1)-Schritte-voraus-RMSE-Berechnungen und trägt (M-K+1) Werte zur RMSE-Berechnung bei. Die letzte M-Schritte-voraus-RMSE-Berechnung nutzt einen Wert pro Position.
- Passen Sie ein Regressionsmodell an, dass den durchschnittlichen K-Schritte-voraus-RMSE der Positionen in der Gruppe (oder einer einzelnen Position) mithilfe von log(K) als erklärende Variable vorhersagt. Schätzen Sie mit diesem Modell die Standardfehler aller zukünftigen Zeitintervalle (alle Werte von K), einschließlich der ersten M Vorhersagewerte.
In der folgenden Abbildung wird dieser Prozess für die Analyse "Gesamter Würfel" dargestellt. Dabei werden drei Zeitintervalle (M=3) für die Validierung zurückgehalten, und das Zeitfenster enthält vier Zeitintervalle (T=4).
Hinweis:
In einigen Fällen kann die geschätzte Neigung oder der Schnittpunkt des Regressionsmodells, mit dem die Standardfehler vorhergesagt werden, negativ sein. Wenn der geschätzte Schnittpunkt negativ ist, wird das Modell ohne Schnittpunkt angepasst. Wenn die Neigung negativ ist, wird der maximale RMSE der zurückgehaltenen Zeitintervalle (einzelne Position, Zeitserie oder gesamter Würfel) als Standardfehler aller Vorhersagewerte verwendet.
Identifizieren von Zeitserienausreißern
Ausreißer in Zeitseriendaten sind Werte, die sich erheblich von den Mustern und Trends anderer Werte in der Zeitserie unterscheiden. So würden z. B. eine große Zahl von Onlinekäufen zu Feiertagen oder eine hohe Zahl von Verkehrsunfällen aufgrund starker Regenfälle wahrscheinlich als Ausreißer erkannt werden. Einfache Dateneingabefehler, wie das Vergessen einer Dezimalstelle, sind eine weitere häufige Quelle für Ausreißer. Die Identifizierung von Ausreißern ist bei der Zeitserienvorhersage sehr wichtig, da Ausreißer das Vorhersagemodell beeinflussen, das für zukünftige Werte eingesetzt wird. Selbst eine kleine Anzahl von Ausreißern in der Zeitserie einer Position kann die Genauigkeit und Zuverlässigkeit von Vorhersagen erheblich verringern. Positionen mit Ausreißern, insbesondere am Anfang oder Ende der Zeitserie, können zu irreführenden Vorhersagen führen. Wenn Sie diese Positionen kennen, können Sie besser einschätzen, wie verlässlich die für eine Position vorhergesagten Werte sind.
Ausreißer zeichnen sich nicht durch ihre reinen Werte aus, sondern vielmehr dadurch, wie stark sich ihre Werte von den angepassten Werten des Vorhersagemodells unterscheiden. Ob ein Wert als Ausreißer eingestuft wird oder nicht, hängt demnach vom Kontext und der Position und Zeit ab, die mit ihm verknüpft sind. Durch das Vorhersagemodell wird definiert, welcher Wert vor dem Hintergrund der gesamten Zeitserie erwartet wird, und Ausreißer sind die Werte, die erheblich von dieser Basislinie abweichen. Nehmen wir z. B. eine Zeitserie mit der jährlichen Durchschnittstemperatur. Da die Durchschnittstemperaturen in den letzten Jahrzehnten angestiegen sind, spiegelt sich dies auch im angepassten Vorhersagemodell wider. Das bedeutet, dass ein Temperaturwert, der 1950 als typisch und nicht als Ausreißer angesehen würde, wahrscheinlich im Jahr 2020 als Ausreißer angesehen werden würde. Mit anderen Worten: Eine typische Temperatur von 1950 würde für die Standards des Jahres 2020 als sehr niedrig angesehen werden.
Mit dem Parameter Ausreißer identifizieren können Sie die Zeitserienausreißer für jede Position finden lassen. Falls aktiviert, wird der Generalized Extreme Studentized Deviate (ESD)-Test für jede Position durchgeführt, um Zeitserienausreißer zu finden. Das Konfidenzniveau des Tests kann mit dem Parameter Konfidenzniveau angegeben werden. Als Standard werden 90 % verwendet. Der Generalized ESD-Test testet iterativ auf einen einzelnen Ausreißer, zwei Ausreißer, drei Ausreißer usw. an jeder Position bis zum Wert des Parameters Maximale Anzahl von Ausreißern (standardmäßig abgerundet 5 % der Anzahl der Zeitintervalle). Die größte statistisch signifikante Anzahl von Ausreißern wird zurückgegeben. Die Anzahl der Ausreißer an jeder Position ist in der Attributtabelle der Ausgabe-Features ersichtlich, und einzelne Ausreißer sind in den Pop-up-Diagrammen der Zeitserien zu sehen, die im nächsten Abschnitt behandelt werden.
Werkzeugausgaben
Die primäre Ausgabe des Werkzeugs enthält eine 2D-Feature-Class mit den Positionen im Wert Eingabe-Raum-Zeit-Würfel, die durch das zuletzt vorhergesagte Zeitintervall symbolisiert wird, sowie die Vorhersagen für alle anderen Zeitintervalle, die als Felder gespeichert sind. Obwohl alle Positionen ohne Berücksichtigung von räumlichen Beziehungen unabhängig voneinander vorhergesagt werden, können auf der Karte räumliche Muster für Flächen mit ähnlichen Zeitserien dargestellt werden.
Pop-up-Diagramme
Wenn Sie mit dem Navigationswerkzeug Erkunden auf ein beliebiges Feature auf der Karte klicken, wird der Bereich Pop-up angezeigt. Dieser enthält die Werte des Raum-Zeit-Würfels und das angepasste Forest-Modell sowie die vorhergesagten Werte zusammen mit den Konfidenzintervallen von 90 Prozent für jede Vorhersage. Die Werte des Raum-Zeit-Würfels werden blau dargestellt und sind durch eine blaue Linie miteinander verbunden. Die angepassten Werte werden in Orange dargestellt und sind durch eine gestrichelte orangefarbene Linie miteinander verbunden. Die vorhergesagten Werte werden orangefarben dargestellt und sind durch eine durchgezogene orangefarbene Linie miteinander verbunden, die die Vorhersage des Forest-Modells darstellt. Um jeden vorhergesagten Wert werden hellrote Konfidenzgrenzen gezeichnet. Wenn Sie auf einen beliebigen Punkt des Diagramms zeigen, werden dessen Datum und Wert angezeigt. Wenn Sie die Erkennung von Ausreißern in Zeitserien aktiviert haben, werden diese außerdem als große violette Punkte angezeigt.
Hinweis:
Wenn die Ausgabe-Features als Shapefile (.shp) gespeichert werden, werden keine Pop-up-Diagramme erstellt. Wenn die Konfidenzintervalle über das Diagramm hinausgehen, wird die Schaltfläche Vollständigen Datenbereich anzeigen über dem Diagramm angezeigt, mit der Sie das Diagramm so erweitern können, dass das gesamte Konfidenzintervall angezeigt wird.
Geoverarbeitungsmeldungen
Das Werkzeug gibt eine Reihe von Meldungen aus, die Informationen zur Ausführung des Werkzeugs enthalten. Die Meldungen bestehen aus drei Hauptabschnitten.
Im Abschnitt Details des Eingabe-Raum-Zeit-Würfels werden die Eigenschaften des Eingabe-Raum-Zeit-Würfels zusammen mit Informationen über die Anzahl der Zeitintervalle, Positionen und Raum-Zeit-Abschnitte angezeigt. Welche Eigenschaften im ersten Abschnitt angezeigt werden, hängt von der ursprünglichen Erstellung des Würfels ab, weshalb die Informationen von Würfel zu Würfel variieren.
Der Abschnitt Analysedetails enthält die Eigenschaften der Vorhersageergebnisse, darunter die Anzahl der vorhergesagten Zeitintervalle, die Anzahl der für die Validierung ausgeschlossenen Zeitintervalle, der prozentuale Anteil der Positionen, für die mithilfe der Spektralanalyse saisonale Schwankungen ermittelt wurden, und Informationen über die vorhergesagten Zeitintervalle. Wenn Sie für den Parameter Zeitintervallfenster keinen Wert angeben, wird eine Summenstatistik des geschätzten Zeitintervallfensters angezeigt, einschließlich Minimum, Maximum, Mittelwert, Medianwert und Standardabweichung.
Der Abschnitt Zusammenfassung der positionsübergreifenden Genauigkeit enthält die Summenstatistik für die Vorhersage- und Validierungs-RMSE-Werte aller Positionen. Für jeden Wert werden das Minimum, das Maximum, der Mittelwert, der Medianwert und die Standardabweichung angezeigt.
Der Abschnitt Zusammenfassung der Zeitserienausreißer wird angezeigt, wenn Sie die Erkennung von Ausreißern mit dem Parameter Ausreißeroption aktiviert haben. Dieser Abschnitt enthält Informationen wie z. B. die Anzahl und den Prozentsatz der Positionen, die Ausreißer enthalten, das Zeitintervall, das die meisten Ausreißer enthält, und zusammenfassende Statistiken für die Anzahl der Ausreißer nach Position und Zeitintervall.
Hinweis:
Die Geoverarbeitungsmeldungen werden während der Ausführung des Werkzeugs am unteren Rand des Bereichs Geoverarbeitung angezeigt. Sie können auf diese Meldungen zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen, auf die Pop-out-Schaltfläche klicken oder den Abschnitt "Meldungen" im Bereich Geoverarbeitung erweitern. Über den Geoverarbeitungsverlauf können Sie auch auf die Meldungen für ein zuvor ausgeführtes Werkzeug zugreifen.
Felder der Ausgabe-Features
Neben der Objekt-ID, den Geometriefeldern und dem Feld mit Pop-up-Diagrammen enthalten die Ausgabe-Features folgende Felder:
- Positions-ID (LOCATION): Die ID der entsprechenden Position des Raum-Zeit-Würfels.
- Vorhersage für (Analysevariable) in (Zeitintervall) (FCAST_1, FCAST_2 usw.): Der Vorhersagewert für die einzelnen künftigen Zeitintervalle. Der Feldaliasname enthält den Namen der Analysevariablen und das Datum der Vorhersage. Ein Feld mit diesem Typ wird für jedes vorhergesagte Zeitintervall erstellt.
- Hohes Intervall für (Analysevariable) in (Zeitintervall) (HIGH_1, HIGH_2 usw.): Die obere Grenze eines Konfidenzintervalls von 90 Prozent für den vorhergesagten Wert jedes zukünftigen Zeitintervalls. Der Feldaliasname enthält den Namen der Analysevariablen und das Datum der Vorhersage. Ein Feld mit diesem Typ wird für jedes vorhergesagte Zeitintervall erstellt.
- Niedriges Intervall für (Analysevariable) in (Zeitintervall) (LOW_1, LOW_2 usw.): Die untere Grenze eines Konfidenzintervalls von 90 Prozent für den vorhergesagten Wert jedes zukünftigen Zeitintervalls. Der Feldaliasname enthält den Namen der Analysevariablen und das Datum der Vorhersage. Ein Feld mit diesem Typ wird für jedes vorhergesagte Zeitintervall erstellt.
- Root Mean Square Error der Vorhersage (F_RMSE): Der Vorhersage-RMSE.
- Root Mean Square Error der Validierung (V_RMSE): Der Validierungs-RMSE. Wenn keine Zeitintervalle für die Validierung ausgeschlossen wurden, wird dieses Feld nicht erstellt.
- Zeitfenster (TIMEWINDOW): Das an der Position verwendete Zeitintervallfenster.
- Ist saisonal (IS_SEASON): Boolesche Variable, die angibt, ob das Zeitintervallfenster an der Position durch die spektrale Dichte bestimmt wurde. Der Wert 1 gibt an, dass durch Spektralanalyse saisonale Schwankungen ermittelt wurden, während der Wert 0 angibt, dass keine saisonalen Schwankungen ermittelt wurden. Wenn für den Parameter Zeitfenster ein Wert festgelegt wurde, weisen alle Positionen in diesem Feld den Wert 0 auf.
- Vorhersagemethode (METHOD): Ein Textfeld, das die Parameter des Forest-Modells anzeigt, z. B. den Zufallsursprung, die Anzahl der Bäume, die Stichprobengröße, den Vorhersageansatz, ob das Zeitintervallfenster vom Benutzer angegeben oder durch das Werkzeug ermittelt wurde, sonstige Variablen und Informationen zum Modellmaßstab und zur Cluster-Variabilität (sofern vorhanden). Mit diesem Feld können Sie Ergebnisse reproduzieren und die im Werkzeug Vorhersagen nach Position auswerten verwendeten Modelle identifizieren.
- Anzahl der Modellanpassungsausreißer (N_OUTLIERS): Die Anzahl der in der Zeitserie der Position erkannten Ausreißer. Dieses Feld wird nur erstellt, wenn Sie Ausreißer mit dem Parameter Ausreißeroption erkennen lassen.
Ausgabe-Raum-Zeit-Würfel
Bei Angabe eines Ausgabe-Raum-Zeit-Würfels enthält der Ausgabe-Würfel alle ursprünglichen Werte aus dem Eingabe-Raum-Zeit-Würfel, wobei die vorhergesagten Werte angehängt werden. Dieser neue Raum-Zeit-Würfel kann mit dem Werkzeug Raum-Zeit-Würfel in 2D visualisieren oder Raum-Zeit-Würfel in 3D visualisieren angezeigt und als Eingabe für die Werkzeuge der Toolbox Space Space Time Pattern Mining verwendet werden, z. B. Trendanalyse von Hot-Spots und Zeitserie-Cluster-Bildung.
Mit dem Werkzeug Vorhersagen nach Position auswerten können mehrere vorhergesagte Raum-Zeit-Würfel verglichen und zusammengeführt werden. Auf diese Weise können Sie mit unterschiedlichen Vorhersagewerkzeugen und -parametern mehrere Vorhersagewürfel erstellen. Das Werkzeug ermittelt dann mit dem Vorhersage-RMSE oder dem Validierungs-RMSE die beste Vorhersage für jede Position.
Empfehlungen und Beschränkungen
Bedenken Sie Folgendes, wenn Sie überlegen, ob dieses Werkzeug für Ihre Daten geeignet ist und welche Parameter verwendet werden sollen:
- Verglichen mit anderen Vorhersagewerkzeugen im Toolset Zeitserienvorhersage ist dieses Werkzeug das komplexeste, trifft allerdings auch die wenigsten Annahmen über die Daten. Es wird für Zeitserien mit komplexen Shapes und Trends empfohlen, die mit einfachen oder glatten mathematischen Funktionen schwierig zu modellieren sind. Außerdem wird es empfohlen, wenn die Annahmen anderer Methoden nicht zutreffen.
- Dieses Werkzeug kann zum Erkunden unterschiedlicher Modellmaßstäbe und der Wechselwirkungen zwischen verschiedenen Zeitserienvariablen verwendet werden. Es wird empfohlen, das Werkzeug mehrmals mit unterschiedlichen Maßstäben und anderen Variablen auszuführen und mithilfe des Werkzeugs Vorhersagen nach Position auswerten die beste Vorhersage für jede Position zu ermitteln.
Die Entscheidung über den Wert des Parameters Für die Validierung auszuschließende Anzahl an Zeitintervallen ist wichtig. Je mehr Zeitintervalle ausgeschlossen werden, desto weniger stehen für die Schätzung des Validierungsmodells zur Verfügung. Werden allerdings zu wenige Zeitintervalle ausgeschlossen, erfolgt die Schätzung des Validierungs-RMSE mit einer geringen Datenmenge und kann einen falschen Eindruck erwecken. Sie sollten so viele Zeitintervalle wie möglich ausschließen und gleichzeitig ausreichend Zeitintervalle behalten, um das Validierungsmodell zu schätzen. Es empfiehlt sich außerdem, mindestens so viele Zeitintervalle für die Validierung zurückzuhalten, wie vorhergesagt werden sollen, sofern der Raum-Zeit-Würfel eine entsprechende Anzahl an Zeitintervallen aufweist.
Darüber hinaus ist für des Erstellen von Konfidenzintervallen für die Vorhersagewerte das Anpassen einer Regressionsfunktion an die Zeitintervalle, die zur Validierung zurückgehalten werden, erforderlich. Da zum Anpassen dieser Funktion mindestens zwei Werte benötigt werden, müssen mindestens zwei Zeitintervalle zurückgehalten werden, um Konfidenzintervalle der Vorhersagen zu erstellen. Für eine größere Anzahl zurückgehaltener Zeitintervalle ist die Regressionsfunktion jedoch genauer (führt zu genaueren Konfidenzintervallen). Um sehr genaue Konfidenzintervalle zu erhalten, sollten Sie mindestens den Standardwert von 10 Prozent der Zeitintervalle für die Validierung zurückhalten.
- Dieses Werkzeug kann zu instabilen und unzuverlässigen Vorhersagen führen, wenn derselbe Wert innerhalb der Zeitserie mehrfach wiederholt wird. Eine häufige Ursache für wiederholte identische Werte ist die Null-Inflation, bei der die Daten Anzahlwerte darstellen, und viele Zeitintervalle den Wert 0 aufweisen.
- Wenn Sie Ausreißer finden lassen möchten, empfiehlt es sich, einen Wert für den Parameter Zeitintervallfenster einzugeben, anstatt den Parameter leer zu lassen und die Schätzung an jeder Position für ein anderes Zeitintervallfenster vorzunehmen. Bei jeder Position verwendet das Forest-Modell die Zeitintervalle im ersten Zeitintervallfenster, um das Vorhersagemodell zu trainieren. Ausreißer werden nur für die verbleibenden Zeitintervalle gesucht. Wenn bei unterschiedlichen Positionen eine unterschiedliche Anzahl von Zeitintervallen vom Training ausgeschlossen werden, können Summenstatistiken wie die mittlere, minimale und maximale Anzahl der Ausreißer je Zeitintervall oder je Position einen falschen Eindruck erwecken. Diese Statistiken werden nur für Zeitintervalle berechnet, die für jede Position vorhanden sind.
Zusätzliche Quellen
Weitere Informationen zu Forest-Modellen finden Sie in den folgenden Quellen:
- Breiman, Leo. (2001). "Random Forests". Machine Learning 45 (1): 5-32. https://doi.org/10.1023/A:1010933404324.
- Breiman, L., J.H. Friedman, R.A. Olshen und C.J. Stone. (2017). Classification and regression trees. New York: Routledge. Kapitel 4.
Zusätzliche Ressourcen und Quellen zu Forest-Modellen finden Sie unter Funktionsweise des Werkzeugs "Forest-basierte und geboostete Klassifizierung und Regression".
Weitere Informationen zur spektralen Dichtefunktion, mittels derer die Länge von Zeitfenstern geschätzt werden kann, finden Sie unter der Funktion findfrequency in den folgenden Quellen:
- Hyndman R, Athanasopoulos G, Bergmeir C, Caceres G, Chhay L, O'Hara-Wild M, Petropoulos F, Razbash S, Wang E, und Yasmeen F (2019). "Forecasting functions for time series and linear models", R-Paketversion 8.7, https://pkg.robjhyndman.com/forecast.
- Hyndman, R. J. und Khandakar, Y. (2008). "Automatic time series forecasting: the forecast package for R", Journal of Statistical Software, 26(3), S. 1-22. https://www.jstatsoft.org/article/view/v027i03.
Weitere Informationen zum Einbinden von erklärenden Variablen und zum Verzögerungseffekt finden Sie in der folgenden Quelle:
- Zheng, H. und Kusiak, A. (2009). "Prediction of Wind Farm Power Ramp Rates: A Data-Mining Approach."ASME. J. Sol. Energy Eng, 131(3): 031011. https://doi.org/10.1115/1.3142727.