Funktionsweise der Forest-basierten Vorhersage

Das Werkzeug Forest-basierte Vorhersage verwendet die Forest-basierte Regression, um zukünftige Zeitintervalle eines Raum-Zeit-Würfels vorherzusagen. Die primäre Ausgabe enthält eine Karte des letzten vorhergesagten Zeitintervalls sowie Informationsmeldungen und Pop-up-Diagramme. Sie können auch einen neuen Raum-Zeit-Würfel mit den Daten aus dem ursprünglichen Würfel erstellen, wobei die vorhergesagten Werte angehängt werden. Sie können außerdem Ausreißer in jeder Zeitserie suchen lassen, um die Positionen und Zeiten zu identifizieren, die erheblich von den Mustern und Trends des Restes der Zeitserie abweichen.

Dieses Werkzeug verwendet den gleichen zugrunde liegenden Algorithmus wie das Werkzeug Forest-basierte Klassifizierung und Regression, wenn es für die Regression genutzt wird. Die zur Erstellung des Forest-Regressionsmodells verwendeten Trainingsdaten werden mithilfe von Zeitfenstern an jeder Position des Raum-Zeit-Würfels konstruiert.

Weitere Informationen zur Forest-basierten Klassifizierung und Regression

Potenzielle Anwendungsbereiche

Da Forest-Regressionsmodelle nur wenige Annahmen über die Daten machen, können sie in zahlreichen Kontexten verwendet werden. Im Vergleich zu anderen Vorhersagemethoden sind sie am effektivsten, wenn die Daten komplexe Trends oder Jahreszeiten aufweisen oder sich auf eine Weise verändern, die nicht allgemeinen mathematischen Funktionen wie Polynomen, Exponentialkurven oder Sinuswellen ähnelt.

Sie können dieses Werkzeug beispielsweise in folgenden Anwendungsszenarien verwenden:

  • Ein Schulbezirk kann mit diesem Werkzeug die Anzahl der Schüler vorhersagen, die an jedem Tag in der folgenden Woche an jeder Schule im Bezirk fehlen werden.
  • Manager öffentlicher Versorgungsbetriebe können mit diesem Werkzeug den Elektrizitäts- und Wasserbedarf des nächsten Monats in den Stadtteilen ihres Verwaltungsbezirks vorhersagen.
  • Einzelhandelsgeschäfte können mit diesem Tool vorhersagen, wann einzelne Produkte ausverkauft sein werden, um den Bestand besser zu verwalten.

Vorhersage und Validierung

Beim Vorhersagen jeder Zeitserien erstellt das Werkzeug zwei Modelle. Das erste ist das Vorhersagemodell, mit dem die Werte zukünftiger Zeitintervalle vorhergesagt werden. Das zweite ist das Validierungsmodell, mit dem die vorhergesagten Werte validiert werden.

Vorhersagemodell

Das Vorhersagemodell wird konstruiert, indem ein Forest mit den Zeitserienwerten an jeder Position des Raum-Zeit-Würfels erstellt wird. Anschließend wird dieser Forest verwendet, um das nächste Zeitintervall vorherzusagen. Der vorhergesagte Wert für das neue Zeitintervall wird im Forest-Modell berücksichtigt, und das nächste Zeitintervall wird vorhergesagt. Dieser rekursive Prozess wird für alle zukünftigen Zeitintervalle fortgesetzt. Die Übereinstimmung des Forest mit jeder Zeitserie wird durch den Vorhersage-RMSE (Root Mean Square Error) gemessen, der der Quadratwurzel der durchschnittlichen quadrierten Differenz zwischen dem Forest-Modell und den Werten der Zeitserie entspricht.

Vorhersage-RMSE
, wobei T für die Anzahl der Zeitschritte, ct für den Wert des Forest-Modells und rt für den Raw-Wert der Zeitserie zum Zeitpunkt t steht.

Die folgende Abbildung zeigt die Raw-Werte einer Zeitserie und ein an die Zeitserie angepasstes Forest-Modell sowie Vorhersagen für zwei zukünftige Zeitintervalle. Der Vorhersage-RMSE misst, wie stark die angepassten Werte aus dem Forest von den Raw-Werten der Zeitserie abweichen.

Vorhersagemodell für Forest-basierte Vorhersage

Der Vorhersage-RMSE misst nur, wie genau das Forest-Modell mit den Raw-Werten der Zeitserie übereinstimmt. Er misst nicht, wie genau das Vorhersagemodell tatsächlich zukünftige Werte vorhersagt. Es kommt häufig vor, dass ein Forest-Modell zwar weitgehend mit einer Zeitserie übereinstimmt, aber keine genauen Vorhersagen liefert, wenn es extrapoliert wird. Das Validierungsmodell bietet eine Lösung für dieses Problem.

Validierungsmodell

Mit dem Validierungsmodell lässt sich bestimmen, wie genau das Vorhersagemodell zukünftige Werte für jede Zeitserie vorhersagen kann. Es wird konstruiert, indem einige der letzten Zeitintervalle jeder Zeitserie ausgeschlossen werden und das Forest-Modell an die nicht ausgeschlossenen Daten angepasst wird. Anschließend wird dieses Forest-Modell verwendet, um die Werte der Daten vorherzusagen, die zurückgehalten wurden, und die vorhergesagten Werte werden mit den ausgeblendeten Raw-Werten verglichen. Standardmäßig werden für die Validierung 10 Prozent der Zeitintervalle zurückgehalten, aber diese Zahl kann mithilfe des Parameters Für die Validierung auszuschließende Anzahl an Zeitintervallen geändert werden. Die Anzahl der ausgeschlossen Zeitintervalle darf 25 Prozent der Zeitintervalle nicht überschreiten, und es wird keine Validierung durchgeführt, wenn 0 angegeben wird. Die Genauigkeit der Vorhersagen wird gemessen, indem eine Validierungs-RMSE-Statistik berechnet wird, die der Quadratwurzel der durchschnittlichen quadrierten Differenz zwischen den vorhergesagten und den Raw-Werten der ausgeschlossenen Zeitintervalle entspricht.

Validierungs-RMSE
, wobei T für die Anzahl der Zeitintervalle, m für die Anzahl der für die Validierung zurückgehaltenen Zeitintervalle, ct für den Vorhersagewert aus den ersten T-m-Zeitintervallen und rt für den Raw-Wert der zum Zeitpunkt t der für die Validierung zurückgehaltenen Zeitserien steht.

Die folgende Abbildung zeigt ein Forest-Modell, das an die erste Hälfte einer Zeitserie angepasst und anschließend zur Vorhersage der zweiten Hälfte der Zeitserie verwendet wurde. Der Validierungs-RMSE misst, wie stark die vorhergesagten Werte von den Raw-Werten der zurückgehaltenen Zeitintervalle abweichen.

Validierungsmodell für Forest-basierte Vorhersage

Das Validierungsmodell ist wichtig, denn es kann die vorhergesagten Werte direkt mit den Raw-Werten vergleichen, um zu messen, wie genau die Vorhersagen des Forest sind. Es wird zwar nicht zur Vorhersage verwendet, dient jedoch der Begründung des Vorhersagemodells.

Hinweis:

Die Validierung bei der Zeitserienvorhersage ähnelt, ist aber nicht identisch mit einer häufig verwendeten Technik, die als Kreuzvalidierung bezeichnet wird. Der Unterschied besteht darin, dass bei der Validierung von Vorhersagen immer die letzten Zeitintervalle für die Validierung ausgeschlossen werden, während bei der Kreuzvalidierung entweder eine zufällige Teilmenge der Daten oder jeder Wert der Reihe nach ausgeschlossen wird.

Interpretation

Bei der Interpretation der Vorhersage-RMSE- und Validierungs-RMSE-Werte gilt es einiges zu beachten.

  • Die RMSE-Werte können nicht direkt miteinander verglichen werden, da sie unterschiedliche Sachverhalte messen. Der Vorhersage-RMSE misst die Übereinstimmung des Forest-Modells mit den Raw-Werten der Zeitserie, während der Validierungs-RMSE misst, wie genau das Forest-Modell zukünftige Werte vorhersagt. Da der Vorhersage-RMSE größere Datenmengen verwendet und nicht extrapoliert, ist er normalerweise kleiner als der Validierungs-RMSE.
  • Beide RMSE-Werte liegen in den Einheiten der Daten vor. Wenn es sich bei den Daten beispielsweise um Temperaturmesswerte in Grad Celsius handelt, ist ein Validierungs-RMSE von 50 sehr hoch, denn er gibt an, dass die vorhergesagten Werte um durchschnittlich etwa 50 Grad von den tatsächlichen Werten abweichen. Handelt es sich bei den Daten dagegen um den Tagesumsatz in US-Dollar eines großen Einzelhandelsgeschäfts, ist derselbe Validierungs-RMSE von 50 äußerst niedrig, denn er gibt an, dass der vorhergesagte Tagesumsatz nur um durchschnittlich 50 US-Dollar pro Tag von den tatsächlichen Werten abweicht.

Erstellen und Trainieren des Forest-Modells

Um zukünftige Werte vorherzusagen, muss das Forest-Modell trainiert werden, indem für jede Position erklärende Variablen mit abhängigen Variablen verknüpft werden. Das Forest-Modell erfordert wiederholte Trainingsdaten, aber es gibt nur eine Zeitserie für jede Position. Um mehrere Sätze von erklärenden und abhängigen Variablen in einer einzigen Zeitserie zu erstellen, werden Zeitfenster konstruiert, in denen die Zeitintervalle innerhalb jedes Zeitfensters als erklärende Variablen verwendet werden und das auf das Zeitfenster folgende Zeitintervall die abhängige Variable darstellt. Wenn eine Position z. B. 20 Zeitintervalle aufweist und das Zeitfenster 5 Zeitintervalle enthält, gibt es 15 Sätze von erklärenden und abhängigen Variablen, die zum Trainieren des Forest an dieser Position verwendet werden können. Der erste Satz hat die Zeitintervalle 1, 2, 3, 4 und 5 als erklärende Variablen und das Zeitintervall 6 als abhängige Variable. Der zweite Satz hat die Zeitintervalle 2, 3, 4, 5 und 6 als erklärende Variablen und das Zeitintervall 7 als abhängige Variable. Der letzte Satz hat die Zeitintervalle 15, 16, 17, 18 und 19 als erklärende Variablen und das Zeitintervall 20 als abhängige Variable. Die Anzahl der Zeitintervalle in jedem Zeitfenster kann mithilfe des Parameters Zeitintervallfenster festgelegt werden. Der Wert für das Zeitfenster kann 1 betragen (sodass jedes Zeitfenster nur ein Zeitintervall enthält) und darf ein Drittel der Anzahl der Zeitintervalle an der Position nicht überschreiten.

Mithilfe des trainierten Forest-Modells werden die letzten Zeitintervalle der Position als erklärende Variablen zur Vorhersage des ersten zukünftigen Zeitintervalls verwendet. Das zweite zukünftige Zeitintervall wird dann mithilfe der vorherigen Zeitintervalle im Zeitfenster vorhergesagt, wobei eines dieser Zeitintervalle der erste vorhergesagte Wert ist. Entsprechend verwendet das dritte vorhergesagte Zeitintervall die vorherigen Zeitintervalle im Zeitfenster, wobei zwei dieser Zeitintervalle vorhergesagte Zeitintervalle sind. Dieser Prozess wird für alle zukünftigen Zeitintervalle fortgesetzt.

Die folgende Abbildung zeigt die Sätze von erklärenden und abhängigen Variablen, die zum Trainieren des Forest-Modells und zur Vorhersage der ersten sieben zukünftigen Zeitintervalle verwendet werden:

Trainieren des Forest-Vorhersagemodells mithilfe von Zeitfenstern
Das Forest-Vorhersagemodell wird mithilfe von Zeitfenstern trainiert.

Saisonale Schwankungen und die Auswahl eines Zeitfensters

Die Anzahl der Zeitintervalle innerhalb jedes Zeitintervallfensters ist eine wichtige Entscheidung für das Forest-Modell. Eine entscheidende Überlegung ist, ob die Zeitserie saisonale Schwankungen aufweist, sich also natürliche zyklische Muster über eine bestimmte Anzahl von Zeitintervallen wiederholen. Beispielsweise weist die Temperatur in Abhängigkeit von den Jahreszeiten jährliche saisonale Zyklen auf. Da das Zeitfenster verwendet wird, um verknüpfte erklärende und abhängige Variablen zu erstellen, ist es am effektivsten, wenn diese erklärenden Variablen alle aus demselben saisonalen Zyklus stammen, sodass die saisonale Korrelation zwischen den erklärenden Variablen möglichst gering ist. Es wird empfohlen, für die Länge des Zeitintervallfensters die Anzahl der Zeitintervalle in einer natürlichen Saison zu verwenden. Wenn Ihre Daten mehrere Saisons anzeigen, wird empfohlen, die Länge der längsten Saison zu verwenden.

Wenn Sie die Anzahl der Zeitintervalle kennen, die einer Saison in Ihren Daten entsprechen, können Sie diese im Parameter Zeitintervallfenster angeben; dieser Wert wird daraufhin von jeder Position im Raum-Zeit-Würfel verwendet. Wenn Sie die Länge einer Saison nicht kennen oder die Saison für verschiedene Positionen unterschiedlich lang ist, kann der Parameter leer gelassen werden. In diesem Fall wird mithilfe einer spektralen Dichtefunktion für jede Position eine optimale Saisonlänge geschätzt. Weitere Informationen zu dieser Funktion finden Sie im Abschnitt Zusätzliche Quellen.

Wenn die mittels Spektralanalyse bestimmte optimale Saisonlänge für eine einzelne Position größer als 1, aber nicht größer als ein Drittel der Anzahl der Zeitintervalle an der Position ist, wird dieser optimale Wert für das Zeitintervallfenster festgelegt. Andernfalls werden 25 Prozent (abgerundet) der Anzahl der Zeitintervalle an der Position für das Zeitintervallfenster verwendet. Auf diese Weise wird sichergestellt, dass mindestens ein Zeitintervall im Fenster vorhanden ist und mindestens drei komplette saisonale Zyklen als erklärende Variablen verwendet werden. Der an der Position verwendete Zeitintervallwert wird im Feld Time Window der Ausgabe-Features gespeichert. Das Feld Is Seasonal der Ausgabe-Features enthält den Wert 1, wenn das Zeitintervallfenster mithilfe der Spektralanalyse bestimmt wurde; andernfalls enthält es den Wert 0. Dieser Workflow wird in der folgenden Abbildung zusammengefasst:

Bestimmen des Parameters "Zeitintervallfenster"
Das Zeitintervallfenster kann für jede Position angegeben oder geschätzt werden, indem saisonale Schwankungen ermittelt werden.

Ansätze bei der Vorhersage

Es gibt vier Möglichkeiten, um die zum Trainieren des Forest verwendeten erklärenden und abhängigen Variablen darzustellen. Diese Optionen werden mit dem Parameter Vorhersageansatz angegeben.

Die erste Option ist Modell mit Wert erstellen. Diese Option verwendet die Raw-Werte in den Raum-Zeit-Abschnitten für die erklärenden und abhängigen Variablen. Bei Auswahl dieser Option liegen die vorhergesagten Werte im Bereich der abhängigen Variablen. Sie sollten diese Option deshalb nicht verwenden, wenn Ihre Daten Trends aufweisen, die zu- oder abnehmende Werte für die Zukunft vorhersagen. Die folgende Abbildung zeigt die Variablensätze, die zum Trainieren des Modells für eine einzelne Position verwendet werden, wobei jede Zeile den Satz erklärender Variablen und die verknüpfte abhängige Variable anzeigt. T ist die Anzahl der Zeitintervalle im Raum-Zeit-Würfel, W ist die Anzahl der Zeitintervalle in jedem Zeitintervallfenster, und Xt ist der Raw-Wert der Zeitserie zum Zeitpunkt t.

Matrix zum Erstellen des Modells nach Wert

Die zweite Option ist Modell mit Wert nach Trendbereinigung erstellen. Dies ist die Standardoption des Werkzeugs. Diese Option entfernt (lineare) Trends erster Ordnung für die gesamte Zeitserie an jeder Position, und diese trendbereinigten Werte werden als erklärende und abhängige Variablen verwendet. Mit dieser Option können die Vorhersagen diesem Trend in die Zukunft folgen, sodass die vorhergesagten Werte außerhalb des Bereichs der abhängigen Variablen geschätzt werden können. Die folgende Abbildung zeigt die Variablensätze, die zum Trainieren des Modells für eine einzelne Position verwendet werden, wobei jede Zeile den Satz erklärender Variablen und die verknüpfte abhängige Variable anzeigt. T ist die Anzahl der Zeitintervalle im Raum-Zeit-Würfel, W ist die Anzahl der Zeitintervalle in jedem Zeitintervallfenster, und Dt ist der trendbereinigte Wert der Zeitserie zum Zeitpunkt t.

Matrix zum Erstellen des Modells nach trendbereinigtem Wert

Die dritte Option ist Modell nach Residuum erstellen. Diese Option erstellt ein OLS-Regressionsmodell (Ordinary Least Squares), um die abhängige Variable basierend auf den erklärenden Variablen innerhalb jedes Zeitfensters vorherzusagen. Das Residuum dieses Regressionsmodells (die Differenz zwischen der OLS-Vorhersage und dem Raw-Wert der abhängigen Variable) wird verwendet, um die abhängigen Variable beim Trainieren des Forest darzustellen. Die folgende Abbildung zeigt die Variablensätze, die zum Trainieren des Modells für eine einzelne Position verwendet werden, wobei jede Zeile den Satz erklärender Variablen und die verknüpfte abhängige Variable anzeigt. T ist die Anzahl der Zeitintervalle im Raum-Zeit-Würfel, W ist die Anzahl der Zeitintervalle in jedem Zeitintervallfenster, Xt is der Wert der Zeitserie zum Zeitpunkt t, und X^t (Xt-hat) ist der geschätzte OLS-Wert zum Zeipunkt t.

Matrix zum Erstellen des Modells nach Residuum

Die letzte Option ist Modell nach trendbereinigtem Residuum erstellen. Diese Option entfernt (lineare) Trends erster Ordnung für die gesamte Zeitserie an einer Position. Anschließend wird ein OLS-Regressionsmodell erstellt, um die trendbereinigte abhängige Variable basierend auf den trendbereinigten erklärenden Variablen innerhalb jedes Zeitfensters vorherzusagen. Das Residuum dieses Regressionsmodells (die Differenz zwischen der OLS-Vorhersage und dem trendbereinigten Wert der abhängigen Variable) wird verwendet, um die abhängigen Variable beim Trainieren des Forest darzustellen. Die folgende Abbildung zeigt die Variablensätze, die zum Trainieren des Modells für eine einzelne Position verwendet werden, wobei jede Zeile den Satz erklärender Variablen und die verknüpfte abhängige Variable anzeigt. T ist die Anzahl der Zeitintervalle im Raum-Zeit-Würfel, W ist die Anzahl der Zeitintervalle in jedem Zeitintervallfenster, Dt is der trendbereinigte Wert der Zeitserie zum Zeitpunkt t, und D^t (Dt-hat) ist der geschätzte OLS-Wert zum Zeitpunkt t.

Matrix zum Erstellen des Modells nach trendbereinigtem Residuum

Erstellen von Konfidenzintervallen

Das Werkzeug berechnet Konfidenzintervalle von 90 Prozent für jedes vorhergesagte Zeitintervall. Diese werden als Felder in den Ausgabe-Features sowie in den im nächsten Abschnitt erläuterten Pop-up-Diagrammen angezeigt. Zur Berechnung der oberen und unteren Grenze des Konfidenzintervalls für das erste vorhergesagte Zeitintervall wird die Quantil-Random-Forest-Regression verwendet. Um den Wert eines zukünftigen Zeitpunkts vorherzusagen, werden die Beobachtungen innerhalb jedes Blattes eines Baumes gemittelt. Bei der Quantil-Regression wird jedoch jede Beobachtung innerhalb jedes Blattes verwendet, was eine Verteilung der vorhergesagten Werte für das erste Zeitintervall zur Folge hat. Das Konfidenzintervall von 90 Prozent wird mithilfe des 5. und 95. Quantils dieser Verteilung erstellt.

Das Konfidenzintervall für die zweite Vorhersage wird auf ähnliche Weise berechnet, dabei aber unter Berücksichtigung des Konfidenzintervalls der ersten Vorhersage angepasst. Zur Erstellung einer Verteilung für das zweite vorhergesagte Zeitintervall wird wiederum eine Quantil-Regression verwendet, wobei das erste vorhergesagte Zeitintervall als Einzelwert behandelt wird und das 5. und 95. Quantil der Verteilung berechnet werden. Die tatsächliche Konfidenz für die zweite Vorhersage wird durch Addition der Längen der Konfidenzgrenzen beider Vorhersagen berechnet. Die obere Grenze der zweiten Vorhersage ist gleich der Länge der oberen Grenze für die erste Vorhersage plus die Länge der oberen Konfidenzgrenze für die zweite Vorhersage (bei der Berechnung wird vorausgesetzt, dass die erste Vorhersage ein Einzelwert und keine Verteilung ist). Die untere Grenze wird auf ähnliche Weise berechnet, indem die Längen der unteren Konfidenzgrenzen addiert werden. Die Berechnung des Konfidenzintervalls für das dritte vorhergesagte Zeitintervall erfolgt, indem erneut die Quantil-Regression durchgeführt wird und die Längen der Fehlergrenzen für alle drei Vorhersagen addiert werden. Dieser Prozess wird so lange fortgesetzt, bis alle Zeitintervalle vorhergesagt wurden. Durch das Addieren der Fehlergrenzen wird sichergestellt, dass der Fehler durch die Projektionen weitergegeben wird und die Länge der Konfidenzbänder im Zeitverlauf zunimmt.

Hinweis:

Die Konfidenzgrenzen für das zweite Zeitintervall und darüber hinaus werden konservativ berechnet, indem die Fehler früherer Vorhersagen addiert werden. Das tatsächliche Konfidenzniveau dieser Intervalle beträgt mindestens 90 Prozent, könnte aber auch höher sein.

Identifizieren von Zeitserienausreißern

Ausreißer in Zeitseriendaten sind Werte, die sich erheblich von den Mustern und Trends anderer Werte in der Zeitserie unterscheiden. So würden z. B. eine große Zahl von Onlinekäufen zu Feiertagen oder eine hohe Zahl von Verkehrsunfällen aufgrund starker Regenfälle wahrscheinlich als Ausreißer erkannt werden. Einfache Dateneingabefehler, wie das Vergessen einer Dezimalstelle, sind eine weitere häufige Quelle für Ausreißer. Die Identifizierung von Ausreißern ist bei der Zeitserienvorhersage sehr wichtig, da Ausreißer das Vorhersagemodell beeinflussen, das für zukünftige Werte eingesetzt wird. Selbst eine kleine Anzahl von Ausreißern in der Zeitserie einer Position kann die Genauigkeit und Zuverlässigkeit von Vorhersagen erheblich verringern. Positionen mit Ausreißern, insbesondere am Anfang oder Ende der Zeitserie, können zu irreführenden Vorhersagen führen. Wenn Sie diese Positionen kennen, können Sie besser einschätzen, wie verlässlich die für eine Position vorhergesagten Werte sind.

Ausreißer zeichnen sich nicht durch ihre reinen Werte aus, sondern vielmehr dadurch, wie stark sich ihre Werte von den angepassten Werten des Vorhersagemodells unterscheiden. Ob ein Wert als Ausreißer eingestuft wird oder nicht, hängt demnach vom Kontext und der Position und Zeit ab, die mit ihm verknüpft sind. Durch das Vorhersagemodell wird definiert, welcher Wert vor dem Hintergrund der gesamten Zeitserie erwartet wird, und Ausreißer sind die Werte, die erheblich von dieser Basislinie abweichen. Nehmen wir z. B. eine Zeitserie mit der jährlichen Durchschnittstemperatur. Da die Durchschnittstemperaturen in den letzten Jahrzehnten angestiegen sind, spiegelt sich dies auch im angepassten Vorhersagemodell wider. Das bedeutet, dass ein Temperaturwert, der 1950 als typisch und nicht als Ausreißer angesehen würde, wahrscheinlich im Jahr 2020 als Ausreißer angesehen werden würde. Mit anderen Worten: Eine typische Temperatur von 1950 würde für die Standards des Jahres 2020 als sehr niedrig angesehen werden.

Mit dem Parameter Ausreißer identifizieren können Sie die Zeitserienausreißer für jede Position finden lassen. Falls aktiviert, wird der Generalized Extreme Studentized Deviate (ESD)-Test für jede Position durchgeführt, um Zeitserienausreißer zu finden. Das Konfidenzniveau des Tests kann mit dem Parameter Konfidenzniveau angegeben werden. Als Standard werden 90 % verwendet. Der Generalized ESD-Test testet iterativ auf einen einzelnen Ausreißer, zwei Ausreißer, drei Ausreißer usw. an jeder Position bis zum Wert des Parameters Maximale Anzahl von Ausreißern (standardmäßig abgerundet 5 % der Anzahl der Zeitintervalle). Die größte statistisch signifikante Anzahl von Ausreißern wird zurückgegeben. Die Anzahl der Ausreißer an jeder Position ist in der Attributtabelle der Ausgabe-Features ersichtlich, und einzelne Ausreißer sind in den Pop-up-Diagrammen der Zeitserien zu sehen, die im nächsten Abschnitt behandelt werden.

Weitere Informationen zu Ausreißern in der Zeitserienanalyse, zum Generalized ESD-Test und zur Auswertung der Ergebnisse

Werkzeugausgaben

Die primäre Ausgabe dieses Werkzeugs enthält eine 2D-Feature-Class mit den Positionen des Eingabe-Raum-Zeit-Würfels, die durch das zuletzt vorhergesagte Zeitintervall symbolisiert wird, sowie die Vorhersagen für alle anderen Zeitintervalle, die als Felder gespeichert sind. Obwohl alle Positionen ohne Berücksichtigung von räumlichen Beziehungen unabhängig voneinander vorhergesagt werden, können auf der Karte räumliche Muster für Flächen mit ähnlichen Zeitserien dargestellt werden.

Pop-up-Diagramme

Wenn Sie mit dem Navigationswerkzeug Erkunden auf ein beliebiges Feature auf der Karte klicken, wird der Bereich Pop-up angezeigt. Dieser enthält die Werte des Raum-Zeit-Würfels und das angepasste Forest-Modell sowie die vorhergesagten Werte zusammen mit den Konfidenzintervallen von 90 Prozent für jede Vorhersage. Die Werte des Raum-Zeit-Würfels werden blau dargestellt und sind durch eine blaue Linie miteinander verbunden. Die angepassten Werte werden in Orange dargestellt und sind durch eine gestrichelte orangefarbene Linie miteinander verbunden. Die vorhergesagten Werte werden orangefarben dargestellt und sind durch eine durchgezogene orangefarbene Linie miteinander verbunden, die die Vorhersage des Forest-Modells darstellt. Um jeden vorhergesagten Wert werden hellrote Konfidenzgrenzen gezeichnet. Wenn Sie auf einen beliebigen Punkt des Diagramms zeigen, sehen Sie sein Datum und seinen Wert. Wenn Sie die Erkennung von Ausreißern in Zeitserien aktiviert haben, werden diese außerdem als große violette Punkte angezeigt.

Pop-up-Diagramm mit Forest-basierter Vorhersage
Das Pop-up-Diagramm zeigt die ursprünglichen, angepassten und vorhergesagten Werte sowie die Konfidenzintervalle an.

Hinweis:

Wenn die Ausgabe-Features als Shapefile (.shp) gespeichert werden, werden keine Pop-up-Diagramme erstellt. Wenn die Konfidenzintervalle über das Diagramm hinausgehen, wird die Schaltfläche Vollständigen Datenbereich anzeigen über dem Diagramm angezeigt, mit der Sie das Diagramm so erweitern können, dass das gesamte Konfidenzintervall angezeigt wird.

Geoverarbeitungsmeldungen

Das Werkzeug gibt eine Reihe von Meldungen aus, die Informationen zur Ausführung des Werkzeugs enthalten. Die Meldungen bestehen aus drei Hauptabschnitten.

Im Abschnitt Details des Eingabe-Raum-Zeit-Würfels werden die Eigenschaften des Eingabe-Raum-Zeit-Würfels zusammen mit Informationen über die Anzahl der Zeitintervalle, Positionen und Raum-Zeit-Abschnitte angezeigt. Welche Eigenschaften im ersten Abschnitt angezeigt werden, hängt von der ursprünglichen Erstellung des Würfels ab, weshalb die Informationen von Würfel zu Würfel variieren.

Der Abschnitt Analysedetails enthält die Eigenschaften der Vorhersageergebnisse, darunter die Anzahl der vorhergesagten Zeitintervalle, die Anzahl der für die Validierung ausgeschlossenen Zeitintervalle, der prozentuale Anteil der Positionen, für die mithilfe der Spektralanalyse saisonale Schwankungen ermittelt wurden, und Informationen über die vorhergesagten Zeitintervalle. Wenn Sie für den Parameter Zeitintervallfenster keinen Wert angeben, wird eine Summenstatistik des geschätzten Zeitintervallfensters angezeigt, einschließlich Minimum, Maximum, Mittelwert, Medianwert und Standardabweichung.

Der Abschnitt Zusammenfassung der positionsübergreifenden Genauigkeit enthält die Summenstatistik für die Vorhersage- und Validierungs-RMSE-Werte aller Positionen. Für jeden Wert werden das Minimum, das Maximum, der Mittelwert, der Medianwert und die Standardabweichung angezeigt.

Der Abschnitt Zusammenfassung der Zeitserienausreißer wird angezeigt, wenn Sie die Erkennung von Ausreißern mit dem Parameter Ausreißeroption aktiviert haben. Dieser Abschnitt enthält Informationen wie z. B. die Anzahl und den Prozentsatz der Positionen, die Ausreißer enthalten, das Zeitintervall, das die meisten Ausreißer enthält, und zusammenfassende Statistiken für die Anzahl der Ausreißer nach Position und Zeitintervall.

Hinweis:

Die Geoverarbeitungsmeldungen werden während der Ausführung des Werkzeugs am unteren Rand des Bereichs Geoverarbeitung angezeigt. Sie können auf diese Meldungen zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen, auf die Pop-out-Schaltfläche Pop-out klicken oder den Abschnitt "Meldungen" im Bereich Geoverarbeitung erweitern. Über den Geoverarbeitungsverlauf können Sie auch auf die Meldungen für ein zuvor ausgeführtes Werkzeug zugreifen.

Felder der Ausgabe-Features

Neben der Objekt-ID, den Geometriefeldern und dem Feld mit Pop-up-Diagrammen enthalten die Ausgabe-Features folgende Felder:

  • Positions-ID (LOCATION): Die ID der entsprechenden Position des Raum-Zeit-Würfels.
  • Vorhersage für (Analysevariable) in (Zeitintervall) (FCAST_1, FCAST_2 usw.): Der Vorhersagewert für die einzelnen künftigen Zeitintervalle. Der Feldaliasname enthält den Namen der Analysevariablen und das Datum der Vorhersage. Ein Feld mit diesem Typ wird für jedes vorhergesagte Zeitintervall erstellt.
  • Hohes Intervall für (Analysevariable) in (Zeitintervall) (HIGH_1, HIGH_2 usw.): Die obere Grenze eines Konfidenzintervalls von 90 Prozent für den vorhergesagten Wert jedes zukünftigen Zeitintervalls. Der Feldaliasname enthält den Namen der Analysevariablen und das Datum der Vorhersage. Ein Feld mit diesem Typ wird für jedes vorhergesagte Zeitintervall erstellt.
  • Niedriges Intervall für (Analysevariable) in (Zeitintervall) (LOW_1, LOW_2 usw.): Die untere Grenze eines Konfidenzintervalls von 90 Prozent für den vorhergesagten Wert jedes zukünftigen Zeitintervalls. Der Feldaliasname enthält den Namen der Analysevariablen und das Datum der Vorhersage. Ein Feld mit diesem Typ wird für jedes vorhergesagte Zeitintervall erstellt.
  • Root Mean Square Error der Vorhersage (F_RMSE): Der Vorhersage-RMSE.
  • Root Mean Square Error der Validierung (V_RMSE): Der Validierungs-RMSE. Wenn keine Zeitintervalle für die Validierung ausgeschlossen wurden, wird dieses Feld nicht erstellt.
  • Zeitfenster (TIMEWINDOW): Das an der Position verwendete Zeitintervallfenster.
  • Ist saisonal (IS_SEASON): Boolesche Variable, die angibt, ob das Zeitintervallfenster an der Position durch die spektrale Dichte bestimmt wurde. Der Wert 1 gibt an, dass durch Spektralanalyse saisonale Schwankungen ermittelt wurden, während der Wert 0 angibt, dass keine saisonalen Schwankungen ermittelt wurden. Wenn für den Parameter Zeitfenster ein Wert festgelegt wurde, weisen alle Positionen in diesem Feld den Wert 0 auf.
  • Vorhersagemethode (METHOD): Ein Textfeld, das die Parameter des Forest-Modells anzeigt, z. B. den Zufallsursprung, die Anzahl der Bäume, die Stichprobengröße, den Vorhersageansatz und ob das Zeitintervallfenster vom Benutzer angegeben oder durch das Werkzeug ermittelt wurde. Mit diesem Feld können Sie Ergebnisse reproduzieren und die im Werkzeug Vorhersagen nach Position auswerten verwendeten Modelle identifizieren.
  • Anzahl der Modellanpassungsausreißer (N_OUTLIERS): Die Anzahl der in der Zeitserie der Position erkannten Ausreißer. Dieses Feld wird nur erstellt, wenn Sie Ausreißer mit dem Parameter Ausreißeroption erkennen lassen.

Ausgabe-Raum-Zeit-Würfel

Bei Angabe eines Ausgabe-Raum-Zeit-Würfels enthält der Ausgabe-Würfel alle ursprünglichen Werte aus dem Eingabe-Raum-Zeit-Würfel, wobei die vorhergesagten Werte angehängt werden. Dieser neue Raum-Zeit-Würfel kann mit dem Werkzeug Raum-Zeit-Würfel in 2D visualisieren oder Raum-Zeit-Würfel in 3D visualisieren angezeigt und als Eingabe für die Werkzeuge der Toolbox Space Space Time Pattern Mining verwendet werden, z. B. Trendanalyse von Hot-Spots und Zeitserie-Cluster-Bildung.

Mit dem Werkzeug Vorhersagen nach Position auswerten können mehrere vorhergesagte Raum-Zeit-Würfel verglichen und zusammengeführt werden. Auf diese Weise können Sie mit unterschiedlichen Vorhersagewerkzeugen und -parametern mehrere Vorhersagewürfel erstellen. Das Werkzeug ermittelt dann mit dem Vorhersage-RMSE oder dem Validierungs-RMSE die beste Vorhersage für jede Position.

Empfehlungen und Beschränkungen

Bei der Entscheidung, ob dieses Werkzeug für Ihre Daten geeignet ist und welche Parameter ausgewählt werden sollten, sind einige Punkte zu beachten.

  • Verglichen mit anderen Vorhersagewerkzeugen im Toolset Zeitserienvorhersage ist dieses Werkzeug das komplexeste, trifft allerdings auch die wenigsten Annahmen über die Daten. Es wird für Zeitserien mit komplexen Shapes und Trends empfohlen, die mit einfachen oder glatten mathematischen Funktionen schwierig zu modellieren sind. Außerdem wird es empfohlen, wenn die Annahmen anderer Methoden nicht zutreffen.
  • Die Entscheidung über die Anzahl der Zeitintervalle, die für die Validierung ausgeschlossen werden sollen, ist wichtig. Je mehr Zeitintervalle ausgeschlossen werden, desto weniger stehen für die Schätzung des Validierungsmodells zur Verfügung. Werden allerdings zu wenige Zeitintervalle ausgeschlossen, erfolgt die Schätzung des Validierungs-RMSE mit einer geringen Datenmenge und kann einen falschen Eindruck erwecken. Sie sollten so viele Zeitintervalle wie möglich ausschließen und gleichzeitig ausreichend Zeitintervalle behalten, um das Validierungsmodell zu schätzen. Es empfiehlt sich außerdem, mindestens so viele Zeitintervalle für die Validierung zurückzuhalten, wie vorhergesagt werden sollen, sofern der Raum-Zeit-Würfel eine entsprechende Anzahl an Zeitintervallen aufweist.
  • Dieses Werkzeug kann zu instabilen und unzuverlässigen Vorhersagen führen, wenn derselbe Wert innerhalb der Zeitserie mehrfach wiederholt wird. Eine häufige Ursache für wiederholte identische Werte ist die Null-Inflation, bei der die Daten Anzahlwerte darstellen, und viele Zeitintervalle den Wert 0 aufweisen.
  • Wenn Sie Ausreißer finden lassen möchten, empfiehlt es sich, einen Wert für den Parameter Zeitintervallfenster einzugeben, anstatt den Parameter leer zu lassen und die Schätzung an jeder Position für ein anderes Zeitintervallfenster vorzunehmen. Bei jeder Position verwendet das Forest-Modell die Zeitintervalle im ersten Zeitintervallfenster, um das Vorhersagemodell zu trainieren. Ausreißer werden nur für die verbleibenden Zeitintervalle gesucht. Wenn bei unterschiedlichen Positionen eine unterschiedliche Anzahl von Zeitintervallen vom Training ausgeschlossen werden, können Summenstatistiken wie die mittlere, minimale und maximale Anzahl der Ausreißer je Zeitintervall oder je Position einen falschen Eindruck erwecken. Diese Statistiken werden nur für Zeitintervalle berechnet, die für jede Position vorhanden sind.

Zusätzliche Ressourcen

Weitere Informationen zu Forest-Modellen finden Sie in den folgenden Quellen:

  • Breiman, Leo. (2001). "Random Forests". Machine Learning 45 (1): 5–32. https://doi.org/10.1023/A:1010933404324.
  • Breiman, L., J.H. Friedman, R.A. Olshen und C.J. Stone. (2017). Classification and regression trees. New York: Routledge. Kapitel 4.

Zusätzliche Ressourcen und Quellen zu Forest-Modellen finden Sie unter Verwendung von Forest-basierter Klassifizierung und -Regression.

Weitere Informationen zur spektralen Dichtefunktion, mittels derer die Länge von Zeitfenstern geschätzt werden kann, finden Sie unter der Funktion findfrequency in den folgenden Quellen:

  • Hyndman, R., Athanasopoulos, G., Bergmeir, C., Caceres, G., Chhay, L., O'Hara-Wild, M., Petropoulos, F., Razbash, S., Wang, E. und Yasmeen, F. (2019). "Forecasting functions for time series and linear models", R-Paketversion 8.7, https://pkg.robjhyndman.com/forecast.
  • Hyndman, R. J. und Khandakar, Y. (2008). "Automatic time series forecasting: the forecast package for R", Journal of Statistical Software, 26(3), S. 1-22. https://www.jstatsoft.org/article/view/v027i03.

Weitere Informationen zur Erstellung von Konfidenzintervallen aus Forest-Regressionsmodellen finden Sie in der folgenden Quelle:

  • Meinshausen, Nicolai. "Quantile regression forests". Journal of Machine Learning Research 7. Juni (2006): 983-999.

Verwandte Themen