Funktionsweise der Kurvenanpassungsvorhersage

Das Werkzeug Kurvenanpassungsvorhersage verwendet eine einfache Kurvenanpassung zur Modellierung einer Zeitserie und zur Vorhersage künftiger Werte in einem Raum-Zeit-Würfel. Bei der Verwendung eines Raum-Zeit-Würfels mit der Bevölkerung eines Jahres kann dieses Werkzeug beispielsweise eine Bevölkerungsprognose für die kommenden Jahre abgeben. Die primäre Ausgabe enthält eine Karte des letzten vorhergesagten Zeitintervalls sowie Informationsmeldungen und Pop-up-Diagramme. Sie können auch einen neuen Raum-Zeit-Würfel mit den Daten aus dem ursprünglichen Würfel erstellen, wobei die vorhergesagten Werte angehängt werden.

Das Werkzeug passt eine Kurve an die einzelnen Positionen im Eingabe-Raum-Zeit-Würfel an und sagt die Zeitintervalle vorher, indem diese Kurve in künftige Zeitintervalle extrapoliert wird. Die Kurven können linear, Parabeln, S-Kurven (Gompertz) oder Exponentialkurven sein. Sie können an jeder Position des Raum-Zeit-Würfels denselben Kurventyp verwenden oder die Auswahl des passenden Kurventyps für jede Position dem Werkzeug überlassen.

Kurventypen und mögliche Anwendungsbereiche

Dieses Werkzeug unterstützt vier Kurventypen, die Sie mit dem Parameter Kurventyp festlegen können. Die folgende Abbildung zeigt für jeden der vier Kurventypen ein typisches Beispiel:

Darstellung der vier Kurventypen
Es gibt insgesamt vier Kurventypen.
  • Linear: Jede Zeitserie wird mit einer Geraden modelliert.
    • Gleichung: Lineare Gleichung, wobei Xt der Wert der Zeitserie zum Zeitpunkt t ist und a und b die Schätzwerte, die aus den Daten mittels Schätzung nach kleinsten Quadraten ermittelt wurden.
    • Möglicher Anwendungsbereich: Lineare Kurven eignen sich zur Darstellung von Werten, die im Zeitverlauf stetig zu- oder abnehmen. Mit diesem Werkzeug lässt sich beispielsweise die Bevölkerung von Gemeinden in Phasen mit nahezu linearem Wachstum vorhersagen.
  • Parabel: Die Zeitserien werden mithilfe von Parabeln, also Kurven quadratischer Funktionen, modelliert.
    • Gleichung: Parabolische Gleichung, wobei Xt der Wert der Zeitserie zum Zeitpunkt t ist und a, b und c die Schätzwerte, die aus den Daten mittels Schätzung nach kleinsten Quadraten ermittelt wurden.
    • Möglicher Anwendungsbereich: Parabeln eignen sich zur Darstellung von Werten, die im Zeitverlauf ihre Richtung ändern, d. h. erst zu- und dann abnehmen oder umgekehrt. Bei alle anderen Kurventypen wird davon ausgegangen, dass sich die Werte im Zeitverlauf stetig vergrößern oder verkleinern.
  • Exponential: Die Zeitserien werden mithilfe von Exponentialkurven, auch geometrische Kurven genannt, modelliert.
    • Gleichung: Exponentialgleichung, wobei Xt der Wert der Zeitserie zum Zeitpunkt t ist und a, b und k die Schätzwerte, die aus den Daten mittels Schätzung nach kleinsten Quadraten ermittelt wurden. Der Wert k ermöglicht eine Verschiebung der Exponentialkurve zur besseren Anpassung an die Zeitserie.
    • Möglicher Anwendungsbereich: Exponentialkurven eignen sich zur Darstellung von Werten, die im Zeitverlauf schnell zu- oder abnehmen. Zeiträume mit schnellem Bevölkerungswachstum in Entwicklungsregionen lassen sich mithilfe von Exponentialkurven modellieren.
  • S-Kurve (Gompertz): Die Zeitserien werden mithilfe einer Gompertz-Kurve modelliert. Solche Kurven nehmen eine S-Form an und haben eine obere und untere Grenze.
    • Gleichung: Gompertz-Gleichung, wobei Xt der Wert der Zeitserie zum Zeitpunkt t ist und a, b c und k die Schätzwerte, die aus den Daten mittels Schätzung nach kleinsten Quadraten ermittelt wurden. Die Werte a und k dürfen nicht negativ sein. Der Wert k ermöglicht eine Verschiebung der Gompertz-Kurve zur besseren Anpassung an die Zeitserie; er liegt immer unter dem Zehnfachen des größten Werts der Zeitserie.
    • Möglicher Anwendungsbereich: Die Gompertz-Kurve eignet sich zur Modellierung von Wachstumszahlen mit Kapazitätseinschränkungen. Bevölkerungen wachsen häufig zunächst langsam, und erst wenn ihre Dichte ausreicht, um eine Branche zu unterstützen, beschleunigt sich ihr Wachstum. Das Wachstum verlangsamt sich dann wieder, wenn sich die Bevölkerungsdichte der Grenze nähert, die die Region verkraften kann.

Standardmäßig verwendet der Parameter Kurventyp die Option Automatisch erkennen, der sich für alle vier Kurventypen eignet und denjenigen ermittelt, der die beste Vorhersage für Zeitserie an der jeweiligen Position liefert. Wenn die Option aktiviert ist, können für verschiedene Positionen im Raum-Zeit-Würfel verschiedene Kurventypen verwendet werden. Für jede Position wird der Kurventyp mit dem kleinsten Validierungs-RMSE (Root Mean Square Error) verwendet; wenn allerdings keine Zeitintervalle für die Validierung zurückgehalten werden, wird stattdessen der Vorhersage-RMSE verwendet. Beide Statistiken werden als Felder in den Ausgabe-Features gespeichert und im nächsten Abschnitt näher erläutert.

Vorhersage und Validierung

Beim Vorhersagen jeder Zeitserie erstellt das Werkzeug zwei Modelle. Das erste ist das Vorhersagemodell, mit dem die Werte zukünftiger Zeitintervalle vorhergesagt werden. Das zweite ist das Validierungsmodell, mit dem die vorhergesagten Werte validiert werden.

Vorhersagemodell

Das Vorhersagemodell wird konstruiert, indem der ausgewählte Kurventyp an die Zeitserienwerte an jeder Position des Raum-Zeit-Würfels angepasst wird. Diese Kurve wird dann zur Vorhersage der Werte künftiger Zeitintervalle in die Zukunft extrapoliert. Die Übereinstimmung der Kurve mit jeder Zeitserie wird durch den Vorhersage-RMSE gemessen, der der Quadratwurzel der durchschnittlichen quadrierten Differenz zwischen der Kurve und den Werten der Zeitserie entspricht.

Vorhersage-RMSE, wobei T für die Anzahl der Zeitschritte, ct für den Wert der Kurve und rt für den Raw-Wert der Zeitserie zum Zeitpunkt t steht.

Die folgende Abbildung zeigt die Raw-Werte einer Zeitserie zusammen mit einer an die Zeitserie angepassten Gompertz-Kurve. Der Vorhersage-RMSE misst die Differenz der beiden Zeitserien.

Vorhersagemodell für Kurvenanpassungsvorhersage

Das Vorhersagemodell wird an alle Zeitintervalle angepasst.

Der Vorhersage-RMSE misst nur, wie genau die Kurve mit den Raw-Werten der Zeitserie übereinstimmt. Er misst nicht, wie genau das Vorhersagemodell tatsächlich zukünftige Werte vorhersagt. Es kommt häufig vor, dass eine Kurve zwar weitgehend mit einer Zeitserie übereinstimmt, aber keine genauen Vorhersagen liefert, wenn es extrapoliert wird. Das Validierungsmodell bietet eine Lösung für dieses Problem.

Validierungsmodell

Mit dem Validierungsmodell lässt sich bestimmen, wie genau das Vorhersagemodell zukünftige Werte für jede Zeitserie vorhersagt. Es wird konstruiert, indem einige der letzten Zeitintervalle jeder Zeitserie ausgeschlossen werden und die Kurve an die nicht ausgeschlossenen Daten angepasst wird. Anschließend wird diese Kurve verwendet, um die Werte der Daten vorherzusagen, die zurückgehalten wurden, und die vorhergesagten Werte werden mit den ausgeblendeten Raw-Werten verglichen. Standardmäßig werden für die Validierung 10 Prozent der Zeitintervalle zurückgehalten, aber diese Zahl kann mithilfe des Parameters Für die Validierung auszuschließende Anzahl an Zeitintervallen geändert werden. Die Anzahl der ausgeschlossen Zeitintervalle darf 25 Prozent der Zeitintervalle nicht überschreiten, und wenn 0 angegeben ist, wird keine Validierung durchgeführt. Die Genauigkeit der Vorhersagen wird gemessen, indem eine Validierungs-RMSE-Statistik berechnet wird, die der Quadratwurzel der durchschnittlichen quadrierten Differenz zwischen den vorhergesagten und den Raw-Werten der ausgeschlossenen Zeitintervalle entspricht.

Validierungs-RMSE, wobei T für die Anzahl der Zeitintervalle, m für die Anzahl der für die Validierung zurückgehaltenen Zeitintervalle, ct für den Vorhersagewert aus den ersten T-m-Zeitintervallen und rt für den Raw-Wert der zum Zeitpunkt t für die Validierung zurückgehaltenen Zeitserie steht.

Die folgende Abbildung zeigt eine Gompertz-Kurve, die an die erste Hälfte einer Zeitserie angepasst und anschließend zur Vorhersage der zweiten Hälfte der Zeitserie extrapoliert wird. Der Validierungs-RMSE misst, wie stark die vorhergesagten Werte von den Raw-Werten der zurückgehaltenen Zeitintervalle abweichen.

Validierungsmodell für Kurvenanpassungsvorhersage

Das Validierungsmodell wird an die erste Hälfte der Zeitserie angepasst und zur Vorhersage der zweiten Hälfte verwendet.

Das Validierungsmodell ist wichtig, denn es kann die vorhergesagten Werte direkt mit den Raw-Werten vergleichen, um zu messen, wie genau die Vorhersagen der Kurve sind. Es wird zwar nicht zur Vorhersage verwendet, dient jedoch der Begründung des Vorhersagemodells.

Hinweis:

Die Validierung bei der Zeitserienvorhersage ähnelt, ist jedoch nicht identisch mit einer häufig verwendeten Technik, die als Kreuzvalidierung bezeichnet wird. Der Unterschied besteht darin, dass bei der Validierung von Vorhersagen immer die letzten Zeitintervalle für die Validierung ausgeschlossen werden, während bei der Kreuzvalidierung entweder eine zufällige Teilmenge der Daten oder jeder Wert der Reihe nach ausgeschlossen wird.

Interpretation

Bei der Interpretation der Vorhersage-RMSE- und Validierungs-RMSE-Werte gilt es einiges zu beachten.

  • Die RMSE-Werte können nicht direkt miteinander verglichen werden, da sie unterschiedliche Sachverhalte messen. Der Vorhersage-RMSE misst die Übereinstimmung der Kurve mit den Raw-Werten der Zeitserie, während der Validierungs-RMSE misst, wie genau die Kurve zukünftige Werte vorhersagt. Da der Vorhersage-RMSE größere Datenmengen verwendet und nicht extrapoliert, ist er normalerweise kleiner als der Validierungs-RMSE.
  • Beide RMSE-Werte werden in den Einheiten der Daten angegeben. Wenn es sich bei den Daten um Temperaturmesswerte in Grad Celsius handelt, ist ein Validierungs-RMSE von 50 beispielsweise sehr hoch, denn er gibt an, dass die vorhergesagten Werte um durchschnittlich etwa 50 Grad von den tatsächlichen Werten abweichen. Handelt es sich bei den Daten dagegen um den Tagesumsatz in US-Dollar eines großen Einzelhandelsgeschäfts, ist derselbe Validierungs-RMSE von 50 äußerst niedrig, denn er gibt an, dass der vorhergesagte Tagesumsatz nur um durchschnittlich 50 US-Dollar pro Tag von den tatsächlichen Werten abweicht.

Werkzeugausgaben

Die primäre Ausgabe dieses Werkzeugs enthält eine 2D-Feature-Class mit den Positionen des Eingabe-Raum-Zeit-Würfels, die durch das zuletzt vorhergesagte Zeitintervall symbolisiert wird, sowie die Vorhersagen für alle anderen Zeitintervalle, die als Felder gespeichert sind. Obwohl alle Positionen ohne Berücksichtigung von räumlichen Beziehungen unabhängig voneinander vorhergesagt werden, können auf der Karte räumliche Muster für Flächen mit ähnlichen Zeitserien dargestellt werden.

Pop-up-Diagramme

Wenn Sie mit dem Navigationswerkzeug Erkunden auf ein beliebiges Feature auf der Karte klicken, wird der Bereich Pop-up mit den Werten des Raum-Zeit-Würfels zusammen mit der angepassten Kurve und den vorhergesagten Werten angezeigt. Die Werte des Raum-Zeit-Würfels werden blau dargestellt und sind durch eine blaue Linie miteinander verbunden. Die angepassten Werte werden in Orange dargestellt und sind durch eine orangefarbene gestrichelte Linie miteinander verbunden, die die Kurve darstellt. Die vorhergesagten Werte werden Orange dargestellt und sind durch eine durchgezogene orangefarbene Linie miteinander verbunden, die die Extrapolation darstellt und die Kurve vorhersagt. Wenn Sie auf einen beliebigen Punkt des Diagramms zeigen, werden dessen Datum und Wert angezeigt.

Zeitserien-Pop-up

Das Pop-up-Diagramm zeigt die ursprünglichen, angepassten und vorhergesagten Werte.

Hinweis:

Wenn die Ausgabe-Features als Shapefile (.shp) gespeichert werden, werden keine Pop-up-Diagramme erstellt.

Geoverarbeitungsmeldungen

Das Werkzeug gibt eine Reihe von Meldungen aus, die Informationen zur Ausführung des Werkzeug enthalten. Die Meldungen bestehen aus drei Hauptabschnitten.

Im Abschnitt Details des Eingabe-Raum-Zeit-Würfels werden die Eigenschaften des Eingabe-Raum-Zeit-Würfels zusammen mit Informationen über das Zeitschrittintervall sowie der Anzahl der Zeitschritte, Positionen und Raum-Zeit-Abschnitte angezeigt. Welche Eigenschaften im ersten Abschnitt angezeigt werden, hängt von der ursprünglichen Erstellung des Würfels ab, weshalb die Informationen von Würfel zu Würfel variieren.

Der Abschnitt Analysedetails enthält die Eigenschaften der Vorhersageergebnisse, darunter die Anzahl der vorhergesagten Zeitintervalle, die Anzahl der für die Validierung ausgeschlossenen Zeitschritte und Informationen über die vorhergesagten Zeitintervalle.

Der Abschnitt Zusammenfassung der positionsübergreifenden Genauigkeit enthält die Summenstatistik für die Vorhersage- und Validierungs-RMSE-Werte aller Positionen. Für jeden Wert werden das Minimum, das Maximum, der Mittelwert, der Medianwert und die Standardabweichung angezeigt.

Der Abschnitt Zusammenfassung der ausgewählten Kurventypen wird angezeigt, wenn für den Parameter Kurventyp die Option Automatisch erkennen aktiviert wird. Dieser Abschnitt enthält den absoluten und prozentualen Anteil der Positionen, die für die vier Kurventypen ausgewählt wurden.

Hinweis:

Die Geoverarbeitungsmeldungen werden während der Ausführung des Werkzeugs am unteren Rand des Bereichs Geoverarbeitung angezeigt. Sie können auf diese Meldungen zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen, auf die Pop-out-Schaltfläche Pop-out klicken oder den Abschnitt "Meldungen" im Bereich Geoverarbeitung erweitern. Über den Geoverarbeitungsverlauf können Sie auch auf die Meldungen für ein zuvor ausgeführtes Werkzeug zugreifen.

Felder der Ausgabe-Features

Neben der Objekt-ID, den Geometriefeldern und dem Feld mit Pop-up-Diagrammen enthalten die Ausgabe-Features folgende Felder:

  • Positions-ID (LOCATION): Die ID der entsprechenden Position des Raum-Zeit-Würfels.
  • Vorhersage für (Analysevariable) in (Zeitintervall) (FCAST_1, FCAST_2 usw.): Der Vorhersagewert für die einzelnen künftigen Zeitintervalle. Der Feldaliasname enthält den Namen der Analysevariablen und das Datum der Vorhersage. Ein Feld mit diesem Typ wird für jedes vorhergesagte Zeitintervall erstellt.
  • Root Mean Square Error der Vorhersage (F_RMSE): Der Vorhersage-RMSE.
  • Root Mean Square Error der Validierung (V_RMSE): Der Validierungs-RMSE. Wenn keine Zeitintervalle für die Validierung ausgeschlossen wurden, wird dieses Feld nicht erstellt.
  • Vorhersagemethode (METHOD): Der an der Position verwendete Kurventyp. Mit diesem Feld lässt sich der Kurventyp der Position ermitteln, wenn die Option Automatisch erkennen verwendet wird.
  • Gleichung der Vorhersage (EQUATION): Ein Textfeld mit der Gleichung der Vorhersagekurve an der Position. Dieses Feld wird bei Verwendung der Option Automatisch erkennen nicht erstellt.

Ausgabe-Raum-Zeit-Würfel

Bei Angabe eines Ausgabe-Raum-Zeit-Würfels enthält der Ausgabe-Würfel alle ursprünglichen Werte aus dem Eingabe-Raum-Zeit-Würfel, wobei die vorhergesagten Werte angehängt werden. Dieser neue Raum-Zeit-Würfel kann mit dem Werkzeug Raum-Zeit-Würfel in 2D visualisieren oder Raum-Zeit-Würfel in 3D visualisieren angezeigt und als Eingabe für die Werkzeuge der Toolbox Space Space Time Pattern Mining verwendet werden, z. B. Trendanalyse von Hot-Spots und Zeitserie-Cluster-Bildung.

Mit dem Werkzeug Vorhersagen nach Position auswerten können mehrere vorhergesagte Raum-Zeit-Würfel verglichen und zusammengeführt werden. Auf diese Weise können Sie mit unterschiedlichen Vorhersagewerkzeugen und -parametern mehrere Vorhersagewürfel erstellen. Das Werkzeug ermittelt dann mit dem Vorhersage-RMSE oder dem Validierungs-RMSE die beste Vorhersage für jede Position.

Empfehlungen und Beschränkungen

Bei der Entscheidung, ob dieses Werkzeug für Ihre Daten geeignet ist und welche Parameter ausgewählt werden sollten, sind einige Punkte zu beachten.

  • Verglichen mit anderen Vorhersagewerkzeugen im Toolset Zeitserienvorhersage ist dieses Werkzeug am einfachsten. Es eignet sich am besten für Zeitserien, die einem vorhersagbaren Trend folgen, der keinen ausgeprägten saisonalen Schwankungen unterliegt. Es wird empfohlen, andere Vorhersagewerkzeuge zu verwenden, wenn Ihre Daten einem komplexen Trend folgen oder ausgeprägte saisonale Zyklen aufweisen.
  • Die Entscheidung über die Anzahl der Zeitintervalle, die für die Validierung ausgeschlossen werden sollen, ist wichtig. Je mehr Zeitintervalle ausgeschlossen werden, desto weniger stehen für die Schätzung des Validierungsmodells zur Verfügung. Werden allerdings zu wenige Zeitintervalle ausgeschlossen, erfolgt die Schätzung des Validierungs-RMSE mit einer geringen Datenmenge und kann einen falschen Eindruck erwecken. Sie sollten so viele Zeitintervalle wie möglich ausschließen und gleichzeitig genügend Zeitintervalle beibehalten, um das Validierungsmodell zu schätzen. Es empfiehlt sich außerdem, mindestens so viele Zeitintervalle für die Validierung zurückzuhalten, wie vorhergesagt werden sollen, sofern der Raum-Zeit-Würfel eine entsprechende Anzahl an Zeitintervallen aufweist.
  • Dieses Werkzeug erzeugt keine Konfidenzintervalle für die vorhergesagten Werte.

Zusätzliche Ressourcen

Weitere Informationen über Vorhersagen mittels einfacher Kurvenanpassung bietet Ihnen das folgende Lehrbuch:

  • Klosterman, R. E., Brooks, K., Drucker, J., Feser, E. und Renski, H. (2018). Planning support methods: Urban and regional analysis and projection. Rowman & Littlefield. ISBN: 1442220309

Verwandte Themen