Funktionsweise von Zeitserienvorhersagemodellen

Die Werkzeuge des Toolsets "Zeitserien-KI" in der Toolbox "GeoAI" verwenden Zeitserienvorhersagemodelle, die auf Deep Learning basieren, um zukünftige Werte an jeder Position eines Raum-Zeit-Würfels vorherzusagen. Diese Modelle werden mit dem Werkzeug Zeitserienvorhersagemodell trainieren mit bestehenden Zeitseriendaten trainiert, und die trainierten Modelle können zur Vorhersage mit dem Werkzeug Vorhersage mit Zeitserienmodell verwendet werden. Die primäre Ausgabe enthält eine Karte des finalen vorhergesagten Zeitintervalls sowie Informationsmeldungen und Pop-up-Diagramme. Es können andere erklärende Variablen angegeben werden, um die Vorhersage der Analysevariable zu verbessern.

Die Werkzeuge nutzen unterschiedliche Arten tiefer neuronaler Netzwerke für die Zeitserienvorhersage. Die unterstützten Netzwerkarchitekturen umfassen vollständig verbundene Netzwerke sowie neuronale Faltungsnetzwerke und LSTM (Long Short-Term Memory) für die Zeitserienvorhersage. Die Einzelheiten der Modellarchitekturen werden später beschrieben.

Die zum Trainieren der Modelle verwendeten Trainingsdaten werden mithilfe von Zeitfenstern für jede Variable der Eingabe-Zeitseriendaten konstruiert. Zeitseriendaten können komplexen Trends folgen und mehrere Ebenen saisonaler Schwankungen aufweisen. Deep-Learning-Modelle sind besonders lernfähig und können diese Muster für verschiedenste Arten von Zeitserien und Positionen erlernen, sofern ausreichend Trainingsdaten zur Verfügung stehen. Das Trainingswerkzeug trainiert ein einzelnes globales Vorhersagemodell, das Trainingsdaten von jeder Position verwendet. Mit diesem globalen Modell werden zukünftige Werte an jeder Position mit dem Vorhersagewerkzeug vorhergesagt.

Potenzielle Anwendungsbereiche

Deep-Learning-Modelle können komplexe Trends in den Daten erlernen und finden daher in vielen Bereichen Anwendung. Sie sind im Vergleich zu anderen Vorhersagemethoden am effektivsten, wenn die Daten komplexe Trends oder saisonale Schwankungen aufweisen und wenn ausreichend Trainingsdaten zur Verfügung stehen, um diese Beziehungen zu erlernen.

So können Sie das Toolset Zeitserien-KI beispielsweise in folgenden Bereichen anwenden:

  • Ein Geschäftsführer eines Einzelhandelsgeschäfts kann die Nachfrage nach Konsumgütern auf der Grundlage historischer Verkaufsdaten vorhersagen und die Lagerbestände entsprechend anpassen.
  • Ein Epidemiologe kann den Anstieg von Infektionskrankheiten modellieren und die Anzahl der Patienten vorhersagen, die in der nächsten Woche ins Krankenhaus eingeliefert werden müssen.
  • Für ein Windkraftwerk kann auf der Grundlage historischer Trends und Wetterdaten vorhergesagt werden, wie viel Windkraft produziert werden wird.
  • Ein Immobilieninvestor kann die Entwicklung der Immobilienpreise auf der Grundlage historischer Daten und ihrer Beziehung zu Faktoren wie Kreditzins, Goldpreis und Börsenindikatoren abschätzen.
  • Politische Entscheidungsträger können die Nachfrage nach Wohnraum, Strom und Wasser in städtischen Regionen vorhersagen.
  • Meteorologen können die El Niño-Southern Oscillation (ENSO) auf der Grundlage von Klimavariablen und Indizes wie Winden und Meeresoberflächentemperaturen über dem tropischen östlichen Pazifik vorhersagen.

Modelltraining und Vorhersage

Mit dem Werkzeug Zeitserienvorhersagemodell trainieren wird ein Zeitserienvorhersagemodell, das auf Deep Learning basiert, mit historischen Daten trainiert. Eine oder mehrere Variablen können als erklärende Variablen dienen. Das Modell verwendet Zeitintervalle historischer Daten für verschiedene Positionen, um die Trends, saisonale Schwankungen, Muster und Beziehungen zwischen vergangenen Daten und dem Wert der Analysevariablen in nachfolgenden Zeitschritten zu erlernen.

Der Vorhersagefehler wird verwendet, um das Modelltraining mithilfe des Gradientenverfahrens zu steuern. Das Modell wird mit jedem Trainingsdurchlauf über die gesamten Daten (Epochen) allmählich besser, und der berechnete Fehler (Differenz zwischen der Vorhersage und dem Feldvergleichswert im nächsten Zeitschritt) wird mit fortschreitendem Training kleiner. Standardmäßig wird das Modelltraining beendet, wenn der Fehler der Validierungsdaten nach fünf aufeinanderfolgenden Epochen keine Verbesserung verzeichnet, es sei denn, der Parameter Training beenden, wenn sich das Modell nicht mehr verbessert ist nicht aktiviert. Das trainierte Modell wird als Deep-Learning-Paket (.dlpk) gespeichert und kann zur Vorhersage von nicht bekannten Zeitseriendaten mit dem Werkzeug Vorhersage mit Zeitserienmodell verwendet werden.

Modellarchitekturen

Die unterstützten Modellarchitekturen werden im Folgenden beschrieben.

LSTM (Long Short-Term Memory)

Zeitseriendaten sind zeitlicher oder sequenzieller Natur und können von rekurrenten neuronalen Netzwerken (RNN) verarbeitet werden. RNN speichern vergangene Informationen und geben sie an den aktuellen Eingabezustand weiter. Gewöhnliche RNN sind jedoch nicht in der Lage, langfristige Abhängigkeiten zu speichern, da die Gradienten verschwinden. LSTM ist eine verbesserte Art von RNN, die dieses Problem löst. LSTM besteht aus Einheiten, die jeweils aus vier neuronalen Netzwerken bestehen, die ihren Zellstatus anhand von Informationen aus neuen Eingaben und vergangenen Ausgaben aktualisieren.

LSTM-Modul

Wenn Sie LSTM für den Parameterwert Modelltyp wählen, kann das folgende Modellargument zum Anpassen des Modells angegeben werden, wenn nicht die Standardwerte verwendet werden:

NameStandardwertBeschreibung

hidden_layer_size

100

Die Größe des ausgeblendeten Layers

Fully Convolutional Network (FCN)

Fully Convolutional Networks (FCN) wurden hauptsächlich für Bilder zur semantischen Segmentierung und für andere Probleme mit maschinellem Sehen verwendet. Sie nehmen ein Bild als Eingabe und lassen es durch eine Reihe von Faltungsschichten laufen, um wichtige Merkmale zu extrahieren. Solche neuronalen Netze sind auch in der Lage, Trends und saisonale Schwankungen in Zeitseriendaten zu extrahieren und liefern überraschend gute Ergebnisse für Zeitserienvorhersagen. Bei Eingabe-Zeitseriendaten gleitet ein eindimensionaler Filter in jeder Faltungsschicht darüber, um zeitinvariante Unterscheidungsmerkmale mit hoher Vorhersagekraft zu extrahieren.

Faltungsschichten sind aufgrund der reduzierten Parameter rechnerisch effizient, da eine lokale Konnektivität zwischen der Eingabe- und der Ausgabeschicht gegeben ist. Die gemeinsame Nutzung von Parametern reduziert auch die Anzahl der erforderlichen Parameter erheblich, da die einzelnen Filter die gleiche Kernelgewichtung haben. Der größte Vorteil von neuronalen Faltungsnetzwerken ist die Verschiebungsinvarianz, die das Netzwerk bei der Erkennung wichtiger Merkmale unabhängig von ihrer Position in den Daten robust macht.

Das FCN-Zeitserienmodell verwendet drei 1D-Faltungsschichten ohne Striding und Pooling. Das durchschnittliche Pooling wird in der letzten Schicht der Architektur durchgeführt. Nach jeder Faltung wird eine Batch-Normalisierung durchgeführt, und es werden Rectified Linear Units (ReLUs) als Aktivierungsfunktionen verwendet. Die Netzwerkarchitektur wird folgendermaßen dargestellt:

FCN-Architektur
Die Architektur des Fully Convolutional Network für die Zeitserienvorhersage.

InceptionTime

Dieses neuronale Faltungsnetzwerk basiert auf dem zuvor vorgeschlagenen Inception-Netzwerk "Going Deeper with Convolutions" (2015) [1] zur Bildklassifizierung. Vor dem Modell "InceptionTime" war die Rechenleistung neuronaler Netzwerke von ihrer Tiefe abhängig. Das in diesem Artikel vorgeschlagene Inception-Modul verwendet verschiedene Faltungen parallel und verkettet deren Ausgabe, wodurch sowohl die Tiefe als auch die Breite des Netzwerks erhöht wird, während das Rechenbudget konstant bleibt.

Das Modell "InceptionTime" wendet diese Architektur für die Zeitserienvorhersage an. In diesem Modell erfolgt die Verkettung für eindimensionale Faltungsschichten mit Kernelgrößen der Länge 10, 20 und 40 und eine maximale Pooling-Schicht der Größe 3. Außerdem wird bei jedem dritten Inception-Modul eine Restverbindung eingeführt, wie in der folgenden Abbildung gezeigt. Das Inception-Netzwerk nutzt zudem Bottleneck-Schichten intensiv, in denen Filter mit Länge 1 und Stride 1 verwendet werden, um die Dimensionalität der Zeitserien und die Modellkomplexität zu reduzieren und gleichzeitig eine Überanpassung zu verhindern. In dem Netzwerk werden mehrere solcher Inception-Blöcke verwendet, gefolgt von einer globalen Schicht für durchschnittliches Pooling.

InceptionTime-Architektur
Die InceptionTime-Architektur für die Zeitserienvorhersage ist dargestellt.

ResNet

Bei tiefen neuronalen Netzwerken ist die gängige Meinung, dass die Leistung umso besser sein sollte, je tiefer das Netzwerk ist, da es mehr Parameter zum Erlernen komplexer Aufgaben gibt. Es wurde jedoch beobachtet, dass sich die Leistung des Modells mit zunehmender Tiefe aufgrund des Problems der verschwindenden Gradienten verschlechtert. Um dieses Problem zu lösen, wurde ein Restblock in die ResNet-Architektur eingeführt. Dieses Modell besteht aus Restblöcken, in denen Skip-Verbindungen oder Verknüpfungen hinzugefügt werden. Diese direkten Verbindungen ermöglichen es Gradienten, ungehindert zu früheren Schichten des Netzwerks zu fließen und die Lernleistung zu verbessern.

Für die Zeitserienvorhersage wird die Architektur in dem Artikel "Time Series Classification from Scratch with Deep Neural Networks: A Strong Baseline" von Wang et. al. angepasst. 2016. Das Netzwerk verwendet drei Restblöcke, wie in der folgenden Abbildung dargestellt. Jeder Block enthält eine Kombination aus drei Faltungen mit Batch-Normalisierung und verwendet ReLU als Aktivierungsfunktion. Am Eingang und am Ausgang werden Skip-Verbindungen hinzugefügt. Die hier verwendeten Filtergrößen haben eine Länge von 64, 128 bzw. 128, und die letzte Schicht verwendet globales durchschnittliches Pooling.

ResNet-Architektur
Die ResNet-Architektur für die Zeitserienvorhersage ist dargestellt.

ResCNN

Dieses Netzwerk ist eine Kombination aus ResNet und neuronalen Faltungsnetzwerken. Zur besseren Informationsübertragung wird dem Netzwerk eine einzelne Skip-Verbindung hinzugefügt. Um eine Überanpassung aufgrund von Skip-Verbindungen in allen Restblöcken zu vermeiden, verwendet diese Architektur nur im ersten Block eine Skip-Verbindung, wie in der folgenden Abbildung dargestellt. Diverse Aktivierungsfunktionen, darunter ReLU, LReLU, PReLU und ELU, werden in verschiedenen Schichten verwendet, um eine angemessene Abstraktion zu erreichen [2].

ResCNN-Architektur

Vorhersage und Validierung

Um festzustellen, wie gut das Modell funktioniert, stützt sich das Werkzeug auf zwei Metriken: eine Vorhersagemetrik und eine Validierungsmetrik. Die Vorhersagemetrik gibt Aufschluss darüber, wie gut die Vorhersage zu den vorhandenen Daten passt, und die Validierungsmetrik gibt Auskunft darüber, wie gut das Modell die Validierungsdaten vorhersagt, die während des Modelltrainings reserviert werden.

  • Vorhersagemetrik

    Das Werkzeug trainiert ein einzelnes Modell, indem es die Daten von verschiedenen Positionen eines Raum-Zeit-Würfels kombiniert. Das Modell lernt die markanten Merkmale der Daten an jeder Position. Anschließend werden mit diesem Modell Vorhersagen für zukünftige Zeitintervalle erstellt. Die Übereinstimmung des Modells mit den vorhandenen Trainingsdaten wird durch den Vorhersage-RMSE (Root Mean Square Error) gemessen, der der Quadratwurzel der durchschnittlichen quadrierten Differenz zwischen den vom Modell erlernten Werten und den tatsächlichen Werten der Zeitserie entspricht.

    Vorhersage-RMSE

    Dabei steht T für die Anzahl der Zeitschritte, ct für den vom Modell erlernten Wert und rt für den Raw-Wert der Zeitserie zum Zeitpunkt t.

    Die folgende Abbildung zeigt die Raw-Werte einer Zeitserie zusammen mit den vom Zeitserienmodell erlernten Werten. Der Vorhersage-RMSE misst die Differenz der beiden Zeitserien.

    Vorhersagemodell

    Der Vorhersage-RMSE misst nur, wie genau die Kurve mit den Raw-Werten der Zeitserie übereinstimmt. Er misst nicht, wie genau das trainierte Modell zukünftige Werte vorhersagt. Es kommt häufig vor, dass ein Modell zwar weitgehend mit einer Zeitserie übereinstimmt, aber keine genauen Vorhersagen liefert, wenn es extrapoliert wird. Der Validierungs-RMSE ist daher eine zuverlässigere Metrik.

  • Validierungsmetrik

    Mit dem Validierungsmodell lässt sich bestimmen, wie genau das Vorhersagemodell zukünftige Werte für jede Zeitserie vorhersagen kann. Es wird konstruiert, indem einige der letzten Zeitschritte jeder Zeitserie ausgeschlossen werden und das Modell mit den nicht ausgeschlossenen Daten trainiert wird. Anschließend wird dieses Modell verwendet, um die Werte der Daten vorherzusagen, die zurückgehalten wurden, und die vorhergesagten Werte werden mit den ausgeblendeten Raw-Werten verglichen. Standardmäßig werden für die Validierung 10 Prozent der Zeitintervalle zurückgehalten, aber diese Zahl kann mithilfe des Parameters Für die Validierung auszuschließende Anzahl an Zeitintervallen geändert werden. Die Anzahl der ausgeschlossen Zeitintervalle darf 25 Prozent der Zeitintervalle nicht überschreiten, und es wird keine Validierung durchgeführt, wenn 0 angegeben wird. Die Genauigkeit der Vorhersagen wird gemessen, indem eine Validierungs-RMSE-Statistik berechnet wird, die der Quadratwurzel der durchschnittlichen quadrierten Differenz zwischen den vorhergesagten und den Raw-Werten der ausgeschlossenen Zeitintervalle entspricht.

    Validierungs-RMSE

    Wobei T für die Anzahl der Zeitschritte, m für die Anzahl der für die Validierung zurückgehaltenen Zeitschritte, ct für den Vorhersagewert aus den ersten T-m-Zeitschritten und rt für den Raw-Wert der zum Zeitpunkt t der für die Validierung zurückgehaltenen Zeitserien steht.

    Die folgende Abbildung zeigt die Werte, die das Modell an die erste Hälfte einer Zeitserie anpasst und anschließend zur Vorhersage der zweiten Hälfte der Zeitserie extrapoliert. Der Validierungs-RMSE misst, wie stark die vorhergesagten Werte von den Raw-Werten der zurückgehaltenen Zeitintervalle abweichen.

    Validierungsmodell

Werkzeugausgaben

Die primäre Ausgabe dieses Werkzeugs enthält eine 2D-Feature-Class mit den Positionen des Eingabe-Raum-Zeit-Würfels, die durch das zuletzt vorhergesagte Zeitintervall symbolisiert wird, sowie die Vorhersagen für alle anderen Zeitintervalle, die als Felder gespeichert sind. Obwohl alle Positionen ohne Berücksichtigung von räumlichen Beziehungen unabhängig voneinander vorhergesagt werden, können auf der Karte räumliche Muster für Flächen mit ähnlichen Zeitserien dargestellt werden.

Pop-up-Diagramme

Wenn Sie mit dem Navigationswerkzeug Erkunden auf ein beliebiges Feature auf der Karte klicken, wird der Bereich Pop-up mit den Werten des Raum-Zeit-Würfels zusammen mit den angepassten und den vorhergesagten Werten angezeigt. Die Werte des Raum-Zeit-Würfels werden blau dargestellt und sind durch eine blaue Linie miteinander verbunden. Die angepassten Werte werden in Orange dargestellt und sind durch eine gestrichelte orangefarbene Linie miteinander verbunden. Die vorhergesagten Werte werden orangefarben dargestellt und sind durch eine durchgezogene orangefarbene Linie miteinander verbunden, die die Vorhersage des Forest-Modells darstellt. Wenn Sie auf einen beliebigen Punkt des Diagramms zeigen, werden dessen Datum und Wert angezeigt.

Vorhersagemethode

Das Pop-up-Diagramm zeigt die ursprünglichen, angepassten und vorhergesagten Werte.

Geoverarbeitungsmeldungen

Das Werkzeug gibt eine Reihe von Meldungen aus, die Informationen zur Ausführung des Werkzeugs enthalten. Die Meldungen bestehen aus drei Hauptabschnitten.

Im Abschnitt Details des Eingabe-Raum-Zeit-Würfels werden die Eigenschaften des Eingabe-Raum-Zeit-Würfels zusammen mit Informationen über die Anzahl der Zeitintervalle, Positionen und Raum-Zeit-Abschnitte angezeigt. Welche Eigenschaften im ersten Abschnitt angezeigt werden, hängt von der ursprünglichen Erstellung des Würfels ab, weshalb die Informationen von Würfel zu Würfel variieren. Der Abschnitt Analysedetails enthält die Eigenschaften der Vorhersageergebnisse, darunter die Anzahl der vorhergesagten Zeitintervalle, die Anzahl der für die Validierung ausgeschlossenen Zeitschritte und Informationen über die vorhergesagten Zeitintervalle.

Der Abschnitt Zusammenfassung der positionsübergreifenden Genauigkeit enthält die Summenstatistik für die Vorhersage- und Validierungs-RMSE-Werte aller Positionen. Für jeden Wert werden das Minimum, das Maximum, der Mittelwert, der Medianwert und die Standardabweichung angezeigt.

Hinweis:

Die Geoverarbeitungsmeldungen werden während der Ausführung des Werkzeugs am unteren Rand des Bereichs Geoverarbeitung angezeigt. Sie können auf diese Meldungen zugreifen, indem Sie mit der Maus auf die Fortschrittsleiste zeigen, auf die Pop-out-Schaltfläche Pop-out klicken oder den Abschnitt "Meldungen" im Bereich Geoverarbeitung erweitern. Über den Geoverarbeitungsverlauf können Sie auch auf die Meldungen für ein zuvor ausgeführtes Werkzeug zugreifen.

Ausgabefelder

Neben der Objekt-ID, den Geometriefeldern und dem Feld mit Pop-up-Diagrammen enthalten die Ausgabe-Features folgende Felder:

  • Positions-ID (LOCATION): Die ID der entsprechenden Position des Raum-Zeit-Würfels.
  • Vorhersage für (Analysevariable) in (Zeitschritt) (FCAST_1, FCAST_2 usw.): Der Vorhersagewert für die einzelnen künftigen Zeitschritte. Der Feldaliasname enthält den Namen der Analysevariablen und das Datum der Vorhersage. Ein Feld mit diesem Typ wird für jedes vorhergesagte Zeitintervall erstellt.
  • Root Mean Square Error der Vorhersage (F_RMSE): Der Vorhersage-RMSE.
  • Root Mean Square Error der Validierung (V_RMSE): Der Validierungs-RMSE. Wenn keine Zeitintervalle für die Validierung ausgeschlossen wurden, wird dieses Feld nicht erstellt.
  • Vorhersagemethode (METHOD): Ein Textfeld, das den Typ des verwendeten Zeitserien-KI-Modells und die Sequenzlänge anzeigt.

Referenzen

Folgende Referenzen enthalten weitere Informationen zu Zeitserienvorhersagemodellen, die auf Deep Learning basieren:

  1. Szegedy, Christian, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke und Andrew Rabinovich. "Going deeper with convolutions." In Proceedings of the IEEE conference on computer vision and pattern recognition, S. 1-9. 2015.
  2. Ismail Fawaz, Hassan, Benjamin Lucas, Germain Forestier, Charlotte Pelletier, Daniel F. Schmidt, Jonathan Weber, Geoffrey I. Webb, Lhassane Idoumghar, Pierre-Alain Muller und François Petitjean. "InceptionTime: Finding AlexNet for Time Series Classification." Data Mining and Knowledge Discovery 34, Nr. 6 (2020): 1936-1962.
  3. Wang, Zhiguang, Weizhong Yan und Tim Oates. "Time series classification from scratch with deep neural networks: A strong baseline." In 2017 International joint conference on neural networks (IJCNN), S. 1578-1585. IEEE, 2017.
  4. Zou, Xiaowu, Zidong Wang, Qi Li und Weiguo Sheng. "Integration of residual network and convolutional neural network along with various activation functions and global pooling for time series classification." Neurocomputing 367 (2019): 39-45.
  5. Sepp Hochreiter und Jürgen Schmidhuber. "Long short-term memory." Neural computation 9, Nr. 8 (1997): 1735-1780.

Verwandte Themen