Forest-basierte Vorhersage (Space Time Pattern Mining)

Zusammenfassung

Führt eine Vorhersage der Werte für jede Position eines Raum-Zeit-Würfels mithilfe einer Adaption des "Random Forest"-Algorithmus durch, einer Methode für überwachtes maschinelles Lernen von Leo Breiman und Adele Cutler. Das Forest-Regressionsmodell wird mithilfe von Zeitfenstern an jeder Position des Raum-Zeit-Würfels trainiert.

Weitere Informationen zur Funktionsweise der Forest-basierten Vorhersage

Abbildung

Abbildung zum Werkzeug "Forest-basierte Vorhersage"
Darstellung einer Zeitserienvorhersage mit dem Werkzeug "Forest-basierte Vorhersage"

Verwendung

  • Dieses Werkzeug akzeptiert netCDF-Dateien, die mit den Werkzeugen Raum-Zeit-Würfel aus definierten Positionen erstellen, Raum-Zeit-Würfel aus definierten Features erstellen, Raum-Zeit-Würfel aus multidimensionalem Raster-Layer erstellen und Teilmenge eines Raum-Zeit-Würfels bilden erstellt wurden.

  • Verglichen mit anderen Vorhersagewerkzeugen im Toolset "Zeitserienvorhersage" ist dieses Werkzeug das komplexeste, umfasst allerdings auch die wenigsten Annahmen über die Daten. Empfohlen wird es für Zeitserien mit komplizierten Shapes und Trends, die mit einfachen mathematischen Funktionen schwierig zu modellieren sind, oder wenn den Annahmen anderer Methoden nicht entsprochen wird. Empfohlen wird es auch, wenn Ihr Raum-Zeit-Würfel andere Variablen enthält, die mit der Variablen, die vorhergesagt wird, in Beziehung stehen. Diese Variablen können als erklärende Variablen einbezogen werden, um die Vorhersage zu verbessern.

    Darüber hinaus ist dieses Werkzeug das einzige Werkzeug für Vorhersagen, mit dem Modelle für unterschiedliche geographische Maßstäbe erstellt werden können. Anstatt für jede Position des Raum-Zeit-Würfels ein unabhängiges Vorhersagemodell zu erstellen, können Sie mit diesem Werkzeug ein einziges globales Vorhersagemodell erstellen, bei dem die einzelnen Positionen als Trainingsdaten verwendet werden. Wenn für eine Variable des Eingabe-Raum-Zeit-Würfels Ergebnisse der Zeitserien-Cluster-Bildung vorhanden sind, können Sie für die einzelnen Cluster auch ein anderes Vorhersagemodell verwenden.

  • Der Parameter Modellmaßstab kann verwendet werden, um den Maßstab festzulegen, der für die Schätzung der Forest-basierten Modelle verwendet wird. Für den Parameter gibt es die folgenden drei Optionen:

    • Einzelne Position: Mit dieser Option wird für jede Position des Raum-Zeit-Würfels ein anderes Modell unabhängig geschätzt. Dies ist die Standardeinstellung.
    • Gesamter Würfel: Mit dieser Option wird ein einziges Modell geschätzt, wobei alle Positionen als Trainingsdaten verwendet werden. Das freigegebene Modell wird zur Vorhersage zukünftiger Werte an jeder Position verwendet.
    • Zeitserien-Cluster: Mit dieser Option wird für jeden Cluster eines Ergebnisses der Zeitserien-Cluster-Bildung ein anderes Modell unabhängig geschätzt. Geben Sie die Variable mit Ergebnissen der Zeitserien-Cluster-Bildung im Parameter Cluster-Variable an. Für die Variable müssen Sie das Werkzeug Zeitserien-Cluster-Bildung verwenden. Mit den Ergebnissen der Zeitserien-Cluster-Bildung können Sie jede Variable verwenden, auch die Analysevariable.

    Weitere Informationen zur Schätzung von Modellen mit unterschiedlichen Maßstäben

  • Mit dem Werkzeug Vorhersagen nach Position auswerten können mehrere vorhergesagte Raum-Zeit-Würfel verglichen und zusammengeführt werden. Auf diese Weise können Sie mit unterschiedlichen Vorhersagewerkzeugen und -parametern mehrere Vorhersagewürfel erstellen. Das Werkzeug ermittelt dann mit dem Vorhersage-RMSE (Root Mean Square Error) oder dem Validierungs-RMSE die beste Vorhersage für jeden Position.

  • Bei der Vorhersage zukünftiger Werte erstellt das Werkzeug zwei Modelle für unterschiedliche Zwecke.

    • Vorhersagemodell: Dieses Modell wird für die Vorhersage von Werten des Raum-Zeit-Würfels verwendet, indem mit den Werten der Zeitserie ein Forest erstellt wird und dieser Forest für die Vorhersage der Werte zukünftiger Zeitintervalle verwendet wird. Die Eignung des Vorhersagemodell für die Werte des Raum-Zeit-Würfels wird mit dem Vorhersage-RMSE-Wert gemessen.
    • Validierungsmodell: Mit diesem Modell wird das Vorhersagemodell validiert und getestet, wie genau es Werte vorhersagen kann. Wenn eine Zahl größer als 0 für den Parameter Für die Validierung auszuschließende Anzahl an Zeitintervallen angegeben wird, wird dieses Modell mit den einbezogenen Zeitintervallen erstellt. Anschließend werden damit die Werte der ausgeschlossenen Zeitintervalle vorhergesagt. So können Sie erkennen, wie gut das Modell Werte vorhersagen kann. Die Übereinstimmung der vorhergesagten Werte mit den ausgeschlossenen Werten wird mit dem Validierungs-RMSE-Wert gemessen.

    Weitere Informationen zu Vorhersagemodell, Validierungsmodell und RMSE-Statistiken

  • Die Parameterwerte der Ausgabe-Features werden dem Bereich Inhalt hinzugefügt, wobei das Rendering auf dem letzten vorhergesagten Zeitintervall basiert.

  • Das Werkzeug erstellt Geoverarbeitungsmeldungen und Pop-up-Diagramme, mit denen Sie die Ergebnisse der Vorhersage leichter verstehen und visualisieren können. Die Meldungen enthalten Informationen über die Struktur des Raum-Zeit-Würfels und Summenstatistiken der RMSE-Werte und Saisonlängen. Klicken Sie mit dem Navigationswerkzeug Erkunden auf ein Feature, um im Bereich Pop-up ein Liniendiagramm mit den Werten des Raum-Zeit-Würfels, den angepassten Forest-Werten, den vorhergesagten Werten und den Konfidenzgrenzen für diese Position anzuzeigen.

  • Mit dem Parameter Andere Variablen können Sie erklärende Variablen einschließen, um die Vorhersagen zu verbessern. Wenn weitere Variablen angegeben werden, ist das Vorhersagemodell eine multivariate Forest-basierte Vorhersage. Jede erklärende Variable wird in jedem Zeitfenster, das zum Trainieren des Vorhersagemodells verwendet wird, in zeitverzögerte Faktoren konvertiert. Damit können Sie jeden verzögerten Effekt zwischen den erklärenden Variablen und der Analysevariablen schätzen. Zum Beispiel kann ein Anstieg der Anzahl der Krankenhauseinweisungen während einer Pandemie die Anzahl der Todesfälle 14 Tage später gut vorhersagen, während die Anzahl der Krankenhauseinweisungen nur schlecht die Anzahl der Todesfälle in den nächsten 3 Tagen vorhersagt. Da die Anzahl der Zeitverzögerungen dem Wert des Parameters Zeitintervallfenster entspricht, muss das Zeitfenster breiter sein als jeder verzögerte Effekt, den Sie erfassen möchten.

    Der Parameter Ausgabetabelle zur Bedeutung erstellt eine Tabelle der wichtigsten Faktoren an jeder Position und fügt das Balkendiagramm Gewichtung für Zeitverzögerung ein, in dem die Anzahl der wichtigsten Faktoren an allen Positionen, sortiert nach Zeitverzögerung innerhalb des Zeitfensters, angezeigt werden. Damit können Sie erkennen, welche Variablen beim Vorhersagen des Wertes der Analysevariablen von Bedeutung sind, und visualisieren, mit welcher Verzögerung der jeweilige Faktor am wichtigsten war. Wenn zum Beispiel die Anzahl der Krankenhauseinweisungen mit der Anzahl der Todesfälle 14 Tage später verknüpft wird, sollte das Zeitintervallfenster mindestens 14 Tage sein. In diesem Fall sollte eine große Zahl von Krankenhauseinweisungen etwa 14 Tage vor dem Ende des Zeitfensters beobachtet werden.

    Wie viele Faktoren an einer Position für wichtig erachtet werden, hängt vom Wert des Parameters Schwellenwert für Wichtigkeit ab. Wenn zum Beispiel der Wert 15 verwendet wird, werden die obersten 15 Prozent der Faktoren für jede Position in die Tabelle und das Diagramm einbezogen.

  • Der Parameter Ausreißeroption kann verwendet werden, um statistisch signifikante Ausreißer für Zeitserienwerte an jeder Position zu erkennen.

    Weitere Informationen zum Erkennen von Ausreißern in einer Zeitserie

  • Wenn Sie die Option Ausreißer identifizieren des Parameters Ausreißeroption auswählen, empfiehlt es sich, einen Wert für den Parameter Zeitintervallfenster einzugeben, anstatt den Parameter leer zu lassen und an jeder Position ein anderes Zeitintervallfenster zu schätzen. Bei jeder Position verwendet das Forest-Modell die Zeitintervalle im ersten Zeitintervallfenster, um das Vorhersagemodell zu trainieren. Ausreißer werden nur für die verbleibenden Zeitintervalle gesucht. Wenn bei unterschiedlichen Positionen eine unterschiedliche Anzahl von Zeitintervallen vom Training ausgeschlossen werden, können Summenstatistiken wie die mittlere, minimale und maximale Anzahl der Ausreißer je Zeitintervall oder je Position einen falschen Eindruck erwecken.

  • Wenn im Parameter Weitere Variablen erklärende Variablen vorhanden sind, oder wenn die Optionen Gesamter Würfel oder Zeitserien-Cluster für den Parameter Modellmaßstab angegeben wurden, ist für den Parameter Vorhersageansatz nur die Option Modell nach Wert erstellen verfügbar. Zudem verlängert sich die Verarbeitungszeit, wenn eine dieser Optionen verwendet wird.

  • Die Entscheidung über die Anzahl der Zeitintervalle, die für die Validierung ausgeschlossen werden sollen, ist wichtig. Je mehr Zeitintervalle ausgeschlossen werden, desto weniger stehen für die Schätzung des Validierungsmodells zur Verfügung. Wenn jedoch zu wenige Zeitintervalle ausgeschlossen werden, wird der Validierungs-RMSE mit einer geringen Datenmenge geschätzt und kann irreführend sein. Sie sollten so viele Zeitintervalle wie möglich ausschließen und gleichzeitig genügend Zeitintervalle beibehalten, um das Validierungsmodell zu schätzen. Es empfiehlt sich außerdem, mindestens so viele Zeitintervalle für die Validierung zurückzuhalten, wie vorhergesagt werden sollen, sofern der Raum-Zeit-Würfel eine entsprechende Anzahl an Zeitintervallen aufweist.

Parameter

BeschriftungErläuterungDatentyp
Eingabe-Raum-Zeit-Würfel

Der NetCDF-Würfel, der die Variable enthält, die für zukünftige Zeitintervalle vorhergesagt werden soll. Diese Datei muss eine .nc-Dateierweiterung aufweisen und mit dem Werkzeug Raum-Zeit-Würfel durch Aggregieren von Punkten erstellen, Raum-Zeit-Würfel aus definierten Positionen erstellen oder Raum-Zeit-Würfel aus multidimensionalem Raster-Layer erstellen erstellt worden sein.

File
Analysevariable

Die numerische Variable in der NetCDF-Datei, die für zukünftige Zeitintervalle vorhergesagt wird.

String
Ausgabe-Features

Die Ausgabe-Feature-Class von allen Positionen im Raum-Zeit-Würfel mit vorhergesagten Werten, die als Felder gespeichert werden. Der Layer zeigt die Vorhersage für das letzte Zeitintervall an und enthält Pop-up-Diagramme, die die Zeitserie, Vorhersagen und 90-Prozent-Konfidenzgrenzen für jede Position enthalten.

Feature Class
Ausgabe-Raum-Zeit-Würfel
(optional)

Ein neuer Raum-Zeit-Würfel (.nc-Datei), der die Werte des Eingabe-Raum-Zeit-Würfels mit den angehängten vorhergesagten Zeitintervallen enthält. Das Werkzeug Raum-Zeit-Würfel in 3D visualisieren kann verwendet werden, um alle beobachteten und vorhergesagten Werte gleichzeitig zu sehen.

File
Anzahl an Zeitintervallen für die Vorhersage
(optional)

Eine positive ganze Zahl, mit der die Anzahl an Zeitintervallen für die Vorhersage angegeben wird. Dieser Wert darf nicht mehr als 50 Prozent aller Zeitintervalle im Eingabe-Raum-Zeit-Würfel betragen. Der Standardwert ist ein Zeitintervall.

Long
Zeitintervallfenster
(optional)

Die Anzahl der vorherigen Zeitintervalle, die beim Trainieren des Modells verwendet werden sollen. Wenn die Daten eine Saisonalität (sich wiederholende Zyklen) zeigen, dann geben Sie die Anzahl der Zeitschritte, die einer Saison entsprechen, an. Dieser Wert darf nicht mehr als ein Drittel der Anzahl der Zeitschritte im Eingabe-Raum-Zeit-Würfel betragen. Wenn bei Verwendung des Modellmaßstabs der einzelne Positionen kein Wert angegeben wird, wird mittels einer spektralen Dichtefunktion ein Zeitfenster für jede Position geschätzt. Wenn bei Verwendung des Modellmaßstabs des gesamten Würfels oder des Zeitserien-Clusters kein Wert angegeben wird, wird ein Viertel der Anzahl der Zeitschritte verwendet.

Weitere Informationen zu saisonalen Schwankungen und zur Auswahl eines Zeitfensters

Long
Für die Validierung auszuschließende Anzahl an Zeitintervallen
(optional)

Die Anzahl an Zeitintervallen am Ende jeder Zeitserie, die für die Validierung ausgeschlossen wird. Der Standardwert ist 10 Prozent (abgerundet) der Anzahl an Eingabe-Zeitintervallen. Der Wert darf nicht größer als 25 Prozent der Anzahl an Zeitintervallen sein. Geben Sie den Wert 0 an, um keine Zeitintervalle auszuschließen.

Long
Anzahl der Strukturen
(optional)

Die Anzahl der Strukturen, die im Forest-Modell erstellt werden sollen. Eine höhere Anzahl von Strukturen führt zu einer genaueren Modellvorhersage, für die Berechnung des Modells wird jedoch mehr Zeit benötigt. Die Standardzahl der Strukturen beträgt 100. Dieser Wert muss mindestens 1 und darf nicht größer als 1.000 sein.

Long
Minimale Elementgröße
(optional)

Die minimale Anzahl der Beobachtungen, die mindestens erforderlich sind, um ein Element (d. h. den Endpunkt einer Struktur, der keine weiteren Verzweigungen hat) beizubehalten. Bei sehr großen Daten führt eine Erhöhung dieser Zahl zu einer Erhöhung der Laufzeit des Werkzeugs.

Long
Maximale Strukturtiefe
(optional)

Die maximale Anzahl von Teilungen entlang einer Struktur. Je größer die maximale Tiefe, desto mehr Teilungen werden erstellt. Dadurch steigt das Risiko einer Überanpassung des Modells. Wird kein Wert angegeben, wird durch das Werkzeug basierend auf der Anzahl der durch das Modell erstellten Strukturen und der Größe des Zeitintervallfensters ein Wert ermittelt.

Long
Prozentsatz des Trainings verfügbar pro Struktur (%)
(optional)

Der Prozentsatz der Trainingsdaten, die für die Anpassung des Vorhersagemodells verwendet werden sollen. Die Trainingsdaten bestehen aus verknüpften erklärenden und abhängigen Variablen, die mit Zeitfenstern erstellt wurden. Alle verbleibenden Trainingsdaten werden zum Optimieren der Parameter des Vorhersagemodells verwendet. Der Standardwert ist 100 Prozent.

Long
Vorhersageansatz
(optional)

Gibt an, wie die erklärenden und abhängigen Variablen beim Training des Forest-Modells an jeder Position dargestellt werden sollen.

Zum Trainieren des Forest-Modells, das für Vorhersagen verwendet werden soll, müssen mit Zeitfenstern Sätze aus erklärenden und abhängigen Variablen erstellt werden. Verwenden Sie diesen Parameter, um anzugeben, ob diese Variablen linear trendbereinigt werden sollen und ob die abhängige Variable durch ihren Raw-Wert oder durch das Residuum eines linearen Regressionsmodells dargestellt werden soll. Dieses lineare Regressionsmodell verwendet alle Zeitintervalle innerhalb eines Zeitfensters als erklärende Variablen und das folgende Zeitintervall als abhängige Variable. Das Residuum wird durch Subtraktion des auf linearer Regression basierenden vorhergesagten Wertes vom Raw-Wert der abhängigen Variable berechnet.

Wenn im Parameter Weitere Variablen Variablen angegeben werden, oder wenn Gesamter Würfel oder Zeitserien-Cluster für den Parameter Modellmaßstab angegeben wurden, ist die Option Wert der einzige verfügbare Vorhersageansatz.

  • Modell mit Wert erstellenWerte innerhalb des Zeitfensters werden nicht trendbereinigt, und die abhängige Variable wird durch ihren Raw-Wert dargestellt. Wenn weitere Variablen angegeben werden, oder wenn sich der Modellmaßstab nicht auf einzelne Positionen bezieht, ist dies der einzige verfügbare Vorhersageansatz, der dann auch als Standardeinstellung verwendet wird.
  • Modell mit Wert nach Trendbereinigung erstellenWerte innerhalb des Zeitfensters werden linear trendbereinigt, und die abhängige Variable wird durch ihren trendbereinigten Wert dargestellt. Dies ist die Standardeinstellung.
  • Modell nach Residuum erstellenWerte innerhalb des Zeitfensters werden nicht trendbereinigt, und die abhängige Variable wird durch das Residuum eines linearen Regressionsmodells unter Verwendung der Werte innerhalb des Zeitfensters als erklärende Variablen dargestellt.
  • Modell nach trendbereinigtem Residuum erstellenWerte innerhalb des Zeitfensters werden linear trendbereinigt, und die abhängige Variable wird durch das Residuum eines linearen Regressionsmodells unter Verwendung der trendbereinigten Werte innerhalb des Zeitfensters als erklärende Variablen dargestellt.
String
Ausreißeroption
(optional)

Gibt an, ob statistisch signifikante Ausreißer in einer Zeitserie identifiziert werden.

  • KeineAusreißer werden nicht identifiziert. Dies ist die Standardeinstellung.
  • Ausreißer identifizierenAusreißer werden mithilfe des generalisierten ESD-Tests identifiziert.
String
Konfidenzniveau
(optional)

Gibt das Konfidenzniveau des Tests für Ausreißer in einer Zeitserie an.

  • 90 %Das Konfidenzniveau für den Test beträgt 90 Prozent. Dies ist die Standardeinstellung.
  • 95 %Das Konfidenzniveau für den Test beträgt 95 Prozent.
  • 99%Das Konfidenzniveau für den Test beträgt 99 Prozent.
String
Maximale Anzahl von Ausreißern

Die maximale Anzahl von Zeitintervallen, die für jede Position als Ausreißer deklariert werden können. Der Standardwert entspricht 5 Prozent (abgerundet) der Anzahl der Zeitintervalle des Eingabe-Raum-Zeit-Würfels (es wird immer ein Wert von mindestens 1 verwendet). Dieser Wert darf 20 Prozent der Anzahl der Zeitintervalle nicht überschreiten.

Long
Andere Variablen
(optional)

Andere Variablen des Eingabe-Raum-Zeit-Würfels, die als erklärende Variablen verwendet werden sollen, um die Vorhersagen zu verbessern.

String
Schwellenwert für Wichtigkeit (%)
(optional)

Der Prozent der Faktoren, die für das Vorhersagen der Analysevariablen für wichtig erachtet werden. Wenn zum Beispiel der Wert 20 verwendet wird, werden die obersten 20 Prozent der Faktoren für jede Position in die Tabelle zur Bedeutung einbezogen. Da jede Variable (die Analysevariable und jede erklärende Variable) einmal für jedes Zeitintervall im Zeitintervallfenster als Faktor dargestellt wird, entspricht die Anzahl der Faktoren an jeder Position der Länge des Zeitfensters multipliziert mit der Anzahl der Variablen. Zur Bestimmung der Anzahl der wichtigen Faktoren für jedes Vorhersagemodell wird die Anzahl der Faktoren mit dem Schwellenwert für die Wichtigkeit multipliziert. Der Standardwert ist "10", und der Wert muss eine ganze Zahl zwischen 1 und 100 sein.

Long
Ausgabetabelle zur Bedeutung
(optional)

Die Ausgabetabelle, die die wichtigsten Faktoren an jeder Position enthält. Für den Modellmaßstab einzelner Positionen wird jeder wichtige Faktor an jeder Position des Raum-Zeit-Würfels als Zeile in der Tabelle dargestellt, in der die Felder den Namen der Variablen und die zugehörige Zeitverzögerung enthalten. Für Modellmaßstäbe des gesamten Würfels oder Zeitserien-Clusters werden alle wichtigen Faktoren im gesamten Würfel oder Cluster-Modell durch eine Zeile dargestellt. Die Tabelle enthält ein Diagramm, in dem die wichtigsten Faktoren an allen Positionen nach Zeitverzögerung getrennt angezeigt werden. Mit diesem Diagramm können Sie verzögerte Effekte zwischen den erklärenden Variablen und der Analysevariablen, die vorhergesagt wird, visualisieren.

Table
Modellmaßstab
(optional)

Gibt an, mit welchem Maßstab die Schätzung des Vorhersage- und des Validierungsmodells durchgeführt wird.

  • Einzelne PositionFür jede Position wird ein anderes Vorhersagemodell und Validierungsmodell geschätzt. Dies ist die Standardeinstellung.
  • Gesamter WürfelMit dieser Option wird ein einziges Vorhersagemodell und Validierungsmodell geschätzt, wobei alle Positionen als Trainingsdaten verwendet werden.
  • Zeitserien-Cluster-BildungMit dieser Option wird für jeden Cluster eines Ergebnisses der Zeitserien-Cluster-Bildung ein Vorhersage- und Validierungsmodell geschätzt. Geben Sie die Variable mit Ergebnissen der Zeitserien-Cluster-Bildung im Parameter Cluster-Variable an.
String
Cluster-Variable
(optional)

Die Variable, die verwendet wird, um die Positionen des Raum-Zeit-Würfels in Regionen zu gruppieren. Dabei werden für jede Region unterschiedliche Vorhersage- und Validierungsmodelle geschätzt. Damit die Variable verwendet werden kann, muss sie Ergebnisse der Zeitserien-Cluster-Bildung enthalten. Bei der Cluster-Variablen kann es sich um eine beliebige Variable des Raum-Zeit-Würfels handeln, auch um die Analysevariable.

String

arcpy.stpm.ForestBasedForecast(in_cube, analysis_variable, output_features, {output_cube}, {number_of_time_steps_to_forecast}, {time_window}, {number_for_validation}, {number_of_trees}, {minimum_leaf_size}, {maximum_depth}, {sample_size}, {forecast_approach}, {outlier_option}, {level_of_confidence}, maximum_number_of_outliers, {other_variables}, {importance_threshold}, {output_importance_table}, {model_scale}, {cluster_variable})
NameErläuterungDatentyp
in_cube

Der NetCDF-Würfel, der die Variable enthält, die für zukünftige Zeitintervalle vorhergesagt werden soll. Diese Datei muss eine .nc-Dateierweiterung aufweisen und mit dem Werkzeug Raum-Zeit-Würfel durch Aggregieren von Punkten erstellen, Raum-Zeit-Würfel aus definierten Positionen erstellen oder Raum-Zeit-Würfel aus multidimensionalem Raster-Layer erstellen erstellt worden sein.

File
analysis_variable

Die numerische Variable in der NetCDF-Datei, die für zukünftige Zeitintervalle vorhergesagt wird.

String
output_features

Die Ausgabe-Feature-Class von allen Positionen im Raum-Zeit-Würfel mit vorhergesagten Werten, die als Felder gespeichert werden. Der Layer zeigt die Vorhersage für das letzte Zeitintervall an und enthält Pop-up-Diagramme, die die Zeitserie, Vorhersagen und 90-Prozent-Konfidenzgrenzen für jede Position enthalten.

Feature Class
output_cube
(optional)

Ein neuer Raum-Zeit-Würfel (.nc-Datei), der die Werte des Eingabe-Raum-Zeit-Würfels mit den angehängten vorhergesagten Zeitintervallen enthält. Das Werkzeug Raum-Zeit-Würfel in 3D visualisieren kann verwendet werden, um alle beobachteten und vorhergesagten Werte gleichzeitig zu sehen.

File
number_of_time_steps_to_forecast
(optional)

Eine positive ganze Zahl, mit der die Anzahl an Zeitintervallen für die Vorhersage angegeben wird. Dieser Wert darf nicht mehr als 50 Prozent aller Zeitintervalle im Eingabe-Raum-Zeit-Würfel betragen. Der Standardwert ist ein Zeitintervall.

Long
time_window
(optional)

Die Anzahl der vorherigen Zeitintervalle, die beim Trainieren des Modells verwendet werden sollen. Wenn die Daten eine Saisonalität (sich wiederholende Zyklen) zeigen, dann geben Sie die Anzahl der Zeitschritte, die einer Saison entsprechen, an. Dieser Wert darf nicht mehr als ein Drittel der Anzahl der Zeitschritte im Eingabe-Raum-Zeit-Würfel betragen. Wenn bei Verwendung des Modellmaßstabs der einzelne Positionen kein Wert angegeben wird, wird mittels einer spektralen Dichtefunktion ein Zeitfenster für jede Position geschätzt. Wenn bei Verwendung des Modellmaßstabs des gesamten Würfels oder des Zeitserien-Clusters kein Wert angegeben wird, wird ein Viertel der Anzahl der Zeitschritte verwendet.

Long
number_for_validation
(optional)

Die Anzahl an Zeitintervallen am Ende jeder Zeitserie, die für die Validierung ausgeschlossen wird. Der Standardwert ist 10 Prozent (abgerundet) der Anzahl an Eingabe-Zeitintervallen. Der Wert darf nicht größer als 25 Prozent der Anzahl an Zeitintervallen sein. Geben Sie den Wert 0 an, um keine Zeitintervalle auszuschließen.

Long
number_of_trees
(optional)

Die Anzahl der Strukturen, die im Forest-Modell erstellt werden sollen. Eine höhere Anzahl von Strukturen führt zu einer genaueren Modellvorhersage, für die Berechnung des Modells wird jedoch mehr Zeit benötigt. Die Standardzahl der Strukturen beträgt 100. Dieser Wert muss mindestens 1 und darf nicht größer als 1.000 sein.

Long
minimum_leaf_size
(optional)

Die minimale Anzahl der Beobachtungen, die mindestens erforderlich sind, um ein Element (d. h. den Endpunkt einer Struktur, der keine weiteren Verzweigungen hat) beizubehalten. Bei sehr großen Daten führt eine Erhöhung dieser Zahl zu einer Erhöhung der Laufzeit des Werkzeugs.

Long
maximum_depth
(optional)

Die maximale Anzahl von Teilungen entlang einer Struktur. Je größer die maximale Tiefe, desto mehr Teilungen werden erstellt. Dadurch steigt das Risiko einer Überanpassung des Modells. Wird kein Wert angegeben, wird durch das Werkzeug basierend auf der Anzahl der durch das Modell erstellten Strukturen und der Größe des Zeitintervallfensters ein Wert ermittelt.

Long
sample_size
(optional)

Der Prozentsatz der Trainingsdaten, die für die Anpassung des Vorhersagemodells verwendet werden sollen. Die Trainingsdaten bestehen aus verknüpften erklärenden und abhängigen Variablen, die mit Zeitfenstern erstellt wurden. Alle verbleibenden Trainingsdaten werden zum Optimieren der Parameter des Vorhersagemodells verwendet. Der Standardwert ist 100 Prozent.

Weitere Informationen zum Training des Forest-Vorhersagemodells

Long
forecast_approach
(optional)

Gibt an, wie die erklärenden und abhängigen Variablen beim Training des Forest-Modells an jeder Position dargestellt werden sollen.

Zum Trainieren des Forest-Modells, das für Vorhersagen verwendet werden soll, müssen mit Zeitfenstern Sätze aus erklärenden und abhängigen Variablen erstellt werden. Verwenden Sie diesen Parameter, um anzugeben, ob diese Variablen linear trendbereinigt werden sollen und ob die abhängige Variable durch ihren Raw-Wert oder durch das Residuum eines linearen Regressionsmodells dargestellt werden soll. Dieses lineare Regressionsmodell verwendet alle Zeitintervalle innerhalb eines Zeitfensters als erklärende Variablen und das folgende Zeitintervall als abhängige Variable. Das Residuum wird durch Subtraktion des auf linearer Regression basierenden vorhergesagten Wertes vom Raw-Wert der abhängigen Variable berechnet.

Wenn im Parameter Weitere Variablen Variablen angegeben werden, oder wenn Gesamter Würfel oder Zeitserien-Cluster für den Parameter Modellmaßstab angegeben wurden, ist die Option Wert der einzige verfügbare Vorhersageansatz.

Weitere Informationen zum Parameter "Vorhersageansatz"

  • VALUEWerte innerhalb des Zeitfensters werden nicht trendbereinigt, und die abhängige Variable wird durch ihren Raw-Wert dargestellt. Wenn weitere Variablen angegeben werden, oder wenn sich der Modellmaßstab nicht auf einzelne Positionen bezieht, ist dies der einzige verfügbare Vorhersageansatz, der dann auch als Standardeinstellung verwendet wird.
  • VALUE_DETRENDWerte innerhalb des Zeitfensters werden linear trendbereinigt, und die abhängige Variable wird durch ihren trendbereinigten Wert dargestellt. Dies ist die Standardeinstellung.
  • RESIDUALWerte innerhalb des Zeitfensters werden nicht trendbereinigt, und die abhängige Variable wird durch das Residuum eines linearen Regressionsmodells unter Verwendung der Werte innerhalb des Zeitfensters als erklärende Variablen dargestellt.
  • RESIDUAL_DETRENDWerte innerhalb des Zeitfensters werden linear trendbereinigt, und die abhängige Variable wird durch das Residuum eines linearen Regressionsmodells unter Verwendung der trendbereinigten Werte innerhalb des Zeitfensters als erklärende Variablen dargestellt.
String
outlier_option
(optional)

Gibt an, ob statistisch signifikante Ausreißer in einer Zeitserie identifiziert werden.

  • NONEAusreißer werden nicht identifiziert. Dies ist die Standardeinstellung.
  • IDENTIFYAusreißer werden mithilfe des generalisierten ESD-Tests identifiziert.
String
level_of_confidence
(optional)

Gibt das Konfidenzniveau des Tests für Ausreißer in einer Zeitserie an.

  • 90%Das Konfidenzniveau für den Test beträgt 90 Prozent. Dies ist die Standardeinstellung.
  • 95%Das Konfidenzniveau für den Test beträgt 95 Prozent.
  • 99%Das Konfidenzniveau für den Test beträgt 99 Prozent.
String
maximum_number_of_outliers

Die maximale Anzahl von Zeitintervallen, die für jede Position als Ausreißer deklariert werden können. Der Standardwert entspricht 5 Prozent (abgerundet) der Anzahl der Zeitintervalle des Eingabe-Raum-Zeit-Würfels (es wird immer ein Wert von mindestens 1 verwendet). Dieser Wert darf 20 Prozent der Anzahl der Zeitintervalle nicht überschreiten.

Long
other_variables
[other_variables,...]
(optional)

Andere Variablen des Eingabe-Raum-Zeit-Würfels, die als erklärende Variablen verwendet werden sollen, um die Vorhersagen zu verbessern.

String
importance_threshold
(optional)

Der Prozent der Faktoren, die für das Vorhersagen der Analysevariablen für wichtig erachtet werden. Wenn zum Beispiel der Wert 20 verwendet wird, werden die obersten 20 Prozent der Faktoren für jede Position in die Tabelle zur Bedeutung einbezogen. Da jede Variable (die Analysevariable und jede erklärende Variable) einmal für jedes Zeitintervall im Zeitintervallfenster als Faktor dargestellt wird, entspricht die Anzahl der Faktoren an jeder Position der Länge des Zeitfensters multipliziert mit der Anzahl der Variablen. Zur Bestimmung der Anzahl der wichtigen Faktoren für jedes Vorhersagemodell wird die Anzahl der Faktoren mit dem Schwellenwert für die Wichtigkeit multipliziert. Der Standardwert ist "10", und der Wert muss eine ganze Zahl zwischen 1 und 100 sein.

Long
output_importance_table
(optional)

Die Ausgabetabelle, die die wichtigsten Faktoren an jeder Position enthält. Für den Modellmaßstab einzelner Positionen wird jeder wichtige Faktor an jeder Position des Raum-Zeit-Würfels als Zeile in der Tabelle dargestellt, in der die Felder den Namen der Variablen und die zugehörige Zeitverzögerung enthalten. Für Modellmaßstäbe des gesamten Würfels oder Zeitserien-Clusters werden alle wichtigen Faktoren im gesamten Würfel oder Cluster-Modell durch eine Zeile dargestellt. Die Tabelle enthält ein Diagramm, in dem die wichtigsten Faktoren an allen Positionen nach Zeitverzögerung getrennt angezeigt werden. Mit diesem Diagramm können Sie verzögerte Effekte zwischen den erklärenden Variablen und der Analysevariablen, die vorhergesagt wird, visualisieren.

Table
model_scale
(optional)

Gibt an, mit welchem Maßstab die Schätzung des Vorhersage- und des Validierungsmodells durchgeführt wird.

  • INDIVIDUAL_LOCATIONFür jede Position wird ein anderes Vorhersagemodell und Validierungsmodell geschätzt. Dies ist die Standardeinstellung.
  • ENTIRE_CUBEMit dieser Option wird ein einziges Vorhersagemodell und Validierungsmodell geschätzt, wobei alle Positionen als Trainingsdaten verwendet werden.
  • TIME_SERIES_CLUSTERMit dieser Option wird für jeden Cluster eines Ergebnisses der Zeitserien-Cluster-Bildung ein Vorhersage- und Validierungsmodell geschätzt. Geben Sie die Variable mit Ergebnissen der Zeitserien-Cluster-Bildung im Parameter cluster_variable an.
String
cluster_variable
(optional)

Die Variable, die verwendet wird, um die Positionen des Raum-Zeit-Würfels in Regionen zu gruppieren. Dabei werden für jede Region unterschiedliche Vorhersage- und Validierungsmodelle geschätzt. Damit die Variable verwendet werden kann, muss sie Ergebnisse der Zeitserien-Cluster-Bildung enthalten. Bei der Cluster-Variablen kann es sich um eine beliebige Variable des Raum-Zeit-Würfels handeln, auch um die Analysevariable.

String

Codebeispiel

ForestBasedForecast – Beispiel 1 (Python-Fenster)

Das folgende Python-Skript veranschaulicht, wie die Funktion ForestBasedForecast verwendet wird.


# Forecast four time steps using a random forest with detrending.
arcpy.stpm.ForestBasedForecast("CarTheft.nc","Cars_NONE_ZEROS", 
           "Analysis.gdb/Forecasts", "outForecastCube.nc", 4, 3, 
           5, 100, "", "", 100, "VALUE_DETREND", "", "", "", "",
           "", "", "INDIVIDUAL_LOCATION")
ForestBasedForecast – Beispiel 2 (eigenständiges Skript)

Das folgende Python-Skript veranschaulicht die Verwendung der Funktion ForestBasedForecast zur Vorhersage der Anzahl von Autodiebstählen.

# Forecast change in car thefts using a random forest.

# Import system modules.
import arcpy

# Set property to overwrite existing output, by default.
arcpy.env.overwriteOutput = True

# Set workspace.
workspace = r"C:\Analysis"
arcpy.env.workspace = workspace

# Forecast three time steps using a random forest based on change.
arcpy.stpm.ForestBasedForecast("CarTheft.nc","Cars_NONE_ZEROS","Analysis.gdb/Forecasts",
           "outForecastCube.nc", 4, 3, 5, 100, "", "", 100, "RESIDUAL", "IDENTIFY", 
           "90%", 4, None, 10, None, "INDIVIDUAL_LOCATION")

# Create a feature class visualizing the forecasts.
arcpy.stpm.VisualizeSpaceTimeCube3D("outForecastCube.nc", "Cars_NONE_ZEROS", "VALUE", 
           "Analysis.gdb/ForecastsFC")
ForestBasedForecast – Beispiel 3 (eigenständiges Skript)

Das folgende Python-Skript veranschaulicht die Verwendung der Funktion ForestBasedForecast zur Vorhersage von PM2.5, wobei weitere Variablen zur Verbesserung der Vorhersage verwendet werden.


import arcpy
arcpy.env.workspace = "C:/Analysis"

# Forecast twelve time steps using a random forest.
# Use entire cube model scale and multiple other variables
# Create variable importance table with top 10% of most important variables
arcpy.stpm.ForestBasedForecast("air_quality_cities.nc", "PM25", 
           "Analysis.gdb/PM25_forecast", "PM25_forecast_cube.nc", 12, None,
           30, 100, None, None, 100, "VALUE", "NONE", "90%",15, 
           "CO;HUMIDITY;O3;PRESSURE;TEMPERATURE;WINDSPEED", 10, 
           "Analysis.gdb/pm25_importance", "ENTIRE_CUBE")
ForestBasedForecast – Beispiel 4 (eigenständiges Skript)

Das folgende Python-Skript veranschaulicht die Verwendung der Funktion ForestBasedForecast zur Vorhersage der Bevölkerungszahl in einem Landkreis, wobei Cluster von Landkreisen mit ähnlicher Bevölkerungszahl verwendet werden.


import arcpy
arcpy.env.workspace = "C:/Analysis"

# Run time series clustering to cluster counties by population value.
arcpy.stpm.TimeSeriesClustering("USA_County_Population_1969_2019.nc", 
           "POPULATION_SUM_ZEROS",
           "Analysis.gdb/USA_County_Population_TimeSeriesClustering",
           "VALUE", None, None, None, "CREATE_POPUP")

# Run forest-based forecast models on each time series cluster
arcpy.stpm.ForestBasedForecast("USA_County_Population_1969_2019.nc",
          "POPULATION_SUM_ZEROS", 
          "Analysis.gdb/USA_County_Population_ForestBasedForecast", 
          "USA_County_Population_ForestBasedForecast_cube.nc", 20, 
          None, 3, 100, None, None, 100, "VALUE", "NONE", "90%", 1,
          None, 10, None, "TIME_SERIES_CLUSTER", "POPULATION_SUM_ZEROS")

Lizenzinformationen

  • Basic: Ja
  • Standard: Ja
  • Advanced: Ja

Verwandte Themen