Prévision basée sur une forêt (Exploration des modèles spatio-temporels)

Synthèse

Prévoit les valeurs à chaque emplacement d’un cube spatio-temporel à l’aide d’une adaptation de l’algorithme des forêts aléatoires, qui est une méthode de machine learning supervisée mise au point par Leo Breiman et Adele Cutler. Le modèle de régression basé sur une forêt est entraîné à l’aide de fenêtres horaires définies à chaque emplacement du cube spatio-temporel.

En savoir plus sur le fonctionnement de l’outil Prévision basée sur une forêt

Illustration

Illustration de l’outil Prévision basée sur une forêt
Une série temporelle prévue à l’aide de l’outil Prévision basée sur une forêt est affichée.

Utilisation

  • Cet outil accepte les fichiers netCDF créés par les outils Créer un cube spatio-temporel en agrégeant des points, Créer un cube spatio-temporel à partir d’emplacements définis, Créer un cube spatio-temporel à partir d’une couche raster multidimensionnelle et Subdiviser un cube spatio-temporel.

  • Comparé aux autres outils de prévision du jeu d’outils Prévision de séries chronologiques, cet outil est plus complexe, mais inclut moins d’hypothèses concernant les données. Il est recommandé de l’utiliser pour les séries chronologiques aux tendances et formes compliquées plus difficiles à modéliser via de simples fonctions mathématiques ou lorsque les hypothèses d’autres méthodes ne donnent pas satisfaction. Il est également recommandé si votre cube spatio-temporel contient d’autres variables associées à la variable en cours de prévision. Ces variables peuvent être incluses en tant que variables explicatives pour améliorer la prévision.

    De plus, cet outil est le seul outil de prévision qui vous permet de créer des modèles à diverses échelles géographiques. Au lieu de créer un modèle de prévision indépendant à chaque emplacement d’un cube spatio-temporel, cet outil vous permet de créer un modèle de prévision globale unique qui utilise chaque emplacement en tant que données d’entraînement. S’il existe des résultats de l’agrégation de séries chronologiques pour une variable du cube spatio-temporel en entrée, vous pouvez également créer un modèle de prévision différent pour chaque cluster.

  • Le paramètre Échelle de modèle peut être utilisé afin de spécifier l’échelle utilisée pour estimer les modèles basés sur une forêt. Ce paramètre comporte les trois options suivantes :

    • Emplacement spécifique : un modèle différent est estimé indépendamment pour chaque emplacement du cube spatio-temporel. Il s’agit de l’option par défaut.
    • Cube entier : un modèle unique est estimé en utilisant tous les emplacements comme données d’entraînement. Le modèle partagé sera utilisé pour prévoir les valeurs futures à chaque emplacement.
    • Agrégat de séries chronologiques : un modèle différent est estimé indépendamment pour chaque agrégat d’un résultat d’agrégation de séries chronologiques. Fournissez la variable avec les résultats d’agrégation de séries chronologiques dans le paramètre Variable d’agrégat. Vous devez utiliser l’outil Agrégation de séries chronologiques sur la variable. Vous pouvez utiliser n’importe quelle variable avec les résultats d’agrégation de séries chronologiques, y compris la variable d’analyse.

    En savoir plus sur l’estimation de modèles à différentes échelles

  • Il est possible de comparer et fusionner plusieurs cubes spatio-temporels prévus à l’aide de l’outil Évaluer les prévisions par emplacement. Cela vous permet de créer plusieurs cubes de prévision à l’aide de différents outils et paramètres de prévision ; l’outil identifie la meilleure prévision pour chaque emplacement à l’aide de la racine carrée de l’erreur quadratique moyenne (RMSE) ou racine carrée de l’erreur quadratique moyenne de validation.

  • Tout en prévoyant les valeurs futures, l’outil génère deux modèles dont l’objectif est différent.

    • Modèle de prévision : ce modèle permet de prévoir et estimer les valeurs d’un cube spatio-temporel en générant une forêt qui utilise les valeurs d’une série chronologique et en utilisant cette forêt pour prévoir les valeurs des phases futures. L’adéquation du modèle de prévision aux valeurs du cube spatio-temporel est mesurée grâce à la valeur EQM prévue.
    • Validation model (Modèle de validation) : ce modèle permet de valider le modèle de prévision et de tester la précision de ses prévisions des valeurs. Si un nombre supérieur à 0 est spécifié pour le paramètre Number of Time Steps to Exclude for Validation (Nombre de phases à exclure de la validation), ce modèle est généré à l’aide des phases inclues et permet de prévoir les valeurs des phases exclues. Cela vous permet d’examiner la précision du modèle pour la prévision des valeurs. L’adéquation des valeurs prévues par rapport aux valeurs exclues est mesurée grâce à la valeur EQM de validation.

    En savoir plus sur le modèle de prévision, le modèle de validation et les statistiques EQM

  • Les valeurs du paramètre Output Features (Entités en sortie) sont ajoutées à la fenêtre Contents (Contenu) avec un rendu dépendant de la phase finale prévue.

  • Cet outil génère des messages de géotraitement et des diagrammes contextuels que vous pouvez utiliser pour comprendre et visualiser les résultats prévus. Les messages renferment des informations sur la structure du cube spatio-temporel ainsi que des statistiques synthétiques sur les valeurs EQM et la durée des saisons. Cliquez sur une entité à l’aide de l’outil de navigation Explorer pour afficher un diagramme linéaire dans la fenêtre contextuelle montrant les valeurs du cube spatio-temporel, les valeurs ajustées de la forêt, les valeurs prévues et les bornes de confiance pour cet emplacement.

  • Vous pouvez inclure des variables explicatives pour améliorer les prévisions à l’aide du paramètre Autres variables. Si d’autres variables sont fournies, le modèle de prévision consiste en une prévision basée sur une forêt multivariée. Chaque variable explicative est convertie en un facteur différé dans chaque fenêtre horaire utilisée pour entraîner le modèle de forêt. Vous pouvez ainsi estimer n’importe quel effet différé (retardé) entre les variables explicatives et la variable d’analyse. Par exemple, une augmentation du nombre d’hospitalisations pendant une pandémie peut prédire le nombre de morts 14 jours plus tard, tandis que le nombre d’hospitalisations peut mal prédire le nombre de morts dans les 3 prochains jours. Le nombre de décalages temporels étant égal à la valeur du paramètre Fenêtre Phase, la fenêtre horaire doit être plus grande qu’un effet différé que vous souhaitez capturer.

    Le paramètre Table d’importance en sortie crée une table affichant les facteurs les plus importants à chaque emplacement et comprend un diagramme à barres Importance de décalage temporel affichant les totaux des facteurs les plus importants à travers tous les emplacements, triés par décalage temporel dans la fenêtre horaire. Vous pouvez ainsi voir quelles variables ont été importantes pour prédire la valeur de la variable d’analyse et visualiser le décalage associé lorsque le facteur était le plus important. Par exemple, si le nombre d’hospitalisations est associé au nombre de morts survenant 14 jours plus tard, la fenêtre d’intervalle temporel doit être d’au moins 14 jours et vous devriez observer un nombre élevé d’hospitalisations environ 14 jours avant la fin de la fenêtre horaire.

    Le nombre de facteurs considérés comme importants à chaque emplacement dépend de la valeur du paramètre Seuil d’importance. Par exemple, si la valeur 15 est utilisée, les facteurs classés parmi les meilleurs 15 % à chaque emplacement sont inclus dans la table et le diagramme.

  • Le paramètre Outlier Option (Option de point aberrant) peut être utilisé pour détecter des points aberrants statistiquement significatifs dans les valeurs de série chronologique à chaque emplacement.

    En savoir plus sur la détection des points aberrants de série chronologique

  • Si vous choisissez l’option Identifier les points aberrants du paramètre Option de point aberrant, il est recommandé d’indiquer une valeur pour le paramètre Fenêtre Phase plutôt que de laisser le paramètre vide et d’estimer une autre fenêtre de phase à chaque emplacement. Pour chaque emplacement, le modèle de forêt utilise les phases dans la première fenêtre de phase pour entraîner le modèle de forêt et les points aberrants sont détectés uniquement pour les phases restantes. Si des emplacements différents excluent des nombres de phases différents pour l’entraînement, les résumés statistiques, tels que la moyenne, et les nombres minimum et maximum de points aberrants par phase ou par emplacement, peuvent être trompeurs.

  • Si des variables explicatives sont incluses dans le paramètre Autres variables ou si l’option Cube entier ou Agrégats de séries chronologiques du paramètre Échelle de modèle est spécifiée, seule l’option Créer un modèle selon une valeur est disponible pour le paramètre Approche de la prévision. De plus, le temps de traitement augmente lorsque l’une de ces options est utilisée.

  • Il est important de bien déterminer le nombre d’intervalles temporels à exclure de la validation. Plus le nombre de pas de temps exclus est élevé, moins il reste de pas de temps pour estimer le modèle de validation. Toutefois, si le nombre d’intervalles temporels exclus est insuffisant, la racine carrée de l’erreur quadratique moyenne de validation est estimée à l’aide d’une petite quantité de données et peut être trompeuse. Il est recommandé d’exclure autant de phases que possible tout en en conservant un nombre suffisant pour estimer le modèle de validation. Il est également recommandé de conserver au moins autant d’intervalles temporels pour la validation que pour la précision, si votre cube spatio-temporel dispose d’un nombre suffisant d’intervalles temporels pour le permettre.

Paramètres

ÉtiquetteExplicationType de données
Cube spatio-temporel en entrée

Cube netCDF contenant la variable à prévoir pour les futures phases. Ce fichier doit comporter l’extension .nc et avoir été créé à l’aide de l’outil Créer un cube spatio-temporel en agrégeant des points, Créer un cube spatio-temporel à partir d’emplacements définis ou Créer un cube spatio-temporel à partir d’une couche raster multidimensionnelle.

File
Variable d'analyse

Variable numérique du fichier netCDF à prévoir pour les futurs intervalles temporels.

String
Entités en sortie

Classe d’entités en sortie de tous les emplacements du cube spatio-temporel avec les valeurs prévues stockées sous forme de champs. La couche affiche la prévision de la phase finale et contient les diagrammes contextuels affichant les séries chronologiques, les prévisions et les bornes de confiance à 90 % de chaque emplacement.

Feature Class
Cube spatio-temporel en sortie
(Facultatif)

Nouveau cube spatio-temporel (fichier .nc) contenant les valeurs du cube spatio-temporel en entrée auxquelles ont été ajoutés les intervalles temporels prévus. L’outil Visualize Space Time Cube in 3D (Visualiser le cube spatio-temporel en 3D) permet d’examiner simultanément toutes les valeurs observées et prévues.

File
Number of Time Steps to Forecast (Nombre d'intervalles temporels à prévoir)
(Facultatif)

Entier positif spécifiant le nombre d'intervalles temporels à prévoir. Cette valeur ne doit pas être supérieure à 50 pour cent du nombre total d’intervalles temporels dans le cube spatio-temporel en entrée. La valeur par défaut est un intervalle temporel.

Long
Fenêtre Phase
(Facultatif)

Le nombre d’intervalles temporels précédents allant être utilisés lors de l’entraînement du modèle. Si les données affichent la saisonnalité (cycles répétés), indiquez le nombre de phases correspondant à une saison. Cette valeur ne peut pas être supérieure à un tiers du nombre de phases présentes dans le cube spatio-temporel en entrée. Lorsque l’échelle de modèle d’emplacement spécifique est utilisée, si aucune valeur n’est indiquée, une fenêtre horaire est estimée pour chaque emplacement à l’aide d’une fonction de densité spectrale. Lorsque des échelles de modèle de cube ou d’agrégat de séries chronologiques entier sont utilisées, si aucune valeur n’est indiquée, un quart du nombre d’intervalles temporels est utilisé.

En savoir plus sur la saisonnalité et le choix d’une fenêtre horaire

Long
Number of Time Steps to Exclude for Validation (Nombre d'intervalles temporels à exclure pour la validation)
(Facultatif)

Nombre d’intervalles temporels à la fin de chaque série chronologique à exclure de la validation. La valeur par défaut est de 10 pour cent (arrondie à la valeur inférieure) du nombre d’intervalles temporels et cette valeur ne peut pas être supérieure à 25 pour cent du nombre d’intervalles temporels. Spécifiez la valeur 0 pour ne pas exclure d’intervalles temporels.

Long
Nombre d’arbres
(Facultatif)

Nombre d’arbres à créer dans le modèle de forêt. En augmentant le nombre d’arbres dans le modèle, vous obtiendrez généralement une prévision plus précise mais le temps de calcul sera plus long. Par défaut, le nombre d’arbres est égal à 100 ; la valeur doit être égale au moins à 1 et ne peut dépasser 1 000.

Long
Taille minimale des feuilles
(Facultatif)

Le nombre minimal d’observations requises pour conserver une feuille (c’est-à-dire, le nœud terminal d’un arbre sans fractionnements supplémentaires). Si le volume des données est très important, plus ce nombre augmente, plus le temps d’exécution de l’outil diminue.

Long
Profondeur d’arbre maximum
(Facultatif)

Nombre maximum de fractionnements pouvant être effectués pour un arbre. Si la profondeur maximum est élevée, le nombre de fractionnements créés augmente, ce qui accroît les risques de sur-ajustement du modèle. En l’absence de valeur, une valeur est identifiée par l’outil selon le nombre d’arbres créés par le modèle et la taille de la fenêtre de phase.

Long
Pourcentage d’entraînement disponible par arbre (%)
(Facultatif)

Le pourcentage de données d’entraînement permettra d’ajuster le modèle de prévision. Les données d’entraînement se composent de variables explicatives associées et de variables dépendantes générées à l’aide des fenêtres horaires. Les autres données d’entraînement permettent d’optimiser les paramètres du modèle de prévision. La valeur par défaut est de 100 pour cent.

Long
Approche de la prévision
(Facultatif)

Spécifie le mode de représentation des variables explicatives et dépendantes lors de l’entraînement du modèle de forêt à chaque emplacement.

Pour entraîner le modèle de forêt à utiliser dans le cadre de la prévision, il est nécessaire de créer des jeux de variables explicatives et de variables dépendantes à l’aide des fenêtres horaires. Utilisez ce paramètre pour spécifier si ces variables sont décomposées de façon linéaire et si les variables dépendantes sont représentées par leur valeur brute ou la valeur résiduelle d’un modèle de régression linéaire. Ce modèle de régression linéaire utilise toutes les phases d’une fenêtre horaire comme variables explicatives et la phase suivante comme variable dépendante. La valeur résiduelle est calculée en soustrayant la valeur prévue basée sur la régression linéaire de la valeur brute de la variable dépendante.

Si des variables sont fournies dans le paramètre Autres variables ou si la valeur Cube entier ou Agrégat de séries chronologiques est spécifiée pour le paramètre Échelle de modèle, l’option Valeur est la seule approche de prévision disponible.

  • Créer un modèle selon une valeurLes valeurs de la fenêtre horaire ne sont pas décomposées et la variable dépendante est représentée par sa valeur brute. Si d’autres variables sont fournies ou si l’échelle de modèle n’est pas un emplacement spécifique, il s’agit de la seule approche de prévision disponible et de l’approche par défaut.
  • Créer un modèle selon une valeur après la décompositionLes valeurs de la fenêtre horaire sont décomposées de façon linéaire et la variable dépendante est représentée par sa valeur décomposée. Il s’agit de l’option par défaut.
  • Créer un modèle selon une valeur résiduelleLes valeurs de la fenêtre horaire ne sont pas décomposées et la variable dépendante est représentée par la valeur résiduelle d’un modèle de régression linéaire utilisant les valeurs de la fenêtre horaire comme variables explicatives.
  • Créer un modèle selon une valeur résiduelle après la décompositionLes valeurs de la fenêtre horaire sont décomposées de façon linéaire et la variable dépendante est représentée par la valeur résiduelle d’un modèle de régression linéaire utilisant les valeurs décomposées de la fenêtre horaire comme variables explicatives.
String
Outlier Option (Option de point aberrant)
(Facultatif)

Indique si les points aberrants de série chronologique statistiquement significatifs sont identifiés.

  • AucunLes points aberrants ne seront pas identifiés. Il s’agit de l’option par défaut.
  • Identify outliers (Identifier les points aberrants)Les points aberrants seront identifiés via le test Generalized ESD (ESD généralisé).
String
Niveau de confiance
(Facultatif)

Spécifie le niveau de confiance du test des points aberrants de série chronologique

  • 90 %Le niveau de confiance du test est de 90 %. Il s’agit de l’option par défaut.
  • 95 %Le niveau de confiance du test est de 95 %.
  • 99%Le niveau de confiance du test est de 99 %.
String
Maximum Number of Outliers (Nombre maximal de points aberrants)

Nombre maximal de phases pouvant être déclarées comme des points aberrants pour chaque emplacement. La valeur par défaut correspond à 5 % (arrondi à la valeur inférieure) du nombre de phases du cube spatio-temporel en entrée (une valeur minimum de 1 est toujours utilisée). Cette valeur ne peut pas excéder 20 % du nombre de phases.

Long
Autres variables
(Facultatif)

Autres variables du cube spatio-temporel en entrée allant être utilisées comme variables explicatives pour améliorer les prévisions.

String
Seuil d’importance (%)
(Facultatif)

Pourcentage de facteurs considérés comme les plus importants pour prédire la variable d’analyse. Par exemple, si la valeur est 20, les facteurs classés parmi les meilleurs 20 % à chaque emplacement sont inclus dans la table d’importance. Chaque variable (la variable d’analyse et chaque variable explicative) étant représentée une fois comme un facteur pour chaque intervalle temporel dans la fenêtre Phase, le nombre de facteurs à chaque emplacement constitue la durée de la fenêtre horaire multipliée par le nombre de variables. Le nombre de facteurs est multiplié par le seuil d’importance afin de déterminer le nombre de facteurs importants pour chaque modèle de prévision. Le nombre par défaut est 10 et la valeur doit être un entier compris entre 1 et 100.

Long
Table d’importance en sortie
(Facultatif)

Table en sortie allant contenir les facteurs les plus importants à chaque emplacement. Pour une échelle de modèle de localisation spécifique, chaque facteur important à chaque localisation du cube spatio-temporel est représenté comme une ligne dans la table, avec des champs contenant le nom de la variable et le décalage temporel associé. Pour des échelles de modèle de cube et d’agrégat de séries chronologiques entiers, tous les facteurs importants dans le cube ou l’agrégat entier sont représentés par une ligne. La table comprend un diagramme affichant les facteurs les plus importants à chaque localisation, séparés par un décalage temporel. Le diagramme vous permet de visualiser les effets différés entre les variables explicatives et la variable en cours de prévision.

Table
Échelle de modèle
(Facultatif)

Spécifie l’échelle allant être utilisée pour estimer les modèles de prévision et de validation.

  • Emplacement spécifiqueUn modèle de prévision et un modèle de validation différents seront estimés pour chaque emplacement. Il s’agit de l’option par défaut.
  • Cube entierUn modèle de prévision et un modèle de validation uniques seront estimés en utilisant tous les emplacements comme données d’entraînement.
  • Agrégat de séries chronologiquesUn modèle de prévision et de validation sera estimé pour chaque agrégat d’un résultat d’agrégation de séries chronologiques. Fournissez la variable avec les résultats d’agrégation de séries chronologiques dans le paramètre Variable d’agrégat.
String
Variable d’agrégat
(Facultatif)

Variable allant être utilisée pour regrouper les emplacements du cube spatio-temporel en régions ; différents modèles de prévision et de validation seront estimés pour chaque région. La variable doit comporter des résultats d’agrégation de séries chronologiques à utiliser. La variable d’agrégat peut être n’importe quelle variable du cube spatio-temporel, y compris la variable d’analyse.

String

arcpy.stpm.ForestBasedForecast(in_cube, analysis_variable, output_features, {output_cube}, {number_of_time_steps_to_forecast}, {time_window}, {number_for_validation}, {number_of_trees}, {minimum_leaf_size}, {maximum_depth}, {sample_size}, {forecast_approach}, {outlier_option}, {level_of_confidence}, maximum_number_of_outliers, {other_variables}, {importance_threshold}, {output_importance_table}, {model_scale}, {cluster_variable})
NomExplicationType de données
in_cube

Cube netCDF contenant la variable à prévoir pour les futures phases. Ce fichier doit comporter l’extension .nc et avoir été créé à l’aide de l’outil Créer un cube spatio-temporel en agrégeant des points, Créer un cube spatio-temporel à partir d’emplacements définis ou Créer un cube spatio-temporel à partir d’une couche raster multidimensionnelle.

File
analysis_variable

Variable numérique du fichier netCDF à prévoir pour les futurs intervalles temporels.

String
output_features

Classe d’entités en sortie de tous les emplacements du cube spatio-temporel avec les valeurs prévues stockées sous forme de champs. La couche affiche la prévision de la phase finale et contient les diagrammes contextuels affichant les séries chronologiques, les prévisions et les bornes de confiance à 90 % de chaque emplacement.

Feature Class
output_cube
(Facultatif)

Nouveau cube spatio-temporel (fichier .nc) contenant les valeurs du cube spatio-temporel en entrée auxquelles ont été ajoutés les intervalles temporels prévus. L’outil Visualize Space Time Cube in 3D (Visualiser le cube spatio-temporel en 3D) permet d’examiner simultanément toutes les valeurs observées et prévues.

File
number_of_time_steps_to_forecast
(Facultatif)

Entier positif spécifiant le nombre d'intervalles temporels à prévoir. Cette valeur ne doit pas être supérieure à 50 pour cent du nombre total d’intervalles temporels dans le cube spatio-temporel en entrée. La valeur par défaut est un intervalle temporel.

Long
time_window
(Facultatif)

Le nombre d’intervalles temporels précédents allant être utilisés lors de l’entraînement du modèle. Si les données affichent la saisonnalité (cycles répétés), indiquez le nombre de phases correspondant à une saison. Cette valeur ne peut pas être supérieure à un tiers du nombre de phases présentes dans le cube spatio-temporel en entrée. Lorsque l’échelle de modèle d’emplacement spécifique est utilisée, si aucune valeur n’est indiquée, une fenêtre horaire est estimée pour chaque emplacement à l’aide d’une fonction de densité spectrale. Lorsque des échelles de modèle de cube ou d’agrégat de séries chronologiques entier sont utilisées, si aucune valeur n’est indiquée, un quart du nombre d’intervalles temporels est utilisé.

Long
number_for_validation
(Facultatif)

Nombre d’intervalles temporels à la fin de chaque série chronologique à exclure de la validation. La valeur par défaut est de 10 pour cent (arrondie à la valeur inférieure) du nombre d’intervalles temporels et cette valeur ne peut pas être supérieure à 25 pour cent du nombre d’intervalles temporels. Spécifiez la valeur 0 pour ne pas exclure d’intervalles temporels.

Long
number_of_trees
(Facultatif)

Nombre d’arbres à créer dans le modèle de forêt. En augmentant le nombre d’arbres dans le modèle, vous obtiendrez généralement une prévision plus précise mais le temps de calcul sera plus long. Par défaut, le nombre d’arbres est égal à 100 ; la valeur doit être égale au moins à 1 et ne peut dépasser 1 000.

Long
minimum_leaf_size
(Facultatif)

Le nombre minimal d’observations requises pour conserver une feuille (c’est-à-dire, le nœud terminal d’un arbre sans fractionnements supplémentaires). Si le volume des données est très important, plus ce nombre augmente, plus le temps d’exécution de l’outil diminue.

Long
maximum_depth
(Facultatif)

Nombre maximum de fractionnements pouvant être effectués pour un arbre. Si la profondeur maximum est élevée, le nombre de fractionnements créés augmente, ce qui accroît les risques de sur-ajustement du modèle. En l’absence de valeur, une valeur est identifiée par l’outil selon le nombre d’arbres créés par le modèle et la taille de la fenêtre de phase.

Long
sample_size
(Facultatif)

Le pourcentage de données d’entraînement permettra d’ajuster le modèle de prévision. Les données d’entraînement se composent de variables explicatives associées et de variables dépendantes générées à l’aide des fenêtres horaires. Les autres données d’entraînement permettent d’optimiser les paramètres du modèle de prévision. La valeur par défaut est de 100 pour cent.

En savoir plus sur l’entraînement du modèle de prévision de la forêt

Long
forecast_approach
(Facultatif)

Spécifie le mode de représentation des variables explicatives et dépendantes lors de l’entraînement du modèle de forêt à chaque emplacement.

Pour entraîner le modèle de forêt à utiliser dans le cadre de la prévision, il est nécessaire de créer des jeux de variables explicatives et de variables dépendantes à l’aide des fenêtres horaires. Utilisez ce paramètre pour spécifier si ces variables sont décomposées de façon linéaire et si les variables dépendantes sont représentées par leur valeur brute ou la valeur résiduelle d’un modèle de régression linéaire. Ce modèle de régression linéaire utilise toutes les phases d’une fenêtre horaire comme variables explicatives et la phase suivante comme variable dépendante. La valeur résiduelle est calculée en soustrayant la valeur prévue basée sur la régression linéaire de la valeur brute de la variable dépendante.

Si des variables sont fournies dans le paramètre Autres variables ou si la valeur Cube entier ou Agrégat de séries chronologiques est spécifiée pour le paramètre Échelle de modèle, l’option Valeur est la seule approche de prévision disponible.

En savoir plus sur le paramètre Approche de la prévision

  • VALUELes valeurs de la fenêtre horaire ne sont pas décomposées et la variable dépendante est représentée par sa valeur brute. Si d’autres variables sont fournies ou si l’échelle de modèle n’est pas un emplacement spécifique, il s’agit de la seule approche de prévision disponible et de l’approche par défaut.
  • VALUE_DETRENDLes valeurs de la fenêtre horaire sont décomposées de façon linéaire et la variable dépendante est représentée par sa valeur décomposée. Il s’agit de l’option par défaut.
  • RESIDUALLes valeurs de la fenêtre horaire ne sont pas décomposées et la variable dépendante est représentée par la valeur résiduelle d’un modèle de régression linéaire utilisant les valeurs de la fenêtre horaire comme variables explicatives.
  • RESIDUAL_DETRENDLes valeurs de la fenêtre horaire sont décomposées de façon linéaire et la variable dépendante est représentée par la valeur résiduelle d’un modèle de régression linéaire utilisant les valeurs décomposées de la fenêtre horaire comme variables explicatives.
String
outlier_option
(Facultatif)

Indique si les points aberrants de série chronologique statistiquement significatifs sont identifiés.

  • NONELes points aberrants ne seront pas identifiés. Il s’agit de l’option par défaut.
  • IDENTIFYLes points aberrants seront identifiés via le test Generalized ESD (ESD généralisé).
String
level_of_confidence
(Facultatif)

Spécifie le niveau de confiance du test des points aberrants de série chronologique

  • 90%Le niveau de confiance du test est de 90 %. Il s’agit de l’option par défaut.
  • 95%Le niveau de confiance du test est de 95 %.
  • 99%Le niveau de confiance du test est de 99 %.
String
maximum_number_of_outliers

Nombre maximal de phases pouvant être déclarées comme des points aberrants pour chaque emplacement. La valeur par défaut correspond à 5 % (arrondi à la valeur inférieure) du nombre de phases du cube spatio-temporel en entrée (une valeur minimum de 1 est toujours utilisée). Cette valeur ne peut pas excéder 20 % du nombre de phases.

Long
other_variables
[other_variables,...]
(Facultatif)

Autres variables du cube spatio-temporel en entrée allant être utilisées comme variables explicatives pour améliorer les prévisions.

String
importance_threshold
(Facultatif)

Pourcentage de facteurs considérés comme les plus importants pour prédire la variable d’analyse. Par exemple, si la valeur est 20, les facteurs classés parmi les meilleurs 20 % à chaque emplacement sont inclus dans la table d’importance. Chaque variable (la variable d’analyse et chaque variable explicative) étant représentée une fois comme un facteur pour chaque intervalle temporel dans la fenêtre Phase, le nombre de facteurs à chaque emplacement constitue la durée de la fenêtre horaire multipliée par le nombre de variables. Le nombre de facteurs est multiplié par le seuil d’importance afin de déterminer le nombre de facteurs importants pour chaque modèle de prévision. Le nombre par défaut est 10 et la valeur doit être un entier compris entre 1 et 100.

Long
output_importance_table
(Facultatif)

Table en sortie allant contenir les facteurs les plus importants à chaque emplacement. Pour une échelle de modèle de localisation spécifique, chaque facteur important à chaque localisation du cube spatio-temporel est représenté comme une ligne dans la table, avec des champs contenant le nom de la variable et le décalage temporel associé. Pour des échelles de modèle de cube et d’agrégat de séries chronologiques entiers, tous les facteurs importants dans le cube ou l’agrégat entier sont représentés par une ligne. La table comprend un diagramme affichant les facteurs les plus importants à chaque localisation, séparés par un décalage temporel. Le diagramme vous permet de visualiser les effets différés entre les variables explicatives et la variable en cours de prévision.

Table
model_scale
(Facultatif)

Spécifie l’échelle allant être utilisée pour estimer les modèles de prévision et de validation.

  • INDIVIDUAL_LOCATIONUn modèle de prévision et un modèle de validation différents seront estimés pour chaque emplacement. Il s’agit de l’option par défaut.
  • ENTIRE_CUBEUn modèle de prévision et un modèle de validation uniques seront estimés en utilisant tous les emplacements comme données d’entraînement.
  • TIME_SERIES_CLUSTERUn modèle de prévision et de validation sera estimé pour chaque agrégat d’un résultat d’agrégation de séries chronologiques. Fournissez la variable avec les résultats d’agrégation de séries chronologiques dans le paramètre cluster_variable.
String
cluster_variable
(Facultatif)

Variable allant être utilisée pour regrouper les emplacements du cube spatio-temporel en régions ; différents modèles de prévision et de validation seront estimés pour chaque région. La variable doit comporter des résultats d’agrégation de séries chronologiques à utiliser. La variable d’agrégat peut être n’importe quelle variable du cube spatio-temporel, y compris la variable d’analyse.

String

Exemple de code

Exemple 1 d’utilisation de l’outil ForestBasedForecast (fenêtre Python)

Le script Python ci-dessous montre comment utiliser la fonction ForestBasedForecast.


# Forecast four time steps using a random forest with detrending.
arcpy.stpm.ForestBasedForecast("CarTheft.nc","Cars_NONE_ZEROS", 
           "Analysis.gdb/Forecasts", "outForecastCube.nc", 4, 3, 
           5, 100, "", "", 100, "VALUE_DETREND", "", "", "", "",
           "", "", "INDIVIDUAL_LOCATION")
Exemple 2 d’utilisation de l’outil ForestBasedForecast (script autonome)

Le script Python ci-dessous illustre l’utilisation de la fonction ForestBasedForecast pour prévoir le nombre prévu de vols de voiture.

# Forecast change in car thefts using a random forest.

# Import system modules.
import arcpy

# Set property to overwrite existing output, by default.
arcpy.env.overwriteOutput = True

# Set workspace.
workspace = r"C:\Analysis"
arcpy.env.workspace = workspace

# Forecast three time steps using a random forest based on change.
arcpy.stpm.ForestBasedForecast("CarTheft.nc","Cars_NONE_ZEROS","Analysis.gdb/Forecasts",
           "outForecastCube.nc", 4, 3, 5, 100, "", "", 100, "RESIDUAL", "IDENTIFY", 
           "90%", 4, None, 10, None, "INDIVIDUAL_LOCATION")

# Create a feature class visualizing the forecasts.
arcpy.stpm.VisualizeSpaceTimeCube3D("outForecastCube.nc", "Cars_NONE_ZEROS", "VALUE", 
           "Analysis.gdb/ForecastsFC")
Exemple 3 d’utilisation de l’outil ForestBasedForecast (script autonome)

Le script Python suivant illustre l’utilisation de la fonction ForestBasedForecast afin de prévoir PM2.5 avec d’autres variables pour améliorer la prévision.


import arcpy
arcpy.env.workspace = "C:/Analysis"

# Forecast twelve time steps using a random forest.
# Use entire cube model scale and multiple other variables
# Create variable importance table with top 10% of most important variables
arcpy.stpm.ForestBasedForecast("air_quality_cities.nc", "PM25", 
           "Analysis.gdb/PM25_forecast", "PM25_forecast_cube.nc", 12, None,
           30, 100, None, None, 100, "VALUE", "NONE", "90%",15, 
           "CO;HUMIDITY;O3;PRESSURE;TEMPERATURE;WINDSPEED", 10, 
           "Analysis.gdb/pm25_importance", "ENTIRE_CUBE")
Exemple 4 d’utilisation de l’outil ForestBasedForecast (script autonome)

Le script Python suivant illustre l’utilisation de la fonction ForestBasedForecast pour prévoir les populations de comté à l’aide d’agrégats de comtés aux populations similaires.


import arcpy
arcpy.env.workspace = "C:/Analysis"

# Run time series clustering to cluster counties by population value.
arcpy.stpm.TimeSeriesClustering("USA_County_Population_1969_2019.nc", 
           "POPULATION_SUM_ZEROS",
           "Analysis.gdb/USA_County_Population_TimeSeriesClustering",
           "VALUE", None, None, None, "CREATE_POPUP")

# Run forest-based forecast models on each time series cluster
arcpy.stpm.ForestBasedForecast("USA_County_Population_1969_2019.nc",
          "POPULATION_SUM_ZEROS", 
          "Analysis.gdb/USA_County_Population_ForestBasedForecast", 
          "USA_County_Population_ForestBasedForecast_cube.nc", 20, 
          None, 3, 100, None, None, 100, "VALUE", "NONE", "90%", 1,
          None, 10, None, "TIME_SERIES_CLUSTER", "POPULATION_SUM_ZEROS")

Informations de licence

  • Basic: Oui
  • Standard: Oui
  • Advanced: Oui

Rubriques connexes