L’outil Prévision basée sur une forêt utilise la régression basée sur une forêt pour prévoir les tranches horaires futures d’un cube spatio-temporel. La sortie principale est une carte du pas de temps final prévu, ainsi que des messages d’information et des diagrammes contextuels. Vous pouvez également créer un cube spatio-temporel contenant les données depuis le cube d’origine sur les valeurs prévues modifiées. De plus, vous avez la possibilité de détecter les points aberrants dans chaque série chronologique afin d’identifier les emplacements et les heures qui s’écartent significativement des modèles et des tendances du reste des séries chronologiques.
Cet outil utilise le même algorithme sous-jacent que l’outil Classification et régression basées sur une forêt pour la régression. Les données d’entraînement utilisées pour construire le modèle de régression basé sur une forêt sont conçues avec des fenêtres horaires sur chaque localisation du cube spatio-temporel.
Pour en savoir plus sur l’outil Classification et régression basées sur une forêt
Applications possibles
Les modèles de régression basés sur une forêt reposant sur peu d’hypothèses concernant les données, ils sont utilisés dans de nombreux contextes. Ils sont plus efficaces que d’autres méthodes de prévision lorsque les données ont des tendances et des saisons complexes, ou lorsqu’elles évoluent d’une façon différente des fonctions mathématiques courantes, telles que polynômes, les courbes exponentielles ou les signaux sinusoïdaux.
Vous pouvez par exemple utiliser cet outil dans les applications suivantes :
- Un arrondissement scolaire peut utiliser cet outil pour prévoir le nombre d’élèves qui seront absents chaque jour de la semaine suivante dans chaque école de l’arrondissement.
- Des responsables publics peuvent utiliser cet outil pour anticiper les besoins en électricité et en eau pour le mois suivant dans les différents quartiers de leur propre circonscription administrative.
- Des magasins de vente au détail peuvent utiliser cet outil pour prévoir le moment où chaque produit sera épuisé afin de mieux gérer l’inventaire.
Prévision et validation
L’outil construit deux modèles tout en prévoyant chaque série chronologique. Le premier est le modèle de prévision, qui est utilisé pour prévoir les valeurs des pas de temps futurs. Le second est le modèle de validation, qui sert à valider les valeurs prévues.
Modèle de prévision
Le modèle de prévision est construit en concevant une forêt avec les valeurs de la série chronologique à chaque localisation du cube spatio-temporel. Cette forêt sert ensuite à prévoir la prochaine tranche horaire. La valeur prévue au nouvel intervalle temporel est comprise dans le modèle de forêt, et l’intervalle temporel suivant est prévu. Ce traitement récursif se poursuit pour tous les intervalles temporels futurs. L’ajustement de la forêt à chaque série chronologique se mesure par la racine carrée de l’erreur quadratique moyenne (EQM) de prévision, qui est égale à la racine carrée de la différence au carré moyenne entre le modèle de forêt et les valeurs de la série chronologique.
, où T est le nombre d’intervalles temporels, ct est la valeur du modèle de forêt et rt est la valeur brute de la série chronologique à l’instant t.
L’image suivante illustre les valeurs brutes d’une série chronologique et un modèle de forêt ajusté à la série chronologique avec les prévisions de deux intervalles temporels futurs. L’EQM de prévision mesure la différence entre les valeurs ajustées de la forêt et les valeurs brutes de la série chronologique.
L’EQM de prévision mesure uniquement le degré d’ajustement du modèle de forêt avec les valeurs brutes de la série chronologique. Il ne mesure pas la qualité des prévisions des valeurs futures par le modèle de prévision. Il est courant qu’un modèle de forêt s’ajuste bien à une série chronologique, mais qu’il ne fournisse pas de prévisions exactes après l’extrapolation. Le modèle de validation résout ce problème.
Modèle de validation
Le modèle de validation est utilisé pour déterminer l’aptitude du modèle de prévision à prévoir les valeurs futures de chaque série chronologique. Il est construit en excluant certains des intervalles temporels finaux de chaque série chronologique et en ajustant le modèle de forêt aux données non exclues. Ce modèle de forêt est ensuite utilisé pour prévoir les valeurs des données qui ont été retenues, et les valeurs prévues sont comparées aux valeurs brutes qui étaient masquées. Par défaut, 10 pour cent des intervalles temporels sont retenus pour validation, mais ce nombre peut évoluer à l’aide du paramètre Numer of Time Steps to Exclude for Validation (Nombre d’intervalles temporels à exclure pour la validation). Le nombre de pas de temps exclus ne peut pas dépasser 25 % du nombre de pas de temps, et aucune validation n’est effectuée si une valeur de 0 est spécifiée. La précision des prévisions est mesurée par le calcul d’une statistique d’EQM de validation, qui est égale à la racine carrée de la différence quadratique moyenne entre les valeurs prévues et les valeurs brutes des pas de temps exclus.
, où T est le nombre de pas de temps, m est le nombre de pas de temps retenus pour la validation, ct est la valeur prévue à partir des premiers T-m pas de temps, et rt est la valeur brute de la série chronologique retenue pour la validation au moment t.
L’image suivante illustre un modèle de forêt ajusté à la première moitié d’une série chronologique et ensuite utilisé pour prévoir la seconde moitié de la série chronologique. L’EQM de validation mesure l’écart entre les valeurs prévues et les valeurs brutes aux pas de temps retenus.
Le modèle de validation est important car il peut comparer directement les valeurs prévues aux valeurs brutes en vue de mesurer la qualité de prévision de la forêt. Il n’est pas réellement utilisé pour faire des prévisions, mais sert à justifier le modèle de prévision.
Remarque :
La validation des prévisions de séries chronologiques est similaire à une technique courante appelée validation croisée, même si elles diffèrent sur le point suivant : la validation des prévisions exclut toujours les derniers pas de temps pour la validation, alors que la validation croisée exclut soit un sous-ensemble aléatoire des données, soit chaque valeur de manière séquentielle.
Interprétation
Plusieurs considérations doivent être prises en compte lors de l’interprétation des valeurs EQM de prévision et EQM de validation.
- Il n’est pas possible de comparer directement les valeurs EQM car elles mesurent des choses différentes. L’EQM de prévision mesure l’ajustement du modèle de forêt aux valeurs brutes des séries chronologiques et l’EQM de validation mesure la qualité de prévision des valeurs futures du modèle. Comme la racine carrée de l’erreur quadratique moyenne (EQM) de prévision utilise plus de données et qu’elle n’extrapole pas, elle est généralement plus petite que la racine carrée de l’erreur quadratique moyenne (EQM) de validation.
- Les deux valeurs EQM ont les mêmes unités que les données. Par exemple, si vos données sont des mesures de température en degrés Celsius, une EQM de validation de 50 est très élevée car cela signifie que les valeurs prévues diffèrent des valeurs réelles d’environ 50 degrés en moyenne. Toutefois, si vos données correspondent aux recettes quotidiennes en dollars américains d’un important point de vente, la même EQM de validation de 50 est très faible car elle signifie que les recettes quotidiennes prévues ne diffèrent des valeurs réelles que de 50 dollars par jour en moyenne.
Conception et entraînement du modèle de forêt
Pour prévoir les valeurs futures, le modèle de forêt doit être entraîné en associant des variables explicatives à des variables dépendantes pour chaque localisation. Le modèle de forêt a besoin de données d’entraînement répétées, mais chaque localisation ne comporte qu’une seule série chronologique. Des fenêtres horaires permettent de créer plusieurs jeux de variables explicatives et dépendantes au sein d’une seule série chronologique. Les intervalles temporels au sein de chaque fenêtre horaire sont utilisés comme variables explicatives, et l’intervalle temporel suivant après la fenêtre horaire est la variable dépendante. Par exemple, si une localisation comporte 20 intervalles temporels et que la fenêtre horaire correspond à 5 intervalles temporels, alors 15 jeux de variables explicatives et dépendantes sont utilisées pour entraîner la forêt à cette localisation. Le premier jeu comporte les intervalles temporels 1, 2, 3, 4 et 5 comme variables explicatives et l’intervalle temporel 6 comme variable dépendante. Le deuxième jeu comporte les intervalles temporels 2, 3, 4, 5 et 6 comme variables explicatives et l’intervalle temporel 7 comme variable dépendante. Le dernier jeu comporte les intervalles temporels 15, 16, 17, 18 et 19 comme variables explicatives et l’intervalle temporel 20 comme variable dépendante. Vous pouvez spécifier le nombre d’intervalles temporels au sein de chaque fenêtre horaire à l’aide du paramètre Time Step Window (Fenêtre d’intervalles temporels). La valeur minimale de la fenêtre horaire est de 1 (un seul intervalle temporel dans chaque fenêtre horaire) et sa valeur maximale est égale à un tiers du nombre d’intervalles temporels à la localisation.
À l’aide du modèle de forêt entraîné, les intervalles temporels finaux à la localisation servent de variables explicatives pour prévoir le premier intervalle temporel futur. Le deuxième intervalle temporel futur est ensuite prévu à l’aide des intervalles temporels précédents dans la fenêtre horaire, où un de ces intervalles temporels est la première valeur prévue. Le troisième intervalle temporel prévu utilise les intervalles temporels précédents dans la fenêtre, où deux de ces intervalles temporels sont des intervalles temporels prévus précédents. Ce traitement se poursuit à travers tous les intervalles temporels futurs.
L’image suivante illustre les jeux de variables explicatives et dépendantes utilisées pour entraîner le modèle de forêt et prévoir les sept premiers intervalles temporels futurs:
Saisonnalité et choix d’une fenêtre horaire
Il est important de bien choisir le nombre d’intervalles temporels dans chaque fenêtre d’intervalles temporels pour le modèle de forêt. Il est primordial de savoir si la série chronologique affiche une saisonnalité où des modèles cycliques naturels se répètent sur un certain nombre d’intervalles temporels. Par exemple, la température affiche des cycles saisonniers annuels en fonction des saisons de l’année. Comme la fenêtre horaire est utilisée pour créer des variables explicatives et dépendantes associées, elle est plus efficace lorsque ces variables explicatives proviennent toutes du même cycle saisonnier de sorte qu’il y a aussi peu de corrélation saisonnière que possible entre les variables explicatives. Il est recommandé d’utiliser le nombre d’intervalles temporels dans une saison naturelle pour la durée de la fenêtre d’intervalles temporels. Si vos données affichent plusieurs saisons, il est recommandé d’utiliser la durée de la saison la plus longue.
Si vous connaissez le nombre d’intervalles temporels correspondant à une saison dans vos données, vous pouvez le spécifier dans le paramètre Time Step Window (Fenêtre d’intervalles temporels). Cette valeur sera utilisée par chaque localisation dans le cube spatio-temporel. Si vous ne connaissez pas la durée d’une saison ou si cette durée est différente selon les localisations, vous pouvez ne pas renseigner la valeur du paramètre. Une durée de saison optimale est alors estimée pour chaque localisation à l’aide de la fonction de densité spectrale. Pour en savoir plus sur cette fonction, reportez-vous à la section Références supplémentaires.
Pour chaque localisation, si la durée optimale de la saison déterminée par l’analyse spectrale est supérieure à 1 et inférieure à un tiers du nombre d’intervalles temporels à la localisation, la fenêtre d’intervalles temporels est définie sur cette valeur optimale. Sinon, la localisation utilise 25 pour cent (valeur arrondie au nombre inférieur) du nombre d’intervalles temporels à la localisation pour la fenêtre d’intervalles temporels. Cela garantit que la fenêtre comporte au moins un intervalle temporel et qu’au moins trois cycles saisonniers complets sont utilisés comme variables explicatives. La valeur de l’intervalle temporel utilisée à la localisation est enregistrée dans le champ Time Window des entités en sortie. Le champ Is Seasonal des entités en sortie contiendra la valeur 1 si la fenêtre d’intervalles temporels a été déterminée à l’aide de l’analyse spectrale. Sinon, la valeur est 0. Ce processus est synthétisé sur l’image suivante :
Approches concernant la prévision
Vous pouvez représenter les valeurs des variables explicatives et dépendantes qui serviront à entraîner la forêt de quatre manières. Ces options sont spécifiées à l’aide du paramètre Forecast Approach (Approche concernant la prévision).
La première option est Build model by value (Construire un modèle par valeur). Cette option utilise les valeurs brutes dans les groupes spatio-temporels pour les variables explicatives et dépendantes. Lorsque vous sélectionnez cette option, les valeurs prévues sont contenues dans la plage des variables dépendantes. Vous ne devez donc pas utiliser cette option si vos données ont des tendances qui vous font penser que les valeurs vont continuer à augmenter ou à baisser. L’image ci-dessous montre les jeux de variables utilisées pour entraîner le modèle pour une seule localisation, où chaque ligne affiche le jeu de variables explicatives et la variable dépendante associée. T représente le nombre d’intervalles temporels dans le cube spatio-temporel, W est le nombre d’intervalles temporels dans chaque fenêtre d’intervalles temporels et Xt est la valeur brute de la série chronologique à l’instant t.
La deuxième option est Build model by value after detrending (Construire un modèle par valeur après décomposition). Il s’agit de l’option par défaut de l’outil. Cette option opère une suppression de tendance (linéaire) de premier ordre sur l’ensemble de la série chronologique à chaque localisation, et ces valeurs décomposées servent de variables explicatives et dépendantes. Avec cette option, les prévisions suivent cette tendance dans le futur, ce qui permet d’estimer les valeurs prévues au-delà de la plage des variables dépendantes. L’image ci-dessous montre les jeux de variables utilisées pour entraîner le modèle pour une seule localisation, où chaque ligne affiche le jeu de variables explicatives et la variable dépendante associée. T représente le nombre d’intervalles temporels dans le cube spatio-temporel, W est le nombre d’intervalles temporels dans chaque fenêtre d’intervalles temporels et Xt est la valeur décomposée de la série chronologique à l’instant t.
La troisième option est Build model by residual (Construire un modèle par résiduel). Cette option crée un modèle de régression des moindres carrés ordinaires pour prévoir la variable dépendante en fonction des variables explicatives au sein de chaque fenêtre horaire. Le résiduel de ce modèle de régression (la différence entre la prévision des moindres carrés ordinaires et la valeur brute de la variable dépendante) est utilisé pour représenter la variable dépendante lors de l’entraînement de la forêt. L’image ci-dessous montre les jeux de variables utilisées pour entraîner le modèle pour une seule localisation, où chaque ligne affiche le jeu de variables explicatives et la variable dépendante associée. T représente le nombre d’intervalles temporels dans le cube spatio-temporel, W est le nombre d’intervalles temporels dans chaque fenêtre d’intervalles temporels, Xt est la valeur de la série chronologique et à l’instant t et X^t (Xt-hat) est la valeur estimée à partir des moindres carrés ordinaires à l’instant t..
La dernière option est Build model by residual after detrending (Construire un modèle par résiduel après décomposition). Cette option opère d’abord une suppression de tendance (linéaire) de premier ordre sur l’ensemble de la série chronologique à une localisation. Elle construit ensuite un modèle de régression des moindres carrés ordinaires pour prévoir la variable dépendante décomposée en fonction des variables explicatives décomposées au sein de chaque fenêtre horaire. Le résiduel de ce modèle de régression (la différence entre la prévision des moindres carrés ordinaires et la valeur décomposée de la variable dépendante) est utilisé pour représenter la variable dépendante lors de l’entraînement de la forêt. L’image ci-dessous montre les jeux de variables utilisées pour entraîner le modèle pour une seule localisation, où chaque ligne affiche le jeu de variables explicatives et la variable dépendante associée. T représente le nombre d’intervalles temporels dans le cube spatio-temporel, W est le nombre d’intervalles temporels dans chaque fenêtre d’intervalles temporels, Dt est la valeur décomposée de la série chronologique et à l’instant t et D^t (Dt-hat) est la valeur estimée à partir des moindres carrés ordinaires à l’instant t..
Construire des intervalles de confiance
L’outil calcule des intervalles de confiance de 90 pour cent pour chaque intervalle temporel prévu qui apparaissent sous forme de champs dans la fenêtre Output Features (Entités en sortie) et qui s’affichent dans les diagrammes contextuels abordés dans la section suivante. Les limites supérieure et inférieure de l’intervalle de confiance du premier intervalle temporel prévu sont calculées à l’aide de la régression par forêt aléatoire des quantiles. Pour prévoir la valeur d’une période future, la moyenne des observations dans chaque feuille d’un arbre est calculée. Dans la régression des quantiles toutefois, chaque observation au sein de chaque feuille est utilisée, ce qui génère une distribution des valeurs prévues pour le premier intervalle temporel. L’intervalle de confiance de 90 pour cent est construit avec les 5ème et 95ème quantiles de cette distribution.
L’intervalle de confiance de la deuxième prévision est calculé d’une façon similaire, mais il est ajusté en tenant compte de l’intervalle de confiance de la première prévision. La régression des quantiles est de nouveau utilisée pour créer une distribution du deuxième intervalle temporel prévu, en traitant le premier intervalle temporel prévu comme une valeur unique, et les 5ème et 95ème quantiles de la distribution sont calculés. La confiance réelle pour la deuxième prévision est calculée en ajoutant les durées des limites de confiance des deux prévisions. La limite supérieure de la deuxième prévision est égale à la durée de la limite supérieure de la première prévision plus la durée de la limite de confiance supérieure de la deuxième prévision (en supposant que la première prévision est une valeur unique et non une distribution). La limite inférieure se calcule de la même manière en ajoutant les durées des limites de confiance inférieures. L’intervalle de confiance du troisième intervalle temporel prévu est calculé en effectuant une nouvelle régression des quantiles et en ajoutant les durées des limites d’erreur des trois prévisions. Ce traitement se poursuit jusqu’à ce que tous les intervalles temporels soient prévus. Lorsque vous ajoutez ces limites d’erreur de cette façon, vous êtes certain que l’erreur est propagée à travers les projections futures et que les durées des limites de confiance augmentent avec le temps.
Remarque :
Les limites de confiance du deuxième intervalle temporel et au-delà sont calculées avec prudence en ajoutant les erreurs des prévisions antérieures. Le niveau de confiance réel de ces intervalles est d’au moins 90 pour cent, mais il peut en réalité être beaucoup plus important.
Identification des points aberrants des séries chronologiques
Les points aberrants dans les données de séries chronologiques sont des valeurs qui diffèrent significativement des modèles et des tendances des autres valeurs au sein des séries chronologiques. Par exemple, des nombres élevés d’achats en ligne au moment des congés ou des nombres élevés d’accidents de la circulation lors de pluies abondantes seraient probablement détectés comme des points aberrant dans leurs séries chronologiques. Les erreurs de saisie de données simples (par exemple, omettre la décimale d’un nombre) sont une autre source courante de points aberrants. Identifier les points aberrants dans les prévisions de séries chronologiques est important car ces points influencent le modèle de prévision utilisé pour prévoir les futures valeurs, et même un faible nombre de points aberrants dans les séries chronologiques d’un emplacement peut réduire significativement la précision et la fiabilité des prévisions. Les emplacements comportant des points aberrants, en particulier des points aberrants vers le début ou la fin des séries chronologiques, peuvent produire des prévisions trompeuses et identifier ces emplacements permet de déterminer le degré de confiance que vous devez avoir dans les valeurs prévues à chaque emplacement.
Les points aberrants ne sont pas déterminés que par leur valeur brute, mais plutôt par le degré auquel leurs valeurs diffèrent des valeurs ajustées du modèle de prévision. Cela signifie que le fait qu’une valeur soit ou non déterminée en tant que point aberrant est contextuel et dépend à la fois de l’emplacement et de l’heure de cette valeur. Le modèle de prévision définit ce que la valeur doit être en fonction de la série chronologique entière, et les points aberrants sont les valeurs qui s’écartent significativement de cette ligne de base. Par exemple, considérons une série chronologique des températures moyennes annuelles. Parce que les températures moyennes ont augmenté au cours des dernières décennies, le modèle de prévision ajusté de la température évoluera également dans le temps pour refléter cette augmentation. Cela signifie qu’une valeur de température qui serait considérée comme standard et non aberrante en 1950 serait probablement considérée comme un point aberrant en 2020. En d’autres termes, une température typique de 1950 serait considérée comme très basse selon les normes de 2020.
Vous pouvez choisir de détecter les points aberrants de séries chronologiques à chaque emplacement à l’aide du paramètre Identify Outliers (Identifier les points aberrants). S’il est spécifié, le test ESD (Extreme Studentized Deviate) généralisé est effectué pour chaque emplacement afin de tester les points aberrants de séries chronologiques. Le niveau de confiance du test peut être spécifié via le paramètre Level of Confidence (Niveau de confiance) et un niveau de confiance de 90 % est utilisé par défaut. Le test ESD généralisé teste de manière itérative un seul point aberrant, deux points aberrants, trois points aberrants, etc., à chaque emplacement jusqu’à la valeur du paramètre Maximum Number of Outliers (Nombre maximal de points aberrants) (par défaut, 5 % du nombre de pas de temps, arrondi), et le nombre de points aberrants statistiquement significatif le plus élevé est renvoyé. Le nombre de points aberrants à chaque emplacement est visible dans la table attributaire des entités en sortie, et les points aberrants individuels sont visibles dans les diagrammes contextuels de séries chronologiques abordés dans la section suivante.
Sorties de l'outil
La principale sortie de cet outil est une classe d’entités 2D montrant chaque emplacement dans le cube spatio-temporel en entrée symbolisée par le pas de temps final prévu, les prévisions pour tous les autres pas de temps étant stockées sous forme de champs. Bien que chaque emplacement soit prévu indépendamment et que les relations spatiales ne soient pas prises en compte, la carte peut afficher des modèles spatiaux pour des zones ayant des séries chronologiques similaires.
Diagrammes contextuels
Lorsque vous cliquez sur une entité de la carte à l’aide de l’outil de navigation Explore (Explorer), un diagramme s’affiche dans la fenêtre Pop-up (Fenêtre contextuelle). Cette fenêtre indique les valeurs du cube spatio-temporel avec le modèle de forêt ajusté, ainsi que les valeurs prévues avec des intervalles de confiance de 90 pour cent pour chaque prévision. Les valeurs du cube spatio-temporel apparaissent en bleu et sont reliées par une ligne bleue. Les valeurs ajustées apparaissent en orange et sont reliées par une ligne pointillée orange. Les valeurs prévues apparaissent en orange et sont reliées par une ligne unie orange qui représente la prévision du modèle de forêt. Chaque valeur prévue est entourée de limites de confiance en rouge clair. Vous pouvez survoler n’importe quel point du graphique pour voir la date et la valeur du point. De plus, si vous choisissez de détecter les points aberrants dans les séries chronologiques, ces points s’affichent sous la forme de gros points de couleur pourpre.
Remarque :
Les diagrammes contextuels ne sont pas créés lorsque les entités en sortie sont enregistrées sous forme de shapefile (.shp). De plus, si les intervalles de confiance sortent du cadre du diagramme, un bouton Show Full Data Range (Afficher la plage de données entière) s’affiche au-dessus du diagramme pour vous permettre de développer le diagramme et d’afficher l’intervalle de confiance entier.
Messages de géotraitement
L’outil fournit un certain nombre de messages d’informations sur l’exécution de l’outil. Les messages comportent trois sections principales.
La section Input Space Time Cube Details (Détails du cube spatio-temporel en entrée) présente les propriétés du cube spatio-temporel en entrée, ainsi que des informations sur le nombre d’intervalles temporels, le nombre de localisations et le nombre de groupes spatio-temporels. Les propriétés affichées dans cette première section dépendent de la façon dont le cube a été créé à l’origine, de sorte que les informations varient d’un cube à l’autre.
La section Analysis Details (Détails d’analyse) affiche les propriétés des résultats de prévision, notamment le nombre d’intervalles temporels prévus, le nombre d’intervalles temporels exclus de la validation, le pourcentage de localisations où la saisonnalité a été détectée par l’analyse spectrale et des informations sur les intervalles temporels prévus. Si aucune valeur n’est fournie pour le paramètre Time Step Window (Fenêtre intervalles temporels), des statistiques de synthèse de la fenêtre d’intervalles temporels estimée s’affichent, notamment le minimum, le maximum, la moyenne, la médiane et l’écart type.
La section Summary of Accuracy across Locations (Récapitulatif de la précision pour chaque emplacement) affiche un résumé statistique pour l’EQM de prévision et l’EQM de validation pour tous les emplacements. Pour chaque valeur, le minimum, le maximum, la moyenne, la médiane et l’écart type sont affichés.
La section Summary of Time Series Outliers (Synthèse des points aberrants de séries chronologiques) apparaît si vous choisissez de détecter les points aberrants de séries chronologiques à l’aide du paramètre Outlier Option (Option de point aberrant). Cette section affiche des informations telles que le nombre et le pourcentage d’emplacements contenant des points aberrants, le pas de temps contenant le plus de points aberrants et des statistiques récapitulatives du nombre de points aberrants par emplacement et par pas de temps.
Remarque :
Les messages de géotraitement apparaissent au bas de la fenêtre Geoprocessing (Géotraitement) pendant l’exécution de l’outil. Vous pouvez accéder aux messages en survolant la barre de progression, en cliquant sur le bouton contextuel ou en développant la section des messages dans la fenêtre Géotraitement. Vous pouvez également consulter les messages de l’exécution précédente d’un outil dans l’historique de géotraitement.
Champs des entités en sortie
Outre les champs de géométrie Object ID (ID d’objet) et le champ contenant les diagrammes contextuels, les Output Features (Entités en sortie) comprendront les champs suivants :
- Location ID (ID d’emplacement) (LOCATION) : l’ID de l’emplacement correspondant du cube spatio-temporel.
- Forecast for (Analysis Variable) in (Time Step) (Prévision pour (Variable d’analyse) dans (Pas de temps)) (FCAST_1, FCAST_2, etc.) : la valeur prévue de chaque pas de temps futur. L’alias du champ affiche le nom de la Analysis Variable (Variable d’analyse) et la date de la prévision. Un champ de ce type est créé pour chaque pas de temps prévu.
- High Interval for (Analysis Variable) in (Time Step) (Intervalle élevé de (variable d’analyse) dans (intervalle temporel)) (HIGH_1, HIGH_2, etc.) : limite supérieure d’un intervalle de confiance de 90 pour cent pour la valeur prévue de chaque intervalle temporel futur. L’alias du champ affiche le nom de la Analysis Variable (Variable d’analyse) et la date de la prévision. Un champ de ce type est créé pour chaque pas de temps prévu.
- Low Interval for (Analysis Variable) in (Time Step) (Intervalle faible de (variable d’analyse) dans (intervalle temporel)) (LOW_1, LOW_2, etc.) : limite inférieure d’un intervalle de confiance de 90 pour cent pour la valeur prévue de chaque intervalle temporel futur. L’alias du champ affiche le nom de la Analysis Variable (Variable d’analyse) et la date de la prévision. Un champ de ce type est créé pour chaque pas de temps prévu.
- Forecast Root Mean Square Error (Racine carrée de l’erreur quadratique moyenne de prévision) (F_RMSE) : l’EQM de prévision.
- Validation Root Mean Square Error (Racine carrée de l’erreur quadratique moyenne de validation) (V_RMSE) : l’EQM de validation. Si aucun pas de temps n’a été exclu pour la validation, ce champ n’est pas créé.
- Time Window (Fenêtre horaire) (TIMEWINDOW) : fenêtre d’intervalles temporels utilisée à la localisation.
- Is Seasonal (Saisonnier) (IS_SEASON) : variable booléenne indiquant si la fenêtre d’intervalles temporels à la localisation a été déterminée par densité spectrale. La valeur 1 indique qu’une saisonnalité a été détectée par densité spectrale et la valeur 0 indique qu’aucune saisonnalité n’a détectée. Si une valeur est spécifiée dans le paramètre Time Window (Fenêtre horaire), toutes les localisations ont la valeur 0 dans ce champ.
- Forecast Method (Méthode de prévision) (METHOD) : champ de texte affichant les paramètres du modèle de forêt, notamment la valeur initiale aléatoire, le nombre d’arbres, la taille d’échantillonnage, l’approche de prévision et si la fenêtre d’intervalles temporels a été spécifiée par l’utilisateur ou définie par l’outil. Ce champ peut servir à reproduire des résultats et vous permet d’identifier les modèles qui sont utilisés dans l’outil Évaluer les prévisions par localisation.
- Number of Model Fit Outliers (Nombre de points aberrants ajustés de modèle) (N_OUTLIERS) : nombre de points aberrants détectés dans la série chronologique de l’emplacement. Ce champ n’est créé que si vous choisissez de détecter les points aberrants à l’aide du paramètre Outlier Option (Option de point aberrant).
Cube spatio-temporel en sortie
Si un Output Space Time Cube (Cube spatio-temporel en sortie) est spécifié, le cube en sortie contient toutes les valeurs d’origine du cube spatio-temporel en entrée auxquelles sont jointes les valeurs prévues. Ce nouveau cube spatio-temporel peut être affiché à l’aide des outils Visualiser le cube spatio-temporel en 2D ou Visualiser le cube spatio-temporel en 3D et peut être utilisé en entrée pour les outils de la boîte d’outils Exploration des modèles spatio-temporels, comme Analyse de points chauds émergents et Agrégation de séries chronologiques.
Il est possible de comparer et fusionner plusieurs cubes spatio-temporels prévus à l’aide de l’outil Évaluer les prévisions par emplacement. Cela vous permet de créer plusieurs cubes de prévision à l’aide de différents outils et paramètres de prévision ; l’outil identifie ensuite la meilleure prévision pour chaque emplacement en utilisant soit l’EQM de prévision soit l’EQM de validation.
Pratiques conseillées et limitations
Pour décider si cet outil est adapté à vos données et quels paramètres choisir, vous devez tenir compte de plusieurs éléments.
- Par rapport aux autres outils de prévision du jeu d’outils Prévision des séries chronologiques, cet outil est le plus compliqué, mais c’est également celui qui émet le moins d’hypothèses sur les données. Il est recommandé pour les séries chronologiques avec des formes et tendances compliquées, qui sont difficiles à modéliser avec des fonctions mathématiques simples ou lisses. Il est également recommandé lorsque les hypothèses d’autres méthodes ne sont pas satisfaites.
- Il est important de décider du nombre de pas de temps à exclure pour la validation. Plus le nombre de pas de temps exclus est élevé, moins il reste de pas de temps pour estimer le modèle de validation. Cependant, en excluant trop peu de pas de temps, l’estimation de l’EQM de la validation utilise une petite quantité de données et peut être trompeuse. Il est recommandé d’exclure autant de pas de temps que possible tout en conservant un nombre suffisant de pas de temps pour estimer le modèle de validation. Il est également recommandé de retenir au moins autant de pas de temps pour la validation que le nombre de pas de temps que vous avez l’intention de prévoir, pour autant que votre cube spatio-temporel a suffisamment de pas de temps pour le permettre.
- Cet outil peut générer des prévisions instables et non fiables lorsque la même valeur est répétée plusieurs fois dans la même série chronologique. On trouve fréquemment des valeurs identiques répétées dans les cas d’inflation nulle, où vos données représentent des totaux et où un grand nombre d’intervalles temporels ont la valeur 0.
- Si vous choisissez d’identifier les points aberrants, il est recommandé d’attribuer une valeur au paramètre Time Step Window (Fenêtre de pas de temps) au lieu de le laisser vide et d’estimer une fenêtre de pas de temps différente à chaque emplacement. Pour chaque emplacement, le modèle de prévision utilise les pas de temps dans la première fenêtre de pas de temps pour entraîner le modèle de prévision et les points aberrants ne sont détectés que pour les pas de temps restants. Si différents emplacements excluent différents nombres de pas de temps pour la formation, les statistiques récapitulatives telles que le nombre moyen, minimal et maximal de points aberrants par pas de temps ou par emplacement peuvent être trompeuses. Ces statistiques ne sont calculées que pour les pas de temps ayant été inclus à chaque emplacement.
Ressources supplémentaires
Pour plus d’informations sur les modèles de forêt, consultez les références suivantes :
- Breiman, Leo. (2001). « Random Forests. » Entraînement machine 45 (1): 5-32. https://doi.org/10.1023/A:1010933404324.
- Breiman, L., J.H. Friedman, R.A. Olshen, and C.J. Stone. (2017). Classification and regression trees. New York : Routledge. Chapitre 4
Pour plus de ressources et de références sur les modèles de forêt, reportez-vous à la rubrique Fonctionnement de l’outil Classification et régression basées sur une forêt.
Pour plus d’informations sur la fonction de densité spectrale utilisée pour estimer la durée des fenêtres horaires, reportez-vous à la fonction findfrequency dans les références suivantes :
- Hyndman R, Athanasopoulos G, Bergmeir C, Caceres G, Chhay L, O’Hara-Wild M, Petropoulos F, Razbash S, Wang E et Yasmeen F (2019). « Forecasting functions for time series and linear models. » Paquetage R, version 8.7, https://pkg.robjhyndman.com/forecast.
- Hyndman RJ et Khandakar Y (2008). « Automatic time series forecasting: the forecast package for R. » Journal of Statistical Software, 26(3), pages 1-22. https://www.jstatsoft.org/article/view/v027i03.
Pour plus d’informations sur la construction des intervalles de confiance à partir des modèles de régression de forêt, consultez les références suivantes :
- Meinshausen, Nicolai. « Quantile regression forests. » Journal of Machine Learning Research 7. Jun (2006 ) : 983-999.
Rubriques connexes
Vous avez un commentaire à formuler concernant cette rubrique ?