L’outil Prévision basée sur une forêt utilise la régression basée sur une forêt pour prévoir les tranches horaires futures d’un cube spatio-temporel. La sortie principale est une carte de l’intervalle temporel final prévu, ainsi que des messages d’informations et des diagrammes contextuels. Vous pouvez également créer un cube spatio-temporel contenant les données du cube d’origine en ajoutant les valeurs prévues.
Cet outil utilise le même algorithme sous-jacent que l’outil Classification et régression basées sur une forêt pour la régression. Les données d’entraînement utilisées pour construire le modèle de régression basé sur une forêt sont conçues avec des fenêtres horaires sur chaque localisation du cube spatio-temporel.
Pour en savoir plus sur l’outil Classification et régression basées sur une forêt
Applications possibles
Les modèles de régression basés sur une forêt reposant sur peu d’hypothèses concernant les données, ils sont utilisés dans de nombreux contextes. Ils sont plus efficaces que d’autres méthodes de prévision lorsque les données ont des tendances et des saisons complexes, ou lorsqu’elles évoluent d’une façon différente des fonctions mathématiques courantes, telles que polynômes, les courbes exponentielles ou les signaux sinusoïdaux.
Vous pouvez par exemple utiliser cet outil dans les applications suivantes :
- Un arrondissement scolaire peut utiliser cet outil pour prévoir le nombre d’élèves qui seront absents chaque jour de la semaine suivante dans chaque école de l’arrondissement.
- Des responsables publics peuvent utiliser cet outil pour anticiper les besoins en électricité et en eau pour le mois suivant dans les différents quartiers de leur propre circonscription administrative.
- Des magasins de vente au détail peuvent utiliser cet outil pour prévoir le moment où chaque produit sera épuisé afin de mieux gérer l’inventaire.
Prévision et validation
L’outil génère deux modèles pendant la prévision de chaque série chronologique. Le premier est le modèle de prévision, qui sert à prévoir les valeurs des intervalles temporels futurs. Le second est le modèle de validation, qui sert à valider les valeurs prévues.
Modèle de prévision
Le modèle de prévision est construit en concevant une forêt avec les valeurs de la série chronologique à chaque localisation du cube spatio-temporel. Cette forêt sert ensuite à prévoir la prochaine tranche horaire. La valeur prévue au nouvel intervalle temporel est comprise dans le modèle de forêt, et l’intervalle temporel suivant est prévu. Ce traitement récursif se poursuit pour tous les intervalles temporels futurs. L’ajustement de la forêt à chaque série chronologique se mesure par la racine carrée de l’erreur quadratique moyenne (EQM) de prévision, qui est égale à la racine carrée de la différence au carré moyenne entre le modèle de forêt et les valeurs de la série chronologique.
, où T est le nombre d’intervalles temporels, ct est la valeur du modèle de forêt et rt est la valeur brute de la série chronologique à l’instant t.
L’image suivante illustre les valeurs brutes d’une série chronologique et un modèle de forêt ajusté à la série chronologique avec les prévisions de deux intervalles temporels futurs. L’EQM de prévision mesure la différence entre les valeurs ajustées de la forêt et les valeurs brutes de la série chronologique.
L’EQM de prévision mesure uniquement le degré d’ajustement du modèle de forêt avec les valeurs brutes de la série chronologique. Il ne mesure pas la façon dont le modèle de prévision prévoit en réalité les valeurs futures. Il est courant qu’un modèle de forêt s’ajuste bien à une série chronologique, mais qu’il ne fournisse pas de prévisions exactes après l’extrapolation. Ce problème est résolu par le modèle de validation.
Modèle de validation
Le modèle de validation permet de déterminer la façon dont le modèle de prévision peut prévoir les valeurs futures de chaque série chronologique. Il est construit en excluant certains des intervalles temporels finaux de chaque série chronologique et en ajustant le modèle de forêt aux données non exclues. Ce modèle de forêt est ensuite utilisé pour prévoir les valeurs des données qui ont été retenues, et les valeurs prévues sont comparées aux valeurs brutes qui étaient masquées. Par défaut, 10 pour cent des intervalles temporels sont retenus pour validation, mais ce nombre peut évoluer à l’aide du paramètre Numer of Time Steps to Exclude for Validation (Nombre d’intervalles temporels à exclure pour la validation). Le nombre d’intervalles temporels exclus ne peut pas dépasser 25 pour cent du nombre d’intervalles temporels, et aucune validation n’est réalisée si le chiffre 0 est spécifié. L’exactitude des prévisions se mesure en calculant une statistique d’EQM de validation, qui est égale à la racine carrée de la différence au carré moyenne entre les valeurs prévues et brutes des intervalles temporels exclus.
, où T est le nombre d’intervalles temporels, m est le nombre d’intervalles temporels retenus pour la validation, ct est la valeur prévue à partir des T-m premiers intervalles temporels et rt est la valeur brute de la série chronologique retenue pour la validation à l’instant t.
L’image suivante illustre un modèle de forêt ajusté à la première moitié d’une série chronologique et ensuite utilisé pour prévoir la seconde moitié de la série chronologique. L’EQM de validation mesure la différence entre les valeurs prévues et des valeurs brutes aux intervalles temporels retenus.
Le modèle de validation est important car il peut comparer directement les valeurs prévues aux valeurs brutes en vue de mesurer la qualité de prévision de la forêt. Même s’il n’est pas réellement utilisé pour prévoir, il permet de justifier le modèle de prévision.
Remarque :
Dans la prévision d’une série chronologique, la validation s’apparente à une technique courante qui s’appelle la validation croisée, même si ce n’est pas tout à fait la même chose. La différence est que la validation de la prévision exclut toujours les intervalles temporels finaux de la validation, tandis que la validation croisée exclut soit un sous-ensemble aléatoire des données, soit chaque valeur séquentiellement.
Interprétation
Vous devez prendre en compte plusieurs facteurs lors de l’interprétation des valeurs d’EQM de prévision et d’EQM de validation.
- Les valeurs d’EQM ne sont pas directement comparables car elles mesurent différents aspects. L’EQM de prévision mesure l’ajustement du modèle de forêt aux valeurs brutes des séries chronologiques et l’EQM de validation mesure la qualité de prévision des valeurs futures du modèle. Comme la racine carrée de l’erreur quadratique moyenne (EQM) de prévision utilise plus de données et qu’elle n’extrapole pas, elle est généralement plus petite que la racine carrée de l’erreur quadratique moyenne (EQM) de validation.
- Les deux valeurs EQM utilisent les unités des données. Par exemple, si vos données sont des relevés de température en degrés Celsius, une racine carrée de l’erreur quadratique moyenne de validation de 50 est très élevée car cela signifie que les valeurs prévues diffèrent des valeurs réelles d’environ 50 degrés en moyenne. Toutefois, si vos données sont les recettes quotidiennes en dollars américains d’un grand magasin, la même racine carrée de l’erreur quadratique moyenne (EQM) de validation de 50 est très petite car cela signifie que les recettes quotidiennes prévues diffèrent seulement des valeurs réelles de 50 USD par jour en moyenne.
Conception et entraînement du modèle de forêt
Pour prévoir les valeurs futures, le modèle de forêt doit être entraîné en associant des variables explicatives à des variables dépendantes pour chaque localisation. Le modèle de forêt a besoin de données d’entraînement répétées, mais chaque localisation ne comporte qu’une seule série chronologique. Des fenêtres horaires permettent de créer plusieurs jeux de variables explicatives et dépendantes au sein d’une seule série chronologique. Les intervalles temporels au sein de chaque fenêtre horaire sont utilisés comme variables explicatives, et l’intervalle temporel suivant après la fenêtre horaire est la variable dépendante. Par exemple, si une localisation comporte 20 intervalles temporels et que la fenêtre horaire correspond à 5 intervalles temporels, alors 15 jeux de variables explicatives et dépendantes sont utilisées pour entraîner la forêt à cette localisation. Le premier jeu comporte les intervalles temporels 1, 2, 3, 4 et 5 comme variables explicatives et l’intervalle temporel 6 comme variable dépendante. Le deuxième jeu comporte les intervalles temporels 2, 3, 4, 5 et 6 comme variables explicatives et l’intervalle temporel 7 comme variable dépendante. Le dernier jeu comporte les intervalles temporels 15, 16, 17, 18 et 19 comme variables explicatives et l’intervalle temporel 20 comme variable dépendante. Vous pouvez spécifier le nombre d’intervalles temporels au sein de chaque fenêtre horaire à l’aide du paramètre Time Step Window (Fenêtre d’intervalles temporels). La valeur minimale de la fenêtre horaire est de 1 (un seul intervalle temporel dans chaque fenêtre horaire) et sa valeur maximale est égale à un tiers du nombre d’intervalles temporels à la localisation.
À l’aide du modèle de forêt entraîné, les intervalles temporels finaux à la localisation servent de variables explicatives pour prévoir le premier intervalle temporel futur. Le deuxième intervalle temporel futur est ensuite prévu à l’aide des intervalles temporels précédents dans la fenêtre horaire, où un de ces intervalles temporels est la première valeur prévue. Le troisième intervalle temporel prévu utilise les intervalles temporels précédents dans la fenêtre, où deux de ces intervalles temporels sont des intervalles temporels prévus précédents. Ce traitement se poursuit à travers tous les intervalles temporels futurs.
L’image suivante illustre les jeux de variables explicatives et dépendantes utilisées pour entraîner le modèle de forêt et prévoir les sept premiers intervalles temporels futurs:
Saisonnalité et choix d’une fenêtre horaire
Il est important de bien choisir le nombre d’intervalles temporels dans chaque fenêtre d’intervalles temporels pour le modèle de forêt. Il est primordial de savoir si la série chronologique affiche une saisonnalité où des modèles cycliques naturels se répètent sur un certain nombre d’intervalles temporels. Par exemple, la température affiche des cycles saisonniers annuels en fonction des saisons de l’année. Comme la fenêtre horaire est utilisée pour créer des variables explicatives et dépendantes associées, elle est plus efficace lorsque ces variables explicatives proviennent toutes du même cycle saisonnier de sorte qu’il y a aussi peu de corrélation saisonnière que possible entre les variables explicatives. Il est recommandé d’utiliser le nombre d’intervalles temporels dans une saison naturelle pour la durée de la fenêtre d’intervalles temporels. Si vos données affichent plusieurs saisons, il est recommandé d’utiliser la durée de la saison la plus longue.
Si vous connaissez le nombre d’intervalles temporels correspondant à une saison dans vos données, vous pouvez le spécifier dans le paramètre Time Step Window (Fenêtre d’intervalles temporels). Cette valeur sera utilisée par chaque localisation dans le cube spatio-temporel. Si vous ne connaissez pas la durée d’une saison ou si cette durée est différente selon les localisations, vous pouvez ne pas renseigner la valeur du paramètre. Une durée de saison optimale est alors estimée pour chaque localisation à l’aide de la fonction de densité spectrale. Pour en savoir plus sur cette fonction, reportez-vous à la section Références supplémentaires.
Pour chaque localisation, si la durée optimale de la saison déterminée par l’analyse spectrale est supérieure à 1 et inférieure à un tiers du nombre d’intervalles temporels à la localisation, la fenêtre d’intervalles temporels est définie sur cette valeur optimale. Sinon, la localisation utilise 25 pour cent (valeur arrondie au nombre inférieur) du nombre d’intervalles temporels à la localisation pour la fenêtre d’intervalles temporels. Cela garantit que la fenêtre comporte au moins un intervalle temporel et qu’au moins trois cycles saisonniers complets sont utilisés comme variables explicatives. La valeur de l’intervalle temporel utilisée à la localisation est enregistrée dans le champ Time Window des entités en sortie. Le champ Is Seasonal des entités en sortie contiendra la valeur 1 si la fenêtre d’intervalles temporels a été déterminée à l’aide de l’analyse spectrale. Sinon, la valeur est 0. Ce processus est synthétisé sur l’image suivante :
Approches concernant la prévision
Vous pouvez représenter les valeurs des variables explicatives et dépendantes qui serviront à entraîner la forêt de quatre manières. Ces options sont spécifiées à l’aide du paramètre Forecast Approach (Approche concernant la prévision).
La première option est Build model by value (Construire un modèle par valeur). Cette option utilise les valeurs brutes dans les groupes spatio-temporels pour les variables explicatives et dépendantes. Lorsque vous sélectionnez cette option, les valeurs prévues sont contenues dans la plage des variables dépendantes. Vous ne devez donc pas utiliser cette option si vos données ont des tendances qui vous font penser que les valeurs vont continuer à augmenter ou à baisser. L’image ci-dessous montre les jeux de variables utilisées pour entraîner le modèle pour une seule localisation, où chaque ligne affiche le jeu de variables explicatives et la variable dépendante associée. T représente le nombre d’intervalles temporels dans le cube spatio-temporel, W est le nombre d’intervalles temporels dans chaque fenêtre d’intervalles temporels et Xt est la valeur brute de la série chronologique à l’instant t.
La deuxième option est Build model by value after detrending (Construire un modèle par valeur après décomposition). Il s’agit de l’option par défaut de l’outil. Cette option opère une suppression de tendance (linéaire) de premier ordre sur l’ensemble de la série chronologique à chaque localisation, et ces valeurs décomposées servent de variables explicatives et dépendantes. Avec cette option, les prévisions suivent cette tendance dans le futur, ce qui permet d’estimer les valeurs prévues au-delà de la plage des variables dépendantes. L’image ci-dessous montre les jeux de variables utilisées pour entraîner le modèle pour une seule localisation, où chaque ligne affiche le jeu de variables explicatives et la variable dépendante associée. T représente le nombre d’intervalles temporels dans le cube spatio-temporel, W est le nombre d’intervalles temporels dans chaque fenêtre d’intervalles temporels et Xt est la valeur décomposée de la série chronologique à l’instant t.
La troisième option est Build model by residual (Construire un modèle par résiduel). Cette option crée un modèle de régression des moindres carrés ordinaires pour prévoir la variable dépendante en fonction des variables explicatives au sein de chaque fenêtre horaire. Le résiduel de ce modèle de régression (la différence entre la prévision des moindres carrés ordinaires et la valeur brute de la variable dépendante) est utilisé pour représenter la variable dépendante lors de l’entraînement de la forêt. L’image ci-dessous montre les jeux de variables utilisées pour entraîner le modèle pour une seule localisation, où chaque ligne affiche le jeu de variables explicatives et la variable dépendante associée. T représente le nombre d’intervalles temporels dans le cube spatio-temporel, W est le nombre d’intervalles temporels dans chaque fenêtre d’intervalles temporels, Xt est la valeur de la série chronologique et à l’instant t et X^t (Xt-hat) est la valeur estimée à partir des moindres carrés ordinaires à l’instant t..
La dernière option est Build model by residual after detrending (Construire un modèle par résiduel après décomposition). Cette option opère d’abord une suppression de tendance (linéaire) de premier ordre sur l’ensemble de la série chronologique à une localisation. Elle construit ensuite un modèle de régression des moindres carrés ordinaires pour prévoir la variable dépendante décomposée en fonction des variables explicatives décomposées au sein de chaque fenêtre horaire. Le résiduel de ce modèle de régression (la différence entre la prévision des moindres carrés ordinaires et la valeur décomposée de la variable dépendante) est utilisé pour représenter la variable dépendante lors de l’entraînement de la forêt. L’image ci-dessous montre les jeux de variables utilisées pour entraîner le modèle pour une seule localisation, où chaque ligne affiche le jeu de variables explicatives et la variable dépendante associée. T représente le nombre d’intervalles temporels dans le cube spatio-temporel, W est le nombre d’intervalles temporels dans chaque fenêtre d’intervalles temporels, Dt est la valeur décomposée de la série chronologique et à l’instant t et D^t (Dt-hat) est la valeur estimée à partir des moindres carrés ordinaires à l’instant t..
Construire des intervalles de confiance
L’outil calcule des intervalles de confiance de 90 pour cent pour chaque intervalle temporel prévu qui apparaissent sous forme de champs dans la fenêtre Output Features (Entités en sortie) et qui s’affichent dans les diagrammes contextuels abordés dans la section suivante. Les limites supérieure et inférieure de l’intervalle de confiance du premier intervalle temporel prévu sont calculées à l’aide de la régression par forêt aléatoire des quantiles. Pour prévoir la valeur d’une période future, la moyenne des observations dans chaque feuille d’un arbre est calculée. Dans la régression des quantiles toutefois, chaque observation au sein de chaque feuille est utilisée, ce qui génère une distribution des valeurs prévues pour le premier intervalle temporel. L’intervalle de confiance de 90 pour cent est construit avec les 5ème et 95ème quantiles de cette distribution.
L’intervalle de confiance de la deuxième prévision est calculé d’une façon similaire, mais il est ajusté en tenant compte de l’intervalle de confiance de la première prévision. La régression des quantiles est de nouveau utilisée pour créer une distribution du deuxième intervalle temporel prévu, en traitant le premier intervalle temporel prévu comme une valeur unique, et les 5ème et 95ème quantiles de la distribution sont calculés. La confiance réelle pour la deuxième prévision est calculée en ajoutant les durées des limites de confiance des deux prévisions. La limite supérieure de la deuxième prévision est égale à la durée de la limite supérieure de la première prévision plus la durée de la limite de confiance supérieure de la deuxième prévision (en supposant que la première prévision est une valeur unique et non une distribution). La limite inférieure se calcule de la même manière en ajoutant les durées des limites de confiance inférieures. L’intervalle de confiance du troisième intervalle temporel prévu est calculé en effectuant une nouvelle régression des quantiles et en ajoutant les durées des limites d’erreur des trois prévisions. Ce traitement se poursuit jusqu’à ce que tous les intervalles temporels soient prévus. Lorsque vous ajoutez ces limites d’erreur de cette façon, vous êtes certain que l’erreur est propagée à travers les projections futures et que les durées des limites de confiance augmentent avec le temps.
Remarque :
Les limites de confiance du deuxième intervalle temporel et au-delà sont calculées avec prudence en ajoutant les erreurs des prévisions antérieures. Le niveau de confiance réel de ces intervalles est d’au moins 90 pour cent, mais il peut en réalité être beaucoup plus important.
Sorties de l'outil
La sortie principale de cet outil est une classe d’entités 2D qui affiche chaque localisation dans le Input Space Time Cube (Cube spatio-temporel en entrée) symbolisé par l’intervalle temporel prévu final avec les prévisions de tous les autres intervalles temporels stockés sous forme de champs. Bien que chaque localisation soit prévue de façon indépendante et que les relations spatiales ne soient pas prises en compte, la carte peut afficher des modèles spatiaux pour les zones présentant des séries chronologiques similaires.
Diagrammes contextuels
Lorsque vous cliquez sur une entité de la carte à l’aide de l’outil de navigation Explore (Explorer), un diagramme s’affiche dans la fenêtre Pop-up (Fenêtre contextuelle). Cette fenêtre indique les valeurs du cube spatio-temporel avec le modèle de forêt ajusté, ainsi que les valeurs prévues avec des intervalles de confiance de 90 pour cent pour chaque prévision. Les valeurs du cube spatio-temporel apparaissent en bleu et sont reliées par une ligne bleue. Les valeurs ajustées apparaissent en orange et sont reliées par une ligne pointillée orange. Les valeurs prévues apparaissent en orange et sont reliées par une ligne unie orange qui représente la prévision du modèle de forêt. Chaque valeur prévue est entourée de limites de confiance en rouge clair. Vous pouvez survoler n’importe quel point du diagramme pour voir la date et la valeur du point.
Remarque :
Les diagrammes contextuels ne sont pas créés lorsque les entités en sortie sont enregistrées sous forme de shapefile (.shp). De plus, si les intervalles de confiance sortent du cadre du diagramme, un bouton Show Full Data Range (Afficher la plage de données entière) s’affiche au-dessus du diagramme pour vous permettre de développer le diagramme et d’afficher l’intervalle de confiance entier.
Messages de géotraitement
L’outil fournit un ensemble de messages contenant des informations sur l’exécution de l’outil. Les messages comportent trois sections principales.
La section Input Space Time Cube Details (Détails du cube spatio-temporel en entrée) présente les propriétés du cube spatio-temporel en entrée, ainsi que des informations sur le nombre d’intervalles temporels, le nombre de localisations et le nombre de groupes spatio-temporels. Les propriétés qui s’affichent dans la première section dépendent de la façon dont le cube a été créé à l’origine, et donc les informations varient en fonction du cube.
La section Analysis Details (Détails d’analyse) affiche les propriétés des résultats de prévision, notamment le nombre d’intervalles temporels prévus, le nombre d’intervalles temporels exclus de la validation, le pourcentage de localisations où la saisonnalité a été détectée par l’analyse spectrale et des informations sur les intervalles temporels prévus. Si aucune valeur n’est fournie pour le paramètre Time Step Window (Fenêtre intervalles temporels), des statistiques de synthèse de la fenêtre d’intervalles temporels estimée s’affichent, notamment le minimum, le maximum, la moyenne, la médiane et l’écart type.
La section Summary of Accuracy across Locations (Synthèse de l’exactitude parmi les localisations) présente des statistiques de synthèse de l’EQM de prévision et de l’EQM de validation parmi toutes les localisations. Pour chaque valeur, le minimum, le maximum, la moyenne, la médiane et l’écart type sont indiqués.
Remarque :
Les messages de géotraitement apparaissent au bas de la fenêtre Geoprocessing (Géotraitement) au cours de l’exécution de l’outil. Vous pouvez accéder aux messages en survolant la barre de progression, en cliquant sur le bouton contextuel ou en développant la section des messages dans la fenêtre Géotraitement. Vous pouvez également consulter les messages de l’exécution précédente d’un outil dans l’historique de géotraitement.
Champs des entités en sortie
Outre le paramètre Object ID (ID d’objet), les champs de géométrie et le champ contenant les diagrammes contextuels, la fenêtre Output Features (Entités en sortie) comporte les champs suivants :
- Location ID (ID de localisation) (LOCATION) : identifiant de la localisaton correspondante du cube spatio-temporel.
- Forecast for (Analysis Variable) in (Time Step) (Prévision de (variable d’analyse) dans (intervalle temporel)) (FCAST_1, FCAST_2, etc.) : valeur prévue de chaque intervalle temporel futur. L’alias de champ présente le nom de la Analysis Variable (Variable d’analyse) et la date de la prévision. Un champ de ce type est créé pour chaque intervalle temporel prévu.
- High Interval for (Analysis Variable) in (Time Step) (Intervalle élevé de (variable d’analyse) dans (intervalle temporel)) (HIGH_1, HIGH_2, etc.) : limite supérieure d’un intervalle de confiance de 90 pour cent pour la valeur prévue de chaque intervalle temporel futur. L’alias de champ présente le nom de la Analysis Variable (Variable d’analyse) et la date de la prévision. Un champ de ce type est créé pour chaque intervalle temporel prévu.
- Low Interval for (Analysis Variable) in (Time Step) (Intervalle faible de (variable d’analyse) dans (intervalle temporel)) (LOW_1, LOW_2, etc.) : limite inférieure d’un intervalle de confiance de 90 pour cent pour la valeur prévue de chaque intervalle temporel futur. L’alias de champ présente le nom de la Analysis Variable (Variable d’analyse) et la date de la prévision. Un champ de ce type est créé pour chaque intervalle temporel prévu.
- Forecast Root Mean Square Error (Racine carrée de l’erreur quadratique moyenne de prévision) (F_RMSE) : EQM de prévision.
- Validation Root Mean Square Error (Racine carrée de l’erreur quadratique moyenne de validation) (V_RMSE) : EQM de validation. Si aucun intervalle temporel n’est exclu de la validation, ce champ n’est pas créé.
- Time Window (Fenêtre horaire) (TIMEWINDOW) : fenêtre d’intervalles temporels utilisée à la localisation.
- Is Seasonal (Saisonnier) (IS_SEASON) : variable booléenne indiquant si la fenêtre d’intervalles temporels à la localisation a été déterminée par densité spectrale. La valeur 1 indique qu’une saisonnalité a été détectée par densité spectrale et la valeur 0 indique qu’aucune saisonnalité n’a détectée. Si une valeur est spécifiée dans le paramètre Time Window (Fenêtre horaire), toutes les localisations ont la valeur 0 dans ce champ.
- Forecast Method (Méthode de prévision) (METHOD) : champ de texte affichant les paramètres du modèle de forêt, notamment la valeur initiale aléatoire, le nombre d’arbres, la taille d’échantillonnage, l’approche de prévision et si la fenêtre d’intervalles temporels a été spécifiée par l’utilisateur ou définie par l’outil. Ce champ peut servir à reproduire des résultats et vous permet d’identifier les modèles qui sont utilisés dans l’outil Évaluer les prévisions par localisation.
Cube spatio-temporel en sortie
Si un Output Space Time Cube (Cube spatio-temporel en sortie) est spécifié, le cube en sortie contient toutes les valeurs d’origine du cube spatio-temporel en entrée auxquelles sont jointes les valeurs prévues. Ce nouveau cube spatio-temporel peut être affiché à l’aide des outils Visualiser le cube spatio-temporel en 2D ou Visualiser le cube spatio-temporel en 3D et peut être utilisé en entrée pour les outils de la boîte d’outils Exploration des modèles spatio-temporels, comme Analyse de points chauds émergents et Agrégation de séries chronologiques.
Il est possible de comparer et fusionner plusieurs cubes spatio-temporels prévus à l’aide de l’outil Évaluer les prévisions par emplacement. Cela vous permet de créer plusieurs cubes de prévision à l’aide de différents outils et paramètres de prévision ; l’outil identifie ensuite la meilleure prévision pour chaque emplacement en utilisant soit l’EQM de prévision soit l’EQM de validation.
Pratiques recommandées et limites
Vous devez prendre en compte plusieurs facteurs lorsque vous choisissez l’outil qui convient et les paramètres à utiliser.
- Par rapport aux autres outils de prévision du jeu d’outils Prévision des séries chronologiques, cet outil est le plus compliqué, mais c’est également celui qui émet le moins d’hypothèses sur les données. Il est recommandé pour les séries chronologiques avec des formes et tendances compliquées, qui sont difficiles à modéliser avec des fonctions mathématiques simples ou lisses. Il est également recommandé lorsque les hypothèses d’autres méthodes ne sont pas satisfaites.
- Il est important de bien déterminer le nombre d’intervalles temporels à exclure de la validation. Plus le nombre d’intervalles temporels exclus est important, moins il reste d’intervalles temporels pour estimer le modèle de validation. Toutefois, si le nombre d’intervalles temporels exclus est insuffisant, la racine carrée de l’erreur quadratique moyenne de validation est estimée à l’aide d’une petite quantité de données et peut être trompeuse. Il est recommandé d’exclure autant d’intervalles temporels que possible tout en en conservant un nombre suffisant pour estimer le modèle de validation. Il est également recommandé de conserver au moins autant d’intervalles temporels pour la validation que pour la précision, si votre cube spatio-temporel dispose d’un nombre suffisant d’intervalles temporels pour le permettre.
- Cet outil peut générer des prévisions instables et non fiables lorsque la même valeur est répétée plusieurs fois dans la même série chronologique. On trouve fréquemment des valeurs identiques répétées dans les cas d’inflation nulle, où vos données représentent des totaux et où un grand nombre d’intervalles temporels ont la valeur 0.
Ressources supplémentaires
Pour plus d’informations sur les modèles de forêt, consultez les références suivantes :
- Breiman, Leo. (2001). « Random Forests. » Entraînement machine 45 (1): 5-32. https://doi.org/10.1023/A:1010933404324.
- Breiman, L., J.H. Friedman, R.A. Olshen, and C.J. Stone. (2017). Classification and regression trees. New York : Routledge. Chapitre 4
Pour plus de ressources et de références sur les modèles de forêt, reportez-vous à la rubrique Fonctionnement de l’outil Classification et régression basées sur une forêt.
Pour plus d’informations sur la fonction de densité spectrale utilisée pour estimer la durée des fenêtres horaires, reportez-vous à la fonction findfrequency dans les références suivantes :
- Hyndman R, Athanasopoulos G, Bergmeir C, Caceres G, Chhay L, O'Hara-Wild M, Petropoulos F, Razbash S, Wang E, and Yasmeen F (2019). « Forecasting functions for time series and linear models. » R package version 8.7, https://pkg.robjhyndman.com/forecast.
- Hyndman RJ and Khandakar Y (2008). « Automatic time series forecasting: the forecast package for R. » Journal of Statistical Software, 26(3), pp. 1-22. https://www.jstatsoft.org/article/view/v027i03.
Pour plus d’informations sur la construction des intervalles de confiance à partir des modèles de régression de forêt, consultez les références suivantes :
- Meinshausen, Nicolai. « Quantile regression forests. » Journal of Machine Learning Research 7. Jun (2006 ) : 983-999.
Rubriques connexes
Vous avez un commentaire à formuler concernant cette rubrique ?