L’outil Prévision par ajustement des courbes utilise un simple ajustement de la courbe pour modéliser une série chronologique et prévoir les valeurs futures à chaque emplacement d’un cube spatio-temporel. Par exemple, en utilisant un cube spatio-temporel avec la population annuelle, cet outil peut prévoir les populations dans les années à venir. La sortie principale est une carte du pas de temps final prévu, ainsi que des messages d’information et des diagrammes contextuels. Vous pouvez également créer un nouveau cube spatio-temporel contenant les valeurs prévues ajoutées aux données du cube d’origine.
L’outil ajuste une courbe à chaque emplacement du cube spatio-temporel en entrée et prévoit les séries chronologiques en extrapolant cette courbe à de futurs pas de temps. Les courbes peuvent être linéaires, paraboliques, en forme de S (Gompertz) ou exponentielles. Vous pouvez utiliser le même type de courbe à chaque emplacement du cube spatio-temporel ou autoriser l’outil à définir la courbe qui correspond le mieux à chaque emplacement. Vous pouvez également choisir de détecter les points aberrants dans chaque série chronologique pour identifier les emplacements et les heures qui s’écartent significativement de la courbe ajustée.
Types de courbes et applications possibles
Cet outil prend en charge quatre types de courbes qui peuvent être spécifiés dans le paramètre Curve Type (Type de courbe). L’image suivante montre un exemple typique de chacun des quatre types de courbes :
- Linéaire : chaque série chronologique est modélisée à l’aide d’une ligne droite.
- Équation : , où Xt est la valeur de la série chronologique au moment t, et a et b sont estimés à partir des données en utilisant l’estimation des moindres carrés.
- Application possible : le type de courbe linéaire est utile pour des données qui augmentent ou diminuent régulièrement avec le temps. Par exemple, cet outil peut être utilisé pour prévoir les populations des communautés pendant le stade de développement où la croissance démographique est approximativement linéaire.
- Parabolique : chaque série chronologique est modélisée à l’aide d’une parabole, également appelée courbe quadratique.
- Équation : , où Xt est la valeur de la série chronologique au moment t, et a, b et c sont estimés à partir des données en utilisant l’estimation des moindres carrés.
- Application possible : le type de courbe parabolique est utile pour des données qui changent de direction au fil du temps, soit en augmentant puis en diminuant, ou vice versa. Tous les autres types de courbes supposent que les valeurs augmentent ou diminuent continuellement dans le temps.
- Exponentielle : chaque série chronologique est modélisée à l’aide d’une courbe exponentielle, également appelée courbe géométrique.
- Équation : , où Xt est la valeur de la série chronologique au moment t, et a, b et k sont estimés à partir des données en utilisant l’estimation des moindres carrés. La valeur k permet à la courbe exponentielle de se déplacer pour mieux s’ajuster à la série chronologique.
- Application possible : le type de courbe exponentielle est utile pour les données qui augmentent ou diminuent rapidement avec le temps. Par exemple, les périodes de croissance rapide de la population dans les régions en développement peuvent être modélisées à l’aide d’une courbe exponentielle.
- En forme de S (Gompertz) : chaque série chronologique est modélisée à l’aide d’une courbe de Gompertz. Ces courbes prennent la forme d’un S et sont bornées par des limites inférieure et supérieure.
- Équation : , où Xt est la valeur de la série chronologique au moment t, et a, b, c et k sont estimés à partir des données en utilisant l’estimation des moindres carrés. Les valeurs a et k doivent être non négatives. La valeur k permet à la courbe de Gompertz de se déplacer pour mieux s’ajuster à la série chronologique et ne dépasse jamais dix fois la valeur la plus élevée de la série chronologique.
- Application possible : le type de courbe de Gompertz est utile pour modéliser la croissance avec des contraintes de capacité. Souvent, les populations commencent par croître lentement avant d’augmenter rapidement une fois que la densité de population est suffisante pour permettre l’industrie. La croissance démographique ralentit ensuite à nouveau lorsque la densité de population se rapproche de la limite que la région peut supporter.
Par défaut, le paramètre Curve Type (Type de courbe) utilise l’option Auto-detect (Détection automatique) qui ajuste les quatre types de courbes et identifie celle qui fournit la meilleure prévision pour la série chronologique à chaque emplacement. Si cette option est choisie, différents emplacements dans le cube spatio-temporel utiliseront peut-être différents types de courbes. Le type de courbe ayant la plus petite racine carrée de l’erreur quadratique moyenne (EQM) de validation est utilisé à chaque emplacement ; cependant, si aucun pas de temps n’est retenu pour la validation, l’EQM de prévision est utilisée à la place. Ces deux statistiques sont enregistrées sous forme de champs dans Output Features (Entité en sortie) et sont décrites plus en détail dans la section suivante.
Prévision et validation
L’outil construit deux modèles tout en prévoyant chaque série chronologique. Le premier est le modèle de prévision, qui est utilisé pour prévoir les valeurs des pas de temps futurs. Le second est le modèle de validation, qui sert à valider les valeurs prévues.
Modèle de prévision
Le modèle de prévision est construit en ajustant le type de courbe choisi aux valeurs de la série chronologique à chaque emplacement du cube spatio-temporel. Cette courbe est ensuite extrapolée dans le futur pour prédire les valeurs des futures tranches temporelles. L’ajustement de la courbe à chaque série chronologique est mesuré par l’EQM de prévision, qui est égale à la racine carrée de la différence quadratique moyenne entre la courbe et les valeurs de la série chronologique.
, où T est le nombre de pas de temps, ct est la valeur de la courbe et rt est la valeur brute de la série chronologique au temps t.
L’image suivante montre les valeurs brutes d’une série chronologique associée à une courbe de Gompertz ajustée à la série chronologique. L’EQM de prévision mesure l’écart entre ces deux séries chronologiques.
L’EQM de prévision ne mesure que le degré d’ajustement de la courbe aux valeurs brutes de la série chronologique. Il ne mesure pas la qualité des prévisions des valeurs futures par le modèle de prévision. Il arrive souvent qu’une courbe s’ajuste étroitement à une série chronologique mais ne fournisse pas de prévisions précises lorsqu’elle est extrapolée. Le modèle de validation résout ce problème.
Modèle de validation
Le modèle de validation est utilisé pour déterminer l’aptitude du modèle de prévision à prévoir les valeurs futures de chaque série chronologique. Il est construit en excluant plusieurs des derniers pas de temps de chaque série chronologique et en ajustant la courbe aux données qui n’ont pas été exclues. Cette courbe est ensuite utilisée pour prévoir les valeurs des données qui ont été retenues, et les valeurs prévues sont comparées aux valeurs brutes qui ont été cachées. Par défaut, 10 % des pas de temps sont retenus pour la validation, mais ce nombre peut être modifié à l’aide du paramètre Number of Time Steps to Exclude for Validation (Nombre de pas de temps à exclure pour la validation). Le nombre de pas de temps exclus ne peut pas dépasser 25 % du nombre de pas de temps, et aucune validation n’est effectuée si une valeur de 0 est spécifiée. La précision des prévisions est mesurée par le calcul d’une statistique d’EQM de validation, qui est égale à la racine carrée de la différence quadratique moyenne entre les valeurs prévues et les valeurs brutes des pas de temps exclus.
, où T est le nombre de pas de temps, m est le nombre de pas de temps retenus pour la validation, ct est la valeur prévue à partir des premiers T-m pas de temps, et rt est la valeur brute de la série chronologique retenue pour la validation au moment t.
L’image suivante montre une courbe de Gompertz ajustée à la première moitié d’une série chronologique et extrapolée pour prévoir la seconde moitié de la série chronologique. L’EQM de validation mesure l’écart entre les valeurs prévues et les valeurs brutes aux pas de temps retenus.
Le modèle de validation est important, car il peut comparer directement les valeurs prévues aux valeurs brutes pour mesurer la qualité des prévisions de la courbe. Il n’est pas réellement utilisé pour faire des prévisions, mais sert à justifier le modèle de prévision.
Remarque :
La validation des prévisions de séries chronologiques est similaire à une technique courante appelée validation croisée, même si elles diffèrent sur le point suivant : la validation des prévisions exclut toujours les derniers pas de temps pour la validation, alors que la validation croisée exclut soit un sous-ensemble aléatoire des données, soit chaque valeur de manière séquentielle.
Interprétation
Plusieurs considérations doivent être prises en compte lors de l’interprétation des valeurs EQM de prévision et EQM de validation.
- Il n’est pas possible de comparer directement les valeurs EQM car elles mesurent des choses différentes. L’EQM de prévision mesure l’ajustement de la courbe aux valeurs brutes de la série chronologique, alors que l’EQM de validation mesure la capacité de la courbe à prévoir les valeurs futures. Comme l’EQM de prévision utilise plus de données et n’effectue pas d’extrapolation, elle est généralement plus petite que l’EQM de validation.
- Les deux valeurs EQM ont les mêmes unités que les données. Par exemple, si vos données sont des mesures de température en degrés Celsius, une EQM de validation de 50 est très élevée car cela signifie que les valeurs prévues diffèrent des valeurs réelles d’environ 50 degrés en moyenne. Toutefois, si vos données correspondent aux recettes quotidiennes en dollars américains d’un important point de vente, la même EQM de validation de 50 est très faible car elle signifie que les recettes quotidiennes prévues ne diffèrent des valeurs réelles que de 50 dollars par jour en moyenne.
Identification des points aberrants des séries chronologiques
Les points aberrants dans les données de séries chronologiques sont des valeurs qui diffèrent significativement des modèles et des tendances des autres valeurs au sein des séries chronologiques. Par exemple, des nombres élevés d’achats en ligne au moment des congés ou des nombres élevés d’accidents de la circulation lors de pluies abondantes seraient probablement détectés comme des points aberrant dans leurs séries chronologiques. Les erreurs de saisie de données simples (par exemple, omettre la décimale d’un nombre) sont une autre source courante de points aberrants. Identifier les points aberrants dans les prévisions de séries chronologiques est important car ces points influencent le modèle de prévision utilisé pour prévoir les futures valeurs, et même un faible nombre de points aberrants dans les séries chronologiques d’un emplacement peut réduire significativement la précision et la fiabilité des prévisions. Les emplacements comportant des points aberrants, en particulier des points aberrants vers le début ou la fin des séries chronologiques, peuvent produire des prévisions trompeuses et identifier ces emplacements permet de déterminer le degré de confiance que vous devez avoir dans les valeurs prévues à chaque emplacement.
Les points aberrants ne sont pas déterminés que par leur valeur brute, mais plutôt par le degré auquel leurs valeurs diffèrent des valeurs ajustées du modèle de prévision. Cela signifie que le fait qu’une valeur soit ou non déterminée en tant que point aberrant est contextuel et dépend à la fois de l’emplacement et de l’heure de cette valeur. Le modèle de prévision définit ce que la valeur doit être en fonction de la série chronologique entière, et les points aberrants sont les valeurs qui s’écartent significativement de cette ligne de base. Par exemple, considérons une série chronologique des températures moyennes annuelles. Parce que les températures moyennes ont augmenté au cours des dernières décennies, le modèle de prévision ajusté de la température évoluera également dans le temps pour refléter cette augmentation. Cela signifie qu’une valeur de température qui serait considérée comme standard et non aberrante en 1950 serait probablement considérée comme un point aberrant en 2020. En d’autres termes, une température typique de 1950 serait considérée comme très basse selon les normes de 2020.
Vous pouvez choisir de détecter les points aberrants de séries chronologiques à chaque emplacement à l’aide du paramètre Identify Outliers (Identifier les points aberrants). S’il est spécifié, le test ESD (Extreme Studentized Deviate) généralisé est effectué pour chaque emplacement afin de tester les points aberrants de séries chronologiques. Le niveau de confiance du test peut être spécifié via le paramètre Level of Confidence (Niveau de confiance) et un niveau de confiance de 90 % est utilisé par défaut. Le test ESD généralisé teste de manière itérative un seul point aberrant, deux points aberrants, trois points aberrants, etc., à chaque emplacement jusqu’à la valeur du paramètre Maximum Number of Outliers (Nombre maximal de points aberrants) (par défaut, 5 % du nombre de pas de temps, arrondi), et le nombre de points aberrants statistiquement significatif le plus élevé est renvoyé. Le nombre de points aberrants à chaque emplacement est visible dans la table attributaire des entités en sortie, et les points aberrants individuels sont visibles dans les diagrammes contextuels de séries chronologiques abordés dans la section suivante.
Sorties de l'outil
La principale sortie de cet outil est une classe d’entités 2D montrant chaque emplacement dans le cube spatio-temporel en entrée symbolisée par le pas de temps final prévu, les prévisions pour tous les autres pas de temps étant stockées sous forme de champs. Bien que chaque emplacement soit prévu indépendamment et que les relations spatiales ne soient pas prises en compte, la carte peut afficher des modèles spatiaux pour des zones ayant des séries chronologiques similaires.
Diagrammes contextuels
En cliquant sur n’importe quelle entité de la carte à l’aide de l’outil de navigation Explore (Explorer), un graphique s’affiche dans la fenêtre Pop-up (Fenêtre contextuelle) qui indique les valeurs du cube spatio-temporel ainsi que la courbe ajustée et les valeurs prévues. Les valeurs du cube spatio-temporel apparaissent en bleu et sont reliées par une ligne bleue. Les valeurs ajustées sont affichées en orange et sont reliées par une ligne orange pointillée représentant la courbe. Les valeurs prévues sont affichées en orange et sont reliées par une ligne orange continue représentant l’extrapolation et la prévision de la courbe. Vous pouvez survoler n’importe quel point du graphique pour voir la date et la valeur du point. De plus, si vous choisissez de détecter les points aberrants dans les séries chronologiques, ces points s’affichent sous la forme de gros points de couleur pourpre.
Remarque :
Les diagrammes contextuels ne sont pas créés lorsque les entités en sortie sont enregistrées dans un shapefile (.shp).
Messages de géotraitement
L’outil fournit un certain nombre de messages d’informations sur l’exécution de l’outil. Les messages comportent trois sections principales.
La section Input Space Time Cube Details (Détails du cube spatio-temporel en entrée) affiche les propriétés du cube spatio-temporel en entrée ainsi que des informations sur l’intervalle de pas de temps, le nombre de pas de temps, le nombre d’emplacements et le nombre de groupes spatio-temporels. Les propriétés affichées dans cette première section dépendent de la façon dont le cube a été créé à l’origine, de sorte que les informations varient d’un cube à l’autre.
La section Analysis Details (Détails d’analyse) affiche les propriétés des résultats des prévisions, y compris le nombre de pas de temps prévus, le nombre de pas de temps exclus pour la validation et des informations sur les pas de temps prévus.
La section Summary of Accuracy across Locations (Récapitulatif de la précision pour chaque emplacement) affiche un résumé statistique pour l’EQM de prévision et l’EQM de validation pour tous les emplacements. Pour chaque valeur, le minimum, le maximum, la moyenne, la médiane et l’écart type sont affichés.
La section Summary of Selected Curve Types (Récapitulatif des types de courbes sélectionnés) s’affiche si le paramètre Curve Type (Type de courbe) est défini sur Auto-detect (Détection automatique). Cette section affiche le nombre et le pourcentage d’emplacements qui ont été choisis pour chacun des quatre types de courbes.
La section Summary of Time Series Outliers (Synthèse des points aberrants de séries chronologiques) apparaît si vous choisissez de détecter les points aberrants de séries chronologiques à l’aide du paramètre Outlier Option (Option de point aberrant). Cette section affiche des informations telles que le nombre et le pourcentage d’emplacements contenant des points aberrants, le pas de temps contenant le plus de points aberrants et des statistiques récapitulatives du nombre de points aberrants par emplacement et par pas de temps.
Remarque :
Les messages de géotraitement apparaissent au bas de la fenêtre Geoprocessing (Géotraitement) pendant l’exécution de l’outil. Vous pouvez accéder aux messages en survolant la barre de progression, en cliquant sur le bouton contextuel ou en développant la section des messages dans la fenêtre Géotraitement. Vous pouvez également consulter les messages de l’exécution précédente d’un outil dans l’historique de géotraitement.
Champs des entités en sortie
Outre les champs de géométrie Object ID (ID d’objet) et le champ contenant les diagrammes contextuels, les Output Features (Entités en sortie) comprendront les champs suivants :
- Location ID (ID d’emplacement) (LOCATION) : l’ID de l’emplacement correspondant du cube spatio-temporel.
- Forecast for (Analysis Variable) in (Time Step) (Prévision pour (Variable d’analyse) dans (Pas de temps)) (FCAST_1, FCAST_2, etc.) : la valeur prévue de chaque pas de temps futur. L’alias du champ affiche le nom de la Analysis Variable (Variable d’analyse) et la date de la prévision. Un champ de ce type est créé pour chaque pas de temps prévu.
- Forecast Root Mean Square Error (Racine carrée de l’erreur quadratique moyenne de prévision) (F_RMSE) : l’EQM de prévision.
- Validation Root Mean Square Error (Racine carrée de l’erreur quadratique moyenne de validation) (V_RMSE) : l’EQM de validation. Si aucun pas de temps n’a été exclu pour la validation, ce champ n’est pas créé.
- Forecast Method (Méthode de prévision) (METHOD) : le type de courbe qui a été utilisé à cet emplacement. Ce champ peut être utilisé pour identifier le type de courbe à l’emplacement lorsque vous avez choisi l’option Auto-detect (Auto-détection).
- Forecast Equation (Équation de prévision) (EQUATION) : un champ de texte affichant l’équation de la courbe de prévision à l’emplacement. Ce champ n’est pas créé lorsque vous avez choisi l’option Auto-detect (Auto-détection).
- Number of Model Fit Outliers (Nombre de points aberrants ajustés de modèle) (N_OUTLIERS) : nombre de points aberrants détectés dans la série chronologique de l’emplacement. Ce champ n’est créé que si vous choisissez de détecter les points aberrants à l’aide du paramètre Outlier Option (Option de point aberrant).
Cube spatio-temporel en sortie
Si un Output Space Time Cube (Cube spatio-temporel en sortie) est spécifié, le cube en sortie contient toutes les valeurs d’origine du cube spatio-temporel en entrée auxquelles sont jointes les valeurs prévues. Ce nouveau cube spatio-temporel peut être affiché à l’aide des outils Visualiser le cube spatio-temporel en 2D ou Visualiser le cube spatio-temporel en 3D et peut être utilisé en entrée pour les outils de la boîte d’outils Exploration des modèles spatio-temporels, comme Analyse de points chauds émergents et Agrégation de séries chronologiques.
Il est possible de comparer et fusionner plusieurs cubes spatio-temporels prévus à l’aide de l’outil Évaluer les prévisions par emplacement. Cela vous permet de créer plusieurs cubes de prévision à l’aide de différents outils et paramètres de prévision ; l’outil identifie ensuite la meilleure prévision pour chaque emplacement en utilisant soit l’EQM de prévision soit l’EQM de validation.
Pratiques conseillées et limitations
Pour décider si cet outil est adapté à vos données et quels paramètres choisir, vous devez tenir compte de plusieurs éléments.
- Par rapport aux autres outils de prévision du jeu d’outils Prévision de séries chronologiques, cet outil est le plus simple, et il convient particulièrement aux séries chronologiques qui suivent une tendance prévisible ne présentant pas de forte saisonnalité. Si vos données suivent une tendance complexe ou présentent de forts cycles saisonniers, il est recommandé d’utiliser d’autres outils de prévision.
- Il est important de décider du nombre de pas de temps à exclure pour la validation. Plus le nombre de pas de temps exclus est élevé, moins il reste de pas de temps pour estimer le modèle de validation. Cependant, en excluant trop peu de pas de temps, l’estimation de l’EQM de la validation utilise une petite quantité de données et peut être trompeuse. Il est recommandé d’exclure autant de pas de temps que possible tout en conservant un nombre suffisant de pas de temps pour estimer le modèle de validation. Il est également recommandé de retenir au moins autant de pas de temps pour la validation que le nombre de pas de temps que vous avez l’intention de prévoir, pour autant que votre cube spatio-temporel a suffisamment de pas de temps pour le permettre.
- Cet outil ne génère pas d’intervalles de confiance pour les valeurs prévues.
Ressources supplémentaires
Pour plus d’informations sur la prévision à l’aide de l’ajustement simple de la courbe, consultez le manuel suivant :
- Klosterman, R. E., Brooks, K., Drucker, J., Feser, E., & Renski, H. (2018). Méthodes de support de la planification : analyse et projection urbaines et régionales. Rowman & Littlefield. ISBN : 1442220309
Rubriques connexes
Vous avez un commentaire à formuler concernant cette rubrique ?