Fonctionnement de l’outil Prévision par ajustement des courbes

L’outil Prévision par ajustement des courbes utilise un simple ajustement de la courbe pour modéliser une série chronologique et prévoir les valeurs futures à chaque emplacement d’un cube spatio-temporel. Par exemple, en utilisant un cube spatio-temporel avec la population annuelle, cet outil peut prévoir les populations dans les années à venir. La sortie principale est une carte du pas de temps final prévu, ainsi que des messages d’information et des diagrammes contextuels. Vous pouvez également créer un nouveau cube spatio-temporel contenant les valeurs prévues ajoutées aux données du cube d’origine.

L’outil ajuste une courbe à chaque emplacement du cube spatio-temporel en entrée et prévoit les séries chronologiques en extrapolant cette courbe à de futurs pas de temps. Les courbes peuvent être linéaires, paraboliques, en forme de S (Gompertz) ou exponentielles. Vous pouvez utiliser le même type de courbe à chaque emplacement du cube spatio-temporel ou laisser l’outil définir le type de courbe qui correspond le mieux à chaque emplacement.

Types de courbes et applications possibles

Cet outil prend en charge quatre types de courbes qui peuvent être spécifiés dans le paramètre Curve Type (Type de courbe). L’image suivante montre un exemple typique de chacun des quatre types de courbes :

Quatre types de courbes sont présentés.
Quatre types de courbes sont fournis.
  • Linéaire : chaque série chronologique est modélisée à l’aide d’une ligne droite.
    • Équation : Équation linéaire, où Xt est la valeur de la série chronologique au moment t, et a et b sont estimés à partir des données en utilisant l’estimation des moindres carrés.
    • Application possible : le type de courbe linéaire est utile pour des données qui augmentent ou diminuent régulièrement avec le temps. Par exemple, cet outil peut être utilisé pour prévoir les populations des communautés pendant le stade de développement où la croissance démographique est approximativement linéaire.
  • Parabolique : chaque série chronologique est modélisée à l’aide d’une parabole, également appelée courbe quadratique.
    • Équation : Équation parabolique, où Xt est la valeur de la série chronologique au moment t, et a, b et c sont estimés à partir des données en utilisant l’estimation des moindres carrés.
    • Application possible : le type de courbe parabolique est utile pour des données qui changent de direction au fil du temps, soit en augmentant puis en diminuant, ou vice versa. Tous les autres types de courbes supposent que les valeurs augmentent ou diminuent continuellement dans le temps.
  • Exponentielle : chaque série chronologique est modélisée à l’aide d’une courbe exponentielle, également appelée courbe géométrique.
    • Équation : Équation exponentielle, où Xt est la valeur de la série chronologique au moment t, et a, b et k sont estimés à partir des données en utilisant l’estimation des moindres carrés. La valeur k permet à la courbe exponentielle de se déplacer pour mieux s’ajuster à la série chronologique.
    • Application possible : le type de courbe exponentielle est utile pour les données qui augmentent ou diminuent rapidement avec le temps. Par exemple, les périodes de croissance rapide de la population dans les régions en développement peuvent être modélisées à l’aide d’une courbe exponentielle.
  • En forme de S (Gompertz) : chaque série chronologique est modélisée à l’aide d’une courbe de Gompertz. Ces courbes prennent la forme d’un S et sont bornées par des limites inférieure et supérieure.
    • Équation : Équation de Gompertz, où Xt est la valeur de la série chronologique au moment t, et a, b, c et k sont estimés à partir des données en utilisant l’estimation des moindres carrés. Les valeurs a et k doivent être non négatives. La valeur k permet à la courbe de Gompertz de se déplacer pour mieux s’ajuster à la série chronologique et ne dépasse jamais dix fois la valeur la plus élevée de la série chronologique.
    • Application possible : le type de courbe de Gompertz est utile pour modéliser la croissance avec des contraintes de capacité. Souvent, les populations commencent par croître lentement avant d’augmenter rapidement une fois que la densité de population est suffisante pour permettre l’industrie. La croissance démographique ralentit ensuite à nouveau lorsque la densité de population se rapproche de la limite que la région peut supporter.

Par défaut, le paramètre Curve Type (Type de courbe) utilise l’option Auto-detect (Détection automatique) qui ajuste les quatre types de courbes et identifie celle qui fournit la meilleure prévision pour la série chronologique à chaque emplacement. Si cette option est choisie, différents emplacements dans le cube spatio-temporel utiliseront peut-être différents types de courbes. Le type de courbe ayant la plus petite racine carrée de l’erreur quadratique moyenne (EQM) de validation est utilisé à chaque emplacement ; cependant, si aucun pas de temps n’est retenu pour la validation, l’EQM de prévision est utilisée à la place. Ces deux statistiques sont enregistrées sous forme de champs dans Output Features (Entité en sortie) et sont décrites plus en détail dans la section suivante.

Prévision et validation

L’outil construit deux modèles tout en prévoyant chaque série chronologique. Le premier est le modèle de prévision, qui est utilisé pour prévoir les valeurs des pas de temps futurs. Le second est le modèle de validation, qui est utilisé pour valider les valeurs prévues.

Modèle de prévision

Le modèle de prévision est construit en ajustant le type de courbe choisi aux valeurs de la série chronologique à chaque emplacement du cube spatio-temporel. Cette courbe est ensuite extrapolée dans le futur pour prédire les valeurs des futures tranches temporelles. L’ajustement de la courbe à chaque série chronologique est mesuré par l’EQM de prévision, qui est égale à la racine carrée de la différence quadratique moyenne entre la courbe et les valeurs de la série chronologique.

EQM de prévision, où T est le nombre de pas de temps, ct est la valeur de la courbe et rt est la valeur brute de la série chronologique au temps t.

L’image suivante montre les valeurs brutes d’une série chronologique associée à une courbe de Gompertz ajustée à la série chronologique. L’EQM de prévision mesure l’écart entre ces deux séries chronologiques.

Modèle de prévision pour prévision par ajustement des courbes

Le modèle de prévision s’ajuste à tous les pas de temps.

L’EQM de prévision ne mesure que le degré d’ajustement de la courbe aux valeurs brutes de la série chronologique. Il ne mesure pas la qualité des prévisions des valeurs futures par le modèle de prévision. Il arrive souvent qu’une courbe s’ajuste étroitement à une série chronologique mais ne fournisse pas de prévisions précises lorsqu’elle est extrapolée. Le modèle de validation résout ce problème.

Modèle de validation

Le modèle de validation est utilisé pour déterminer l’aptitude du modèle de prévision à prévoir les valeurs futures de chaque série chronologique. Il est construit en excluant plusieurs des derniers pas de temps de chaque série chronologique et en ajustant la courbe aux données qui n’ont pas été exclues. Cette courbe est ensuite utilisée pour prévoir les valeurs des données qui ont été retenues, et les valeurs prévues sont comparées aux valeurs brutes qui ont été cachées. Par défaut, 10 % des pas de temps sont retenus pour la validation, mais ce nombre peut être modifié à l’aide du paramètre Number of Time Steps to Exclude for Validation (Nombre de pas de temps à exclure pour la validation). Le nombre de pas de temps exclus ne peut pas dépasser 25 % du nombre de pas de temps, et aucune validation n’est effectuée si une valeur de 0 est spécifiée. La précision des prévisions est mesurée par le calcul d’une statistique d’EQM de validation, qui est égale à la racine carrée de la différence quadratique moyenne entre les valeurs prévues et les valeurs brutes des pas de temps exclus.

EQM de validation, où T est le nombre de pas de temps, m est le nombre de pas de temps retenus pour la validation, ct est la valeur prévue à partir des premiers T-m pas de temps, et rt est la valeur brute de la série chronologique retenue pour la validation au moment t.

L’image suivante montre une courbe de Gompertz ajustée à la première moitié d’une série chronologique et extrapolée pour prévoir la seconde moitié de la série chronologique. L’EQM de validation mesure l’écart entre les valeurs prévues et les valeurs brutes aux pas de temps retenus.

Modèle de validation pour prévision par ajustement des courbes

Le modèle de validation est ajusté à la première moitié de la série chronologique et utilisé pour en prédire la seconde moitié.

Le modèle de validation est important, car il peut comparer directement les valeurs prévues aux valeurs brutes pour mesurer la qualité des prévisions de la courbe. Il n’est pas réellement utilisé pour faire des prévisions, mais sert à justifier le modèle de prévision.

Remarque :

La validation des prévisions de séries chronologiques est similaire à une technique courante appelée validation croisée, même si elles diffèrent sur le point suivant : la validation des prévisions exclut toujours les derniers pas de temps pour la validation, alors que la validation croisée exclut soit un sous-ensemble aléatoire des données, soit chaque valeur de manière séquentielle.

Interprétation

Plusieurs considérations doivent être prises en compte lors de l’interprétation des valeurs EQM de prévision et EQM de validation.

  • Il n’est pas possible de comparer directement les valeurs EQM car elles mesurent des choses différentes. L’EQM de prévision mesure l’ajustement de la courbe aux valeurs brutes de la série chronologique, alors que l’EQM de validation mesure la capacité de la courbe à prévoir les valeurs futures. Comme l’EQM de prévision utilise plus de données et n’effectue pas d’extrapolation, elle est généralement plus petite que l’EQM de validation.
  • Les deux valeurs EQM ont les mêmes unités que les données. Par exemple, si vos données sont des mesures de température en degrés Celsius, une EQM de validation de 50 est très élevée car cela signifie que les valeurs prévues diffèrent des valeurs réelles d’environ 50 degrés en moyenne. Toutefois, si vos données correspondent aux recettes quotidiennes en dollars américains d’un important point de vente, la même EQM de validation de 50 est très faible car elle signifie que les recettes quotidiennes prévues ne diffèrent des valeurs réelles que de 50 dollars par jour en moyenne.

Sorties de l'outil

La principale sortie de cet outil est une classe d’entités 2D montrant chaque emplacement dans le cube spatio-temporel en entrée symbolisée par le pas de temps final prévu, les prévisions pour tous les autres pas de temps étant stockées sous forme de champs. Bien que chaque emplacement soit prévu indépendamment et que les relations spatiales ne soient pas prises en compte, la carte peut afficher des modèles spatiaux pour des zones ayant des séries chronologiques similaires.

Diagrammes contextuels

En cliquant sur n’importe quelle entité de la carte à l’aide de l’outil de navigation Explore (Explorer), un graphique s’affiche dans la fenêtre Pop-up (Fenêtre contextuelle) qui indique les valeurs du cube spatio-temporel ainsi que la courbe ajustée et les valeurs prévues. Les valeurs du cube spatio-temporel sont affichées en bleu et sont reliées par une ligne bleue. Les valeurs ajustées sont affichées en orange et sont reliées par une ligne orange pointillée représentant la courbe. Les valeurs prévues sont affichées en orange et sont reliées par une ligne orange continue représentant l’extrapolation et la prévision de la courbe. Vous pouvez positionner le pointeur au-dessus de n’importe quel point du graphique pour voir la date et la valeur du point.

Fenêtre contextuelle de série chronologique

Le diagramme contextuel affiche les valeurs d’origine, les valeurs ajustées et les valeurs prévues.

Remarque :

Les diagrammes contextuels ne sont pas créés lorsque les entités en sortie sont enregistrées dans un shapefile (.shp).

Messages de géotraitement

L’outil fournit un certain nombre de messages d’informations sur l’exécution de l’outil. Les messages comportent trois sections principales.

La section Input Space Time Cube Details (Détails du cube spatio-temporel en entrée) affiche les propriétés du cube spatio-temporel en entrée ainsi que des informations sur l’intervalle de pas de temps, le nombre de pas de temps, le nombre d’emplacements et le nombre de groupes spatio-temporels. Les propriétés affichées dans cette première section dépendent de la façon dont le cube a été créé à l’origine, de sorte que les informations varient d’un cube à l’autre.

La section Analysis Details (Détails d’analyse) affiche les propriétés des résultats des prévisions, y compris le nombre de pas de temps prévus, le nombre de pas de temps exclus pour la validation et des informations sur les pas de temps prévus.

La section Summary of Accuracy across Locations (Récapitulatif de la précision pour chaque emplacement) affiche un résumé statistique pour l’EQM de prévision et l’EQM de validation pour tous les emplacements. Pour chaque valeur, le minimum, le maximum, la moyenne, la médiane et l’écart type sont affichés.

La section Summary of Selected Curve Types (Récapitulatif des types de courbes sélectionnés) s’affiche si le paramètre Curve Type (Type de courbe) est défini sur Auto-detect (Détection automatique). Cette section affiche le nombre et le pourcentage d’emplacements qui ont été choisis pour chacun des quatre types de courbes.

Remarque :

Les messages de géotraitement apparaissent au bas de la fenêtre Geoprocessing (Géotraitement) au cours de l’exécution de l’outil. Vous pouvez accéder aux messages en survolant la barre de progression, en cliquant sur le bouton contextuel Ouvrir dans une nouvelle fenêtreou en développant la section des messages dans la fenêtre Géotraitement. Vous pouvez également consulter les messages de l’exécution précédente d’un outil dans l’historique de géotraitement.

Champs des entités en sortie

Outre les champs de géométrie Object ID (ID d’objet) et le champ contenant les diagrammes contextuels, les Output Features (Entités en sortie) comprendront les champs suivants :

  • Location ID (ID d’emplacement) (LOCATION) : l’ID de l’emplacement correspondant du cube spatio-temporel.
  • Forecast for (Analysis Variable) in (Time Step) (Prévision pour (Variable d’analyse) dans (Pas de temps)) (FCAST_1, FCAST_2, etc.) : la valeur prévue de chaque pas de temps futur. L’alias du champ affiche le nom de la Analysis Variable (Variable d’analyse) et la date de la prévision. Un champ de ce type est créé pour chaque pas de temps prévu.
  • Forecast Root Mean Square Error (Racine carrée de l’erreur quadratique moyenne de prévision) (F_RMSE) : l’EQM de prévision.
  • Validation Root Mean Square Error (Racine carrée de l’erreur quadratique moyenne de validation) (V_RMSE) : l’EQM de validation. Si aucun pas de temps n’a été exclu pour la validation, ce champ n’est pas créé.
  • Forecast Method (Méthode de prévision) (METHOD) : le type de courbe qui a été utilisé à cet emplacement. Ce champ peut être utilisé pour identifier le type de courbe à l’emplacement lorsque vous avez choisi l’option Auto-detect (Auto-détection).
  • Forecast Equation (Équation de prévision) (EQUATION) : un champ de texte affichant l’équation de la courbe de prévision à l’emplacement. Ce champ n’est pas créé lorsque vous avez choisi l’option Auto-detect (Auto-détection).

Cube spatio-temporel en sortie

Si un Output Space Time Cube (Cube spatio-temporel en sortie) est spécifié, le cube en sortie contient toutes les valeurs d’origine du cube spatio-temporel en entrée auxquelles sont jointes les valeurs prévues. Ce nouveau cube spatio-temporel peut être affiché à l’aide des outils Visualiser le cube spatio-temporel en 2D ou Visualiser le cube spatio-temporel en 3D et peut être utilisé en entrée pour les outils de la boîte d’outils Exploration des modèles spatio-temporels, comme Analyse de points chauds émergents et Agrégation de séries chronologiques.

Il est possible de comparer et fusionner plusieurs cubes spatio-temporels prévus à l’aide de l’outil Évaluer les prévisions par emplacement. Cela vous permet de créer plusieurs cubes de prévision à l’aide de différents outils et paramètres de prévision ; l’outil identifie ensuite la meilleure prévision pour chaque emplacement en utilisant soit l’EQM de prévision soit l’EQM de validation.

Pratiques conseillées et limitations

Pour décider si cet outil est adapté à vos données et quels paramètres choisir, vous devez tenir compte de plusieurs éléments.

  • Par rapport aux autres outils de prévision du jeu d’outils Prévision de séries chronologiques, cet outil est le plus simple, et il convient particulièrement aux séries chronologiques qui suivent une tendance prévisible ne présentant pas de forte saisonnalité. Si vos données suivent une tendance complexe ou présentent de forts cycles saisonniers, il est recommandé d’utiliser d’autres outils de prévision.
  • Il est important de décider du nombre de pas de temps à exclure pour la validation. Plus le nombre de pas de temps exclus est élevé, moins il reste de pas de temps pour estimer le modèle de validation. Cependant, en excluant trop peu de pas de temps, l’estimation de l’EQM de la validation utilise une petite quantité de données et peut être trompeuse. Il est recommandé d’exclure autant de pas de temps que possible tout en conservant un nombre suffisant de pas de temps pour estimer le modèle de validation. Il est également recommandé de retenir au moins autant de pas de temps pour la validation que le nombre de pas de temps que vous avez l’intention de prévoir, pour autant que votre cube spatio-temporel a suffisamment de pas de temps pour le permettre.
  • Cet outil ne génère pas d’intervalles de confiance pour les valeurs prévues.

Ressources supplémentaires

Pour plus d’informations sur la prévision à l’aide de l’ajustement simple de la courbe, consultez le manuel suivant :

  • Klosterman, R. E., Brooks, K., Drucker, J., Feser, E., & Renski, H. (2018). Planning support methods: Urban and regional analysis and projection. Rowman & Littlefield. ISBN : 1442220309

Rubriques connexes