L’outil Lissage de séries chronologiques lisse une variable numérique d’une ou plusieurs séries chronologiques à l’aide de moyennes mobiles centrées, vers l’avant ou vers l’arrière, ainsi que d’une méthode adaptative basée sur la régression linéaire locale.
Les techniques de lissage de séries chronologiques sont fréquemment utilisées en économie, en météorologie, en écologie et dans d’autres domaines où des données sont collectées au fil du temps. Le lissage de données temporelles révèle souvent des tendances ou des cycles à long terme, tout en lissant le bruit et les fluctuations à court terme.
Applications possibles
Le lissage de séries chronologiques peut s’appliquer à toutes les données d’une série temporelle qui contiennent de façon sûre du bruit ou des fluctuations à court terme. Par exemple, vous pouvez utiliser cet outil dans les applications suivantes :
- La recherche épidémiologique et la planification s’appuient souvent sur le recensement des cas quotidiens de grippe. Cependant, les cas de grippe qui sont détectés le week-end ne sont souvent signalés que le lundi, ce qui fait que le nombre de nouveaux cas semble plus important que ce qu’il devrait être le lundi et le nombre de cas le week-end est généralement plus faible qu’il devrait. Pour corriger cela, vous pouvez utiliser une moyenne mobile vers l’arrière avec une fenêtre temporelle de 6 jours. L’utilisation de cette fenêtre de 6 jours permet de calculer la moyenne de la journée actuelle et des 6 jours précédents, soit un total d'une semaine.
- Vous mesurez les données de température à long terme toutes les heures. Lorsqu’elles sont intégrées à une série chronologique, les données sont trop bruyantes et trop volumineuses pour dégager des modèles et tendances clairs. Vous pouvez capturer la tendance générale des données à l’aide de la régression linéaire locale de la bande passante adaptative pour permettre une meilleure visualisation et une analyse plus précise. La méthode de la bande passante adaptative utilise des fenêtres temporelles plus importantes dans certaines sections de la série chronologique que dans d’autres, en fonction de la quantité de données requise pour lisser efficacement chaque section.
Méthodes de lissage
L'outil inclut quatre méthodes de lissage.
La méthode Moyenne mobile en arrière (également appelée moyenne mobile simple) est une méthode de lissage simple et fréquemment utilisée, qui lisse chaque valeur en prenant la moyenne de la valeur et de toutes les valeurs précédentes dans la fenêtre temporelle. Un avantage de cette méthode est qu’elle peut être utilisée immédiatement sur des données en continu : lorsqu’une nouvelle valeur est enregistrée, elle peut être immédiatement lissée à l’aide des données précédentes dans la série chronologique. Cette méthode présente néanmoins l’inconvénient que la valeur à lisser n’est pas au centre de la fenêtre temporelle, ce qui fait que toutes les informations proviennent du même côté de la valeur. Cela peut provoquer des résultats inattendus si les tendances des données ne sont pas les mêmes de chaque côté de la valeur à lisser.
La méthode Moyenne mobile vers l’avant est semblable à la moyenne mobile vers l’arrière, à la différence que la valeur lissée est la moyenne de la valeur et de toutes les valeurs suivantes dans la fenêtre temporelle. De la même manière que précédemment, l’inconvénient est que les informations utilisées pour le lissage proviennent toutes du même côté de la valeur.
La méthode Moyenne mobile centrée lisse chaque valeur en faisant la moyenne dans la fenêtre temporelle, avec la valeur lissée au centre de la fenêtre. Pour cette méthode, la fenêtre temporelle est divisée de manière à ce que la moitié de la fenêtre soit utilisée avant l’heure de lissage de la valeur, et à ce que l’autre moitié de la fenêtre soit utilisée après. Cette méthode présente l’avantage d’utiliser des informations avant et après l’heure de lissage de la valeur. Elle est donc généralement plus stable et plus fiable.
La méthode Régression linéaire locale de bande passante adaptative (également appelée méthode de Friedman) lisse les valeurs à l’aide d’une fenêtre temporelle centrée et de modèles de régression linéaire adaptée (ligne droite) sur les données de plusieurs fenêtres temporelles. La longueur des fenêtres temporelles peut changer pour chaque valeur, de sorte que certaines sections de la série chronologique utilisent des fenêtres plus larges pour inclure davantage d’informations dans le modèle. Cette méthode présente l’avantage que la fenêtre temporelle ne doit pas nécessairement être fournie et peut être estimée par l’outil. Il s’agit en outre de la méthode la plus adaptée aux données de modèle ayant des tendances complexes. Si une valeur de fenêtre temporelle est fournie dans l’outil, une seule fenêtre temporelle est utilisée pour lisser tous les enregistrements, et la méthode équivaut à une régression linéaire locale. Pour obtenir une description complète de la méthode, consultez le document présenté à la fin de la section Régression linéaire locale de la bande passante adaptative.
Le paramètre Appliquer une fenêtre temporelle plus courte au début et à la fin sert à contrôler la fenêtre temporelle au début et à la fin de la série chronologique. Si vous n’appliquez pas une fenêtre réduite, les valeurs lissées seront nulles pour tout enregistrement pour lequel la fenêtre temporelle s’étend avant le début ou après la fin de la série chronologique. Si la fenêtre temporelle est réduite, elle sera tronquée au début et à la fin, et le lissage se fera à l’aide des valeurs dans la fenêtre. Par exemple, si vous avez des données quotidiennes et que vous utilisez une moyenne mobile vers l’arrière avec une fenêtre temporelle de deux jours, les valeurs lissées des deux premiers jours seront nulles si la fenêtre temporelle n’est pas réduite (veuillez noter que le deuxième jour n’est qu’un jour seulement après le début de la série chronologique). Le troisième jour (soit deux jours après le début de la série chronologique), la fenêtre temporelle de deux jours ne s’étendra pas avant le début, donc la valeur lissée du troisième jour sera la moyenne des valeurs des trois premiers jours.
Sorties de l'outil
La sortie principale de l’outil est une classe d’entités ou une table contenant les valeurs d’origine, les valeurs lissées et le nombre de voisins utilisés pour lisser l’emplacement. L’alias du champ des valeurs lissées indique la méthode de lissage et la fenêtre temporelle de l’analyse (si une bande passante adaptative est utilisée, la fenêtre temporelle n’apparaît pas). Si vous effectuez un ajout aux données en entrée, ces champs sont ajoutés aux entités ou à la table en entrée. Pour la régression linéaire locale de la bande passante adaptative, le nombre de voisins peut ne pas être un entier. Cet aspect est abordé de plus près dans la section Régression linéaire locale de la bande passante adaptative ci-dessous.
Diagrammes de série chronologique
Vous pouvez utiliser le paramètre Activer les fenêtres contextuelles de série chronologique pour créer des diagrammes contextuels pour chaque enregistrement en sortie. Pour la sortie de l’entité, cliquez sur une entité de la carte afin d’afficher les valeurs d’origine et les valeurs lissées de la série chronologique de cette entité. Pour accéder aux fenêtres contextuelles de la sortie de table, cliquez avec le bouton droit sur la table attributaire.
Les entités ou la table en sortie comprennent également un diagramme linéaire affichant les valeurs lissées de chaque série chronologique.
Remarque :
Il se peut que des problèmes de performances surviennent lors de l’affichage du diagramme si les données en entrée comportent un nombre élevé de séries chronologiques.
Messages de géotraitement
Les messages de géotraitement comprennent une section Résumé du lissage contenant des informations sur les résultats de lissage de chaque série chronologique. Les informations comprennent la valeur R2 et des résumés statistiques pour le nombre de voisins temporels (minimum, maximum, moyenne, médiane et écart type).
Régression linéaire locale de bande passante adaptative
La régression linéaire locale de bande passante adaptative crée des modèles linéaires locaux à chaque pas chronologique à l’aide de valeurs voisines dans le temps, où le nombre de voisins peut varier à chaque pas chronologique. À chaque pas chronologique, plusieurs régressions linéaires sont effectuées avec des nombres variables de voisins et les modèles sont lissés et mélangés pour assurer une adaptation optimale aux données tout en maintenant un lissage efficace.
L’image ci-dessous présente une série chronologique comportant 200 pas chronologiques. Les points gris constituent les valeurs de série chronologique bruyantes d’origine, tandis que les lignes rouges et bleues représentent chacune un résultat de lissage avec un nombre de voisins fixe. La ligne rouge utilise 20 voisins et ne lisse pas efficacement les fluctuations à court terme au sein des données, ce qui est particulièrement apparent sur le côté droit du diagramme où la ligne rouge est irrégulière et non lissée. La ligne bleue utilise 80 voisins et est trop lisse pour atteindre le pic et le creux des données dans la première moitié de la série chronologique. La ligne verte représente un mélange optimal entre les lignes rouge et bleue qui maintient des niveaux de lissage appropriés du début à la fin de la série chronologique entière. La ligne verte utilise plus de voisins dans les sections de la série chronologique où la ligne rouge est irrégulière et moins de voisins dans celles où la ligne bleue est trop lisse.
Dans certaines sections de la série chronologique, la ligne verte est plus proche de la ligne rouge et, dans d’autres sections, elle est plus proche de la ligne bleue, selon la ligne correspondant le mieux à la série chronologique au niveau de ce pas chronologique. L’image ci-dessous présente la série chronologique faisant l’objet d’un zoom avant autour du pas chronologique 134. La ligne rouge étant plus proche du milieu du nuage de points que la ligne bleue, la ligne verte est plus proche de la ligne rouge que la ligne bleue.
Le nombre de voisins utilisés à un pas chronologique est défini par une interpolation linéaire entre le nombre de voisins des lignes rouge et bleue pondéré par la ligne la mieux adaptée. L’image ci-dessous montre que la ligne rouge est mieux adaptée pour la plupart des pas chronologiques avant approximativement le pas chronologique 150, et la ligne bleue mieux adaptée pour la plupart des pas chronologiques après le pas chronologique 150. Le nombre optimal de voisins pour le pas chronologique 134 est 26,4, plus proche de 20 voisins que de 80 voisins.
Pour obtenir une description complète de la régression linéaire locale de bande passante adaptative, reportez-vous à la référence suivante :
- Friedman, J. H. (1984). « A variable span smoother. » USDOE Office of Science (SC). SLAC-PUB-3477. https://doi.org/10.2172/1447470
Vous avez un commentaire à formuler concernant cette rubrique ?