Les points aberrants dans les données de séries chronologiques sont des valeurs qui diffèrent significativement des modèles et des tendances des autres valeurs au sein des séries chronologiques. Par exemple, des nombres élevés d’achats en ligne au moment des congés ou des nombres élevés d’accidents de la circulation lors de pluies abondantes peuvent être détectés comme des points aberrants dans leurs séries chronologiques. Les erreurs de saisie de données simples (par exemple, omettre la décimale d’un nombre) sont une autre source courante de points aberrants. L’identification des points aberrants dans la prévision des séries chronologiques est importante car les points aberrants influencent le modèle de prévision utilisé pour les valeurs futures des prévisions. Même un petit nombre de points aberrants dans les séries chronologiques peut réduire la précision et la fiabilité des prévisions. Les localisations avec des points aberrants, en particulier ceux vers le début ou la fin des séries chronologiques, peuvent générer des prévisions trompeuses. L’identification de ces localisations permet de déterminer la confiance que vous pouvez placer dans les valeurs prévues à chaque localisation.
Vous pouvez identifier les points aberrants à chaque localisation d’un cube spatio-temporel à l’aide des outils Curve Fit Forecast (Prévision par ajustement des courbes), Exponential Smoothing Forecast (Prévision par lissage exponentiel) et Forest-based Forecast (Prévision basée sur une forêt) en spécifiant l’option Identify outliers (Identifier les points aberrants) du paramètre Outlier Option (Option de point aberrant).
Visualiser et explorer les points aberrants
Une fois que vous avez exécuté l’un des outils de prévision à l’aide de l’option permettant d’identifier les points aberrants, vous recevez des informations sur les points aberrants détectés via la symbologie des entités en sortie, des diagrammes de série chronologique, une visualisation 2D ou 3D du cube spatio-temporel en sortie et des messages de géotraitement.
Diagrammes contextuels
Lorsque vous cliquez sur une entité en sortie sur la carte, un diagramme contextuel est généré dans la fenêtre Pop-up (Fenêtre contextuelle) ; ce diagramme affiche la série chronologique et le modèle de prévision avec les points aberrants identifiés affichés sous forme de gros points. L’image suivante illustre la série chronologique d’une entité dans laquelle un point aberrant a été identifié :
Visualiser le cube spatio-temporel
Les points aberrants d’un cube spatio-temporel peuvent être visualisés et explorés en 2D et 3D à l’aide des outils Visualize Space Time Cube in 2D (Visualiser le cube spatio-temporel en 2D) et Visualize Space Time Cube in 3D (Visualiser le cube spatio-temporel en 3D) en utilisant l’option Time series outlier results (Résultats des points aberrants des séries chronologiques) du paramètre Display Theme (Thème d'affichage).
Pour les entités 2D en sortie, les entités en sortie sont représentées par le nombre de points aberrants en chaque localisation et contiennent les mêmes diagrammes contextuels qui affichent la série chronologique et les points aberrants identifiés.
Pour les entités 3D en sortie, les entités en sortie affichent les localisations et heures des points aberrants identifiés dans une scène 3D. Tout groupe spatio-temporel dont la valeur est identifiée comme point aberrant de série chronologique est marqué comme Above Fitted Value (Supérieur à la valeur ajustée) ou Below Fitted Value (Inférieur à la valeur ajustée), selon que la valeur soit supérieure ou inférieure aux valeurs ajustées du modèle de prévision. Les points aberrants supérieurs à la valeur ajustée sont affichés en violet et ceux inférieurs à la valeur ajustée le sont en vert. Les groupes spatio-temporels non identifiés comme points aberrants sont marqués comme Not an Outlier (Point non aberrant) et affichés en vert clair.
Les entités 3D incluent également deux diagrammes. Le diagramme Visualize in 3D Time-Series (Visualiser dans une série chronologique 3D) affiche un graphique linéaire de la valeur moyenne de la série chronologique entre les phases du cube spatio-temporel. Ce diagramme est également créé par l’option Forecast results (Résultats de prévision) du paramètre Display Themes (Thèmes d'affichage) et ne contient pas d’informations sur la détection des points aberrants.
Le deuxième diagramme est le diagramme Count of Outliers Above or Below Fitted Value Over Time (Nombre de points aberrants supérieurs ou inférieur à la valeur ajustée dans le temps). Il s’agit d’un diagramme à barres empilé qui affiche le nombre total de points aberrants supérieurs ou inférieurs aux valeurs ajustées à chaque phase du cube spatio-temporel. Cela permet d’identifier les dates importantes auxquelles se sont produites un grand nombre de points aberrants et vous pouvez vérifier si les valeurs à ces dates étaient anormalement élevées ou faibles.
Messages de géotraitement
Les messages de géotraitement incluent une section Summary of Time Series Outliers (Synthèse des points aberrants de séries chronologiques). La première partie de cette section indique le nombre et le pourcentage de localisations contenant au moins un point aberrant. Cela vous permet d’évaluer rapidement le degré global d’ajustement du modèle de prévision à la série chronologique. La deuxième partie affiche les résumés statistiques (minimum, moyenne et maximum) du nombre de points aberrants par localisation et phase. Cela permet d’étudier la fréquence à laquelle les points aberrants sont apparus aux localisations individuelles et lors des phases individuelles. Cette section affiche également la phase qui contient le plus grand nombre de points aberrants. Vous pouvez l’utiliser pour identifier les dates importantes auxquelles un grand nombre de points aberrants ont eu lieu.
Points aberrants contextuels et globaux
Certains types de points aberrants de série chronologique peuvent être détectés par l’outil. Même si tous les types sont détectés de la même manière, quelques notions sur leur fonctionnement peuvent aider à comprendre pourquoi certaines phases sont considérées comme des points aberrants et d’autres ne le sont pas.
Le type le plus simple correspond aux points aberrants globaux dont les valeurs brutes sont considérablement plus élevées ou faibles que le reste des valeurs. Ces points aberrants correspondent souvent à des anomalies ou des événements spéciaux, tels que des vacances. Le diagramme ci-après représente un point aberrant global. Le point aberrant identifié possède une valeur considérablement plus élevée que le reste des données dans la série chronologique et a été identifié pour cette raison.
Toutefois, il n’est pas nécessaire que les valeurs figurent parmi les valeurs les plus élevées ou les plus faibles de la série chronologique pour être déclarées comme points aberrants. Au lieu de cela, certains points aberrants sont identifiés en fonction du contexte, car ils possèdent une valeur bien supérieure ou inférieure à celle attendue d’après les modèles et tendances de la série chronologique. Le modèle de prévision incorpore ces modèles et tendances et sert de ligne de base pour identifier les points aberrants contextuels. Par exemple, considérons une série chronologique des températures moyennes annuelles. Les températures moyennes ayant augmenté au cours des dernières décennies, le modèle de prévision ajusté de la température évolue également dans le temps pour refléter cette augmentation. Cela signifie qu’une valeur de température qui serait considérée comme standard et non aberrante en 1950 serait probablement considérée comme un point aberrant en 2020. En d’autres termes, une température typique de 1950 est considérée comme basse selon les normes de 2020.
Le diagramme ci-après représente une série chronologique avec un point aberrant contextuel et un point aberrant global. La valeur du point aberrant contextuel n’est pas la plus faible de la série chronologique, mais elle a été identifiée comme un point aberrant de valeur faible car elle est la plus éloignée sous le modèle de prévision orange.
L’identification des valeurs comme points aberrants ou non dépend également du degré d’ajustement du modèle de prévision à la série chronologique. Si le modèle de prévision est en général étroitement ajusté aux données de la série chronologique, les valeurs qui dévient même légèrement du modèle de prévision peuvent tout de même être identifiées comme des points aberrants. De la même manière, si le modèle de prévision n’est pas bien ajusté aux données de la série chronologique, même les écarts importants par rapport au modèle de prévision risquent de ne pas être identifiés comme points aberrants.
Le diagramme ci-dessous illustre plusieurs valeurs identifiées comme points aberrants. Ces valeurs ne semblent pas dévier grandement du modèle de prévision orange, mais leur écart est bien supérieur au reste des valeurs de la série chronologique.
Test ESD généralisé pour les points aberrants des séries chronologiques
Le test ESD généralisé pour les points aberrants des séries chronologiques permet de tester la présence de points aberrants à chaque localisation du cube spatio-temporel. Il ne s’agit pas d’un test, mais d’une séquence de tests (chacun étant appelé test de Grubbs). Chaque test recherche un nombre spécifique de points aberrants au niveau de confiance spécifié. Le premier test recherche la présence d’un point aberrant et un seul dans le jeu de données. Le deuxième recherche exactement deux points aberrants. Le troisième en recherche exactement trois. Cela continue jusqu’à la valeur du paramètre Maximum Number of Outliers (Nombre maximal de points aberrants) (par défaut, 5 % du nombre de phases, arrondi au pourcentage inférieur). L’outil renvoie alors les points aberrants associés au nombre de points aberrants le plus élevé statistiquement. Par exemple, avec trois points aberrants au maximum, si le test d’un point aberrant est statistiquement significatif, que le test de deux points aberrants ne l’est pas et que le test de trois points aberrants est significatif, l’outil renvoie trois points aberrants. De même, si un point aberrant est significatif, que deux points aberrants le sont et que trois points aberrants ne le sont pas, l’outil renvoie deux points aberrants.
Pour une série chronologique avec des phases ajustées à T, le test procède comme suit, i étant compris entre 1 et le nombre maximal de points aberrants :
- Il calcule les valeurs résiduelles de chaque phase t en soustrayant la valeur du modèle de prévision de la valeur brute :
- Il calcule la moyenne et l’écart type des valeurs résiduelles.
- Il calcule la statistique de test en divisant l’écart absolu maximal par rapport à la moyenne par l’écart type :
- Il compare la statistique de test à la valeur critique suivante : , t α,T-i-1 représentant la valeur critique bilatérale de la distribution t avec T-i+1 degrés de liberté au niveau de confiance (1 - α / (2(T-i+1))) et α, le niveau de signification (déterminé par le niveau de confiance).
- Si la statistique de test est supérieure à la valeur critique, le test pour exactement i points aberrants est statistiquement significatif.
- Il supprime la valeur associée à la valeur résiduelle absolue maximale et répète les étapes 2 à 5 sur toutes les phases qui n’ont pas été déjà supprimées, en augmentant également i d’un. La moyenne et l’écart type des valeurs résiduelles sont modifiées en supprimant leur valeur à chaque répétition. Ce nouveau calcul de la moyenne et de l’écart type corrige l’influence des points aberrants sur le modèle de prévision.
- Il renvoie les points aberrants associés au plus grand nombre de points aberrants statistiquement significatifs.
Ce test étant effectué indépendamment à chaque localisation du cube spatio-temporel, des localisations différentes peuvent identifier des nombres de points aberrants différents. Le nombre de points aberrants à chaque localisation est visible dans le champ Number of Model Fit Outliers des entités en sortie.
Pratiques conseillées et limitations
Plusieurs considérations et limitations importantes sont à prendre en compte lors de l’identification des points aberrants des séries chronologiques :
- Si vous utilisez l’outil Forest-based Forecast (Prévision basée sur une forêt), il est recommandé d’attribuer une valeur au paramètre Time Step Window (Fenêtre Phase) au lieu de le laisser vide et d’estimer une fenêtre de phase différente à chaque localisation. Pour chaque localisation, le modèle de forêt utilise les valeurs de la première fenêtre de phase pour entraîner le modèle de forêt et les points aberrants ne sont détectés que pour les phases restantes. Si des localisations différentes excluent des nombres de phases différents pour l’entraînement de la forêt, les résumés statistiques, tels que la moyenne, et les nombres minimum et maximum de points aberrants par phase ou par localisation, peuvent être trompeurs.
- Le test ESD généralisé utilise des approximations pour estimer la valeur critique. Ces approximations sont particulièrement précises pour les séries chronologiques comportant au moins 25 phases.
- Si des modèles de prévision et outils de prévision différents sont utilisés, des phases différentes peuvent être identifiées comme points aberrants. Il est recommandé de ne détecter que les points aberrants du modèle de prévision qui correspond le mieux aux valeurs de la série chronologique.
Ressources supplémentaires
Pour plus d’informations sur le test ESD généralisé et le test de Grubbs, consultez les références suivantes :
- Grubbs, F. (1950). "Sample Criteria for Testing Outlying Observations." Annals of Mathematical Statistics 21(1):27–58. https://doi.org/10.1214/aoms/1177729885
- Rosner, B. (1983). "Percentage Points for a Generalized ESD Many-Outlier Procedure." Technometrics 25(2):165–172.
Rubriques connexes
- Présentation de la boîte à outils d'exploration des modèles spatio-temporels
- Présentation du jeu d’outils Prévision de séries chronologiques
- Prévision par ajustement des courbes
- Prévision par lissage exponentiel
- Évaluer les prévisions par emplacement
- Prévision basée sur une forêt
- Fonctionnement de l’outil Prévision par ajustement des courbes
- Fonctionnement de l’outil Prévision par lissage exponentiel
- Fonctionnement de l’outil Prévision basée sur une forêt
- Classification et régression basées sur une forêt et boostées
- Fonctionnement de l’outil Classification et régression basées sur une forêt et boostées
Vous avez un commentaire à formuler concernant cette rubrique ?