Fonctionnement de l’outil Agrégation de séries chronologiques

L’outil Agrégation de séries chronologiques identifie les emplacements d’un cube spatio-temporel qui sont les plus similaires ; il les partitionne en agrégats distincts dans lesquels les membres de chaque agrégat possèdent des caractéristiques de séries chronologiques similaires. Les séries chronologiques peuvent être agrégées afin de comporter des valeurs similaires dans le temps, de rester proportionnelles dans le temps ou de présenter des modèles périodiques réguliers similaires dans le temps. Cet outil accepte un cube NetCDF en entrée, qui peut être créé par les outils Créer un cube spatio-temporel en agrégeant des points, Créer un cube spatio-temporel à partir d’emplacements définis ou Créer un cube spatio-temporel à partir d’une couche raster multidimensionnelle. L’outil génère une classe d’entités 2D qui affiche chaque emplacement dans le cube symbolisé par son appartenance à un agrégat, ainsi que des messages d’information. Les paramètres Output Table for Charts (Table en sortie pour les diagrammes) et Enable Time Series Pop-ups (Activer les fenêtres contextuelles de série chronologique) peuvent être utilisés pour créer des diagrammes présentant des séries chronologiques représentatives de chaque agrégat et les séries chronologiques de chaque emplacement du cube spatio-temporel.

Applications possibles

  • Un analyste a créé un cube spatio-temporel représentant plusieurs années d’appels d’urgence et peut utiliser l’outil Agrégation de séries chronologiques avec l’option Characteristics of Interest (Caractéristique remarquable) définie sur Value (Valeur) pour déterminer les voisinages qui présentent des volumes d’appels similaires.
  • Un grand magasin peut utiliser cet outil avec l’option Characteristics of Interest (Caractéristique remarquable) définie sur Profile (Correlation) (Profil (Corrélation)) pour rechercher les magasins présentant des modèles d’achat similaires. Par exemple, cet outil permet aux utilisateurs de distinguer les magasins dont les ventes augmentent pendant la période de Noël et diminuent après, des magasins qui ne présentent pas ce modèle. Les magasins présentant des modèles de vente différents méritent un examen plus approfondi. Ces informations peuvent également permettre à l’enseigne de prédire la demande et d’assurer des stocks suffisants dans chaque point de vente.
  • Un météorologue peut utiliser cet outil avec l’option Characteristics of Interest (Caractéristique remarquable) définie sur Profile (Fourier) (Profil (Fourier)) pour agréger les emplacements dont les températures fluctuent de la même manière au fil du temps, et qui présentent des variations similaires.
  • Les démographes peuvent utiliser cet outil pour évaluer les pays qui présentent des modèles similaires de croissance de population, à la fois en termes de valeur et de profil des séries chronologiques.

Sorties de l'outil

Cet outil produit plusieurs sorties. Une classe d’entités 2D représentant chaque emplacement du paramètre Input Space Time Cube (Cube spatio-temporel en entrée) symbolisée par son appartenance à l’agrégat vous permet d’explorer des modèles spatiaux. Même si les algorithmes d’agrégation utilisés dans cet outil ne tiennent pas compte des relations spatiales au cours de l’agrégation, des modèles spatiaux peuvent tout de même être présents. En outre, des messages récapitulant les résultats d’analyse et les statistiques de la tendance Mann-Kendall pour chaque agrégat apparaissent en bas de la fenêtre Geoprocessing (Géotraitement) pendant l’exécution de l’outil. Vous pouvez accéder aux messages en survolant la barre de progression, en cliquant sur le bouton contextuel Ouvrir dans une nouvelle fenêtreou en développant la section des messages dans la fenêtre Géotraitement. Vous pouvez également consulter les messages de l’exécution précédente d’un outil dans l’historique de géotraitement.

Fenêtre de messages Agrégation de séries chronologiques

La sortie par défaut de l’outil Agrégation de séries chronologiques est une nouvelle classe d’entités en sortie contenant le champ CLUSTER_ID, qui indique à quel agrégat chaque emplacement appartient. Cette classe d’entités en sortie est ajoutée à la fenêtre Contents (Contenu) et un rendu unique de combinaison de couleurs est appliqué au champ CLUSTER_ID. Le champ CENTER_REP indique l’emplacement dans le cube spatio-temporel qui est le plus représentatif de chaque agrégat (appelé médoïde de l’agrégat). Ce champ contient la valeur 1 pour le médoïde de chaque agrégat et la valeur 0 pour tous les autres emplacements.

Résultat de Agrégation de séries chronologiques
Exemple de résultat de l’outil Agrégation de séries chronologiques

Sorties du diagramme Agrégation de séries chronologiques

Des diagrammes sont générés lorsque vous créez la table en sortie pour les diagrammes. Le diagramme Moyenne des séries chronologiques par agrégat présente la moyenne de la variable d’analyse à chaque intervalle temporel pour chaque agrégat, et le diagramme Médoïdes de l’agrégat de séries chronologiques présente les séries chronologiques représentatives de chaque agrégat. Ensemble, ces diagrammes vous permettent de visualiser à la fois la moyenne globale et les séries chronologiques représentatives de chaque agrégat. Cela revient à agréger les catégories d’un jeu de données univarié en utilisant la moyenne et la médiane.

Diagrammes en sortie Agrégation de séries chronologiques

Vous pouvez également utiliser le paramètre Enable Time Series Pop-ups (Activer les fenêtres contextuelles de série chronologique) pour créer des diagrammes de séries chronologiques dans les fenêtres contextuelles des entités en sortie, présentant les séries chronologiques des entités et les séries chronologiques moyennes de toutes les entités d’un agrégat. Cela permet de comparer la série chronologique de l’entité aux autres entités du même agrégat et de vérifier si elle est bien représentée par l’agrégat.

Diagramme contextuel Agrégation de séries chronologiques

Similarité entre séries chronologiques

L’objectif de l’agrégation est de partitionner les emplacements du cube spatio-temporel en groupes, dans lesquels les séries chronologiques des emplacements sont plus semblables les uns aux autres qu’aux séries chronologiques des emplacements situés en dehors du groupe. Toutefois, les séries chronologiques comprenant de nombreuses valeurs au fil du temps, la similarité entre deux séries chronologiques est une notion un peu floue. Pour les nombres individuels, la différence absolue entre leur valeur est une mesure de similarité utile (par exemple, la différence entre 10 et 13 est 3). Il est possible d’affirmer que 10 est plus proche de 13 que de 17 car la différence absolue entre leur valeur est plus petite. Pour les séries chronologiques, cela n’est pas aussi simple. Par exemple, la série chronologique (5, 8, 11, 7, 6) est-elle plus proche de (4, 9, 13, 4, 9) ou de (5, 11, 6, 7, 6) ? Pour répondre à cette question, vous devez pouvoir mesurer le niveau de similarité ou de différence entre deux séries chronologiques. Il existe plusieurs manières de mesurer la similarité, qui dépendent des caractéristiques de la série chronologique que vous considérez comme importantes. La caractéristique sélectionnée sera plus similaire entre les emplacements des mêmes agrégats en sortie.

Le paramètre Characteristic of Interest (Caractéristique remarquable) est utilisé pour spécifier la caractéristique de la série chronologique qui doit être similaire au sein de chaque agrégat. L’agrégation peut être basée sur l’une des trois caractéristiques ci-dessous.

Caractéristique Valeur

L’option Value (Valeur) du paramètre Characteristic of Interest (Caractéristique remarquable) est la plus simple ; elle est utilisée pour agréger les séries chronologiques qui présentent des valeurs similaires au fil du temps.

Cette option mesure la similarité des séries chronologiques à l’aide de la distance euclidienne entre les valeurs des séries (à ne pas confondre avec la distance spatiale). Par exemple, la différence entre les séries chronologiques (1, 5, 2, 3) et (3, 1, 3, 5) est 5. Cette valeur correspond à la racine carrée du carré des différences de valeurs au fil du temps :

SquareRoot[ (1-3)2 + (5-1)2 + (2-3)2 + (3-5)2 ] = 5

Caractéristique Profil (Corrélation)

L’option Profile (Correlation) (Profil (Corrélation)) du paramètre Characteristic of Interest (Caractéristique remarquable) est utilisée pour agréger les séries chronologiques qui ont tendance à rester proportionnelles les unes aux autres et dont les valeurs augmentent et diminuent en même temps. Par exemple, vous pouvez utiliser cette option pour agréger les divisions d’un magasin en fonction de leur taux de croissance. Même si les valeurs réelles sont très différentes, les emplacements s’agrègent s’ils présentent un modèle de croissance similaire.

Cette option mesure la similarité des séries chronologiques en fonction de leur corrélation statistique au fil du temps. Par exemple, les valeurs de la série chronologique (1, 2, 3, 4, 5) sont très différentes de celles de (10, 20, 30, 40, 50), mais elles sont parfaitement corrélées et leur différence est de 0. La différence entre deux séries chronologiques est calculée en soustrayant la corrélation de 1. Ainsi, les séries chronologiques qui sont corrélées positivement de manière parfaite (corrélation = 1) ont une différence de 0, celles qui ne sont pas corrélées (corrélation = 0) ont une différence de 1, et celles qui sont corrélées négativement de manière parfaite (corrélation = -1) ont une différence de 2. Tous les autres degrés de corrélation sont compris entre 0 et 2 ; plus les corrélations positives sont élevées, plus la similarité est importante.

Caractéristique Profil (Fourier)

L’option Profile (Fourier) (Profil (Fourier)) du paramètre Characteristic of Interest (Caractéristique remarquable) est la plus complexe ; elle est utilisée pour agréger les séries chronologiques dont les valeurs présentent des modèles périodiques réguliers au fil du temps. Ces périodes, parfois appelées cycles ou saisons, représentent les durées d’un modèle qui se répète dans une nouvelle période. Par exemple, la température suit une période annuelle cohérente (températures plus élevées en été et plus basses en hiver) et cette option peut être utilisée pour rechercher les zones présentant des modèles de température annuels similaires.

Si vous le souhaitez, vous pouvez ignorer certaines caractéristiques de ces motifs dans le paramètre Time Series Characteristics to Ignore (Caractéristiques de série chronologique à ignorer). Vous pouvez ignorer la date de début de ces périodes de sorte que seules leur forme et leur durée soient comparées, et vous pouvez ignorer l’amplitude des valeurs au sein des périodes afin de comparer uniquement leur date de début et leur durée. Si vous ignorez ces deux caractéristiques, deux séries chronologiques sont considérées comme similaires si la durée de leur période est à peu près la même, même si les périodes commencent à des dates différentes et qu’elles comportent des valeurs différentes.

L’option Profile (Fourier) (Profil (Fourier)) mesure la similarité entre séries chronologiques à l’aide des concepts d’analyse de données fonctionnelle. Chaque série chronologique se compose d’une séquence de fonctions de base qui représentent les signaux prédominants de la série. La famille Fourier de fonctions de base utilise les fonctions sinus et cosinus qui oscillent vers le haut et vers le bas selon un intervalle constant pour représenter les séries chronologiques. Chaque fonction de base est associée à une pondération qui mesure la prédominance du signal concerné dans la série chronologique. Par exemple, la température présente deux fonctions de base dominantes, l’une qui oscille vers le haut et vers le bas, correspondant aux jours et aux nuits, et l’autre qui oscille en fonction des saisons de l’année. Les fonctions de base correspondant aux autres intervalles ont une pondération plus faible car elles ne sont pas prédominantes dans la série chronologique de températures. Par exemple, une fonction de base qui oscille vers le haut et vers le bas toutes les 90 minutes est associée à une pondération faible car la température ne change pas naturellement à cet intervalle. Pour que cette option soit plus efficace, la série chronologique doit couvrir la durée d’au moins une période. Par exemple, la période annuelle dominante pour la température ne serait probablement pas enregistrée si les données n’étaient mesurées que pendant quelques mois. Pour N emplacements dans le cube spatio-temporel, l’outil utilise des fonctions de base N-2 si N est pair et des fonctions de base N-1 si N est impair.

La différence entre deux séries chronologique est calculée en additionnant le carré des différences entre les pondérations des fonctions de base associées de chaque série chronologique. Ainsi, deux séries chronologiques présentant des signaux oscillants dominants semblables sont considérées comme similaires.

Agrégation des séries chronologiques par similarité

Bien que certaines soient plus complexes que d’autres, toutes les options du paramètre Characteristic of Interest (Caractéristique remarquable) calculent un nombre qui mesure la différence entre deux séries chronologiques. En utilisant cette définition de similarité entre les séries chronologiques, les emplacements du cube spatio-temporel sont agrégés à l’aide d’un des algorithmes d’agrégation.

Consultez la section Références supplémentaires ci-dessous pour plus d’informations sur les algorithmes d’agrégation.

Profil (corrélation) d’agrégation

Si l’option Profile (Correlation) (Profil (Corrélation)) du paramètre Characteristic of Interest (Caractéristique remarquable) est sélectionnée, la différence entre chaque paire d’emplacements dans le cube spatio-temporel est calculée de manière synthétique en tant que matrice de dissemblance. L’exemple ci-dessous illustre une matrice de dissemblance pour les séries chronologiques de quatre emplacements, intitulés L1, L2, L3 et L4. Une série chronologique est toujours considérée comme exactement identique à elle-même, ce qui est indiqué par les zéros le long de la diagonale de la matrice. La matrice est également symétrique car la différence entre deux séries chronologiques ne dépend pas de leur ordre : la différence entre A et B est égale à la différence entre B et A. Pour la matrice de dissemblance ci-dessous, les emplacements L1 et L2 sont les plus similaires (ce qu’indique la valeur 4) et les séries chronologiques L1 et L4 sont les plus différentes (ce qu’indique la valeur 13).

Matrice de dissemblance
Une matrice de dissemblance représentative pour les emplacements du cube spatio-temporel 1 à 4 est illustrée. La dissemblance entre l’emplacement 1 (L1) et l’emplacement 3 (L3) est égale à 9.

Cette matrice est ensuite agrégée à l’aide de l’algorithme des k-médoïdes, également connu sous le nom d’algorithme PAM (Partitioning Around Medoids). Cet algorithme recherche les agrégats de la matrice dont les membres sont les plus similaires aux membres des autres agrégats. Cet algorithme est aléatoire par nature : il fonctionne en désignant des emplacements aléatoires comme représentants de chaque agrégat. Ces représentants, appelés médoïdes, sont analogues à la médiane d’un jeu de données univarié. Les agrégats initiaux sont créés en affectant un emplacement sur deux à l’agrégat dont le médoïde est le plus similaire. L’algorithme échange ensuite les médoïdes au sein de chaque agrégat, puis il réévalue la similarité dans les nouveaux agrégats. Si les nouveaux agrégats sont plus similaires que les agrégats initiaux, les médoïdes sont échangés et le processus se répète jusqu’à ce que plus aucun échange ne permette d’accroître la similarité des agrégats. Tandis que les agrégats finaux présentent presque toujours une similarité élevée, les agrégats peuvent être différents selon les emplacements aléatoires choisis en tant que médoïdes initiaux. L’exécution répétée de l’outil pouvant produire une agrégation légèrement différente, il est conseillé d’adopter cette approche pour avoir un aperçu des différents résultats d’agrégation possibles.

Si votre cube spatio-temporel comprend plus de 10 000 emplacements, l’outil utilise une variante des k-médoïdes nommée CLARA (Clustering LARge Applications). CLARA utilise un échantillon aléatoire des séries chronologiques pour exécuter l’algorithme des k-médoïdes. Tous les emplacements qui n’ont pas été choisis dans l’échantillon aléatoire sont ensuite attribués à l’agrégat dont le médoïde est le plus similaire à la série chronologique de l’emplacement non échantillonné. La taille de l’échantillon aléatoire est la plus grande des deux valeurs : la racine carrée du nombre d’emplacements (valeur arrondie au nombre inférieur), ou 40 + 2k, où k représente le nombre d’agrégats.

Valeur et profil (Fourier) d’agrégation

Si les options Value (Valeur)ou Profile (Fourier) (Profil (Fourier)) du paramètre Characteristic of Interest (Caractéristique remarquable) sont sélectionnées, les emplacements du cube spatio-temporel sont agrégés à l’aide de l’algorithme des K-moyennes. Cet algorithme est conceptuellement similaire aux k-médoïdes, mais il peut être exécuté sans calculer la différence entre chaque paire d’emplacements. Il commence en revanche par sélectionner de façon aléatoire des emplacements qui seront des représentants de chaque agrégat. Les agrégats initiaux sont ensuite générés en affectant tous les emplacements restants à l’agrégat dont le représentant est le plus similaire à l’emplacement. Un nouveau représentant pour chaque agrégat en ensuite calculé en faisant la moyenne de la série chronologique au sein de chaque agrégat. Pour Value (Valeur), ce nouveau représentant est la moyenne de chaque intervalle temporelle de chaque série chronologique dans l’agrégat. Pour Profile (Fourier) (Profil (Fourier)), ce nouveau représentant est la moyenne des pondérations de chaque fonction de base. Contrairement aux k-médoïdes, ces nouveaux représentants ne correspondent généralement pas aux emplacements individuels dans le cube spatio-temporel. Chaque série chronologique est de nouveau attribuée à l’agrégat dont le représentant est le plus similaire, et de nouveaux représentants moyens sont calculés. Ce processus se répète jusqu’à convergence de l’algorithme, ce qui signifie que les agrégats ne changent pas après chaque répétition. À ce stade, vous obtiendrez toujours les mêmes agrégats si vous poursuivez le processus. Il s’agit des agrégats renvoyés par l’outil.

Comme avec l’algorithme des k-médoïdes ci-dessus, l’algorithme des K-moyennes peut fournir différents résultats d’agrégation selon les représentants initiaux des agrégats aléatoires. Nous vous encourageons à exécuter l’outil plusieurs fois pour voir les différents résultats d’agrégation possibles.

Nombre optimal d’agrégats

Lorsque vous ne renseignez pas le paramètre Number of Clusters (Nombre d’agrégats), l’outil évalue le nombre optimal d’agrégats et indique cette valeur dans la fenêtre de messages. Déterminer le nombre d’agrégats est l’une des tâches les plus complexes des processus d’agrégation ; cet outil identifiant un nombre optimal en en testant plusieurs, puis en identifiant celui qui produit l’agrégation la plus efficace.

L’outil teste chaque valeur entre 2 et 10 nombres d’agrégats, puis il répète chaque valeur 10 fois en utilisant des valeurs de départ aléatoires pour les algorithmes d’agrégation. Si vous utilisez Profile (Correlation) (Profil (Corrélation)) avec plus de 10 000 points, l’algorithme CLARA s’exécute 20 fois pour chacun des 9 nombres d’agrégats possibles. Pour chacun de ces 90 (ou 180) résultats d’agrégation (10 ou 20 pour chacun des 9 nombres d’agrégats possibles), une statistique de pseudo F est calculée en divisant les erreurs au carré pour le médoïde global par les erreurs au carré pour les médoïdes des agrégats, en corrigeant l’utilisation de nombres plus élevés d’agrégats. Ce résultat peut être interprété comme le rapport entre la similarité entre groupes et la similarité au sein d’un groupe. Des valeurs élevées de statistique de pseudo F indiquent que les séries chronologiques sont plus semblables à la série représentative de leur agrégat qu’à celle du jeu de données, ce qui révèle une agrégation efficace. Pour plus d’informations et pour connaître les formules de calcul de la statistique pseudo F, reportez-vous à la rubrique Fonctionnement de l’agrégation multivariée.

Déterminer le nombre optimal d’agrégats nécessite que l’outil procède à de très nombreux calculs, c’est pourquoi vous êtes invité à indiquer le nombre d’agrégats voulu, si vous le connaissez.

Ressources supplémentaires

Pour plus d’informations sur la théorie de l’agrégation de séries chronologiques, voir les ressources suivantes :

  • Pablo Montero, José A. Vilar (2014). TSclust: An R Package for Time Series Clustering. Journal of Statistical Software. 62(1), 1-43. URL https://www.jstatsoft.org/v62/i01/.

Pour plus d’informations sur l’analyse de données fonctionnelle, reportez-vous aux ressources suivantes :

  • Ramsay, J. O., Silverman, B.W. (2006). Functional Data Analysis. DOI: 10.1007/b98888

Pour plus d’informations sur les k-médoïdes, reportez-vous au manuel suivant :

  • Kaufman, L., and P. J. Rousseau (2009). Finding groups in data: an introduction to cluster analysis (Vol. 344). John Wiley & Sons

Pour plus d’informations sur les k-moyennes, reportez-vous au manuel suivant :

  • Lloyd, Stuart (1982). Least squares quantization in PCM. IEEE transactions on information theory 28.2: 129-137.
  • Arthur, David, and Sergei Vassilvitskii (2006). k-means++: The advantages of careful seeding. Stanford.