Fonctionnement de l’agrégation multivariée

Lorsque que nous observons le monde qui nous entoure, nous avons naturellement tendance à organiser, grouper, différencier et cataloguer ce que nous voyons afin d'essayer de mieux le comprendre. Ce type de processus de classement mental est essentiel à l'acquisition de connaissances et à la compréhension. De même, pour mieux connaître et comprendre vos données, vous pouvez utiliser l'outil Agrégation multivariée. Selon le nombre d’agrégats à créer, il recherche une solution dans laquelle toutes les entités de chaque agrégat sont aussi similaires que possible, et où tous les agrégats sont aussi différents que possible. La similarité des entités est établie en fonction d'un jeu d'attributs que vous spécifiez pour le paramètre Analysis Fields Champs d'analyse) et les agrégats sont créés en utilisant l’algorithme des K-moyennes.

Conseil :

Les techniques d’agrégation, de regroupement et de classification font partie des méthodes les plus utilisées dans l’entraînement par machine. L’outil Agrégation multivariée utilise des méthodes d’entraînement non assistées pour déterminer les agrégats naturels dans vos données. Ces méthodes de classification sont considérées non assistées car elles n'exigent aucun ensemble d’entités pré-classées pour guider ou entraîner la méthode de recherche d’agrégats dans vos données.

Alors que des centaines d'algorithmes d'analyse d'agrégation similaires existent, ils sont tous classés comme étant de difficulté NP. Par conséquent, la seule façon de garantir qu'une solution maximise parfaitement les similarités à l'intérieur des groupes et les différences entre les groupes est d'essayer toutes les combinaisons possibles des entités à agréger. Cela peut être faisable avec quelques entités, mais le problème devient vite insoluble.

Il est non seulement impossible de garantir que vous avez trouvé une solution optimale, mais il est également irréaliste d'essayer d'identifier un algorithme d’agrégation parfait pour tous les scénarios et types de données possibles. Les agrégats ont des formes, des tailles et des densités différentes. Les données attributaires peuvent inclure une grande diversité de plages, symétrie, continuité et unités de mesure. Cela explique pourquoi un si grand nombre d'algorithmes d'analyse d'agrégats ont été développés ces 50 dernières années. Il est donc plus approprié de considérer ces outils comme des outils exploratoires pouvant vous aider à acquérir des connaissances supplémentaires sur les structures sous-jacentes de vos données.

Applications possibles

Voici quelques exemples d’application de cet outil :

  • Supposons que vous ayez des échantillons de salmonelle provenant des fermes de votre région et des attributs tels que le type/la classe, l'emplacement et la date/l'heure. Afin de mieux comprendre comment les bactéries sont transmises et propagées, vous pouvez utiliser l'outil Agrégation multivariée pour diviser les échantillons en "épidémies" distinctes. Bien qu’il ne s’agisse pas d'une analyse spatiale, vos résultats peuvent vous permettre de découvrir un modèle spatial à mesure que l’épidémie se répand. Une fois que vous avez déterminé les agrégats, vous pouvez utiliser d'autres outils d'analyse de modèles spatiaux, tels que Standard Deviational Ellipse (Ellipses d'écart type), Mean Center (Centre moyen) ou Near (Proche) pour analyser chaque épidémie.
  • Si vous avez rassemblé des données sur les observations de présence d'animaux pour mieux comprendre leurs territoires, l'outil Agrégation multivariée peut être utile. Comprendre où et quand les saumons se rassemblent à différents stades de leur vie, par exemple, peut aider à créer des zones protégées afin de tenter d'optimiser leur reproduction.
  • L’agrégation de clients selon leurs habitudes d'achat, leurs caractéristiques démographiques, leurs habitudes de déplacement ou leurs attributs comportementaux peut vous permettre de concevoir une stratégie marketing efficace pour les produits de votre société.

Entrée(s)

Cet outil accepte des Input Features (Entités en entrée) surfaciques, polylignes et ponctuelles, un chemin pour les Output Features (Entités en sortie), un ou plusieurs Analysis Fields (Champs d'analyse), et une valeur d’entier représentant le Number of Clusters (Nombre d’agrégats) à créer. Il existe également un certain nombre de paramètres facultatifs, y compris des options pour la Initialization Method (Méthode d'initialisation) et une Output Table for Evaluating Optimal Number of Clusters (Table de sortie pour l’évaluation du nombre optimal d'agrégats).

Champs d'analyse

Sélectionnez des champs numériques reflétant des systèmes de mesure de ratio, d'intervalle ou ordinaux. Alors que les données nominales peuvent être représentées à l'aide de variables (binaires) fictives, elles ne fonctionnent généralement pas aussi bien que d’autres types de variables numériques. Par exemple, vous pouvez créer une variable appelée « Rural » et assigner à chaque entité (chaque secteur de recensement, par exemple) la valeur 1 s'il s'agit d'une zone principalement rurale, ou 0 si elle est principalement urbaine. La quantité ou la proportion de terrains agricoles associée à chaque entité est une meilleure représentation de cette variable.

Remarque :

Les valeurs des Analysis Fields (Champs d'analyse) sont standardisées par l'outil, car les variables à variances élevées (où les valeurs des données sont très dispersées autour de la moyenne) ont généralement une plus grande influence sur les agrégats que les variables à faibles variances. La standardisation des valeurs attributaires implique une transformation z dans laquelle la moyenne de toutes les valeurs est soustraite de chaque valeur et divisée par l'écart type pour toutes les valeurs. La standardisation met tous les attributs à la même échelle, même lorsque ceux-ci sont représentés par des types de nombres très différents : taux (chiffres de 0 à 1,0), population (avec des valeurs supérieures à un million) et distances (kilomètres, par exemple).

Sélectionnez des variables qui, à votre avis, permettront de distinguer les agrégats d'entités les uns des autres. Supposons, par exemple, que vous souhaitiez agréger les zones scolaires en fonction des résultats obtenus par les élèves à des tests de connaissance normalisés. Vous pourriez sélectionner des Champs d'analyse qui incluent des résultats globaux, des résultats pour des matières particulières comme les mathématiques ou la lecture, la proportion des élèves ayant atteint un seuil de résultat de test minimal, etc. Lorsque vous exécutez l’outil Agrégation multivariée, une valeur R2 est calculée pour chaque variable et reportée dans la fenêtre de messages. Dans le récapitulatif ci-dessous, par exemple, les zones scolaires sont regroupées en fonction des résultats des tests des élèves, du pourcentage d'adultes dans la zone qui n'ont pas terminé leur scolarité, des dépenses par élève et du nombre moyen d'élèves par enseignant. Notez que la variable de résultats des tests TestScores a la valeur R2 la plus élevée. Ceci indique que cette variable divise les zones scolaires en agrégats plus efficacement. La valeur R2 reflète dans quelle mesure la variation des données TestScores d'origine a été conservée après l’agrégation. Par conséquent, plus la valeur R2 est élevée pour une variable donnée, plus cette variable permet de mieux différencier les entités.

Récapitulatif des variables d’agrégation multivariée

Approfondissement :

La valeur R2 se calcule de la façon suivante :

(SCT - SCE) / SCT

où SCT représente la somme des carrés totale et SCE, la somme des carrés expliquée. La somme des carrés totale se calcule en élevant au carré puis en additionnant les écarts par rapport à la valeur moyenne globale d'une variable. La somme des carrés expliquée se calcule de la même façon, hormis le fait que les écarts sont considérés agrégat par agrégat : chaque valeur est soustraite de la valeur moyenne pour l’agrégat auquel elle appartient, puis élevée au carré et additionnée.

Number of clusters (Nombre d’agrégats)

Vous connaîtrez parfois le nombre d’agrégats le plus approprié à votre question ou problème et vous saisirez ce nombre pour le paramètre du Number of Clusters (Nombre d’agrégats). Dans de nombreux cas, cependant, vous ne disposez d'aucun critère vous permettant de sélectionner un nombre spécifique d’agrégats, et vous voulez au contraire connaître le nombre qui vous permettra de distinguer de la meilleure façon les différences et similarités entre les entités. Pour vous aider dans ce cas de figure, vous pouvez laisser le paramètre Number of Clusters (Nombre d’agrégats) non renseigné et laisser l'outil Agrégation multivariée évaluer l'efficacité de la division de vos entités en agrégats de 2, 3, 4 et jusqu’à 30. L'efficacité de l’agrégation se mesure à l'aide de la pseudo-statistique F de Calinski et Harabasz, qui est un ratio de la variance entre agrégats par rapport à la variance au sein d’un agrégat : En d’autres termes, un ratio reflétant la similarité intragroupe et la différence entre groupes :

Pseudo-statistique F de Calinski et Harabasz

Méthode d’agrégation

L’outil Agrégation multivariée utilise par défaut l'algorithme des K-moyennes. L'algorithme des K-moyennes permet de diviser les entités de façon à minimiser les différences entre les entités appartenant à un agrégat, sur l'ensemble des agrégats. Cet algorithme étant de difficulté NP, une heuristique gloutonne est utilisée pour agréger les entités. L'algorithme glouton convergera toujours vers un minimum local mais ne trouvera pas toujours le minimum global (optimal).

L'algorithme des K-moyennes commence par identifier les germes utilisées pour créer chaque agrégat. Le nombre d'entités initiales est donc toujours égal au Number of Clusters (Nombre d’agrégats). La première entité initiale est sélectionnée de façon aléatoire. Même si la sélection des autres entités initiales utilise un composant aléatoire, elle applique une pondération qui favorise la sélection des entités initiales suivantes les plus éloignées, dans l'espace de données, du jeu d'entités initiales existant (cette partie de l'algorithme s'appelle "K-moyennes ++"). En raison du caractère aléatoire de la recherche des valeurs initiales lorsque vous sélectionnez Optimized seed locations (Emplacements initiaux optimisés) ou Random seed locations (Emplacements initiaux aléatoires) en guise de Initialization Method (Méthode d'initialisation), il se peut que vous obteniez des variations dans les résultats d'agrégation à chaque exécution de l'outil.

Une fois que les valeurs initiales sont identifiées, toutes les entités sont affectées à l'entité initiale la plus proche (dans l'espace de données). Pour chaque agrégat d'entités, le centre moyen des données est calculé et chaque entité est réaffectée au centre le plus proche. Le processus de calcul du centre moyen des données pour chaque agrégat puis d'affectation des entités au centre le plus proche continue jusqu'à ce que l’appartenance des agrégats se stabilise (jusqu'à 100 itérations au maximum).

À l’instar de l'algorithme des K-moyennes, l'algorithme des K-médoïdes commence par identifier les entités initiales utilisées pour créer chaque agrégat. Chacune des entités initiales est une entité réelle dans Input Features (Entités en entrée). Ces entités initiales sont dénommées des médoïdes. Les entités sont affectées au médoïde le plus proche (dans l’espace de données). Il s’agit de la solution d’agrégat initiale. La distance totale (dans l'espace des données) entre le médoïde et toutes les entités non médoïdes est calculée. Pour affiner cette solution, dans chaque agrégat, l’entité médoïde est échangée avec chaque entité non médoïde et la somme des distances (dans l’espace de données) entre chaque médoïde et chaque entité non médoïde est calculée. Si cet échange entraîne une augmentation de la somme des distances, celui-ci est annulé ; dans le cas contraire, l’entité échangée devient le nouveau médoïde. Le processus consistant à rechercher de nouveaux médoïdes puis à réaffecter les entités au médoïde le plus proche se poursuit jusqu’à ce que les appartenances à l’agrégat se stabilisent.

Les algorithmes des K-moyennes et des K-médoïdes sont tous deux couramment utilisés et produisent généralement des résultats similaires. L'algorithme des K-médoïdes est toutefois moins sensible au bruit et aux points aberrants des Input Features (couches en entrée). L'algorithme des K-moyennes, généralement plus rapide que celui des K-médoïdes, est privilégié pour traiter de grands jeux de données.

Sorties

L'outil Multivariate Clustering (Agrégation multivariée) produit plusieurs sorties. Vous pouvez accéder aux messages depuis la fenêtre Geoprocessing (Géotraitement) en pointant sur la barre de progression, en cliquant sur le bouton de progression de l'outil Progression de l'outil ou en développant la section des messages au bas de la fenêtre Geoprocessing (Géotraitement). Vous pouvez également accéder aux messages d'une précédente exécution de l'outil Agrégation multivariée via l'historique de géotraitement.

Fenêtre de messages d’agrégation multivariée

La sortie par défaut de l'outil Agrégation multivariée est une nouvelle classe d'entités en sortie contenant les champs utilisés dans l'analyse, ainsi qu'un nouveau champ d'entier appelé CLUSTER_ID permettant d'identifier à quel agrégat appartient chaque entité. Cette classe d'entités en sortie est ajoutée automatiquement à la table des matières et un rendu unique de combinaison de couleurs est appliqué au champ CLUSTER_ID. Le champ IS_SEED indique quelles entités ont été choisies comme valeurs initiales et utilisées pour créer des agrégats.

Résultat d’agrégation multivariée
Exemple de résultats d’agrégation multivariée

Sorties de diagramme d’agrégation multivariée

Plusieurs types de diagrammes sont créés pour récapituler les agrégats ayant été créés. Les boîtes à moustaches permettent d’afficher les informations concernant les caractéristiques de chaque agrégat et de chaque variable utilisée dans l’analyse. Le diagramme ci-dessous vous montre comment interpréter les boîtes à moustaches et leurs valeurs récapitulatives pour chaque Analysis Field (Champ d’analyse) et agrégat créé : valeur minimale des données, 1er quartile, moyenne globale, 3e quartile, valeur maximale de données, et points aberrants des données (valeurs inférieures ou supérieures à 1,5 fois l’écart interquartile). Positionnez le pointeur sur la boîte à moustaches pour visualiser ces valeurs ainsi que la valeur d’écart interquartile. Toutes les marques de points situées au-delà du minimum ou du maximum (moustache supérieure ou inférieure) représentent des points de données aberrants.

Approfondissement :

L'écart interquartile (IQR) correspond à la différence entre le 3e quartile et le 1er quartile. Les points aberrants faibles sont des valeurs inférieures à 1,5*IQR (Q1-1,5*IQR), et les points aberrants élevés sont des valeurs supérieures à 1,5*IQR (Q1+1,5*IQR). Les points aberrants apparaissent sous forme de symboles ponctuels dans les boîtes à moustaches.

Récapitulatif de boîte à moustaches

Le diagramme de boîte à moustaches parallèle par défaut récapitule les agrégats et les variables qu'ils contiennent. Par exemple, l’outil Agrégation multivariée a été exécuté sur des secteurs de recensement pour créer quatre agrégats. Dans le diagramme ci-dessous, notez que l’agrégat 2 (en rouge) représente les secteurs avec des loyers au-dessus de la moyenne par rapport à d’autres agrégats, le plus grand nombre de foyers avec enfants dont le chef de famille est une femme (FHH_CHILD), le plus grand nombre de logements (HSE_UNITS) et le plus grand nombre d’enfants de moins de 5 ans. L’agrégat 4 (en or) représente les secteurs dont les loyers moyens sont les plus élevés, la proportion presque la plus basse de foyers avec enfants dont le chef de famille est une femme et un nombre de logements plus élevé que la moyenne. L’agrégat 3 (en vert) représente les secteurs ayant la proportion la plus basse de foyers avec enfants dont le chef de famille est une femme, la proportion la plus faible d’enfants sous l’âge de 5 ans, le plus faible nombre de logements et les loyers presque les plus bas (pas aussi bas que ceux de l’agrégat 1). Positionnez le pointeur sur chaque nœud des lignes de moyenne pour visualiser la valeur moyenne de l’agrégat pour chaque Analysis Field (Champ d’analyse).

Boîtes à moustaches d’agrégation multivariée

Après inspection du récapitulatif global de l’analyse avec les boîtes à moustaches parallèles ci-dessus, vous pouvez examiner les boîtes à moustaches de chaque agrégat pour chaque variable en sélectionnant Side-by-side (Côte à côte) dans l’onglet Series (Série) de la fenêtre Chart Properties (Propriétés du diagramme). Avec cette vue des données, il est facile de voir quel groupe a la plage de valeurs la plus élevée et la plus basse pour chaque variable. Les boîtes à moustaches sont créées pour chaque agrégat pour chaque variable, vous pouvez ainsi voir de quelle façon les valeurs de chaque agrégat sont reliées aux autres agrégats créés. Positionnez le pointeur sur la boîte à moustaches de chaque variable pour visualiser les valeurs minimum, maximum, et médianes pour chaque variable dans chaque agrégat. Dans l’exemple du diagramme ci-dessous, l’agrégat 4 (en or) présente les valeurs les plus élevées pour la variable MEDIANRENT et englobe des secteurs dont la plage de valeurs est comprise entre 354 et 813.

Boîtes à moustaches d’agrégation multivariée

Un diagramme à barres est également créé indiquant le nombre d’entités par agrégat. En sélectionnant chaque diagramme, on sélectionne également les entités de cet agrégat sur la carte, ce qui peut s’avérer utile pour une analyse supplémentaire.

Diagramme à barres d'entités par agrégats

Lorsque vous laissez le paramètre Number of Clusters (Nombre d’agrégats) non renseigné, l’outil évalue le nombre optimal d’agrégats en fonction de vos données. Si vous spécifiez un chemin d’accès pour la Output Table for Evaluating Number Clusters (Table de sortie pour l’évaluation du nombre d'agrégats), un diagramme est créé affichant les valeurs de Statistique pseudo-F calculées. Le pic le plus haut sur le diagramme correspond à la statistique F la plus élevée, indiquant quel nombre d’agrégats sera le plus apte à distinguer les entités et les variables que vous avez spécifiées. Dans le diagramme ci-dessous, la statistique F associée à quatre groupes est la plus élevée. Cinq groupes, avec une statistique pseudo-F élevée, conviendraient également.

Graphique représentant les statistiques pseudo-F
Diagramme de statistique pseudo-F pour l’évaluation du nombre optimal d’agrégats

Meilleures pratiques

Alors que l'on a tendance à vouloir inclure autant de Analysis Fields (Champs d'analyse) que possible, dans le cas de cet outil Agrégation multivariée, il vaut mieux commencer par une seule variable puis en ajouter. Les résultats sont plus faciles à interpréter avec moins de champs d'analyse. Il est également plus simple de déterminer quelles variables sont les meilleurs discriminants lorsque les champs sont peu nombreux.

Dans de nombreux cas, vous exécuterez plusieurs fois l'outil Agrégation multivariée afin de rechercher le Nombre d’agrégats optimal et la combinaison la plus efficace de Analysis Fields (Champs d'analyse) permettant de diviser de la meilleure façon vos entités en agrégats.

Si l’outil indique que le nombre optimal d’agrégats est 30, veillez à examiner le diagramme des statistiques F. Le choix du nombre d’agrégats et l’interprétation du diagramme de statistique F est assez subtil, et un nombre d’agrégats moins élevé peut s’avérer plus approprié pour votre analyse.

Ressources supplémentaires

Jain, A. K. 2009. "Data Clustering: 50 years beyond K-Means." Pattern Recognition Letters.

Hinde, A., T. Whiteway, R. Ruddick, and A. D. Heap. 2007. « Seascapes of the Australian Margin and adjacent sea floor: Keystroke Methodology." dans Geoscience Australia, Record 2007/10, 58pp.