Fonctionnement d’un dendrogramme

Disponible avec une licence Spatial Analyst.

Un dendrogramme est un diagramme qui affiche les distances attributaires entre chaque paire de classes fusionnées séquentiellement. Pour éviter de franchir des lignes, le diagramme est organisé graphiquement de sorte que les membres de chaque paire de classes à fusionner soient voisins dans le diagramme.

L’outil Dendrogramme utilise un algorithme d’agrégation hiérarchique. Le programme calcule d’abord les distances existant entre chaque paire de classes dans le fichier de signatures en entrée. Il fusionne ensuite de manière itérative la paire de classes la plus proche, puis fusionne successivement chaque paire de classes suivante la plus proche, et ainsi de suite, jusqu’à ce que toutes les classes soient fusionnées. Après chaque fusion, les distances entre toutes les paires de classes dont mises à jour. Les distances auxquelles sont fusionnées les signatures des classes sont utilisées pour construire le dendrogramme.

Lorsque l’option Use variance in distance calculations (Utiliser la variance dans les calculs de distance) est décochée (MEAN_ONLY dans Python), la distance dmn entre une paire de classes m et n est mesurée en tant que distance entre leurs moyennes :

Formule pour calculer la distance entre des moyennes
  • où :

    m et n — ID de classe

    i — Numéro de couche

    µ — Moyenne de classe m ou n dans la couche i

Lorsque l’option de variance est cochée (VARIANCE dans Python), l’outil Dendrogramme mesure les distances entre les paires de classes en fonction de leurs moyennes et de leurs variances à l’aide de la formule suivante :

Équation pour mesurer les distances entre les paires de classes
  • V est une variance d’une classe m ou n dans la couche i.

Les nouvelles statistiques (moyennes et variances) décrivant la classe fusionnée reposent sur la moyenne et la variance d’origine des échantillons constituant la classe fusionnée. De ce fait, la classe fusionnée est produite à l’aide de la moyenne et de la variance regroupées. Les deux signatures utilisées pour créer la classe fusionnée sont remplacées par une signature unique de la classe combinée. La nouvelle signature de moyenne est calculée en fonction des emplacements dans l’espace attributaire multidimensionnel de toutes les cellules membres de la classe fusionnée. La nouvelle signature conserve le numéro inférieur des deux classes en entrée pour l’ID de la classe fusionnée.

Les niveaux de valeur, ou les distances auxquelles chaque paire de classes est fusionnée, peuvent être interpolés à l’aide des barres d’échelle du diagramme de dendrogramme. En raison de la limitation de la taille d’un caractère (la résolution grossière du diagramme), les niveaux de fusion sont arrondis pour l’affichage. Toutefois, les valeurs précises des niveaux de fusion sont présentées en tant que DISTANCE dans la table associée au dendrogramme.

Les variances, et non pas les covariances, sont utilisées pour le calcul de la distance une fois qu’une paire de classes a été fusionnée. L’algorithme utilisé par l’outil Dendrogramme n’utilise pas la distance de Mahalanobis pour déterminer la distance entre les classes. Par conséquent, les distances entre les classes et les classes fusionnées peuvent ne pas correspondre aux résultats issus de ces outils de grille basés sur la distance de Mahalanobis, tels que les outils Modifier les signatures, Classification de vraisemblance maximale et Probabilité de classe.

Le dendrogramme peut être utilisé pour réduire la classification incorrecte statistique dans votre analyse en fournissant les informations nécessaires à la combinaison ou à la séparation des classes de données. Si les classes de vote analyse sont statistiquement trop proches (à savoir qu’il peut être difficile de différencier les deux classes en fonction de leurs statistiques), il peut se produire des classifications incorrectes. Dans ce cas, envisagez de fusionner les classes. Il n’y a pas de règles définitives pour savoir si une classe doit être fusionnée ou pas. Quand faut-il fusionner des classes ? Cela dépend de l’hétérogénéité de votre zone d’étude et de vos données, du nombre de classes dans lesquelles vous tentez de classer les données et de vos objectifs. Par exemple, si votre zone d’étude est très hétérogène, vous avez le potentiel de disposer d’un grand nombre de classes distinctes et disparates, et vous n’aurez donc peut-être pas besoin de fusionner les classes. Dans un autre scénario possible, il se peut que vos données soient plus homogènes et que vous tentiez de classer les données dans un trop grand nombre de classes. Dans le second scénario, il se peut que les classes soient statistiquement trop proches. Par conséquent, fusionner certaines d’entre elles peut être approprié.

Si votre analyse n’a pas besoin de classes détaillées, vous voudrez peut-être fusionner les classes dans des catégories plus générales pour limiter les risques d’erreur de classification. Le dendrogramme identifie les classes qui sont statistiquement les plus proches, mais c’est à vous de déterminer à quel moment il est approprié de fusionner des classes, selon vos connaissances du domaine et vos objectifs.

Par exemple, il peut être judicieux de fusionner deux classes si vous avez spécifié une classe comme terres inondées et la seconde comme marais. Cependant, les statistiques déterminées à partir des échantillons d’entraînement étant très similaires entre les deux classes, ces dernières seront proches dans le dendrogramme résultant. Si vous ne souhaitez qu’identifier les zones humides, vous voudrez peut-être fusionner les marais dans la classe des terres inondées générale.

Le dendrogramme non seulement identifie les classes qui peuvent être fusionnées, mais il peut aussi identifier les moments où il peut être bénéfique d’ajouter des classes. Si une classe est statistiquement éloignée d’une autre classe, vous voudrez peut-être ajouter des classes pour affiner davantage la classification. Par exemple, il se peut que vous ayez spécifié une classe comme cultures et une seconde classe comme herbe. Dans le dendrogramme résultant, il se peut que ces deux classes soient éloignées. Toutefois, supposons que vous disposez d’un raster multicanal haute résolution. Si vous analysez la production agricole de l’endroit, les données de résolution plus élevée vous permettront peut-être d’affiner les classes cultures et herbe dans des types de culture spécifiques.

Exemple

Dans l’exemple suivant, les classes 3 et 5 sont les voisins les plus proches dans l’espace attributaire. Par conséquent, elles sont fusionnées au niveau 3,443. Cette valeur indique le degré de similarité relatif, qui peut également être présenté comme la distance dans l’espace multidimensionnel. Les deux classes sont fusionnées et traitées comme une seule classe. Les statistiques de la classe fusionnée et les distances séparant cette classe des autres classes sont calculées. Les deux classes les plus proches suivantes sont alors identifiées. Les deux candidats sont les classes 4 et 6. La distance qui les sépare est de 3,609 et elles sont fusionnées. Le processus se répète. Toutes les classes sont fusionnées séquentiellement dans des classes plus grandes jusqu’à être toutes fusionnées en une seule classe.

  • Paramètres utilisés dans la boîte de dialogue de l’outil Dendrogramme :

    Input signature file (Fichier de signature en entrée) — isoclust12.gsg

    Output dendrogram file (Fichier de dendrogramme en sortie) — isodendro.txt

    Use variance in distance calculations (Utiliser la variance dans les calculs de distance) — {valeur par défaut}

    Line width of dendrogram (Largeur de ligne du dendrogramme) — 78

Le fichier de dendrogramme en sortie serait le suivant :

Distances between pairs of combined classes (in the sequence of merging):

Remaining   Merged   Between-Class
Class      Class      Distance
----------------------------------
  3         5        3.442680
  4         6        3.608904
  7         9        3.899360
  2         7        3.795288
  3         4        4.883098
  2         8        6.073256
  1         3        6.257798
  1         2        9.350019
----------------------------------

Dendrogram of /discb/topdir/myspace/isoclust12.gsg

C       DISTANCE
L
A
S   0      1.0     2.1     3.1     4.1     5.2     6.2     7.2     8.3     9.3
S   |-------|-------|-------|-------|-------|-------|-------|-------|------
   
   5 -------------------------|
                              |----------|
   3 -------------------------|          |
                                         |----------|
   6 ---------------------------|        |          |
                                |--------|          |-------------------|
   4 ---------------------------|                   |                   |
                                                    |                   |
   1 -----------------------------------------------|                   |
                                                                        |-
   9 -----------------------------|                                     |
                                  |                                     |
   7 ---------------------------------------------|                     |
                                   |              |                     |
   2 ------------------------------|              |---------------------|
                                                  |
   8 ---------------------------------------------|
   
    |-------|-------|-------|-------|-------|-------|-------|-------|------
    0      1.0     2.1     3.1     4.1     5.2     6.2     7.2     8.3     9.3

Rubriques connexes


Dans cette rubrique
  1. Exemple