Réalisation de l’analyse de fichiers de signature, de classes et d’agrégats

Disponible avec une licence Spatial Analyst.

Avec l’Extension ArcGIS Spatial Analyst, vous pouvez créer une classification en regroupant des cellules raster dans des classes ou des agrégats. Une classe est habituellement une catégorie connue (par exemple, des forêts, des zones résidentielles ou des plans d’eau), tandis qu’un agrégat constitue un regroupement de cellules basé sur les statistiques de leurs attributs. Une signature constitue un sous-ensemble de cellules représentatives d’une classe ou d’un agrégat. Les statistiques des signatures sont stockées dans un fichier de signatures allant être utilisé pour classer toutes les cellules dans l’intersection des canaux en entrée.

Qu’est-ce qu’une classe ?

Une classe correspond à un regroupement d’emplacements représentatif. Il peut s’agit, par exemple, d’une forêt, d’un plan d’eau ou d’un rendement de blé élevé.

Chaque emplacement est caractérisé par un ensemble ou un vecteur de valeurs, une valeur étant attribuée à chaque variable ou canal en entrée. Chaque emplacement peut être perçu comme un point dans un espace attributaire multidimensionnel dont les axes correspondent aux variables figurant dans les canaux en entrée. Un regroupement de points dans cet espace attributaire multidimensionnel est nommé agrégat et, dans ce cas, puisque l’agrégat se réfère à quelque chose ayant une signification, il peut également être considéré comme une classe. Deux emplacements appartiennent au même agrégat si leurs attributs (vecteur de valeurs de canal) sont identiques.

Les classes connues peuvent former des agrégats dans un espace attributaire si les classes peuvent être séparées ou différenciées par leurs valeurs attributaires. Les emplacements correspondant à des agrégats naturels dans un espace attributaire peuvent être interprétés comme des classes naturelles de strates.

Identification de classes pour une classification assistée

Dans une classification assistée, vous savez dans quelles classes vous souhaitez diviser le site d’étude et vous disposez, dans ce site d’étude, de localisations d’échantillonnage représentatives de chaque classe. Par exemple, si vous créez une carte d’utilisation du sol à partir d’une image satellite, les classes peuvent être de l’urbanisme, un plan d’eau, une forêt, des champs et des routes. L’objectif est d’attribuer chaque emplacement dans la zone d’étude à une classe connue. Plus il y a de localisations d’échantillonnage pouvant être identifiés comme appartenant à une classe et plus les valeurs de cellule sont homogènes dans une classe, meilleure sera la classification s’en suivant. Les localisations réelles identifiant les localisations de classe connues sont nommées échantillons d’entraînement.

Les échantillons d’entraînement peuvent être identifiés sur une couche surfacique ou sur un raster. Lorsque vous définissez les échantillons d’entraînement, vous pouvez identifier un raster existant en tant que référence. Généralement, une composition colorée des trois premières couches dans le raster est affichée en tant qu’arrière-plan et utilisée en tant que référence pour identifier les zones à encercler lors de la production d’échantillons d’entraînement.

Création d’agrégats dans une classification non assistée

La première étape dans une classification non assistée consiste à créer des agrégats. Statistiquement, les agrégats sont des regroupements se produisant naturellement dans les données. L’outil Agrégat Iso nécessite des canaux raster en entrée, le nombre de classes, le nom du fichier de signatures en sortie, le nombre d’itérations, la taille de classe minimale et l’intervalle auquel prendre les points d’échantillon à partir desquels calculer les agrégats (les trois paramètres finaux sont abordés ci-dessous).

L’outil renvoie un fichier de signatures contenant les statistiques multivariées pour un sous-ensemble des cellules des agrégats identifiés. Les calculs résultant identifient quel emplacement de cellule appartient à quel agrégat la valeur moyenne de l’agrégat et la matrice de variance-covariance. Ces informations sont stockées dans un fichier de signature ASCII. Le fichier de signatures est essentiel dans l’agrégation et la classification des cellules non échantillonnées restantes.

Stockage de statistiques de classe ou d’agrégat : le fichier de signatures

Le fichier de signatures est un fichier ASCII qui stocke les statistiques multivariées pour chaque classe ou agrégat d’intérêt. Le fichier comprend la moyenne de chaque classe ou agrégat, le nombre de cellules figurant dans la classe ou l’agrégat et la matrice de variance-covariance de la classe ou de l’agrégat.

Le fichier de signatures peut être affiché avec n’importe quel éditeur de texte.

Pour n’importe quelle classe ou n’importe quel agrégat, les valeurs diagonales évoluant du coin supérieur gauche au coin inférieur droit dans la matrice de variance-covariance sont les valeurs de variance des variables correspondant aux canaux raster en entrée identifiés par l’intersection ligne/colonne dans la matrice des canaux. Toutes les autres valeurs dans la matrice sont des valeurs de covariance.

Comment les agrégats sont déterminés pour une classification non assistée

Le nom de l’algorithme utilisé pour créer des agrégats dans une classification non assistée est Iso cluster. Le préfixe Iso de l’algorithme d’agrégation isodata signifie Iterative Self Organizing (ISO), une méthode d’agrégation. Les agrégats sont calculés à l’aide d’un sous-ensemble des cellules dans la zone d’étude. Tous les calculs d’agrégat sont effectués sur les valeurs de cellule dans l’espace attributaire multivarié et aucun n’est basé sur des caractéristiques spatiales. Cela signifie que la moyenne est dérivée des valeurs attributaires pour les différents canaux en entrée. Les valeurs de variance et de covariance sont calculées à partir de la variation dans et entre les canaux.

L’exemple suivant utilise une approche d’agrégation de moyenne K ou ISO. Un raster à deux canaux sera utilisé pour expliquer théoriquement la méthodologie. Cette même méthodologie fonctionne pour autant de canaux que de canaux entrés, ou dans un espace N dimensionnel. La discussion suivante est conceptuelle pour autoriser une meilleure compréhension de l’approche de l’agrégation ISO.

  • Un diagramme vide est créé avec les plages de valeurs dans le premier canal tracé sur l’axe x et la plage de valeurs dans le second canal tracé sur l’axe y.
  • Une ligne à 45 degrés est tracée et divisée dans le nombre de classes que vous spécifiez. Le point central de chacune de ces segments de ligne est la valeur moyenne initiale des classes.

Valeurs moyennes des classes déterminées
Valeurs moyennes des classes déterminées.

  • Chaque exemple de cellule est tracé sur le diagramme et la distance allant du point à chaque point de centre moyen sur la ligne à 45 degrés est déterminée. La distance est calculée dans l’espace attributaire à l’aide du théorème de Pythagore. Le point d’échantillon est attribué à l’agrégat représenté par le point de centre moyen le plus proche.

La distance allant de chaque point au point de centre moyen est calculée.
La distance allant de chaque point au point de centre moyen est calculée.

  • Le point d’échantillon suivant est tracé et la procédure ci-dessus est répétée pour tous les exemples de point.

La distance est calculée pour tous les points d’échantillon.
La distance est calculée pour tous les points d’échantillon.

  • Le processus ci-dessus se répétera. Avant l’itération suivante, un nouveau point de centre moyen est calculé pour chaque agrégat en fonction des valeurs des emplacements de cellule attribuées à l’agrégat dans l’itération précédente. Avec le nouveau point de centre moyen pour chaque agrégat, les deux étapes précédentes sont répétées.

Les nouveaux points de centre moyen de chaque classe sont calculés.
Les nouveaux points de centre moyen de chaque classe sont calculés.

  • Les moyennes sont mises à jour et l’étape précédente est répétée. Le processus d’itération pour mettre à jour les valeurs moyennes continue jusqu’à ce que le nombre d’itérations défini par l’utilisateur soit atteint ou jusqu’à ce que moins de 2 % des cellules changent d’un cluster à l’autre par rapport aux nouvelles moyennes dans une itération.

L’agrégation est sensible à la plage de valeurs dans chaque canal. Cette plage de valeurs détermine les valeurs sur les axes x et y à partir desquelles les distances euclidiennes entre les moyennes et les points d’échantillon sont calculées. Pour que les attributs de chaque canal soient considérés équitablement, la plage de valeurs de chaque canal doit être semblable, qu’il s’agisse d’effectuer une classification assistée ou une classification non assistée. Si la plage de valeurs d’un canal est petite par rapport aux autres canaux, il se peut que la distance euclidienne dans l’espace multivarié soit si faible que plusieurs agrégats peuvent résulter en une moyenne de zéro. Si un agrégat possède une moyenne de zéro, la classification finale et tout autre outil multivarié dépendant d’un fichier de signatures échoueront. L’idéal est que tous les canaux soient normalisés sur la même plage de valeurs.

Rubriques connexes