Analyse de fichiers de signature, de classes et d'agrégats

Disponible avec une licence Spatial Analyst.

L'Extension ArcGIS Spatial Analyst vous permet de créer une classification en regroupant des cellules raster en classes ou en agrégats. Une classe est, en principe, une catégorie connue formée par exemple de forêts, de zones résidentielles ou de masses d'eau. En revanche, un agrégat est un regroupement de cellules établi en fonction des statistiques de leurs attributs. Une signature est un sous-ensemble de cellules représentatives d'une classe ou d'un agrégat. Les statistiques de signatures sont stockées dans un fichier de signatures qui sera utilisé pour classer toutes les cellules dans l’intersection des canaux en entrée.

Qu'est-ce qu'une classe?

Une classe correspond à un regroupement d'emplacements représentatif. Par exemple, la forêt, l'eau et des cultures de blé sont toutes des classes.

Chaque emplacement est caractérisé par un ensemble ou un vecteur de valeurs, une valeur étant attribuée à chaque variable ou canal en entrée. Chaque emplacement peut être visualisé en tant que points dans un espace attributaire multidimensionnel dont les axes correspondent aux canaux en entrée. Dans cet espace, un regroupement de points est appelé "agrégat", et dans ce cas, étant donné que l'agrégat fait référence à quelque chose de représentatif, il peut également être interprété comme une classe. Deux emplacements appartiennent au même agrégat si leurs attributs (vecteur de valeurs de canal) sont identiques.

Les classes connues peuvent former des agrégats dans un espace attributaire si elles peuvent être différenciées par leurs valeurs attributaires. Les emplacements correspondant à des agrégats naturels dans un espace attributaire peuvent être interprétés comme des classes naturelles de strates.

Identification de classes dans une classification assistée

Dans une classification assistée, vous connaissez les classes selon lesquelles vous voulez partager le site étudié. Par ailleurs, certains emplacements d'échantillonnage de la zone d'étude sont représentatifs de chaque classe. Par exemple, si vous créez une carte d'utilisation du sol à partir d'une image satellite, les classes peuvent représenter les zones urbaines, l'eau, une forêt, des champs et des routes. L'objectif est d'affecter chaque emplacement de la zone d'étude à une classe connue. Plus il y a d'emplacements d'échantillonnage qui peuvent être identifiés comme appartenant à une classe, plus les valeurs de cellule dans une classe sont homogènes et plus la classification est efficace. Les emplacements réels identifiant des emplacements de classes connues sont appelés "échantillons d'apprentissage".

Les échantillons d'apprentissage peuvent être identifiés sur une couche de polygone ou sur un raster. Lorsque vous définissez les échantillons d'apprentissage, vous pouvez identifier un raster existant en tant que référence. En principe, une composition colorée des trois premières couches dans un raster apparaît en tant qu'arrière-plan et sert de référence pour identifier les zones à encercler lors de la génération d'échantillons d'apprentissage.

Création d'agrégats dans une classification non assistée

La première étape d'une classification non assistée consiste à créer des agrégats. Statistiquement, les agrégats sont des regroupements naturels présents dans les données. L’outil Iso Cluster nécessite la saisie des paramètres suivants : un raster multicanal, le nombre de classes, le nom du fichier de signatures en sortie, ainsi que le nombre d'itérations, la taille de classe minimale et l'intervalle auquel il faut relever des points d'échantillonnage qui serviront à calculer les agrégats (les trois derniers paramètres sont traités ci-dessous).

Cet outil renvoie un fichier de signatures contenant les statistiques multivariées associées à un sous-ensemble de cellules pour les agrégats identifiés. Les calculs obtenus désignent l’emplacement de cellule qui appartient à tel agrégat, la valeur moyenne de l'agrégat et la matrice de variance-covariance. Ces informations sont stockées dans un fichier de signatures ASCII. Le fichier de signatures est essentiel pour l'agrégation et la classification des cellules non échantillonnées restantes.

Stockage de classe ou statistiques d'agrégat : fichier de signatures

Le fichier de signatures est un fichier ASCII qui stocke les statistiques multivariées associées à chaque classe ou agrégat considéré. Le fichier comprend la moyenne de chaque classe ou agrégat, le nombre de cellules contenues dans la classe ou l'agrégat et la matrice de variance-covariance correspondant à la classe ou à l'agrégat.

Le fichier de signatures peut être affiché à l'aide d'un éditeur de texte.

Pour n'importe quel agrégat ou classe, les valeurs en diagonale, se déplaçant de l'angle supérieur gauche vers l'angle inférieur droit de la matrice de variance-covariance sont les valeurs de variance des variables correspondant aux canaux raster en entrée, identifié par l'intersection ligne/colonne de la matrice des canaux. Toutes les autres valeurs de la matrice sont des valeurs de covariance.

Procédure de détermination des agrégats dans une classification non assistée

Le nom de l'algorithme permettant de créer des agrégats dans une classification non assistée est Iso Cluster. Le préfixe Iso de l'algorithme d'agrégation isodata est l'acronyme de "Iterative Self Organizing" (auto-organisation itérative), une méthode qui permet d'effectuer l'agrégation. Les agrégats sont calculés à l'aide d'un sous-ensemble de cellules de la zone d'étude. Tous les calculs d'agrégation sont appliqués aux valeurs de cellule dans un espace attributaire multivarié et ne sont basés sur aucune caractéristique spatiale. C'est-à-dire que la moyenne est dérivée des valeurs attributaires pour les différents canaux en entrée. Les valeurs de variance et de covariance sont calculées à partir de la variation existant dans et entre les canaux.

L'exemple suivant fait appel à une méthode d'agrégation par moyenne K ou ISO. Un raster à deux canaux sera utilisé pour expliquer, théoriquement, la méthodologie. Cette même méthodologie fonctionne pour un nombre de canaux en entrée illimité ou dans un espace en n dimensions. Ce qui suit est une explication théorique qui vous permettra de mieux comprendre la méthode d'agrégation ISO.

  • Un diagramme vide est composé de la plage de valeurs du premier canal tracé sur l'axe des x et de celle du deuxième canal tracé sur l'axe des y.
  • Une ligne à 45 degrés est tracée et scindée selon le nombre de classes que vous définissez. Le centre de chacun de ces segments de ligne représente la valeur moyenne initiale des classes.

Valeurs moyennes des classes déterminées
Valeurs moyennes des classes déterminées.

  • Chaque cellule d'échantillonnage est tracée sur le diagramme, et la distance séparant le point d'échantillonnage de chaque centre de moyenne, sur la ligne à 45 degrés, est déterminée. Cette distance est calculée dans l'espace attributaire à l'aide du théorème de Pythagore. Le point d'échantillonnage est affecté à l'agrégat représenté par le centre de moyenne le plus proche.

Calcul de la distance entre chaque point et le centre de moyenne.
Calcul de la distance entre chaque point et le centre de moyenne.

  • Le point d'échantillonnage suivant est tracé, et la procédure ci-dessus est répétée pour tous les points d'échantillonnage.

La distance est calculée pour tous les points d'échantillonnage.
La distance est calculée pour tous les points d'échantillonnage.

  • Le processus ci-dessus est itéré. Avant l'itération suivante, un nouveau centre de moyenne est calculé pour chaque agrégat en fonction des valeurs des emplacements de cellule actuellement attribuées à l'agrégat, dans l'itération précédente. Avec le nouveau centre de moyenne pour chaque agrégat, les deux étapes précédentes sont répétées.

Les nouveaux centres de moyenne pour chaque classe sont calculés.
Les nouveaux centres de moyenne pour chaque classe sont calculés.

  • Les moyennes sont mises à jour, et l'étape précédente est répétée. Le processus d'itération de mise à jour des valeurs moyennes se poursuit jusqu'à ce que le nombre d'itérations défini par l'utilisateur soit atteint ou jusqu'à ce que moins de 2 % des cellules passe d'un agrégat à un autre, en fonction des nouvelles moyennes d'une itération.

L'agrégation est sensible à la plage des valeurs de chaque canal. Cette plage de valeurs détermine les valeurs sur les axes des x et des y à partir desquelles les distances euclidiennes entre les moyennes et les points d'échantillonnage sont calculées. Pour que les attributs de chaque canal soient pris en compte à part égale, la plage des valeurs de chaque canal doit être identique, que vous effectuiez une classification assistée ou une agrégation non assistée. Lorsque la plage des valeurs d'un canal est plus petite que celles des autres canaux, la distance euclidienne dans l'espace multivarié peut être si petite que plusieurs agrégats génèreront une moyenne de zéro. Si un agrégat a une moyenne de zéro, la classification finale et l'exécution de tout autre outil multivarié dépendant du fichier de signatures échouent. L'idéal serait que tous les canaux soient normalisés selon la même plage de valeurs.

Rubriques connexes