Fonctionnement des outils de statistiques zonales

Disponible avec une licence Spatial Analyst.

Disponible avec une licence Image Analyst.

Une opération de statistiques zonales est une opération qui calcule des statistiques sur les valeurs des cellules d’un raster (un raster de valeur) dans les zones définies par un autre jeu de données. Deux outils permettent de calculer des statistiques par zones : Statistiques zonales et Statistiques zonales (table).

L’outil Statistiques zonales ne calcule qu’une seule statistique à la fois et crée un raster en sortie. Cette valeur devient la valeur de la cellule du raster en sortie pour les cellules correspondant à cette zone. Si une entité de zone contient des zones superposées, la statistique est calculée pour une seule zone car une cellule dans le raster en sortie ne peut représenter qu’une seule valeur.

L’outil Statistiques zonales (table) calcule une ou plusieurs statistiques en utilisant des sous-ensembles prédéfinis, ou toutes les statistiques, et crée un tableau en sortie. Comme pour Statistiques zonales, la statistique obtenue est une valeur unique pour chaque zone. Le tableau en sortie contient un enregistrement par zone et les valeurs statistiques sont reportées dans des champs prédéfinis. Si la zone en entrée est une entité et qu’elle contient des zones superposées, les statistiques sont calculées pour toutes les zones et la sortie est reportée dans des enregistrements individuels pour chaque zone.

La couche de zone en entrée régit la forme, les valeurs et les emplacements des zones, qui peuvent être soit un raster soit une entité. Pendant l’opération zonale, les données d’entité sont d’abord converties en un raster. Dans les données raster, une zone est constituée par l’ensemble des cellules qui ont la même valeur, qu’elles soient contiguës ou non. Chaque zone doit avoir une identité unique et s’il s’agit d’un raster, il doit avoir le type de données entier. Vous pouvez saisir tout champ entier ou toute chaîne de valeurs uniques dans la zone en entrée pour définir les zones.

Le raster de valeur en entrée contient les valeurs utilisées pour calculer le résultat statistique de chaque zone. Il peut être soit de type entier soit de type à virgule flottante.

Dans l’illustration suivante, la moyenne de la valeur en entrée est identifiée pour chaque zone :

Exemple d’entrées et de résultats obtenus via l’outil Statistiques zonales
Des exemples d’entrées et de résultats obtenus via l’outil Statistiques zonales sont présentés. Les cellules gris clair indiquent la valeur NoData.

Comment les cellules d’un raster de valeur sont identifiées pour une zone de raster ?

Pour calculer une statistique, l’outil extrait d’abord les valeurs de cellule du raster de valeur pour toutes les cellules qui se trouvent dans chaque zone. Cette identification des cellules d’un raster de valeur à l’intérieur d’une zone se fait en superposant des zones sur le raster de valeur. Lorsque la zone ou les valeurs en entrée sont des rasters avec la même taille de cellule et que les cellules sont alignées, les valeurs de cellule du raster de valeur qui recouvre celui des zones sont extraites et les statistiques sont calculées.

Un raster de zones superposé à un raster de valeur indiquant les cellules qui sont extraites.

Un raster de zones est superposé à un raster de valeur indiquant quelles cellules sont extraites.

Lorsque la taille des cellules ou l’alignement diffère entre le raster de zones et le raster de valeur, les cellules entre les rasters de zone et de valeur ne peuvent pas être parfaitement superposées les unes sur les autres. Dans ce cas, l’outil ajuste en interne un ou les deux rasters pour obtenir cette superposition parfaite de cellules. Cet ajustement suit quelques règles simples. Lorsque la taille de la cellule du raster de zones et du raster de valeur est différente, la taille de la cellule en sortie correspond à la valeur Maximum Of Inputs (Maximum d’entrées), et le raster de valeur est utilisé en interne comme raster de capture. Si la taille de cellule est identique mais que les cellules ne sont pas alignées, le raster de valeur sert en interne de raster de capture. L’une de ces cases déclenche un ré-échantillonnage interne avant l’exécution de l’opération zonale.

Lorsque la taille de cellule, le raster de capture, le système de coordonnées en sortie, ou une combinaison de ces éléments, sont spécifiés dans les paramètres d’environnement de géotraitement, l’opération zonale est effectuée dans une fenêtre d’analyse créée en respectant ces paramètres. Reportez-vous à la rubrique Détermination de la fenêtre d’analyse dans Spatial Analyst pour plus d’informations.

Comment les cellules d’un raster de valeur sont identifiées pour une zone d’entités ?

Fondamentalement, une opération zonale est une analyse raster effectuée sur deux rasters dans laquelle l’un est la zone et l’autre la valeur. Si les zones sont définies par des entités, une conversion interne entité vers raster a lieu. La conversion interne pour une zone de polygone utilise la méthode Centre de cellule dans l’outil Polygone vers raster pour rastériser l’entrée en utilisant la taille de la cellule et le raster de capture du raster de valeur. Cette méthode peut conduire à un résultat inattendu : des zones manquantes dans la sortie lorsqu’aucun des centres de cellules de la grille de rastérisation ne se trouve dans la zone d’entités. Cela peut se produire avec des zones plus petites que la surface d’une cellule du raster de zones interne et aussi avec des zones plus grandes.

Dans l’exemple ci-dessous, la figure (1) représente la zone d’entités en entrée, le raster de valeur en entrée et son centre de cellule. Les entités en entrée comportent trois zones (formes jaunes), qui vérifient les caractéristiques suivantes :

  • zone1 est plus grande qu’une cellule individuelle.
  • zone2 et zone3 sont plus petites qu’une cellule.
  • Un centre de cellule se situe à l’extérieur de zone2, mais à l’intérieur de zone3.

Au cours du processus de rastérisation des zones de la figure (2), puisqu’aucun centre de cellule ne se situe à l’intérieur de zone1 et zone2, seule zone3 est rastérisée, les deux autres zones disparaissant pour ainsi dire.

Conversion interne d’une zone d’entités tout en calculant les statistiques zonales
La conversion interne de la zone d’entités lors du calcul des statistiques zonales est illustrée.

Pour éviter que des zones ne disparaissent de votre sortie, assurez-vous que chaque zone contienne un ou plusieurs centres de cellules du raster de valeur. Une façon de procéder est de créer davantage de centres de cellule en indiquant une taille de cellule plus petite dans l’environnement. La taille de cellule d’analyse par défaut est issue du raster de valeur. Cependant, si vous spécifiez une taille de cellule dans l’environnement d’analyse qui est plus petite que celle du raster de valeur, vous permettrez de capturer plus de zones, comme le démontre la figure (3) ci-dessus. Gardez à l’esprit que l’indication d’une taille de cellule inférieure génère un raster en sortie plus important. La résolution supérieure en sortie ne fournira pas nécessairement un résultat d’aussi bonne qualité qu’il n’y paraît, car les détails supplémentaires ne sont pas réellement présents dans le raster de valeur en entrée.

Après qu’une zone d’entités est convertie en une zone de raster en utilisant la même taille de cellule et le même alignement de cellule du raster de valeur, l’extraction des cellules d’un raster de valeur dans une zone est effectué en superposant les zones sur le raster de valeur.

Lorsque la taille de cellule, le raster de capture, le système de coordonnées en sortie, ou une combinaison de ces éléments, sont spécifiés dans les paramètres d’environnement de géotraitement, l’opération zonale, y compris la conversion interne entité vers raster, est effectuée dans une fenêtre d’analyse définie sur la base de ces paramètres. Reportez-vous à la rubrique Détermination de la fenêtre d’analyse dans Spatial Analyst pour en savoir plus.

Calcul de statistiques zonales à l’aide de rasters multidimensionnels

Les données raster multidimensionnelles représentent des données à des heures et/ou profondeurs ou hauteurs différentes. Ce type de données, couramment utilisé dans les sciences atmosphériques, océanographiques et de la Terre, est observé par des plateformes de surveillance, capturé par des satellites ou généré à partir de modèles de simulation numérique où les données sont traitées, agrégées ou interpolées à l’aide de diverses techniques statistiques. Pour en savoir plus sur les rasters multidimensionnels, reportez-vous à la rubrique Vue d’ensemble des données raster multidimensionnelles.

Les outils Statistiques zonales et Statistiques zonales (table) prennent en charge les données raster multidimensionnelles de zone et de valeur en entrée. Les statistiques zonales sont calculées pour toutes les tranches d’un raster multidimensionnel lorsque le paramètre Process as multidimensional (Traitement comme multidimensionnel) est activé (ALL_SLICES dans le paramètre process_as_multidimensional dans Python). Si le paramètre Process as multidimensional (Traitement comme multidimensionnel) est désactivé (CURRENT_SLICES dans Python), seule la tranche en cours sera traitée.

Voici quelques exemples d’analyse de statistiques zonales sur des données multidimensionnelles :

  • Un météorologue souhaite obtenir un aperçu du mouvement d’un ouragan et de la distribution des précipitations le long de sa trajectoire pour une période donnée. À l’aide du traitement multidimensionnel de l’outil Statistiques zonales, le météorologue peut déterminer la précipitation moyenne de chaque tranche de temps pour les zones de l’ouragan qui ont changé au fil du temps.
  • Un écologiste souhaite examiner la distribution des événements extrêmes à partir des données sur les précipitations quotidiennes maximales de 1990 à 2019 pour un bassin fluvial particulier. L’outil Statistiques zonales (table), avec le type de statistique Pourcentage pour une liste de valeurs de pourcentages, peut être utilisé pour examiner la distribution des données des précipitations quotidiennes maximales pour les données de séries chronologiques lors d’un traitement multidimensionnel.

Les types de données raster multidimensionnelles pris en charge incluent la couche raster multidimensionnelle, la mosaïque multidimensionnelle, les services d’imagerie et le CRF d’Esri.

Pour ajouter une couche raster multidimensionnelle dans ArcGIS Pro, utilisez l’option Add Data (Ajouter des données) > Multidimensional Raster Layer (Couche raster multidimensionnelle) de l’onglet Map (Carte). Vous pouvez également utiliser l’outil Générer une couche raster multidimensionnelle, sélectionner la variable appropriée pour l’opération zonale et générer une couche raster multidimensionnelle.

Ajouter une couche raster multidimensionnelle.
L’option Couche raster multidimensionnelle est sélectionnée dans l’onglet Carte.

Sortie multidimensionnelle de l’outil Statistiques zonales

Lorsque vous demandez à l’outil Statistiques zonales de traiter l’entrée comme multidimensionnelle, il crée un raster multidimensionnel en sortie au format CRF. L’opération zonale s’effectue tranche par tranche, entre les tranches du raster de zones et les tranches de la variable actuelle du raster de valeur. Les valeurs statistiques calculées sont stockées dans une variable multidimensionnelle dont le nom est créé en combinant le nom de la variable du raster de valeur et la statistique en cours de calcul. Le nombre de dimensions de la variable en sortie et le nombre de tranches dépendent de la nature spécifique de la zone et des rasters de valeurs en entrée.

Vous pouvez explorer les informations multidimensionnelles du raster en sortie à partir de la fenêtre des propriétés. Vous pouvez également utiliser la propriété mdinfo de l’objet Raster dans ArcPy afin d’en savoir plus sur les dimensions, le nombre de valeurs de dimension et le nombre total de tranches dans la variable.

En ce qui concerne l’outil Statistiques zonales (table), lorsque vous demandez que les données soient traitées comme étant multidimensionnelles, cela génère une table plate contenant les statistiques calculées pour toutes les zones et toutes les tranches. Ce tableau comprend des champs supplémentaires pour indiquer le nom de la variable, les noms des dimensions et leurs valeurs ainsi que les statistiques calculées pour chaque zone.

Comme le traitement multidimensionnel s’effectue tranche par tranche entre les rasters de zones et de valeur, le nombre de tranches dans le raster multidimensionnel en sortie de l’outil Statistiques zonales et le nombre d’enregistrements dans la table en sortie de l’outil Statistiques zonales (table) dépendront du type des rasters en entrée et du nombre de tranches qu’ils contiennent. Les sous-sections suivantes décrivent des exemples.

Rasters de zones et de valeur multidimensionnels ayant les mêmes dimensions

Pour déterminer la salinité maximale à différentes profondeurs de l’océan pour différentes plages de température à une profondeur correspondante, il faut réaliser des statistiques zonales avec une zone multidimensionnelle représentant les zones de température et un raster de valeur multidimensionnel représentant la salinité. L’opération zonale est effectuée pour chaque tranche de zone avec la tranche correspondante du raster de valeur. Le raster multidimensionnel en sortie a le même nombre de tranches que le raster de valeur.

Dans l’illustration ci-dessous, les variables des rasters de zones et de valeur ont les mêmes trois dimensions x, y et d et le même nombre de tranches aux valeurs de dimension d0, d1 et d2. La variable dans le raster multidimensionnel en sortie a également les mêmes trois dimensions x, y et d et le même nombre de tranches aux valeurs de dimension d0, d1 et d2.

Rasters de zones multidimensionnelles et rasters de valeurs ayant les mêmes dimensions
Exemples de rasters de zones et de valeur multidimensionnels avec le raster obtenu par les statistiques zonales.

Le nombre total d’enregistrements dans la sortie de l’outil Statistiques zonales (table) peut être déterminé en ajoutant le nombre de zones de chaque tranche. Si le nombre de zones aux profondeurs d0, d1 et d2 est de 5, 4 et 3, respectivement, le nombre total d’enregistrements est de 12 (5 + 4 + 3 = 12).

Raster de valeur multidimensionnel uniquement

Pour déterminer la température maximale dans chaque comté pour chaque jour de l’année, il faut effectuer une statique zonale avec un raster de valeur multidimensionnel représentant la température quotidienne et un raster de zones représentant les comtés. L’opération zonale est effectuée pour chaque tranche du raster de valeur en utilisant le même raster de zones. Le raster multidimensionnel en sortie a le même nombre de tranches que le raster de valeur.

Dans l’illustration ci-dessous, les variables du raster de zones ont trois dimensions x, y et t et trois tranches aux valeurs de dimension, t0, t1 et t2. La variable dans le raster multidimensionnel en sortie a également les mêmes trois dimensions x, y et t et le même nombre de tranches aux valeurs de dimension, t0, t1 et t2.

Traitement du raster de valeur multidimensionnel.
Exemple de traitement du raster de valeur multidimensionnel.

Le nombre total d’enregistrements dans la sortie de l’outil Statistiques zonales (table) peut être déterminé en multipliant le nombre de zones et le nombre de tranches dans le raster de valeur. Si le nombre de zones est de 5, le nombre total d’enregistrements est de 15 (5 * 3 = 15).

Raster de zones multidimensionnel uniquement

Pour trouver la moyenne des précipitations maximales par décennies dans chaque catégorie de zonage d’une plaine inondable, qui change au fil du temps, à des fins de planification écologique du paysage, il faut effectuer une statistique zonale avec un raster de zones multidimensionnel représentant les zones de la plaine inondable et un raster de valeur représentant les précipitations maximales par décennies. L’opération zonale est effectuée pour chaque tranche du raster de zones en utilisant le même raster de valeur. Le raster multidimensionnel en sortie a le même nombre de tranches que le raster de zones.

Dans l’illustration ci-dessous, les variables du raster de zones ont trois dimensions x, y et t et trois tranches aux valeurs de dimension, t0, t1 et t2. La variable dans le raster multidimensionnel en sortie a également les mêmes trois dimensions x, y et t et le même nombre de tranches aux valeurs de dimension, t0, t1 et t2.

Traitement du raster de zones multidimensionnel.
Exemple de traitement du raster de zones multidimensionnel.

Le nombre total d’enregistrements dans la sortie de l’outil Statistiques zonales (table) peut être déterminé en multipliant le nombre de zones et le nombre de tranches dans le raster de zones. Si le nombre de zones est de 5, le nombre total d’enregistrements est de 15 (5 * 3 = 15).

Statistiques

Vous trouvez ci-dessous une liste des types de statistiques disponibles pour calculer les statistiques zonales, avec des détails supplémentaires et une illustration graphique montrant les résultats pour chaque option à partir d’un exemple en entrée.

Majorité

  • La valeur la plus récurrente dans chaque zone est associée à toutes les cellules qui figurent dans ces zones.
  • Lorsqu’il existe une association à une valeur de majorité dans une zone, la sortie correspondant aux emplacements dans cette zone est associée à la valeur la plus faible.

Exemple :

Illustration d’une majorité traitée avec l’outil Statistiques zonales
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "Majority")

Maximum

  • La plus haute valeur dans chaque zone est affectée à toutes les cellules dans cette zone.

Exemple :

Illustration d’un maximum traité avec l’outil Statistiques zonales
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "Maximum")

Moyenne

  • La moyenne des valeurs dans chaque zone est affectée à toutes les cellules en sortie dans cette zone.

Exemple :

Illustration d’une moyenne traitée avec l’outil Statistiques zonales
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "Mean")

Médian

  • La médiane des valeurs dans chaque zone est affectée à toutes les cellules en sortie dans cette zone.
  • Les valeurs de type statistiques sont calculées selon la méthode Q1 de Hyndman et Fan (1996) [1]. Lorsque deux valeurs triées sont également proches de la valeur médiane cible, la plus petite des deux valeurs est choisie.
  • Pour calculer la médiane, toutes les cellules dans une zone sont classées. S’il existe des cellules n dans la zone et que la valeur n est incohérente, la valeur centrale (n/2) est enregistrée dans chaque cellule de la zone. S’il existe un nombre de cellules équivalent, vous obtenez la valeur (n/2) -1.

Exemple :

Illustration d’une médiane traitée avec l’outil Statistiques zonales
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "Median")

Minimal

  • La valeur la plus faible dans chaque zone est affectée à toutes les cellules dans cette zone.

Exemple :

Illustration d’un minimum traité avec l’outil Statistiques zonales
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "Minimum")

Minorité

  • La valeur la moins récurrente dans chaque zone est associée à toutes les cellules qui figurent dans ces zones.
  • Lorsqu’il existe une association à une valeur de minorité dans une zone, la sortie correspondant aux emplacements dans cette zone est associée à la valeur la plus faible.

Exemple :

Illustration d’une minorité traitée avec l’outil Statistiques zonales
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "Minority")

Centile

  • Le pourcentage des valeurs dans chaque zone est affecté à toutes les cellules en sortie dans cette zone.
  • Cette valeur de type statistique est calculée selon la méthode Q1 de Hyndman et Fan (1996) [1]. Lorsque deux valeurs triées sont également proches de la valeur médiane cible, la plus petite des deux valeurs est choisie.
  • Pour calculer le pourcentage, toutes les cellules d’un raster de valeurs sont classées selon la formule suivante : R = P/100 x (n + 1), où P est le pourcentage souhaité et n est le nombre de cellules.

Exemple :

Illustration d’un pourcentage traité avec l’outil Statistiques zonales
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "Percentile")

Plage

  • La différence entre les valeurs minimales et maximales dans chaque zone est affectée à toutes les cellules dans cette zone.
  • La plage est définie comme suit :
    Zonal Range = Zonal Maximum – Zonal Minimum

Exemple :

Illustration d’une plage traitée avec l’outil Statistiques zonales
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "Range")

Écart type

  • L’écart-type des valeurs dans chaque zone est affectée à toutes les cellules en sortie dans cette zone.
  • La formule utilisée pour calculer l’écart-type est la suivante :

    Formule permettant de calculer un écart-type

    Remarque :

    L’écart type est calculé sur la population entière (méthode N). Il ne repose pas sur un échantillon (méthode N-1). Par comparaison, le calcul de l'écart type est équivalent à la méthode STDEVP, et non STDEV, dans Microsoft Excel.

Exemple :

Illustration de l’écart-type Statistiques zonales
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "STD")

Somme

  • La somme des valeurs dans chaque zone est affectée à toutes les cellules en sortie dans cette zone.
  • Le type de données du raster en sortie est en virgule flottante. En effet, la valeur de la somme a tendance à être assez élevée et il n’est pas être possible de le représenter avec une valeur entière.

    Par exemple, prenons une zone qui comprend 2 500 lignes et colonnes dans la cellule. Supposons que chaque cellule a la valeur 1 000. La somme pour cette zone serait 2 500 x 2 500 x 1 000 = 6,25 milliards. Si une sortie de nombre entier est requise et que la plage est comprise dans une fourchette de ± 2,147 milliards, vous pouvez utiliser l’outil Entier.

Exemple :

Illustration d’une somme traitée avec l’outil Statistiques zonales
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "Sum")

Variété

  • Le nombre de valeurs distinctes dans chaque zone est affecté à toutes les cellules dans cette zone

Exemple :

Illustration d’une variété traitée avec l’outil Statistiques zonales
OutRas = ZonalStatistics(ZoneRas, "VALUE", ValRas, "Variety")

Type de données en sortie

Le type de données (entier ou à virgule flottante) en sortie est déterminé à la fois par le calcul zonal effectué et par le type raster de valeurs en entrée. Le tableau ci-après identifie les types de données attendus du raster en sortie :

StatistiqueType de valeur en entréeOutput

Majorité

Entier*

Entiers

Maximum

Entier, virgule flottante

Identique à la valeur

Moyenne

Entier, virgule flottante

Flottant

Médian

Entier*

Entiers

Minimal

Entier, virgule flottante

Identique à la valeur

Minorité

Entier*

Entiers

Centile

Entier*

Entiers

Plage

Entier, virgule flottante

Identique à la valeur

Écart type

Entier, virgule flottante

Flottant

Somme

Entier, virgule flottante

Flottant

Variété

Entier*

Entiers

Entrée et types en sortie par statistique
* Seuls les entiers sont compatibles.

Lorsqu’un emplacement dans le jeu de données de la zone est associé à la valeur NoData, NoData apparaît dans le résultat.

Bibliographie

[1] Rob J. Hyndman and Yanan Fan (1996) « Sample Quantiles in Statistical Packages » The American Statistician, Vol. 50, No. 4 (Nov., 1996), pp. 361-365

Rubriques connexes