Concepts clés de la simulation géostatistique—ArcGIS Pro

Disponible avec une licence Geostatistical Analyst.

Concepts de simulation

La simulation se définit généralement comme la réplication de la réalité à l’aide d’un modèle. En géostatistique, la simulation est la réalisation d’une fonction aléatoire (surface) qui comporte les mêmes entités statistiques que les données d’échantillonnage utilisées pour la générer (mesurée par la moyenne, la variance et le semi-variogramme). La simulation géostatistique gaussienne (GGS), plus précisément, convient aux données continues et suppose que les données, ou une transformation des données, présente une distribution normale (gaussienne). La simulation géostatistique gaussienne part du principe que les données sont stationnaires : la moyenne, la variance et la structure spatiale (semi-variogramme) ne changent pas dans le domaine spatial des données. La simulation géostatistique gaussienne suppose également que la fonction aléatoire modélisée est une fonction aléatoire gaussienne multivariée.

La simulation géostatistique gaussienne offre un avantage par rapport au krigeage. Comme le krigeage repose sur une moyenne locale des données, il produit une sortie lissée. La simulation géostatistique gaussienne, en revanche, représente mieux la variabilité locale, car elle réintègre dans les surfaces générées la variabilité locale qui est perdue lors du krigeage. Comme la variabilité que les réalisations GGS apporte à la valeur prévue à une localisation en particulier présente une moyenne nulle, la moyenne de plusieurs réalisations GGS tend vers la prévision du krigeage. Ce concept est illustré dans la figure ci-dessous. Différentes réalisations sont représentées sous forme d’une pile de couches en sortie. La distribution des valeurs à une coordonnée en particulier est gaussienne, avec une moyenne égale à l’estimation avec krigeage pour cette localisation et une dispersion qui est donnée par la variance de krigeage au niveau de cette localisation.

Variabilité des valeurs simulée pour une localisation donnée

Vous pouvez utiliser l’outil Extraire des valeurs vers une table pour générer les données du diagramme illustré dans la figure ci-dessus et pour faciliter le post-traitement de la sortie générée par la simulation géostatistique gaussienne (GGS).

L’usage intensif de la simulation géostatistique gaussienne (GGS) suit une tendance de pratique géostatistique qui met l’accent sur la caractérisation de l’incertitude pour l’analyse des décisions et des risques, au lieu de produire la meilleure prévision non biaisée pour chaque localisation non échantillonnée (comme c’est le cas du krigeage), ce qui convient mieux pour afficher les tendances globales des données (Deutsch et Journel 1998, Goovaerts 1997). La simulation résout également le problème des biais conditionnels dans les estimations avec krigeage (les zones à valeur élevée sont généralement sous-estimées, tandis que les zones à valeur inférieure sont généralement surestimées).

La simulation géostatistique génère plusieurs représentations également probables de la distribution spatiale de l’attribut à l’étude. Ces représentations permettent de mesurer l’incertitude des localisations non échantillonnées prises ensemble dans l’espace, et non une par une (comme la variance de krigeage). De plus, la variance de krigeage étant généralement indépendante des valeurs de données, elle ne peut pas être utilisée pour mesurer la précision des estimations. De l’autre côté, la précision des estimations peut se mesurer en créant des distributions de valeurs estimées pour des localisations non échantillonnées à l’aide de plusieurs réalisations simulées qui sont générées à partir d’un modèle Krigeage simple avec des données en entrée qui sont normalement distribuées (c’est-à-dire des données qui sont normalement distribuées ou qui ont été transformées à l’aide d’un score normal ou de tout autre type de transformation). Ces distributions de l’incertitude sont essentielles pour l’évaluation des risques et l’analyse des décisions faisant appel aux valeurs de données estimées.

GGS part du principe que les données sont distribuées normalement, ce qui est rarement le cas dans la pratique. Une transformation du score normal est effectuée sur les données afin qu’elles suivent une distribution normale standard (moyenne = 0 et variance = 1). Les simulations sont ensuite exécutées sur ces données distribuées normalement et les résultats sont retransformés pour obtenir une sortie simulée dans les unités d’origine. Lorsque le modèle Krigeage simple est exécuté sur des données distribuées normalement, il fournit une estimation et une variance de krigeage qui définissent complètement la distribution conditionnelle à chaque localisation de la zone d’étude. Cela permet de représenter des réalisations simulées de la fonction aléatoire (la surface échantillonnée et inconnue) en ne connaissant que ces deux paramètres à chaque localisation. C’est pour cette raison que GGS repose sur un modèle Krigeage simple et des données normalement distribuées.

L’outil Simulations géostatistiques gaussiennes permet deux types de simulation :

La simulation conditionnelle respecte les valeurs de données (sauf si une erreur de mesure a été intégrée au modèle de krigeage). Certaines différences entre les valeurs mesurées et simulées des localisations d’échantillonnage peuvent se produire, car la simulation génère des valeurs aux centres des cellules de la grille, ce qui risque de ne pas correspondre exactement à la localisation des points d’échantillonnage. La simulation conditionnelle réplique également la moyenne, la variance et le semi-variogramme des données, en moyenne (la moyenne de plusieurs réalisations est calculée). Les surfaces simulées ressemblent à des cartes de prévision de krigeage, mais présentent une variabilité spatiale accrue.
La simulation non conditionnelle ne respecte pas les valeurs de données, mais réplique la moyenne, la variance et le semi-variogramme des données (en moyenne). Les surfaces simulées présentent une structure spatiale qui est similaire à celle d’une carte avec krigeage, mais des zones à valeur élevée et inférieure ne seront pas nécessairement générées lorsque des valeurs de données élevée et inférieure sont présentes dans les données en entrée.

Exemples de simulation

Exemple 1

La qualité de l’air est une préoccupation importante dans de nombreuses villes et régions du monde entier. Aux États-Unis, la ville de Los Angeles est connue pour sa mauvaise qualité de l’air et un vaste réseau de surveillance collecte des données sur l’ozone, les particules fines et d’autres polluants plusieurs fois par jour. Ces données sur la qualité de l’air indiquent la concentration de chaque polluant, ainsi que le nombre de jours par an où un polluant a dépassé les normes locales et fédérales autorisées (https://www.arb.ca.gov/html/ds.htm). Même si les deux mesures permettent d’évaluer partiellement les risques d’exposition dans une zone en particulier, le nombre de jours par an où les seuils critiques ont été dépassés peut servir à créer des cartes interpolées qui illustrent les probabilités de dépassement des seuils.

Dans cet exemple, le nombre de jours où le seuil d’ozone dans l’État de Californie a été dépassé dans chaque station de surveillance au cours de l’année 2005 a été étudié et un semi-variogramme a été ajusté selon ces données. La simulation conditionnelle a permis de produire plusieurs réalisations. Chaque réalisation est une carte du nombre de jours où le polluant a dépassé la valeur seuil au cours de l’année 2005. Les réalisations ont ensuite été post-traitées pour estimer les probabilités de dépassement du seuil décrété par l’État par le polluant plus de 10, 20, 30, 40, 50, 60 et 70 jours par an (la valeur maximale enregistrée par une station a été de 80 jours pendant lesquels le seuil a été dépassé). L’animation ci-dessous montre les cartes générées pour l’ozone dans le SCAB (South Coast Air Basin), qui intègre Los Angeles et les villes intérieures. La qualité de l’air à proximité de la côte est nettement meilleure que dans les zones intérieures, principalement parce que les vents dominants circulent d’ouest en est dans cette région.

Ce type de carte est utile pour prioriser les politiques de réduction des émissions, pour étudier les relations entre la santé et la qualité environnementale et pour aider la population à choisir son lieu de résidence en fournissant des informations qui permettent de répondre à des questions comme Quel taux de pollution suis-je prêt à tolérer ? et Quel taux de pollution dois-je tolérer pour vivre dans cet endroit ?

Exemple 2

De nombreuses applications recourent aux variables dépendantes spatialement en entrée pour des modèles (par exemple, la simulation de flux dans l’industrie pétrolière). Dans ce cas, l’incertitude des résultats du modèle est évaluée en produisant plusieurs simulations comme suit :

1. Un grand nombre de réalisations également probables sont simulées pour la variable.
2. Le modèle (généralement fonction de transfert) est exécuté avec la variable simulée en entrée.
3. Le modèle s’exécute sous forme synthétisée pour évaluer la variabilité de sa sortie.

Simulation utilisée pour évaluer l’incertitude dans la sortie du modèle

Les statistiques de la sortie fournissent une mesure de l’incertitude du modèle.

L’étude menée pour ouvrir le centre de stockage de déchets transuraniens (WIPP) dans le sud-est du Nouveau-Mexique illustre de manière concrète la procédure décrite ci-dessus (https://www.wipp.energy.gov/).

Des scientifiques ont évalué les dépôts salins à plus de 2 000 pieds de profondeur sous la surface de la Terre comme lieu de stockage potentiel des déchets. Cependant, les dépôts reposant juste au-dessus d’un aquifère, la question du transport éventuel de déchets s’échappant du site par des nappes phréatiques s’est posée. Pour démontrer que le WIPP était un lieu sûr, les scientifiques ont dû convaincre l’agence américaine de protection de l’environnement (EPA) que la vitesse d’écoulement de la nappe phréatique à travers l’aquifère est assez faible pour que la contamination de l’environnement immédiat soit extrêmement improbable.

Les valeurs de transmissivité déterminent le débit d’écoulement des eaux à travers un aquifère. Plusieurs valeurs ont été générées pour l’aquifère situé à proximité du site WIPP proposé. Le débit de la nappe phréatique est modélisé à l’aide d’équations hydrologiques qui sont résolues numériquement et qui nécessitent des valeurs de transmissivité prévues sur une grille régulière. Si des estimations de krigeage de la transmissivité étaient utilisées, les valeurs seraient basées sur des moyennes (pondérées) des valeurs de transmissivité voisines et le temps de trajet de la nappe phréatique modélisé reposerait uniquement sur ces valeurs moyennes. Comme le krigeage produit des cartes lissées, les zones présentant des valeurs de transmissivité extrêmement élevées et basses seraient absentes des surfaces interpolées. Pour analyser correctement les risques, les scientifiques ont dû tenir compte du pire scénario possible. Ils ont par conséquent généré une distribution entière des probabilités des valeurs de temps de trajet. Cela leur a permis d’utiliser les valeurs situées à l’extrémité inférieure des distributions du temps de trajet de la nappe phréatique (correspondant à une vitesse d’écoulement extrêmement élevée), et non les temps de trajet moyens, pour évaluer la pertinence du WIPP. Des simulations conditionnelles ont permis de produire les distributions des probabilités des valeurs de temps de trajet.

L’éventualité que les déchets puissent être transportés par des nappes phréatiques n’était que l’un des nombreux scénarios à facteur humain pris en compte pour évaluer la pertinence du WIPP. Une analyse complexe des risques a joué un grand rôle dans l’évaluation du WIPP pour l’élimination des déchets nucléaires et pour convaincre le public et les législateurs de sa pertinence. Au terme de 20 années d’études scientifiques, de débats publics et de luttes administratives, le WIPP a commencé à fonctionner le 26 1999.

Combien de réalisations générer ?

Les résultats des études de simulation ne devraient pas dépendre du nombre de réalisations générées. Pour déterminer le nombre de réalisations à générer, vous pouvez comparer les statistiques de différents nombres de réalisations dans une petite partie du domaine de données (un sous-ensemble est utilisé pour gagner du temps) Les statistiques tendent vers une valeur fixe à mesure que le nombre de réalisations décroît. Les statistiques examinées dans l’exemple ci-dessous sont les premier et troisième quartiles, qui ont été calculés pour une petite région (sous-ensemble) de surfaces d’élévation simulées (en pieds au-dessus du niveau de la mer) pour l’État du Wisconsin aux États-Unis.

Le diagramme supérieur présente des fluctuations d’élévation pour les 100 premières réalisations. Le diagramme inférieur présente des résultats pour 1 000 réalisations.

Effet du nombre de simulations sur les valeurs de paramètre en sortie ; diagramme des 100 premières simulations

Dans ce cas, les valeurs se stabilisent après environ 20 simulations. Dans de nombreux cas, l’exécution d’au moins 100 réalisations est nécessaire pour obtenir suffisamment d’informations et déterminer la moyenne et les probabilités de dépassement d’une valeur de seuil. Un nombre plus important de réalisations permet d’obtenir des degrés plus élevés de certitude dans les résumés statistiques et les variables en sortie, mais exige un temps de calcul plus important.

Pour en savoir plus sur l’implémentation de la simulation géostatistique gaussienne dans ArcGIS, consultez la section d’aide Fonctionnement de l’outil Simulations géostatistiques gaussiennes.

Bibliographie

Deutsch, C.V. et A. G. Journel. 1998. GSLIB Geostatistical Software Library and User's Guide. 2^nd Ed. Oxford University Press, New York, pages 119–122.

Goovaerts, P. 1997. Geostatistics for Natural Resource Evaluation. Oxford University Press, New York, pages 369–376.

Vous avez un commentaire à formuler concernant cette rubrique ?