Hauptkonzepte der geostatistischen Simulation

Mit der Geostatistical Analyst-Lizenz verfügbar.

Simulationskonzepte

Simulation wird allgemein als der Prozess definiert, bei dem die Realität mithilfe eines Modells repliziert wird. In der Geostatistik ist eine Simulation die Realisierung einer Zufallsfunktion (Oberfläche), die über dieselben statistischen Eigenschaften verfügt wie die Beispieldaten, mit denen sie generiert wurde (gemessen anhand von Mittelwert, Varianz und Semivariogramm). Die geostatistische Gauß-Simulation (GGS) genauer gesagt, eignet sich für kontinuierliche Daten. Dabei wird davon ausgegangen, dass die Daten oder eine Transformation der Daten einer Normalverteilung (Gaußkurve) folgen. Die Hauptannahme, die der GGS zugrunde liegt, ist, dass die Daten stationär sind – der Mittelwert, die Varianz und die räumliche Struktur (Semivariogramm) ändern sich in der räumlichen Domäne der Daten nicht. Eine weitere Grundannahme der GGS ist, dass es sich bei der modellierten Zufallsfunktion um eine multivariate Gauß'sche Zufallsfunktion handelt.

Die GGS bietet gegenüber der Kriging-Methode einen Vorteil. Da die Kriging-Methode auf einem lokalen Durchschnitt der Daten basiert, produziert sie eine geglättete Ausgabe. Mit der GGS andererseits lässt sich die lokale Variabilität besser darstellen, da sie die lokale Variabilität, die beim Kriging-Verfahren verloren geht, wieder zu den generierten Oberflächen hinzufügt. Die Variabilität, die dem vorhergesagten Wert mit den GGS-Realisierungen an einer bestimmten Position hinzugefügt wird, hat einen Mittelwert von Null, sodass der Durchschnitt vieler GGS-Realisierungen zu der Kriging-Vorhersage tendiert. Dieses Konzept ist in der folgenden Abbildung dargestellt. Unterschiedliche Realisierungen sind als Stapel von Ausgabe-Layern dargestellt, und die Verteilung der Werte an einer bestimmten Koordinate folgt der Gaußkurve mit einem Mittelwert, der dem per Kriging geschätzten Wert für diese Position entspricht, und einer Verteilung, die durch die Kriging-Varianz an dieser Position vorgegeben ist.

Variabilität der für eine bestimmte Position simulierten Werte
Variabilität der für eine bestimmte Position simulierten Werte

Mit dem Werkzeug Werte in Tabelle extrahieren lassen sich die Daten für die Kurve generieren, die in der Abbildung oben dargestellt ist. Außerdem unterstützt es die Nachbearbeitung der durch die GGS generierten Ausgabe.

Die vermehrte Verwendung der GGS folgt einem Trend in der geostatistischen Praxis, bei der vielmehr die Charakterisierung der Unsicherheiten bei Entscheidungs- und Risikoanalysen betont wird, als für jede Position ohne Messwerte die beste unverzerrte Vorhersage zu generieren (wie es beim Kriging der Fall ist), was sich besser eignet, um globale Trends in den Daten darzustellen (Deutsch und Journel 1998, Goovaerts 1997). Die Simulation wirkt außerdem dem Problem der bedingten Verzerrung in per Kriging generierten Schätzungen entgegen (in Bereichen mit hohen Werten werden in der Regel zu niedrige Werte vorhergesagt, während in Bereichen mit niedrigen Werten in der Regel zu hohe Werte vorhergesagt werden).

Bei der geostatistischen Simulation werden mehrere, gleichermaßen wahrscheinliche Darstellungen der räumlichen Verteilung des untersuchten Attributs generiert. Diese Darstellungen bieten die Möglichkeit, die Unsicherheit für Positionen ohne Messwerte gemeinsam im Raum anstatt jeweils einzeln (wie bei der Kriging-Varianz) zu messen. Außerdem ist die Kriging-Varianz in der Regel unabhängig von den Datenwerten und ist im Allgemeinen kein Maß für die Schätzgenauigkeit. Andererseits lässt sich die Schätzgenauigkeit messen, indem Verteilungen der geschätzten Werte für Positionen ohne Messwerte mit Hilfe mehrerer simulierter Realisierungen erstellt werden, die aus einem einfachen Kriging-Modell unter Verwendung von Eingabedaten generiert werden, die normal verteilt sind (d. h. Daten, die entweder normal verteilt sind oder mithilfe einer Z-Transformation oder einer anderen Transformationsart transformiert worden sind). Diese Verteilung der Unsicherheit ist wichtig für die Risikobewertung und die Entscheidungsanalyse, für die die geschätzten Datenwerte verwendet werden.

Bei der GGS wird angenommen, dass die Daten normal verteilt sind, was in der Praxis eher selten der Fall ist. Es wird eine normale Z-Transformation an den Daten durchgeführt, sodass sie einer Standardnormalverteilung folgen (Mittelwert = 0 und Varianz = 1). Anschließend werden Simulationen an diesen normal verteilten Daten ausgeführt, und die Ergebnisse werden zurücktransformiert, um eine simulierte Ausgabe in den Originaleinheiten zu erhalten. Wenn Simple Kriging an normal verteilten Daten durchgeführt wird, führt dies zu einer Kriging-Schätzung und -Varianz, durch welche die bedingte Verteilung an jeder Position in dem Untersuchungsgebiet vollständig definiert wird. Auf diese Weise ist es möglich, simulierte Realisierungen der Zufallsfunktion (der unbekannten Oberfläche ohne Werte) darzustellen, wenn an jeder Position nur diese beiden Parameter bekannt sind. Außerdem ist dies der Grund dafür, dass die GGS auf einem Simple Kriging-Modell und normal verteilten Daten basiert.

Mit dem Werkzeug "Geostatistische Gauß-Simulationen" sind zwei Arten von Simulationen möglich:

  • Bei der bedingten Simulation werden die Datenwerte berücksichtigt (es sei denn, das Kriging-Modell enthält einen Messfehler). Es kann bei Beispielpositionen zu einigen Unterschieden zwischen gemessenen und simulierten Werten kommen, da bei der Simulation Werte in den Gitterzellenmittelpunkten generiert werden, die u. U. der Position der Referenzpunkte nicht genau entsprechen. Bei der bedingten Simulation werden darüber hinaus der Mittelwert, die Varianz und das Semivariogramm der Daten im Durchschnitt repliziert (d. h. über viele Realisierungen wird der Durchschnitt ermittelt). Die simulierten Oberflächen sehen aus wie Kriging-Vorhersagekarten, aber mit mehr räumlicher Variabilität.
  • Bei der unbedingten Simulation werden die Datenwerte nicht berücksichtigt. Wohl aber werden der Mittelwert, die Varianz und das Semivariogramm der Daten (im Durchschnitt) repliziert. Die simulierten Oberflächen besitzen eine räumliche Struktur, die einer per Kriging erstellten Karte ähnelt, aber es ergeben sich nicht notwendigerweise Bereiche mit hohen und niedrigen Werten, wo in den Eingabedaten hohe und niedrige Datenwerte vorliegen.

Simulationsbeispiele

Beispiel 1

Die Luftqualität ist in vielen Städten und Regionen weltweit ein wichtiger Faktor für die Gesundheit. In den USA ist Los Angeles bekannt für seine schlechte Luftqualität und ein umfangreiches Überwachungsnetzwerk erfasst mehr als einmal täglich Daten zu Ozon, Feinstaub und anderen Schadstoffen. Diese Daten zur Luftqualität werden als Konzentration der einzelnen Schadstoffe und Anzahl an Tagen angegeben, an denen jeder Schadstoff die einzel- und bundesstattlichen Luftqualitätsgrenzwerte überschritten hat (https://www.arb.ca.gov/html/ds.htm). Beide Messwerte ermöglichen eine teilweise Risikoeinschätzung darüber, schlechter Luftqualität ausgesetzt zu sein, wenn man in einem bestimmten Gebiet lebt. Darüber hinaus kann die Anzahl der Tage im Jahr, an denen die kritischen Schwellenwerte überschritten wurden, verwendet werden, um interpolierte Karten zu erstellen, von denen die Wahrscheinlichkeit für ein Überschreiten des Schwellenwertes abgelesen werden kann.

In diesem Beispiel wurde die Anzahl der Tage untersucht, an denen der Ozonschwellenwert im US-Bundesstaat Kalifornien im Jahr 2005 an den einzelnen Messstationen überschritten wurde, und es wurde ein Semivariogramm daran angepasst. Mithilfe der bedingten Simulation wurden mehrere Realisierungen erstellt. Jede Realisierung ist eine Karte der Anzahl an Tagen, an denen der Schadstoff den Schwellenwert im Jahr 2005 überschritten hat. Anschließend wurden die Realisierungen nachbearbeitet, um die Wahrscheinlichkeit zu schätzen, mit der der Schadstoff den Schwellenwert des US-Bundesstaates an mehr als 10, 20, 30, 40, 50, 60 und 70 Tagen pro Jahr überschritten hat (das von einer Messtation erfasste Maximum lag bei 80 Tagen, an denen der Schwellenwert überschritten wurde). Die folgende Animation zeigt die daraus resultierenden Karten für Ozon im Lufteinzugsgebiet South Coast Air Basin, zu dem Los Angeles und Städte im Landesinneren gehören. Die Luftqualität in der Nähe der Küste ist deutlich besser als in den Gebieten im Landesinneren, was hauptsächlich an dem Wind liegt, der in dieser Region vorwiegend von Westen nach Osten bläst.

Karten wie diese sind hilfreich bei der Priorisierung von Abhilfestrategien, bei der Untersuchung der Beziehung zwischen Gesundheit und Umweltqualität und für die Bevölkerung bei der Entscheidung darüber, wo sie leben möchte, denn sie liefern Informationen, die ihnen bei der Beantwortung ihrer Fragen helfen, wie z. B. "Wie viel Luftverschmutzung bin ich bereit zu ertragen?" und "Wie viel Luftverschmutzung muss ich ertragen, wenn ich in einem bestimmten Gebiet leben möchte?".

Ozonwertüberschreitung an 10–70 Tagen.
Ozonwertüberschreitung an 10–70 Tagen.

Beispiel 2

Es gibt viele Anwendungen, in denen räumlich abhängige Variablen als Eingaben für Modelle verwendet werden (z. B. Fließsimulation in der Erdöltechnik). In diesen Fällen wird die Unsicherheit in den Ergebnissen des Modells bewertet, indem mit Hilfe des folgenden Verfahrens eine Reihe von Simulationen generiert wird:

  • 1. Für die Variable wird eine große Anzahl an gleichermaßen wahrscheinlichen Realisierungen simuliert.
  • 2. Das Modell (allgemein als Transferfunktion bezeichnet) wird unter Verwendung der simulierten Variablen als Eingabe ausgeführt.
  • 3. Die Modellausführungen werden zusammengefasst, um die Variabilität in der Ausgabe des Modells zu bewerten.
Zur Bewertung der Unsicherheit in der Modellausgabe verwendete Simulation
Zur Bewertung der Unsicherheit in der Modellausgabe verwendete Simulation

Die Statistik der Ausgabe dient als Maß für die Unsicherheit des Modells.

Ein reales Beispiel des oben beschriebenen Verfahrens ist die Studie, die durchgeführt wurde, um das Waste Isolation Pilot Plant (WIPP) im Südosten von New Mexico als Endlager für radioaktive Abfälle zu erschließen (https://www.wipp.energy.gov/).

Wissenschaftlich haben Salzlagerstätten in einer Tiefe von mehr als 600 Metern unter der Erde als potenzielles Lager für den Abfall untersucht. Die Lagerstätten liegen jedoch genau über einem Grundwasserleiter, und es gab Bedenken, dass möglicherweise aus dem Lager austretende Abfälle über das Grundwasser abgeleitet werden könnten. Um dazulegen, dass das WIPP sicher ist, mussten die Wissenschaftler die US-Umweltschutzbehörde davon überzeugen, dass die Geschwindigkeit, mit der das Grundwasser durch den Grundwasserleiter fließt, so gering ist, dass eine Kontamination der Umgebung extrem unwahrscheinlich ist.

Anhand von Transmissivitätswerten wird die Geschwindigkeit des Wasserflusses durch einen Grundwasserleiter bestimmt, und es wurden mehrere solcher Werte für den Grundwasserleiter in der Nähe der vorgeschlagenen WIPP-Lagerstätte erhoben. Der Grundwasserfluss wird mithilfe hydrologischer Gleichungen modelliert, die numerisch berechnet werden und Transmissivitätswerte erfordern, die anhand eines regelmäßigen Gitternetzes vorhergesagt werden. Wenn Kriging-Schätzungen hinsichtlich der Transmissivität verwendet würden, würden die Transmissivitätswerte auf den (gewichteten) Durchschnittswerten der benachbarten Transmissivitätswerte basieren, und die für die Bewegung des Grundwassers modellierte Zeit würde nur auf diesen Durchschnittswerten basieren. Da die Kriging-Methode geglättete Karten produziert, würden Bereiche mit extrem hohen und extrem niedrigen Transmissivitätswerten in den interpolierten Oberflächen fehlen. Um das Risiko richtig analysieren zu können, mussten die Wissenschaftler das denkbar schlechteste Szenario zugrunde legen, sodass sie eine vollständige Wahrscheinlichkeitsverteilung der Bewegungszeitwerte erstellen mussten. Damit konnten sie die unteren Werte der Zeitverteilung der Grundwasserbewegung (die einer extrem hohen Fließgeschwindigkeit entsprechen) und nicht die durchschnittlichen Bewegungszeiten verwenden, um die Eignung des WIPP zu bewerten. Zur Erstellung der Wahrscheinlichkeitsverteilung der Bewegungszeitwerte wurden bedingte Simulationen verwendet.

Die Möglichkeit, dass Abfallprodukte durch das Grundwasser abtransportiert werden können, war lediglich eines von vielen Szenarien mit Risiken für den Menschen, die bei der Bewertung der Eignung des WIPP berücksichtigt wurden. Eine umfassende Risikoanalyse war wichtiger Bestandteil der Bewertung des WIPP als Atommülllager und dabei, die Regulierungsbehörden und die staatlichen Aufsichtsbehörden von seiner Eignung zu überzeugen. Nach mehr als 20 Jahren wissenschaftlicher Studien, Öffentlichkeitsbeteiligung und Auseinandersetzungen mit Regulierungsbehörden ging das WIPP am 26. März 1999 in Betrieb.

Wie viele Realisierungen sollten generiert werden?

Die Ergebnisse der Simulationsstudien sollten nicht davon abhängig gemacht werden, wie viele Realisierungen generiert wurden. Eine Möglichkeit festzustellen, wie viele Realisierungen generiert werden sollten, besteht darin, die Statistiken zu unterschiedlich vielen Realisierungen in einem kleinen Teil der Datendomäne zu vergleichen (um Zeit zu sparen, wird eine Teilmenge verwendet). Die Statistiken tendieren mit zunehmender Anzahl an Realisierungen zu einem festgelegten Wert. Die im folgenden Beispiel untersuchten Statistiken sind das erste und das dritte Quartil, die für eine kleine Region (Teilmenge) von simulierten Höhenoberflächen (in Fuß über dem Meeresspiegel) für den US-Bundesstaat Wisconsin berechnet wurden.

Das obere Diagramm zeigt Höhenschwankungen bei den ersten 100 Realisierungen. Das untere Diagramm zeigt die Ergebnisse für 1000 Realisierungen.

Auswirkung der Anzahl der Simulationen auf die Ausgabeparameterwerte; Diagramm der ersten 100 Simulationen
Auswirkung der Anzahl der Simulationen auf die Ausgabeparameterwerte; Diagramm der ersten 100 Simulationen
Auswirkung der Anzahl der Simulationen auf die Ausgabeparameterwerte; Diagramm aus 1000 Simulationen
Auswirkung der Anzahl der Simulationen auf die Ausgabeparameterwerte; Diagramm aus 1000 Simulationen

In diesem Fall stabilisieren sich die Werte nach etwa 20 Simulationen. In vielen Fällen werden mindestens 100 Realisierungen ausgeführt, um ausreichende Informationen für die Ermittlung des Mittelwerts und der Wahrscheinlichkeit zu erhalten, dass ein Schwellenwert überschritten wird. Eine größere Anzahl an Realisierungen sorgt für ein höheres Maß an Sicherheit in der Summenstatistik und den Variablen der Modellausgaben, erfordert jedoch auch mehr Rechenzeit.

Nähere Informationen dazu, wie die "Geostatische Gauß-Simulation" in ArcGIS implementiert wurde, finden Sie im Hilfeabschnitt Funktionsweise des Werkzeugs "Geostatische Gauß-Simulationen".

Referenzen

Deutsch, C.V. und A. G. Journel. 1998. GSLIB Geostatistical Software Library and User's Guide. 2. Ausg. Oxford University Press, New York, Seiten 119–122.

Goovaerts, P. 1997. Geostatistics for Natural Resource Evaluation. Oxford University Press, New York, Seiten 369–376.