地球統計学的シミュレーションの重要な概念

Geostatistical Analyst のライセンスで利用可能。

シミュレーションの概念

シミュレーションは、モデルを使用して現実を再現するプロセスとして広く定義されます。 地球統計学におけるシミュレーションは、基になるサンプル データと同じ統計的特徴 (平均値、分散、セミバリオグラム) を持つランダム関数 (サーフェス) のリアライゼーションです。 さらに具体的には、ガウス地球統計学的シミュレーション (GGS) は連続データに適しており、データ (またはデータの変換) が正規 (ガウス) 分布していると仮定します。 GGS の背景にある主な仮定として、データは定常性であり、データの空間ドメインにおいて平均値、分散、空間構造 (セミバリオグラム) は変化しません。 GGS のもう 1 つの重要な仮定として、モデル化されるランダム関数は多変量ガウス ランダム関数です。

GGS はクリギングと比べて有利な点があります。 クリギングはデータの局所平均に基づくため、滑らかな出力になります。 これに対し、GGS では、クリギングで失われた局所的変動が生成サーフェスに再び追加されるため、局所的変動がより正確に表されます。 GGS リアライゼーションによって特定の位置における推定値に追加される変動性の平均値はゼロなので、多数の GGS リアライゼーションの平均をとるとクリギング推定法に近づく傾向があります。 以下の図にこの概念を示します。 さまざまなリアライゼーションが出力レイヤーの積み重ねとして表示され、特定の座標における値は、平均値がその位置でのクリギングによる推定値と等しく、その位置でのクリギング分散によって与えられる広がりを持つガウス分布になっています。

特定の位置でシミュレートされた値のばらつき
特定の位置でシミュレートされた値のばらつき

[抽出値 → テーブル (Extract Values To Table)] ツールを使用して、上の図に示すグラフのデータを生成するとともに、GGS によって生成された出力を後処理しています。

GGS の利用の増加は、地球統計学を扱う実務において、(データ内のグローバルなトレンドを示すのにより適したクリギングで行われるように) サンプルが未収集の各位置に最良の不偏推定値を生成するよりも、意思決定とリスク分析で不確実性の特性評価が重視されるという傾向に沿ったものとなっています (Deutsch and Journel 1998, Goovaerts 1997)。 シミュレーションはクリギングによる推定値での条件付きバイアスの問題 (値が大きいエリアは一般に過小評価され、値が小さいエリアは一般に過大評価される) も克服します。

地球統計学的シミュレーションでは、調査対象の属性の空間分布の、等しい確率で起こりうる状態の表現が複数生成されます。 これらの表現は、(クリギング分散で測定されるように) 1 つずつではなく、空間内のサンプル未収集のすべての位置について不確実性を測定するための手段を提供します。 さらに、クリギング分散は通常はデータ値から独立しており、推定確度の尺度として使用できません。 これに対し、推定確度は、正規分布している入力データ (つまり、正規分布しているか、正規スコア変換またはその他のタイプの変換を使用して変換されたデータ) を使用して単純クリギング モデルから構築された複数のシミュレートされたリアライゼーションを使用してサンプル未収集の位置の推定値の分布を構築することで測定することができます。 このような不確実性の分布は、推定されたデータ値を用いるリスク評価や意思決定分析の重要な手がかりとなります。

GGS はデータが正規分布していることを前提としますが、実際にはこのようなことはめったにありません。 標準正規分布 (平均 = 0、分散 = 1) になるように、データに対して正規スコア変換が実行されます。 この正規分布したデータに対してシミュレーションが実行され、結果が逆変換されて元の単位でシミュレーションの出力が返されます。 正規分布データに対して単純クリギングを実行した場合、分析範囲内の各位置における条件付き分布を完全に定義するクリギングの推定値と分散が提供されます。 各位置でこの 2 つのパラメーターだけがわかれば、ランダム関数のシミュレートされたリアライゼーション (未知のサンプル収集済みサーフェス) を描画することができ、GGS が単純クリギング モデルと正規分布データに基づいているのはこれが理由です。

ガウス地球統計学的シミュレーション ツールを使用して次の 2 つのタイプのシミュレーションを実行できます。

  • 条件付きシミュレーションではデータ値がそのまま使用されます (クリギング モデルに測定誤差が含まれていない場合)。 シミュレーションではグリッドのセルの中心における値が生成され、これはサンプル ポイントの位置と完全に一致していないことがあるため、サンプル位置での測定値とシミュレートされた値は若干異なる場合があります。 さらに、条件付きシミュレーションでは、データの平均値、分散、セミバリオグラムが平均として再現されます (つまり、多数のリアライゼーションの平均)。 シミュレートされたサーフェスはクリギング推定マップと似ていますが、空間的変動性は大きくなります。
  • 条件なしシミュレーションではデータ値はそのまま使用されませんが、データの平均値、分散、セミバリオグラムが (平均として) 再現されます。 シミュレートされたサーフェスの空間構造はクリギングによるマップとよく似ていますが、入力データに高い値や低い値が存在する場所に必ずしも値が高いエリアや値が低いエリアが存在するわけではありません。

シミュレーションの例

例 1

世界中の多くの年や地域で大気質は健康上の重要な懸念事項となっています。 米国のロサンゼルスは大気質が低いことが知られており、大規模な監視ネットワークによってオゾン、PM、その他の汚染物質に関するデータが 1 日のうちに何回か収集されています。 この大気質データは、個々の汚染物質の濃度と、汚染物質が国および州が定める大気質基準 (https://www.arb.ca.gov/html/ds.htm) を上回った年間日数として報告されます。 どちらの尺度でも特定の地域で生活している人々の暴露リスクを部分的に評価することは可能ですが、臨界閾値を超えた年間日数を使用することで、閾値を超える確率を示す内挿マップを作成することができます。

この例では、2005 年に各測定局でカリフォルニア州のオゾンの閾値を超えた日数が調査され、セミバリオグラムがこれに適合されています。 条件付きシミュレーションを使用して複数のリアライゼーションが生成されています。 各リアライゼーションは、2005 年に汚染物質が閾値を超えた年間日数のマップです。 これらのリアライゼーションが後処理され、年間に 10 日、20 日、30 日、40 日、50 日、60 日、および 70 日より多い日数で汚染物質が州の閾値を超えた確率が推定されています (いずれかの測定局で閾値を超えた日数の最大値は 80 日でした)。 以下のアニメーションは、南海岸大気盆地 (ロサンゼルスと内陸都市を含む) でのオゾンの結果マップを示しています。 この地域では主に西から東に向かって風が吹くため、海岸付近の大気質は内陸部に比べて非常に良好です。

このようなマップには、許容する汚染はどの程度で、その地域で生活するためにはどの程度の汚染を許容する必要があるかといった疑問に答える際に役立つ情報が含まれており、健康と環境品質の関係について調査し、どこで生活すべきかについて人々が意思決定を行う際の低減戦略の優先順位付けに利用することができます。

10 ~ 70 日間のオゾンの超過。
10 ~ 70 日間のオゾンの超過。

例 2

空間的な従属変数がモデルの入力として使用される応用が多数あります (石油工学のフロー シミュレーションなど)。 これらのケースでは、以下の手順に従って多数のシミュレーションを生成することで、モデルの結果に含まれる不確実性が評価されます。

  • 1. その変数について、等しい確率で起こりうる多数のリアライゼーションがシミュレートされます。
  • 2. シミュレートされた変数を入力として使用してモデル (一般用語では伝達関数) が実行されます。
  • 3. モデルの実行が集計されて、モデルの出力でのばらつきが評価されます。
モデルの出力での不確実性の評価に使用されるシミュレーション
モデルの出力での不確実性の評価に使用されるシミュレーション

出力の統計情報はモデルの不確実性の尺度を提供します。

前述の手法の実世界の例として、ニューメキシコ州南東部にある超ウラン廃棄物の貯蔵施設である Waste Isolation Pilot Plant (WIPP) (https://www.wipp.energy.gov/) を稼働させるために実施した調査が挙げられます。

科学者らは、廃棄物貯蔵施設の候補地として地表から 2,000 フィート以上の深さに存在する塩鉱床を評価していました。 しかしながら、鉱床は帯水層のすぐ上にあり、貯蔵施設から漏れ出した汚染物質が地下水によって運ばれる懸念がありました。 WIPP が安全であることを示すため、科学者らは、地下水が帯水層を通過する速度は遅いため周囲の環境が汚染される可能性は非常に低いことを米環境保護局 (EPA) に納得してもらう必要がありました。

水が帯水層を通る速度は透水係数の値によって決まり、WIPP の候補地付近の帯水層についていくつかの値が取得されました。 水理計算式を使用して地下水の流れがモデル化されて数値計算されますが、これには規則的なグリッドで推定された透水係数の値が必要です。 クリギングによる透水係数の推定値を使用した場合、透水係数の値は近接する位置における透水係数の値の (加重) 平均に基づき、モデル化された地下水の移動時間はこれらの平均値のみに基づきます。 クリギングでは滑らかなマップが生成されるため、透水係数が非常に高いエリアと非常に低いエリアは内挿サーフェスから除外されています。 リスクを正確に分析するため、科学者らは最悪のシナリオを考慮する必要があり、したがって移動時間値の確率分布全体を生成する必要がありました。 ここで、地下水の平均移動時間ではなく、移動時間の分布の下ヒゲ値 (流速が非常に高い地点) を使用して WIPP の適格性を評価することができました。 条件付きシミュレーションを使用して移動時間値の確率分布が生成されました。

廃棄物が地下水によって運ばれる確率は、WIPP の適格性を評価する際に考慮されたさまざまな人的リスクのシナリオの 1 つにすぎません。 核廃棄物処理について WIPP を評価し、政府規制当局や一般市民にその適格性について説得するにあたっては、複雑なリスク分析が大きな役割を果たしました。 20 年以上にわたる科学的調査、住民参加、法整備を経た後、WIPP は 1999 年 3 月 26 日に稼働を開始しました。

リアライゼーションはいくつ生成すべきか?

シミュレーション調査の結果が生成されたリアライゼーションの数に依存してはなりません。 生成すべきリアライゼーションの数を決定する 1 つの方法としては、リアライゼーションの数を変えてデータ ドメインの小さな部分で統計情報を比較します (時間を節約するためにサブセットを使用します)。 リアライゼーションの数が増えるに従い、統計情報は一定の値に近づきます。 以下の例では第 1 四分位と第 3 四分位の統計情報が調査されています。これは米国ウィスコンシン州の標高サーフェス (海抜フィート) をシミュレートし、その小さな領域 (サブセット) について計算したものです。

上のグラフには、最初の 100 回のリアライゼーションでの標高の変動が示されています。 下のグラフには 1,000 回のリアライゼーションでの結果が示されています。

出力パラメーター値へのシミュレーション数の影響 - 最初の 100 回のシミュレーションのグラフ
出力パラメーター値へのシミュレーション数の影響 - 最初の 100 回のシミュレーションのグラフ
出力パラメーター値へのシミュレーション数の影響 - 1,000 回のシミュレーションのグラフ
出力パラメーター値へのシミュレーション数の影響 - 1,000 回のシミュレーションのグラフ

この場合、約 20 回のシミュレーションの後、値が安定化しています。 多くの場合、平均値および閾値を超える確率を判断するための十分な情報を提供するためには、少なくとも 100 回のリアライゼーションを実行する必要があります。 リアライゼーションの数が増えるにしたがってサマリー統計情報とモデル出力変数の確度は向上しますが、計算時間が長くなります。

ArcGIS へのガウス地球統計学的シミュレーションの実装の詳細については、「ガウス地球統計学的シミュレーションの仕組み」のヘルプ セクションをご参照ください。

参考文献

Deutsch, C.V., and A. G. Journel. 1998. GSLIB Geostatistical Software Library and User's Guide. 2nd Ed. Oxford University Press, New York, pages 119–122.

Goovaerts, P. 1997. Geostatistics for Natural Resource Evaluation. Oxford University Press, New York, pages 369–376.