経験ベイズ クリギングとは?

Geostatistical Analyst のライセンスで利用可能。

はじめに

経験ベイズ クリギング (EBK) は、有効なクリギング モデルを構築するうえで最も難解な側面を自動化する地球統計的内挿法です。 Geostatistical Analyst の他のクリギング方法では、正確な結果を得るためにパラメーターを手動で調整する必要がありますが、EBK ではサブセット化とシミュレーションのプロセスを通じて、これらのパラメーターを自動的に計算します。

また、経験ベイズ クリギングは、基となるセミバリオグラムの推定によって生じる誤差を考慮する点で、他のクリギング方法と異なります。 他のクリギング方法は、既知のデータの位置からセミバリオグラムを計算し、この単一のセミバリオグラムを使用して不明な位置の推定を行います。このプロセスは、推定されたセミバリオグラムが内挿領域の真のセミバリオグラムであることを暗黙的に仮定しています。 他のクリギング方法では、セミバリオグラムの推定の不確実性を考慮しないため、推定の標準誤差が過小評価されます。

経験ベイズ クリギングは、[地球統計ウィザード] 内、およびジオプロセシング ツールとして提供されています。

メリットとデメリット

経験ベイズ クリギングは、他の内挿方法と比較して、多くのメリットとデメリットがあります。

メリット

  • 最小限の対話形式のモデリングのみで使用できます。
  • 推定値の標準誤差は、他のクリギング方法よりも正確です。
  • 適度に非定常なデータに対して正確に推定できます。
  • 小規模なデータセットに対して、他のクリギング方法よりも正確です。

デメリット

  • 入力ポイントの数、サブセット サイズ、オーバーラップ ファクターの増加に伴い、処理時間が急増します。 また、特に [セミバリオグラム モデル タイプ]K-ベッセルまたは K-ベッセル トレンド除去を選択した場合、変換を適用することでも処理時間が増加します。 これらのパラメーターについては、このトピックの以降のセクションで説明します。
  • 他のクリギング方法に比べて、特にラスターへの出力時の処理が遅くなります。
  • コクリギングおよび異方性の補正を行うことはできません。
  • 対数経験変換は、特に外れ値に対してセンシティブです。 外れ値を含むデータにこの変換を使用すると、入力ポイントの値よりも数桁大きい (または小さい) 推定値が得られることがあります。 このパラメーターについては、以下の変換セクションで説明します。

セミバリオグラムの推定

他のクリギング方法 (加重最小二乗法を使用する方法) とは異なり、EBK のセミバリオグラム パラメーターは制限付き最尤法 (REML) を使用して推定されます。 大規模なデータセットに対する REML の計算上の制限事項から、入力データは指定したサイズの重複するサブセット (デフォルトではサブセットあたり 100 ポイント) に最初に分割されます。 各サブセットで、セミバリオグラムは次のように推定されます。

  1. サブセット内のデータからセミバリオグラムが推定されます。
  2. このセミバリオグラムをモデルとして使用し、新しいデータがサブセット内の各入力位置で無条件にシミュレートされます。
  3. 新しいセミバリオグラムがシミュレート済みデータから推定されます。
  4. ステップ 2 とステップ 3 が指定された回数分、繰り返されます。 繰り返すたびに、ステップ 1 で推定されたセミバリオグラムを使用して入力位置の新しいデータ セットがシミュレートされ、シミュレート済みデータを使用して新しいセミバリオグラムが推定されます。

このプロセスにより、各サブセットに対して多数のセミバリオグラムが作成され、これらをまとめてプロットすることで、密度によって濃淡が付けられたセミバリオグラムの経験分布が得られます (青色が濃いほど、その領域を通過するセミバリオグラムが多いことを示しています)。 経験的セミバリアンスは青の十字で表されています。 また、以下に示すとおり、分布の中央値が赤色の実線で、25 番目と 75 番目のパーセンタイルを赤色の破線で色分けされています。

シミュレートされたセミバリオグラム
1 つのサブセットに対してシミュレートされたセミバリオグラムを示しています。

サブセットあたりのセミバリオグラムのシミュレーション回数はデフォルト 100 回で、これらの各セミバリオグラムはサブセットに対する真のセミバリオグラムの推定値です。

各推定位置に対して、推定値はポイントの近傍にあるセミバリオグラム分布から個々のセミバリオグラムをマージすることで生成された新しい経験セミバリオグラム分布を使用して計算されます。 たとえば、推定位置の 3 つのサブセット (検索近傍で指定) 内に近傍がある場合、推定値は 3 つの各サブセットからシミュレートされたセミバリオグラムを使用して計算されます。 各サブセットのセミバリオグラムは、推定値に相関する近傍の数によって重み付けされます。 このため、より多くの近傍に相関するサブセットが、より大きな影響を推定値に与えることができます。

[地球統計ウィザード] で経験ベイズ クリギングを実行する際、推定値の計算に使用されたサブセットを確認できます。 下の画像で、推定位置はプレビュー サーフェス上の十字線の中心です。 十字線の周りの小円は検索近傍で、重なり合う 2 つの大きなポリゴンは、推定値の計算に使用された 2 つのサブセットに含まれるポイントを示しています。 この例では、マップの中央のポイントが両方のサブセットに含まれています。 矢印で示されているボタンを使用して、これらのポリゴンのビジュアライゼーションをオンおよびオフにできます。

サブセットによる推定
推定値は隣接するサブセットから生成されます。

クリギング モデル

経験ベイズ クリギングは、組み込みのランダム関数をクリギング モデルとして使用する点で、Geostatistical Analyst の他のクリギング方法とは異なります。

他のクリギング モデルでは、プロセスは全体の平均 (または指定したトレンド) に従い、この平均を中心に個別のばらつきがあることを前提としています。 乖離が大きい場合は平均値に寄せられるため、値が大きく乖離することはありません。 ただし、EBK は全体の平均への傾向を前提としていないため、乖離が大きい場合、その乖離は同じ確率で増大または減少します。 したがって、組み込みのランダム関数は、本質的にデータの傾向を補正します。

セミバリオグラム モデル

特定の距離 h に対して、経験ベイズ クリギングは次のセミバリオグラムをサポートします。

  • 累乗
    • γ(h)= ナゲット + b|h|α
  • リニア
    • γ(h)= ナゲット + b|h|
  • Thin Plate スプライン
    • γ(h)= ナゲット + b|h2|*ln(|h|)

ナゲットと b (傾斜) は正の値、α (累乗) は 0.25 ~ 1.75 である必要があります。 これらの制限事項の下、REML を使用してパラメーターが推定されます。 関数に上限が存在しないため、これらのセミバリオグラム モデルにはレンジ パラメーターまたはシル パラメーターが存在しません。

EBK では、各位置で多くのセミバリオグラムを推定するため、パラメーター推定値の経験分布を解析できます。 [ナゲット] タブ、[傾斜] タブ、または [累乗] タブをクリックすると、関連付けられたパラメーターの分布が表示されます。 次の図は、前の図で示したシミュレート済みセミバリオグラムのセミバリオグラム パラメーターの分布を示しています。

ナゲット、傾斜、および累乗の分布を示します。
ナゲット、傾斜、および累乗の分布

プレビュー サーフェス上の別の位置をクリックすると、新しい位置のセミバリオグラムの分布とセミバリオグラム パラメーターの分布が表示されます。 データ ドメイン全体で分布が大きく変化しない場合、データがグローバルに定常であることを示しています。 一般的に分布はデータ ドメイン全体で滑らかに変化しますが、短距離で分布に大きな変化が見られる場合は、[オーバーラップ ファクター] の値を増やすことで分布の遷移を滑らかにすることができます。

注意:

以下の変換セクションで説明されているように、変換を適用すると、クリギング モデルが組み込みのランダム関数から単純クリギング モデルに変化し、複数のセミバリオグラムモデルが追加で使用できるようになります。

変換

経験ベイズ クリギングでは、乗法的スキュー正規スコア変換を使用でき、2 つの基本分布 (経験的および対数経験) を選択できます。 対数経験変換では、すべてのデータ値が正の値である必要があり、これにより、すべての推定値も正の値になります。 この変換は、負の値にならないデータ (降雨量など) に適しています。

変換が適用された場合、組み込みのランダム関数の代わりに単純クリギング モデルが使用されます。 これらの変化により、パラメーターの分布は [ナゲット][部分シル]、および [レンジ] に変化します。

[セミバリオグラム タイプ]K-ベッセルまたは K-ベッセル トレンド除去を選択すると、さらに K-ベッセルの [形状] パラメーターのグラフが表示されます。 さらに [変換] タブも開き、適合された変換の分布が各シミュレーションに対して 1 つずつ表示されます。 [セミバリオグラム] タブと同様に、変換分布が密度で色分けされ、分位数ラインが表示されます。

ナゲット、部分シル、レンジ、および変換の分布を示します。
ナゲット、部分シル、レンジ、および変換の分布

セミバリオグラム

すべての地球統計的方法は、遠く離れた場所にある物よりも近接している物のほうが類似性が高いとする空間的自己相関を前提としており、セミバリオグラムはこの類似性が距離に伴ってどのように減少するかを定義しています。 一部のセミバリオグラム (例: 指数) は、類似性が急減することを前提としています。 一方、Whittle セミバリオグラム モデルは、類似性が緩やかに減少することを前提としています。 ナゲット、レンジ、およびシルが同じ場合でも、この 2 つのセミバリオグラムでは、類似性の減少の定義が如実に異なります。 信頼性の高い結果を得るには、現象の振舞いに最も近いセミバリオグラムを選択することが重要です。 使用できるセミバリオグラム モデルは、選択する変換によって異なります。

[変換]なしに設定した場合、次のセミバリオグラム モデルを使用できます。

  • 累乗 (デフォルト)
  • リニア
  • Thin Plate スプライン

[変換]経験または対数経験に設定した場合、次のセミバリオグラム モデルを使用できます。

  • 指数 (デフォルト)
  • 指数トレンド除去
  • Whittle
  • Whittle トレンド除去
  • K-ベッセル
  • K-ベッセル トレンド除去

3 つのトレンド除去セミバリオグラム モデルは、1 次トレンド除去が適用されることを除いて、トレンド除去しないモデルと同じです。 トレンドの除去は、計算速度にほとんど影響を与えません。

各モデルのメリットとデメリット

各セミバリオグラムにはメリットとデメリットがあります。 セミバリオグラムを選択する際は、計算時間とモデルの柔軟性 (幅広いデータセットに正確に対応できること) を考慮する必要があります。

  • 累乗
    • メリット: 処理が比較的速く、高い柔軟性を備えています。 一般的にパフォーマンスと正確度のバランスが取れた無難なオプションです。
    • デメリット: 他のオプションに比べて、柔軟性が低く、処理が遅くなります。
  • リニア
    • メリット: 非常に速く処理できます。
    • デメリット: 柔軟性に最も欠けています。
  • Thin Plate スプライン
    • メリット: 非常に速く処理できます。 強いトレンドが存在するときに最も効果的です。
    • デメリット: 特にトレンドが存在しないときの柔軟性に欠けています。
  • 指数
    • メリット: 柔軟な変換を実現します。 K-ベッセルおよび K-ベッセル トレンド除去よりも速く処理できます。
    • デメリット: セミバリオグラムの形状に対する柔軟性に欠けています。 累乗、リニア、および Thin Plate スプラインに比べて処理が遅くなります。
  • 指数トレンド除去
    • メリット: 柔軟な変換を実現します。 K-ベッセルおよび K-ベッセル トレンド除去よりも速く処理できます。 1 次トレンドを除去します。
    • デメリット: セミバリオグラムの形状に対する柔軟性に欠けています。 累乗、リニア、および Thin Plate スプラインに比べて処理が遅くなります。
  • Whittle
    • メリット: 柔軟な変換を実現します。 K-ベッセルおよび K-ベッセル トレンド除去よりも速く処理できます。
    • デメリット: セミバリオグラムの形状に対する柔軟性に欠けています。 累乗、リニア、および Thin Plate スプラインに比べて処理が遅くなります。
  • Whittle トレンド除去
    • メリット: 柔軟な変換を実現します。 K-ベッセルおよび K-ベッセル トレンド除去よりも速く処理できます。 1 次トレンドを除去します。
    • デメリット: セミバリオグラムの形状に対する柔軟性に欠けています。 累乗、リニア、および Thin Plate スプラインに比べて処理が遅くなります。
  • K-ベッセル
    • メリット: 最も高い柔軟性と精度を備えています。
    • デメリット: 計算時間が最も長くなります。
  • K-ベッセル トレンド除去
    • メリット: 最も高い柔軟性と精度を備えています。 1 次トレンドを除去します。
    • デメリット: 計算時間が最も長くなります。

セミバリオグラムの選択

ほとんどの場合、次の基準に基づいて、セミバリオグラムの選択を明確にしておく必要があります。

  • 時間をかけても最も正確な結果を得る必要がある場合は、K-ベッセルまたは K-ベッセル トレンド除去を選択してください。 トレンドの有無に応じて、いずれかを選択します。
  • 迅速に結果が必要で、ある程度精度を落としてもよい場合は、リニアまたは Thin plate スプラインを選択してください。 トレンドが存在しない場合や、トレンドが弱い場合は、リニアを選択することをお勧めします。
  • 精度と速度のバランスをとる必要がある場合は、累乗を選択することをお勧めします。
  • 変換する必要があるものの、出力までの時間を早めたい場合は、指数または Whittle (またはこれらのトレンド除去オプション) を選択してください。 [地球統計ウィザード] (後述) で経験的セミバリアンスに最も一致するオプションを選択してください。 交差検証も考慮する必要があります。

指数、Whittle、およびこれらのトレンド除去オプションから選択する場合は、経験的セミバリアンス (下の図の青い十字) に最も視覚的に適合するセミバリオグラムを選択してください。 経験的セミバリアンスはセミバリオグラム スペクトルの中央に位置しているのが理想的です。 たとえば、下の図で、青い十字はセミバリオグラム スペクトルの中央には位置していません (ほとんどはスペクトルの上部に位置しています)。

経験的セミバリアンスはスペクトルの中央に位置していません。
経験的セミバリアンスはスペクトルの中央に位置していません。

代わりに、青い十字がセミバリオグラム スペクトルの中央に位置するため、次のセミバリオグラムをお勧めします。

経験的セミバリアンスがスペクトルの中央に位置しています。
経験的セミバリアンスはスペクトルの中央に位置しています。

地理座標を使用しているデータの距離計算

入力データが地理座標系を使用している場合、距離は弦距離を使用して計算されます。 2 つのポイント間の弦距離は、その 2 つのポイントを結ぶ直線距離になります。 このラインは、地球の表面に沿ったラインではなく、地球を貫通するラインになります。 これを視覚化するため、透明な球体に懐中電灯を照らすことを想像してください。 光が球体に入るポイントと球体から出るポイントの間の光線の長さが、この 2 つのポイント間の弦距離になります。 測地線距離よりも弦距離を使用する主なメリットは、計算負荷が低くなることです。 また、回転楕円体に対するクリギングの実行については、限られた理論しか存在しません。

注意:

弦距離が 30 度 (10 進) を超える場合、測地線距離の良好な推定値にならないため、15 度 (10 進) を超える検索半径を使用できず (30 度を超える直径も使用できません)、15 度 (10 進) 以内の近傍が存在しない位置は NoData として計算されます。 また、一部のセミバリオグラム モデルでは、トレンド除去を実行する際、各サブセットに平面を適合する必要があります。 範囲が 30 度 (10 進) を超えるサブセットでは、この平面を正確に作成できないため、次のセミバリオグラム モデルでは、個々のサブセットの範囲が 30 度に制限されています。

  • Thin Plate スプライン
  • 指数トレンド除去
  • Whittle トレンド除去
  • K-ベッセル トレンド除去

ArcGIS の旧バージョンでは、地理座標が正方形座標として扱われ、ポイント間のユークリッド距離が計算されていました。 ただし、1 x 1 度のセルは実際には正方形ではないため、この距離には歪みが生じます。 この歪みは、赤道から南北に離れるにつれて大きくなります。

経験ベイズ クリギングのその他のパラメーター

経験ベイズ クリギングでは、他のクリギング方法には存在しない 3 つのパラメーターが使用されます。

  • [各ローカル モデルの最大ポイント数] - 各サブセット内のポイントの数を指定します。 サブセット サイズを大きくすると、EBK の計算時間が増加します。
  • [ローカル モデル エリア オーバーラップ ファクター] - サブセット間のオーバーラップ度合いを指定します。 各入力ポイントはいくつかのサブセットに分類できます。このオーバーラップ ファクターは、各ポイントが分類されるサブセットの平均値を指定します。 たとえば、オーバーラップ ファクターを 1.5 に設定した場合、約半数のポイントが 1 つのサブセットで使用され、半数のポイントが 2 つのサブセットで使用されます。 オーバーラップ ファクターの値を高くすると、出力サーフェスがより滑らかになりますが、処理時間も増加します。
  • [セミバリオグラムのシミュレーション回数] - サブセットごとにシミュレートされるセミバリオグラムの数を指定します。 シミュレーションの回数を増やすと、推定の精度が向上しますが、処理時間も増加します。

参考文献

  • Chilès, J-P., and P. Delfiner (1999). Chapter 4 of Geostatistics: Modeling Spatial Uncertainty. New York: John Wiley & Sons, Inc.
  • Krivoruchko K. (2012). "Empirical Bayesian Kriging," ArcUser Fall 2012.
  • Krivoruchko K. (2012). "Modeling Contamination Using Empirical Bayesian Kriging," ArcUser Fall 2012.
  • Krivoruchko K. and Gribov A. (2014). "Pragmatic Bayesian kriging for non-stationary and moderately non-Gaussian data," Mathematics of Planet Earth. Proceedings of the 15th Annual Conference of the International Association for Mathematical Geosciences, Springer 2014, pp. 61-64.
  • Krivoruchko K. and Gribov A. (2019). "Evaluation of empirical Bayesian kriging," Spatial Statistics Volume 32. https://doi.org/10.1016/j.spasta.2019.100368.
  • Pilz, J., and G. Spöck (2007). "Why Do We Need and How Should We Implement Bayesian Kriging Methods," Stochastic Environmental Research and Risk Assessment 22 (5):621–632.

関連トピック