地球統計学のワークフロー

Geostatistical Analyst のライセンスで利用可能。

このトピックでは、地球統計学的調査の一般的なワークフローを示し、主なステップについて説明します。 地球統計学とはで説明したように、地球統計学は、空間的または時空間的な現象に関連する値を解析および推定するときに使用する統計学の一分野です。 Geostatistical Analyst には、空間的座標を用いるモデルを構築することができる一連のツールが備わっています。 これらのモデルは多種多様なシナリオに適用することができ、通常は、サンプルが未収集の位置についての推定とそれらの推定の不確実性の尺度の生成に使用されます。

地球統計学のワークフロー

最初のステップでは、ほぼすべてのデータドリブンな調査と同様に、データを精査します。 通常は最初に、データセットの重要な特徴をわかりやすく示す分類と配色を使用して、データセットをマッピングします。このような特徴としては、北から南に値が大きく増加する、高い値と低い値がばらばらな位置に混在する (空間相関を示さないスケールでデータが取得された可能性) などがあります。

2 つ目のステージでは、地球統計モデルを構築します。 このプロセスは、調査の目的 (モデルが提供する情報のタイプ) および採用する価値があると思われるデータセットの特性に応じて、複数のステップから成ります。 この段階では、データセットの厳密な探索中に収集された情報とその現象に関する予備知識によって、モデルの複雑度と、内挿値および不確実性の尺度の正確さが決まります。 上の図では、モデルを構築する際に、データを前処理して空間的トレンドを取り除いています (空間的トレンドは別個にモデル化して内挿プロセスの最終ステップで再び追加されます)。 さらに、ガウス分布に近づくようにデータを変換しています (一部の方法とモデル出力で必要)。 データセットを調査することで多くの情報が導かれますが、その現象について持っている知識を取り込むことが重要です。 モデル作成者はすべての重要な特性を示すためにデータセットのみに頼ることがあってはならず、期待される結果を反映するようにパラメーター値を調整することによって、現れていないデータもモデルに取り込むことができます。 内挿値とその不確実性が実際の現象の正確な表現であるためには、モデルが可能な限り現実的であることが重要です。

データを前処理するだけでなく、データセット内の空間的構造 (空間相関) をモデル化する必要があります。 クリギングなどの一部の方法ではセミバリオグラム関数または共分散関数を使用してこれを明示的にモデル化する必要がありますが (「セミバリオグラム関数と共分散関数」を参照)、逆距離加重などのその他の方法では空間構造の想定される度合いに依存し、モデル作成者がその現象の予備知識に基づいてこれを指定する必要があります。

モデルの最後の要素が検索方法です。 ここでは、サンプルが未収集の位置について値を生成するときに使用するデータ ポイントの数を定義します。 それらのデータ ポイントの空間的配置 (相対的な位置およびサンプルが未収集の位置を基準にした位置) も定義することができます。 どちらの要因も内挿値とその不確実性に影響します。 多くの方法では、検索楕円とともに、楕円を分割するセクターの数、推定を行うために各セクターで取得するポイントの数を定義します (「検索近傍」を参照)。

モデルの定義が完了したら、モデルをデータセットとともに使用して、対象地域内のサンプルが未収集のすべての位置について内挿値を生成することができます。 通常の出力は、モデル化されている変数の値を示すマップです。 外れ値によってモデルのパラメーター値と内挿されたマップが変化する可能性があるため、この段階で外れ値の影響を調査することができます。 内挿方法によっては、同じモデルを使用して内挿値の不確実性の尺度を生成することもできます。 すべてのモデルでこれが可能ではないため、不確実性の尺度が必要な場合には最初の時点で定義することが重要です。 これによって適切なモデルが決まります (「分類ツリー」を参照)。

すべてのモデル化の手法と同様に、モデルの出力をチェックして、内挿値とその不確実性の尺度が妥当であり期待に沿ったものであることを確認する必要があります。

モデルを満足のいくように構築および調整し、その出力をチェックした後は、リスク解析や意思決定でその結果を使用することができます。

関連トピック