データのデクラスタリングによる優先サンプリングの調整

Geostatistical Analyst のライセンスで利用可能。

一般に、データの空間的位置はランダムではなく、規則的に配置されています。 さまざまな理由で、一部の場所では、それ以外の場所よりも高いサンプル ポイント密度でデータが優先サンプリングされていることがあります。 母集団全体のヒストグラムを適切に反映するためには、サンプルの正規スコア変換とヒストグラム (および累積分布) を適切に実装することが重要です。 空間的に自己相関しているデータが優先サンプリングされている場合、そのサンプルから生成されるヒストグラムは母集団のヒストグラムを反映していないことがあります。

デクラスタリングの例

デクラスタンリングの例の左上の図では、線上の 100 個の位置における値の母集団全体が塗りつぶしの円で表されています。 これらは定数平均値と強い正の自己相関を持つ空間的に自己相関したプロセスからシミュレートされています。 先頭から 1 つおきのポイントのデータがサンプリングされ、円として表示されています。 デクラスタンリングの例の右側では、母集団のヒストグラムが青色で表示され、サンプルのヒストグラムが紫色で表示されています。

サンプルは母集団全体の半分なので、若干の違いはあるにせよ、サンプルのヒストグラム バーの高さは母集団のバーの高さの約半分になることが予想されます。 左下の図では、データは優先サンプリングされ、先頭から 4 つおきに位置 34 までサンプルが収集された後、位置 70 まですべての位置のサンプルが収集され、それ以降は再び 4 つおきに最後までサンプルが収集されています。 この場合も、最終的に、母集団全体の半数のサンプルが収集されています。 空間的位置の中央部分を優先サンプリングすることで、中間帯のデータ値がサンプルに出現する比率が高くなるため、値が -3 ~ 1 の範囲ではヒストグラム バーは母集団のバーとほぼ等しい高さになります。 サンプル ヒストグラムでは、これに加え、小さい値と大きい値は少数しか存在していません。

優先サンプリングのソリューションの 1 つとしては、高密度でサンプリングされたエリア内のデータには小さい加重を割り当て (上記の優先サンプリングの例では -3 ~ 1 の値のサンプル ヒストグラム バーが小さくなります)、まばらにサンプリングされたエリア内のデータには大きな加重を割り当てます (これにより低い値と高い値のサンプル ヒストグラム バーは大きくなります)。 Geostatistical Analyst では 2 つの方法を使用できます。 デフォルトの方法がセル デクラスタリングです。 セル デクラスタリングでは、グリッド内のデータ位置の上に四角形のセルが配置され、そのセル内のデータ ポイントの数に反比例した加重が各データ位置に割り当てられます。

後はグリッドのサイズと向きを選択するだけです。 Geostatistical Analyst では、各種セル サイズでの全データの加重平均値を示すグラフが提供されます。 高値のエリアでデータが優先サンプリングされている場合には加重平均の値が最小となるセル サイズを選択し、この反対に、低値のエリアでデータが優先サンプリングされている場合には加重平均の値が最大となるセル サイズを選択することをお勧めします。

もう 1 つの方法では多角形法を使用します。ここでは、各空間データ位置を基準として、ポリゴン内のすべての位置が他のデータ位置よりも基準データ位置に近くなるようなポリゴンを定義します。これを以下の図に示します。

ポリゴン デクラスタリングの例

各データ位置が小さなドットで示され、そのドットの周囲にポリゴンが描画され、ポリゴンのサイズに応じて色分けされています。 要するに、各データ位置が "代表する" 面積に比例してデータ位置に加重を割り当てます。 この方法の問題として、端の近くの加重を定義するのは困難なことが挙げられます。 データが境界で囲まれていない限り、端にあるポイントには大きな加重が割り当てられることがよくあります。 Geostatistical Analyst では、境界は四角形なので、端の位置に割り当てられる加重が大きすぎることがよくあります。