Geostatistical Analyst のライセンスで利用可能。
GIS のほとんどの文献では、エリア内挿は、具体的には、あるポリゴン セット (ソース ポリゴン) から別のポリゴン セット (ターゲット ポリゴン) にデータを再集計することを意味します。 たとえば、人口統計学者はデータの行政単位をダウンスケールまたはアップスケールすることがよくあります。 郡レベルの人口統計の場合、人口統計学者は国勢調査区の人口を推定するためにはデータをダウンスケールする必要があります。 大規模な区画整理が行われた場合、完全に新しいポリゴン セットについての人口推定が必要になります。
ArcGIS Geostatistical Analyst エクステンションのエリア内挿は、ポリゴンごとに平均または集計されたデータにクリギングの理論を拡張する地球統計学的内挿手法です。 入力ポリゴン内および入力ポリゴン間のすべてのポイントについて推定と標準誤差を求めた後、推定を (標準誤差とともに) 新しいポリゴン セットに再集計することができます。
Geostatistical Analyst のその他のクリギング法ではポイント データは連続しガウス分布している必要がありますが、エリア内挿ではポリゴン データは離散カウント値であることが可能です。 2 つ目のポリゴン セットをコクリギング変数として使用することもでき、このようなセカンダリ ポリゴンはプライマリ変数のポリゴンと同じジオメトリを持つことも、完全に異なることも可能です。
注意:
Geostatistical Analyst のその他の内挿方法もポリゴンを入力としてとることができますが、ポリゴンの値はその重心に関連付けられてポイントとして処理されます。 このため、ポリゴンのサイズは考慮されず、これらの内挿法は計数データには適していません。
ポリゴン間のデータ再集計のワークフロー
ポリゴン データの再集計 (人口統計のダウンスケールなど) は 2 つのステップから成るプロセスです。 最初に、ソース ポリゴンから個々のポイントのスムージング推定サーフェスを作成した後 (このサーフェスは密度サーフェスまたはリスク サーフェスとして解釈できることがよくあります)、推定サーフェスをターゲット ポリゴンに再集計します。 推定サーフェスの作成は対話型のバリオグラフィを必要とするため、[地球統計ウィザード] で行う必要があります。 [地球統計ウィザード] からの出力は推定または推定誤差の地球統計レイヤーです。 新しいポリゴンへの再集計が不要である場合、ワークフローは以上で終わりです。
推定サーフェスが作成された後、別のポリゴン セットへの再集計には [エリア内挿レイヤー → ポリゴン (Areal Interpolation Layer To Polygons)] ジオプロセシング ツールを使用します。 以下の図は、ロサンゼルスの学区別肥満率からロサンゼルスの各国勢調査区の肥満率を推定するワークフローを示しています。
再分類と再集計の数学的な詳細については、このトピックの末尾に記載されている参考文献をお読みください。
エリア内挿で使用可能なデータのタイプ
エリア内挿では 3 つのタイプのポリゴン データセットを入力として使用できます。 この 3 つはいずれも推定サーフェスと標準誤差サーフェスを生成し、生成されたサーフェスはターゲット ポリゴンに再集計することができます。 以下で説明するように、推定サーフェスと再集計された推定の解釈はデータ タイプによって異なります。
平均 (ガウス分布) データ
プライバシー保護や経費削減のため、連続する地点の測定値を地域ごとに平均し、元のポイント データは破棄したり非公表にしたりすることがよくあります。 たとえば、郡ごとの平均汚染度は報告しても、個々の地点の測定値は非公表にすることがあります。 汚染度の測定地点がわからないので、その他のクリギング法は適していません。
連続データのエリア内挿では、データはガウス分布し、定義済みのポリゴンごとに平均されている必要があります。 ポリゴンと平均測定値が与えられると、データ ドメイン内のすべてのポイントにおけるガウス変数の値で推定 (または標準誤差) サーフェスが生成されます。
入力パラメーターは次のとおりです。
- [入力データセット] - ポリゴン フィーチャを指定します。
- [値フィールド] - ソース データセットの各ポリゴンの平均値を指定します。
ガウスエリア内挿では、[エリア内挿レイヤー → ポリゴン (Areal Interpolation Layer To Polygons)] ジオプロセシング ツールを使用して、ターゲット ポリゴンのガウス変数 (および推定標準誤差) の平均値を推定します。 たとえば、ある州のすべての郡の 1 日の平均温度から、それらの郡のすべての都市の平均温度を推定することができます。
レート (二項) カウント
ポリゴン データの典型的なソースとしては、ポリゴン内の母集団から個々がランダムにサンプル抽出され、特定の特性を持つ個々の数をカウントします (これを二項サンプリングと呼びます)。 この場合に対象となる値は、サンプル抽出された個々のうち特定の特性を持つ個々の比率です。
二項カウントのエリア内挿は、各ポリゴンのサンプル抽出された個々の数と特定の特性を持つ個々の数が与えられると、データ ドメイン内のすべてのポイントについてリスク推定サーフェス (または標準誤差サーフェス) を生成します。 個々のポイントにおけるリスクは、その位置でサンプル抽出された個々がその特性を持つ確率を表します。
たとえば、会社が一部の顧客に自社のサービスに満足しているかどうかをたずねたとした場合、 顧客がサービスに満足しているということが対象特性となります。 会社はサンプル抽出された顧客の正確な住所はわかりませんが、地域だけは把握することができます (市町村や市外局番など)。 二項カウントのエリア内挿では、その会社を支持する人の割合が高い地域と低い地域を示すマップが生成されます。 会社はこの後で、特定の地域の顧客が他の地域の顧客よりも自社のサービスに満足している理由についてさらなる調査を行うことができます。
正確な推定を行うためには、サンプルはランダムに収集しなければなりません。 ポリゴン内の母集団全員が同じ確率でサンプルとして選ばれる必要があります。 特定の個々を優先した場合、その推定は偏った推定になります。
入力パラメーターは次のとおりです。
- [入力データセット] - ポリゴン フィーチャを指定します。
- [カウント フィールド] - 各ポリゴンで特定の特性を持つ個々の数が含まれているフィールドを指定します。
- [母集団フィールド] - 各ポリゴンでサンプル抽出された個々の数が含まれているフィールドを指定します。
二項エリア内挿では、[エリア内挿レイヤー → ポリゴン (Areal Interpolation Layer To Polygons)] ジオプロセシング ツールを使用して、指定した各ポリゴンで特定の特性を持つ個々の比率を推定します。 たとえば、ある州の各郡における肺がん患者数 (および各郡の暴露人口) がわかっている場合、郡内の郵便番号区域別に肺がん患者数の比率を推定することができます。 郵便番号区域別に肺がん患者数を推定するには、推定された肺がん患者数の比率に各郵便番号区域の人口を掛け合わせます。 同様に、標準誤差に各郵便番号区域の人口を掛け合わせることで、郵便番号区域ごとの肺がん患者の推定数の標準誤差が得られます。
イベント (過分散ポアソン) カウント
ポリゴン データのもう 1 つの一般的なソースとしては、定められたエリア内で所定の時間内に特定のイベントが発生した回数がカウントされます。 たとえば、クジラ調査員は定められた海洋エリアを航行して目視したクジラの数を数えることによってデータを収集します。 この場合、クジラの目撃がイベントに相当します。 観測したクジラの数はクジラ調査員が観測を行った時間の長さに比例するため、観測に費やした時間を記録する必要があります。 航海ごとに、クジラ調査員は観察ポリゴン (観察したエリア)、目撃したイベントの数 (目視したクジラの数)、観測に費やした時間についての情報を記録します。
イベント カウントのエリア内挿では、特定の位置でイベントを目撃する潜在的リスクを推定するサーフェスが生成されます。 リスクが高くなるにしたがい、その位置でイベントを目撃する確率が高くなります。 物体 (クジラなど) を見つけるというイベントの場合、推定サーフェスは密度マップとして解釈することができます。
ほとんどのユース ケースで、各ポリゴンの観測所要時間は同じになります。 たとえば、犯罪統計は一般に、各ポリゴンで 1 年に発生した件数として報告されます。 観測所要時間が一定であることがごく一般的であるため、観測所要時間が指定されない場合、どのポリゴンでも同じ時間単位でカウントされたものと見なされます。 (総人口など、すべてのイベントが捕捉される) 全数調査の場合は、各ポリゴンの観測所要時間が同じであると見なされます。
観測時に、必ずしもすべてのイベントを捕捉する必要はありません。 捕捉したイベントの時間単位あたりの数が観測対象物の潜在的な密度に比例することのみが必要です。 実際には、これは観測に使用される方法が各ポリゴンでほぼ同じである必要があることを意味します。 たとえば、ある航海のクジラ調査員の方が別の航海のクジラ調査員よりクジラを見つける能力が高い場合、推定には偏りが生じます。
入力パラメーターは次のとおりです。
- [入力データセット] - ポリゴン フィーチャを指定します。
- [カウント フィールド] - 各ポリゴンで捕捉されたイベントの数が含まれているフィールドを指定します。
- [時間フィールド] - (オプション) 各ポリゴンでの観測に費やした時間を指定します。 このフィールドが空の場合、すべてのカウントが同じ時間単位で行われたものと見なされます。
過分散ポアソンエリア内挿では、[エリア内挿レイヤー → ポリゴン (Areal Interpolation Layer To Polygons)] ジオプロセシング ツールを使用して、指定した各ポリゴンでの単位時間あたりのカウント数を推定します。 たとえば、クジラ調査員が観測所要時間を時間単位で記録している場合、新しいポリゴンの推定は 1 時間の間にそのポリゴンで観測されるクジラの期待数として解釈されます。 国勢調査人口データの場合、国勢調査時におけるポリゴンの推定人口として解釈されます。
有効なモデルの構築
すべての地球統計学的内挿方法と同じように、エリア内挿の推定の確度はモデルの確度によって左右されます。 このことを念頭に置いて、[地球統計ウィザード] で有効なモデルを構築する際には十分な注意を払う必要があります。
Geostatistical Analyst のエリア内挿はクリギングのフレームワークを通して実装されているため、対話型のバリオグラフィはモデルを構築する際に不可欠なステップです。 共分散曲線の品質を目視で判断するのは通常は困難であるため、経験的共分散 (以下のグラフでは青色の十字) ごとに信頼区間 (赤色の縦線) が計算されます。 共分散モデルが適切に指定されている場合、90% の経験的共分散が信頼区間に収まることが予想されます。 以下の図では、12 個の経験的共分散のうちの 11 個が信頼区間に収まり、1 つのポイントは信頼区間から少し外れています。 これは、そのモデルがデータに適合しており、結果が信頼できることを示しています。
デフォルトの共分散曲線ではデータに十分に適合しないことがよくあります。 その場合、バリオグラフィのパラメーターを変更する必要があります。 共分散曲線を厳密に適合させることはしばしば困難であり、より良い適合を得るためには練習するしかありませんが、以下の経験則はモデルの良好な適合を得るのに役立ちます。
- 経験的共分散が負でなくなるまで [ラグ サイズ] の値を小さくします。
- それでもモデルが適合しない場合、[モデル] パラメーターの値を変更してみます。 [K-ベッセル] と [Stable] が最も実用的なモデルですが、処理に時間がかかります。
- ほぼ適合する [ラグ サイズ] と [モデル] の組み合わせが見つかったら、[格子間隔] の値を小さくしてみます。 ただし、格子間隔を狭くすると処理時間が急増することに注意してください。 格子間隔パラメーターについては、以下のエリア内挿の新しいパラメーターのセクションで説明します。
以下の図に示すように、[関数タイプ] を [セミバリオグラム] に変更すると、ポイントのセミバリオグラム曲線 (以下の図の青色の線) が信頼区間を通っていないことがあります。 このことは問題ではなく、良好なモデルの基準は変わりません。経験的セミバリアンスの大部分が信頼区間に収まる場合、モデルの確度を信頼することができます。
エリア内挿の新しいパラメーター
[地球統計ウィザード] では、他のクリギング法では使用されない次の 3 つのパラメーターを設定します。
- [格子間隔] - ポイントの共分散を推定するため、各ポリゴンに正方格子がオーバーレイされ、格子の各交点にポイントが割り当てられます。 格子間隔パラメーターでは、各ポイント間の縦方向と横方向の距離を指定します。 格子間隔が広くてポリゴンにポイントが割り当てられない場合、ポイントはポリゴンの重心に配置されます。 格子間隔が狭いほど、推定の精度が向上しますが、処理時間も増加します。 たとえば、格子間隔を半分にすると処理時間は 4 倍になります。
- [信頼度] - セミバリオグラム/共分散曲線の信頼区間の信頼度を指定します。 モデルが適切である場合、この値は、信頼区間の範囲内にある経験的共分散/セミバリオグラムの割合を示します。 ポイントのセミバリオグラム曲線は必ずしも信頼区間に収まる必要はありません。 このパラメーターは診断にのみ使用され、その値は推定に影響しません。
- [過分散パラメーター] - イベント (過分散ポアソン) カウント データのみに適用されます。 ポアソン カウント データでは、過分散 (ポアソン モデルで推定されたよりも大きいばらつき) が観測されることが少なくありません。 過分散パラメーターによってこれを修正できます。 このパラメーターは、負の二項分布の分散パラメーターの逆数になります。
その他すべてのパラメーターの意味は他のクリギング法と同じです。
制限事項
すべてのクリギング法と同じように、エリア内挿には、データの有効なモデルを見つけることを妨げるいくつかの制約があります。
非定常性
クリギングの最も厳しい仮定の 1 つがデータ定常性の仮定です。 定常性は、任意の 2 つのポリゴン データ値の統計的関係はそれらのポリゴン間の距離のみに依存するという仮定です。 たとえば、人口は都市に集中し、都市と都市の間にある地域にはそれほど多くの人が住んでいません。 これはエリア内挿において厄介な問題であり、定常性の下では人口密度は全体で滑らかに変化すべきであり、人口密度が非常に高いエリアのすぐ横に人口密度が非常に低いエリアがあってはなりません。 このような非定常データの場合、有効なエリア内挿モデルの適合は不可能ではないにしても非常に困難です。
サイズが大きく異なるポリゴン
最大のポリゴンと比較して一部のポリゴンが非常に小さい場合、それらの小さいポリゴンの区別に失敗してコインシデント ポリゴンとして処理されることがあります。 これは、格子間隔パラメーターによってポリゴンが離散化され、複数のポリゴンが格子内の 1 つのポイントとして表されることがあるためです。 エリア内挿ではコインシデント ポリゴンはサポートされないため、エラーになります。 このエラーを解決するには、次の手順に従います。
- [同一値を持つレコードの検出 (Find Identical)] ツールを使用して一致ポリゴンを特定し、[同一値を持つレコードの削除 (Delete Identical)] ツールを使用してこれを削除します。 コインシデント ポリゴンが検出されなかった場合や削除してもエラーが解決しなかった場合は、次の手順に進みます。
- ポリゴンが区別されるようになるまで、格子間隔を手動で狭くします。 ただし、格子間隔を狭くすると計算時間が急増します。 必要な格子間隔にしたことで処理時間が長くなりすぎた場合は、次の手順に進みます。
- フィーチャクラス内の非常に小さいポリゴンを選択解除して、それらが計算で使用されないようにします。
参考文献
- Krivoruchko, K., A. Gribov, E. Krause (2011). "Multivariate Areal Interpolation for Continuous and Count Data," Procedia Environmental Sciences, Volume 3: 14–19.