最適化外れ値分析の詳細—ArcGIS Pro

[最適化外れ値分析 (Optimized Outlier Analysis)] は、入力データの特性から作成されたパラメーターを使用して [クラスター/外れ値分析 (Cluster and Outlier Analysis (Anselin Local Moran's I))] ツールを実行します。デジタルカメラの自動設定が、照明および被写体と地面の読み取り値を使用して適切な絞り、シャッタースピード、焦点を決定するのと同様に、[最適化外れ値分析 (Optimized Outlier Analysis)] ツールは、データを調べて、最適な解析結果が得られる設定を取得します。たとえば、[入力フィーチャ] データセットにインシデントポイントデータが含まれる場合、このツールは、それらのインシデントを重み付きフィーチャに集約します。ツールは、重み付きフィーチャの分布を使用して、分析の適切なスケールを決定します。 [出力フィーチャ] にレポートされる分類タイプは、「FDR (False Discovery Rate) 補正」を使用して「多重検定」と「空間依存性」に合わせて自動的に調整されます。

最良の結果を提供するためにツールによって行われた判定が、ツールの実行中にメッセージとしてレポートされます。各判定の内容については後述します。

カメラに、自動設定を無効にできる手動モードが備わっているのと同様に、[クラスター/外れ値分析 (Cluster and Outlier Analysis (Anselin Local Moran's I))] ツールでは、すべてのパラメーターのオプションを完全に制御できます。 [最適化外れ値分析 (Optimized Outlier Analysis)] ツールを実行するときに、ツールが使用したパラメーター設定を書き留めておくと、完全に制御された [クラスター/外れ値分析 (Cluster and Outlier Analysis (Anselin Local Moran's I))] ツールに対して指定するパラメーターの調整に役立ちます。

「最適化外れ値分析 (Optimized Outlier Analysis)」ツールのワークフローには、以下のコンポーネントが含まれています。これらの各コンポーネントで使用される計算とアルゴリズムについて、以下で説明します。

初期データの評価

このコンポーネントでは、[入力フィーチャ] とオプションの [分析フィールド]、[インシデント範囲境界ポリゴン]、および [インシデントデータ集約方法] が精査されて、分析するための十分なフィーチャとさまざまな値が適切に存在することが確認されます。ツールによってレコードの破損やジオメトリの欠損が検出された場合、または [分析フィールド] を指定し、かつ NULL 値が存在する場合、関連するレコードが不良レコードとしてリスト表示され、分析から除外されます。

[最適化外れ値分析 (Optimized Outlier Analysis)] ツールは、Anselin Local Moran's I 統計を使用します。多くの統計手法と同様に、フィーチャが 30 個未満の場合、このツールの結果は信頼できません。ポリゴン [入力フィーチャ] またはポイント [入力フィーチャ] と、[分析フィールド] を指定する場合、このツールを使用するには、30 個以上のフィーチャが必要になります。 [インシデントをポイントに集約するためのポリゴン] の最小数も 30 です。 [インシデント範囲境界ポリゴン] を表すフィーチャレイヤーには、1 つ以上のポリゴンを含めることができます。

また、Anselin Local Moran's I 統計は、分析対象の各フィーチャに値を関連付けることを必要とします。指定した [入力フィーチャ] がインシデントデータを表す場合 ([分析フィールド] を指定しない場合)、ツールはインシデントを集約し、そのインシデント数が分析対象の値になります。集約処理の完了後も、引き続き 30 個以上のフィーチャが存在している必要があります。そのため、インシデントデータでは、30 個よりも多いフィーチャを使用して開始することをお勧めします。以下の表に、[インシデントデータ集約方法] ごとの最小フィーチャ数をまとめています。


インスタンスの最小数	集約方法	集約後の最小フィーチャ数
60	[フィッシュネットグリッド内のインシデント数] および [六角形グリッド内のインシデント数] ([インシデント範囲境界ポリゴン] の指定なし)	30
30	[フィッシュネットグリッド内のインシデント数] および [六角形グリッド内のインシデント数] ([インシデント範囲境界ポリゴン] パラメーターにフィーチャクラスを指定した場合)	30
30	集約ポリゴン内のインシデント数	30
60	加重ポイントの作成のため近傍インシデントをスナップ	30

また、Anselin Local Moran's I 統計は、さまざまな値を持つ [分析フィールド] 用に設計されています。この統計は、バイナリデータなどには適していません。 [最適化外れ値分析 (Optimized Outlier Analysis)] ツールは、[分析フィールド] をチェックして、値に最小限の変動があることを確認します。

地理的な外れ値は、データセット内の大部分のフィーチャと比べて、近隣フィーチャから大きく離れているフィーチャです。人口密度の高い大都市群が中心に存在し、人口密度の低い小都市群が周辺に存在する都市環境を考えてみます。これらの都市について平均最近隣距離を計算する場合に、周辺の地理的な外れ値を除外し、密集地に近い都市のみを計算対象にすると、計算結果の値が小さくなることがわかります。これは、地理的な外れ値が [平均最近隣距離分析 (Average Nearest Neighbor)] などの空間統計に大きな影響を与える一例です。 [最適化外れ値分析 (Optimized Outlier Analysis)] ツールは、平均最近隣距離と中央最近隣距離の計算値を集約で使用し、分析の適切なスケールも決定します。そのため、ツールの初期データ評価コンポーネントは、[入力フィーチャ] または [インシデントをポイントに集約するためのポリゴン] の地理的な外れ値も決定し、検出した数をレポートします。ツールは、これを実行するために、各フィーチャの平均最近隣距離を計算し、それらすべての距離の分布を評価します。最も近い、一致しない近傍からの距離が 3 標準偏差を超えるフィーチャは、地理的な外れ値と見なされます。

インシデントの集約

ワークフローの次のコンポーネントは、インシデントデータを集約します。 [インシデントデータの集約方法] で選択して使用できる 3 つの方法があります。それらの方法のアルゴリズムを以下で説明します。

[フィッシュネットグリッド内のインシデント数] または [六角形グリッド内のインシデント数]
1. 同じ場所に存在し、一意の場所で単一のポイントを生成するデータセット内の各ポイントを、[イベントの集計 (Collect Events)] ツールで採用された方法と同じ方法を使用して集約します。
2. [入力フィーチャ] の最小境界ポリゴンに基づき、N [入力フィーチャ] の密度を N ランダムフィーチャの密度と比較します (測地線メートル)。指定された最小境界ポリゴン内にある N ポイントのランダムセットに対して、平均最近隣距離が計算されます。このランダムフィーチャ分布に対する平均最近隣距離の 2 倍が、分析範囲の最大範囲を 100 で除算した値より小さい場合、データセットは密と見なされ、使用されるグリッドのセルサイズは最大範囲を 100 で除算した値になります。
3. 上記の方法でデータセットが密と見なされない場合、使用されるセルサイズの距離は、平均最近隣距離または中央最近隣距離の大きい方の 2 倍になります。各フィーチャの最近隣フィーチャへの距離を合計し、それをフィーチャ数 (N) で割ることによって、一意の場所のポイントすべてに対して、地理的な外れ値を除く平均最近隣距離 (ANN) を計算します。最近隣距離を昇順に並べ替え、(地理的な外れ値も除いて) 並べ替えられたリストの中央にある距離を選択することよって、中間最近隣距離 (MNN) を計算します。距離の大きな方 (ANN または MNN) が 2 倍され、グリッドのセルサイズとして使用されます。
4. 最適化されたセルサイズを使用してフィッシュネットまたは六角形のポリゴングリッドを作成し、インシデントポイントを使用してグリッドをオーバーレイします。
5. 各ポリゴンセル内のインシデントをカウントします。
6. [インシデント範囲境界ポリゴン] を指定した場合、境界ポリゴン内のすべてのポリゴンセルが維持されます。 [インシデント範囲境界ポリゴン] を指定しない場合、インシデント数がゼロのポリゴンセルが削除されます。
7. 集約処理によってポリゴンセルが 30 個未満になった場合、またはすべてのポリゴンセルのカウント数が同じである場合、指定した入力フィーチャが選択したインシデントデータ集約方法に適していないことを示すメッセージが表示されます。そうでない場合は、この方法の集約コンポーネントが正常に完了します。

[集約ポリゴン内のインシデントのカウント]
1. この [インシデントデータ集約方法] では、[インシデントをポイントに集約するためのポリゴン] フィーチャレイヤーが必要です。これらの集約ポリゴンは、インシデントポイントをオーバーレイします。
2. 各ポリゴン内のインシデントを計算します。
3. インシデント数に、分析のための十分な変動があることを確認します。集約処理によって、すべてのポリゴンのインシデント数が同じになった場合、選択した [インシデントデータ集約方法] に対してデータが適していないことを示すメッセージが表示されます。

[近傍インシデントのスナップによる重み付きポイントの作成]
1. 同じ場所に存在し、一意の場所で単一のポイントを生成するデータセット内の各ポイントを、[イベントの集計 (Collect Events)] ツールで採用された方法と同じ方法を使用して集約します。一意の場所のフィーチャの数 (UL) をカウントします。
2. 地理的な外れ値を除外し、一意の場所のポイントすべてに対して、平均最近隣距離と中間最近隣距離の両方を計算します。各フィーチャの最近隣フィーチャへの距離を合計し、それをフィーチャ数 (N) で割ることによって、平均最近隣距離 (ANN) を計算します。最近隣距離を昇順に並べ替え、並べ替えられたリストの中央にある距離を選択することよって、中間最近隣距離 (MNN) を計算します。
3. 初期スナップ距離 (SD) を、ANN と MNN のうちの小さい方の値に設定します。
4. 同じ場所に存在するポイントを考慮して、スナップ距離を調整します。 Scalar = (UL/N)。ここで N は、[入力フィーチャ] レイヤー内のフィーチャ数です。調整されたスナップ距離は、SD * Scalar になります。
5. [インテグレート (Integrate)] ツールは、次のように 3 回反復してインシデントポイントを統合します。まず、調整されたスナップ距離の 0.10 倍を使用し、次に調整されたスナップ距離の 0.25 倍を使用し、最後に調整されたスナップ距離全体に等しいスナップ距離を使用して統合します。これらの 3 つのパスで統合ステップを実行することによって、元のポイントの場所の変形を最小限に抑えます。
6. 一緒にスナップされたインシデントの数を示す重みを使用して、各場所で単一のポイントを生成するスナップされたポイントを集約します。集約処理のこの部分では、[イベントの集計 (Collect Events)] の方法が使用されます。
7. 集約処理によって重み付きポイントが 30 個未満になった場合、またはすべてのポイントのカウント数が同じである場合、指定した [入力フィーチャ] が選択した [インシデントデータ集約方法] に適していないことを示すメッセージが表示されます。そうでない場合は、この方法の集約コンポーネントが正常に完了します。

分析のスケール

[分析フィールド] と共に [入力フィーチャ] を指定したことによって、または [インシデントデータ集約方法] がインシデント数から重みを作成したことによって、[最適化外れ値分析 (Optimized Outlier Analysis)] ワークフローの次のコンポーネントが、重み付きフィーチャに適用されます。次のステップでは、分析の適切なスケールを決定します。理想的な分析のスケールは、対象にしている問題のスケールに一致する距離です (たとえば、病気発生のクラスター/外れ値のエリアを探している場合、媒介蚊の範囲が 10 マイルであることがわかっていれば、10 マイルの距離を使用することが理想的です)。分析のスケールに使用する特定の距離を正しく判断できない場合、それに役立つ方法がいくつかあります。 [最適化外れ値分析 (Optimized Outlier Analysis)] ツールは、これらの方法を採用しています。

最初に試みられる方法は、[インクリメンタル空間的自己相関 (Incremental Spatial Autocorrelation)] です。地形上に空間クラスタリングが見られる場合は、内在する空間プロセスがアクティブであることを示します。 [インクリメンタル空間的自己相関 (Incremental Spatial Autocorrelation)] ツールにより、距離を徐々に増やして「Global Moran's I 統計」を実行し、各距離の空間クラスタリングの強度を計測します。地理的な外れ値は、[インクリメンタル空間的自己相関 (Incremental Spatial Autocorrelation)] で使用される開始距離および距離の増加量の計算から除外されます。クラスタリングの強度は、返される「Z スコア」によって決定されます。通常、距離が増えると Z スコアも増え、クラスタリングの強度が増していることを示します。ただし、通常、ある特定の距離で Z スコアはピークになります。ピークは、クラスタリングを促進する空間プロセスが最も顕著である距離を表します。 [最適化外れ値分析 (Optimized Outlier Analysis)] ツールは、[インクリメンタル空間的自己相関 (Incremental Spatial Autocorrelation)] を使用してピーク距離を探します。ピーク距離が見つかったら、その距離が分析のスケールになります。複数のピーク距離が見つかった場合は、最初のピーク距離が選択されます。

[最適化外れ値分析 (Optimized Outlier Analysis)] は、ピーク距離が見つからなかった場合、フィーチャの空間分布を調べて、K 個の隣接フィーチャを生成する平均距離をフィーチャごとに計算します。 K は、0.05 * N として計算されます。ここで N は、[入力フィーチャ] レイヤー内のフィーチャの数です。 K は、3 個以上、30 個以下になるように調整されます。K 個の隣接フィーチャを生成する平均距離が 1 つの「標準距離」を超えた場合、分析のスケールは、1 つの標準距離に設定されます。そうでない場合、分析のスケールは、K 個の隣接フィーチャの平均距離を反映します。

大規模で高密度のデータセットの場合、「インクリメンタル空間的自己相関」手順の完了に長時間かかることがあります。その結果、隣接フィーチャが 500 以上存在するフィーチャが検出された場合、インクリメンタル分析がスキップされ、30 個の隣接フィーチャを生成する平均距離が計算されて、分析のスケールに使用されます。

分析のスケールを反映する距離が、ツールの実行中に「メッセージ」としてレポートされ、クラスターおよび外れ値分析に使用されます。この距離は、[クラスター/外れ値分析 (Cluster and Outlier Analysis (Anselin Local Moran's I))] ツールによって使用される [距離バンドまたは距離の閾値] パラメーターに対応します。

この距離の近傍がないフィーチャの場合、[距離バンド] が延長され、最も近い近傍を含めるように適合されました。

クラスター/外れ値分析 (Cluster and Outlier Analysis)

[最適化外れ値分析 (Optimized Outlier Analysis)] ワークフローのこの時点で、チェックとパラメーター設定はすべて完了しています。次のステップでは、Anselin Local Moran's I 統計を実行します。この統計計算の詳細については、「クラスター/外れ値分析 (Cluster and Outlier Analysis (Anselin Local Moran's I)) の詳細」で説明されています。 Anselin Local Moran's I 統計の結果は、「FDR (False Discovery Rate) 補正」を使用して「多重検定」と「空間依存性」に対して自動的に補正されます。ツールの実行時には、FDR 補正の適用後に、統計的に有意な高い/低い外れ値と高い/低いクラスターとして特定されたフィーチャの数を要約するメッセージが書き込まれます。

出力

[最適化外れ値分析 (Optimized Outlier Analysis)] ツールの最後のコンポーネントでは、[出力フィーチャ] が作成されます。 [入力フィーチャ] が、集約を必要とするインシデントデータを表している場合、[出力フィーチャ] には、集約された重み付きフィーチャ (フィッシュネットポリゴンセル、[インシデントをポイントに集約するためのポリゴン] パラメーターに指定した集約ポリゴン、または重み付きポイント) が反映されます。各フィーチャには、Local Moran's I インデックス値 (LMiIndex)、「Z スコア、p 値」、クラスター/外れ値タイプ (COType) の結果と、各フィーチャが計算に使用した近隣数が含められます。

参考資料

Anselin, Luc 『Local Indicators of Spatial Association-LISA』(Geographical Analysis 27 (2): 93–115)、1995 年

「空間統計リソース」のページには、ショートビデオ、チュートリアル、Web セミナー、記事、およびその他いろいろな資料が用意されており、空間統計を取り扱う際に役立ちます。

このトピックへのフィードバック

初期データの評価

インシデントの集約

分析のスケール

クラスター/外れ値分析 (Cluster and Outlier Analysis)

出力

参考資料

このトピックの内容