クラスター/外れ値分析の詳細

ArcGIS Pro 3.4 | | ヘルプのアーカイブ

一連のフィーチャクラス ([入力フィーチャクラス] パラメーターの値) と分析フィールド ([入力フィールド] パラメーターの値) を指定すると、[クラスター/外れ値分析 (Cluster and Outlier Analysis (Anselin Local Moran's I))] ツールで、高い値または低い値のフィーチャの空間クラスターが特定されます。 このツールでは、空間的な外れ値も特定されます。 この場合、ツールでは、ローカルな Moran's I 値、Z スコア、疑似 p 値、および統計的に有意な各フィーチャのクラスター タイプを表すコードが計算されます。 Z スコアと疑似 p 値は、計算されたインデックス値の統計的な有意性を表します。

演算

Local Moran's I の計算

Local Moran's I 統計の付加的な計算を表示する

解釈

インデックス (I) が正の値の場合は、フィーチャの近隣フィーチャの属性値が同等の高い値または低い値になり、このフィーチャがクラスターの一部になります。 インデックスが負の値の場合は、フィーチャの近隣フィーチャの値が異なる値になり、このフィーチャが外れ値になります。 どちらの場合も、統計的に有意なクラスターまたは外れ値であると見なすためには、フィーチャの p 値が十分に小さいものである必要があります。 統計的有意性を判断する方法の詳細については、「Z スコアとは、 p 値とは」をご参照ください。 Local Moran's I インデックス (I) は、相対的な測定であり、計算された Z スコアまたは p 値との関係の中でしか解釈できないものです。 出力フィーチャクラスにレポートされる Z スコアおよび p 値は、多重検定や空間依存性では補正されていません

クラスター/外れ値のタイプ (COType) フィールドでは、統計的に有意な高い値のクラスター (HH)、統計的に有意な低い値のクラスター (LL)、高い値が主に低い値に取り囲まれている外れ値 (HL)、低い値が主に高い値に取り囲まれている外れ値 (LH) が区別されます。 統計的な有意性は、95 % の信頼度に設定されます。 FDR 補正を適用しない場合、0.05 より小さい p 値を持つフィーチャが統計的に有意であると見なされます。 FDR 補正は、p 値の閾値を 0.05 から 95 % の信頼度の多重検定の結果を良くする値にまで小さくします。 近隣フィーチャが存在しないフィーチャにはフィールド値 NN が設定され、有意でないフィーチャは、フィールド内のテキストが空になります。

出力

このツールでは、入力フィーチャクラスにあるフィーチャごとに、Local Moran's I インデックス、Z スコア、p 値、クラスター/外れ値タイプの各属性を持つ新しい出力フィーチャクラスが作成されます。

このツールを実行すると、作成された出力フィーチャクラスがコンテンツ ウィンドウに自動的に追加され、COType フィールドにデフォルトのレンダリングが適用されます。 適用されるレンダリングは、<ArcGIS Pro>\Resources\ArcToolBox\Templates\Layers にあるレイヤー ファイルによって定義されます。 必要に応じて、[レイヤーのシンボル情報を適用 (Apply Symbology From Layer)] ツールを使用して、デフォルトのレンダリングを再適用できます。

順列

順列を使用すると、ランダムに生成された一連の値と比較して分析する値の実際の空間分布が検出される可能性がどれくらいあるかを判断できます。 空間完全ランダム性 (CSR) を使用した場合でも、単にランダム性によって、ある程度のクラスター分布が常に観測されます。 順列では、ランダムなデータセットが多数生成され、これらの値を元のデータの Local Moran's I と比較する必要があります。 順列を実行するごとに、各フィーチャの周囲の近傍値がランダムに並べ替えられ、このランダムなデータの Local Moran's I 値が算出されます。 順列から生成された Local Moran's I 値の分布を確認すると、ランダム性によって生じたと考えられる Local Moran's I 値の範囲を特定できます。 統計的に有意な空間パターンがデータに含まれている場合、順列から生成された Local Moran's I 値は、元のデータから生成された Local Moran's I 値よりも、クラスター分布の少ない状態で表示されることが予想されます。 この後、順列から生成された Local Moran's I 値が元のデータよりもクラスター分布の多い状態で表示される比率を求めて、疑似 p 値が算出されます。 この比率 (疑似 p 値) が小さい値 (0.05 未満) の場合は、そのデータから統計的に有意なクラスター分布が表示されると判断できます。

順列の数を選択する場合は、精度と処理時間の増加とのバランスを考慮します。 順列の数を多くすると、疑似 p 値の範囲が広くなり、結果的に精度が上がります。 たとえば、順列の数が 99 の場合は疑似 p 値の精度が .01 になり、順列の数が 999 の場合は疑似 p 値の精度が .001 になります。これらの値は、1 を、順列の数に 1 を加算した値で除算して求められます。この場合は、1/(1 + 99) および 1/(1 + 999) になります。 初期段階で問題を調査する場合には順列の数を少なくしてもかまいませんが、通常は順列の数を増やし、最終結果に適した最大数にすることが最善策です。

ベスト プラクティスのガイドライン

[クラスター/外れ値分析 (Cluster and Outlier Analysis (Anselin Local Moran's I))] ツールを使用する際には、下記の点に注意してください。

  • 結果は、入力フィーチャクラスに 30 個以上のフィーチャが格納されている場合にのみ、信頼性があります。
  • このツールを使用するときには、カウント、率、その他の計測値などの入力フィールドが必要です。 各ポイントが 1 つのイベントまたはインシデントを表すようなポイント データを分析している場合は、評価の対象となる具体的な数値属性 (重要度ランキング、カウント、その他の計測) が存在しない可能性があります。 インシデントが多い位置 (ホット スポット) やインシデントが非常に少ない位置 (コールド スポット) を特定する場合は、分析の前にインシデント データを集約しておく必要があります。 ホット スポットとコールド スポットは、[ホット スポット分析 (Hot Spot Analysis (Getis-Ord Gi*))] ツールでも効果的に特定できます。 ただし、統計的に有意な空間的な外れ値 (高い値が低い値に取り囲まれている場合や低い値が高い値に取り囲まれている場合) は、[クラスター/外れ値分析 (Cluster and Outlier Analysis (Anselin Local Moran's I))] ツールでしか特定できません。
  • 適切な空間リレーションシップのコンセプトを選択してください。
  • [時空間] ウィンドウ コンセプトを選択すると、時空間クラスターおよび外れ値を特定できます。 詳細については、「時空間クラスター分析」をご参照ください。
  • 適切な距離バンドまたは距離の閾値を選択してください。
    • すべてのフィーチャが少なくとも 1 つ近接フィーチャを持つ必要があります。
    • すべてのフィーチャを近接フィーチャとするフィーチャが存在してはいけません。
    • 特に、入力フィールドの値が偏っている場合は、各フィーチャに 8 つの近隣フィーチャをもたせてください。

適用例

[クラスター/外れ値分析 (Cluster and Outlier Analysis (Anselin Local Moran's I))] ツールでは、高い値の集中、低い値の集中、および空間的な外れ値を特定できます。 これは次のような質問に答えるのに役立つことがあります。

  • 分析範囲における裕福層と貧困層の間の最も急激な境界はどこにあるか?
  • 分析範囲に、消費パターンが異常な領域はあるか?
  • 分析範囲全体にわたって糖尿病発生率が予想外に高い場所はどこか?

経済、資源管理、生物地理、政治地理、人口統計など多数の分野での適用が可能です。

参考資料

Anselin, Luc 『Local Indicators of Spatial Association—LISA』Geographical Analysis 27 (2) : 93 ~ 115、1995 年

Mitchell, Andy. 『The ESRI Guide to GIS Analysis, Volume 2』 ESRI Press, 2005.