ローカル外れ値分析の詳細—ArcGIS Pro

[ローカル外れ値分析 (Local Outlier Analysis)] ツールは、データに含まれる統計的に有意なクラスターと外れ値を特定します。このツールは、空間と時間の両方の観点で近隣の場所と統計的有意差のある場所を分析範囲から検出します。このツールは、[ポイントの集約による時空間キューブの作成 (Create Space Time Cube By Aggregating Points)] ツールまたは [定義済みの位置から時空間キューブを作成 (Create Space Time Cube From Defined Locations)] ツールのいずれかを使用して作成された時空間 NetCDF キューブを入力として受け取ります。その後、[空間リレーションシップのコンセプト] パラメーターの値を使用して、ビンごとに「Anselin Local Moran's I 統計」([クラスター/外れ値分析 (Cluster and Outlier Analysis)]) の時空間での実装を計算します。この計算では、[入力時空間キューブ] パラメーター値に含まれる統計的に有意な各ビンの Local Moran's I インデックス、疑似 p 値、およびクラスターまたは外れ値のカテゴリタイプを表すタイプコード (CO_TYPE) が算出されます。疑似 p 値は、算出されたインデックス値の統計的有意性を表し、その精度は順列の数に依存します。

適用例

[ローカル外れ値分析 (Local Outlier Analysis)] ツールの用途は、経済学、資源管理、政治地理学、人口統計、公共衛生、詐欺防止など、多岐の分野にわたっています。このツールを使用して答えられる質問のいくつかを次に示します。

消費パターンが正常でない場所が分析範囲内に存在するか？
分析範囲全体で病気発生率が予想以上に高い期間が存在したか？
近隣の地域よりも居住者が水を大量に消費している郊外地域が存在するか？また、水保全の最善策を考案するために、一貫して水の消費量が少ない郊外地域も特定します。
過去 1 か月に保険金請求の件数が急上昇した場所が居住地域内に存在するか？

ツールの出力

このツールでは、さまざまな出力が作成されます。特に効果的な出力は各場所を時系列に要約した 2 次元マップであり、このツールの終了時にマップに追加されます。出力のカテゴリを次に示します。


	タイプ名	定義
	Never Significant	これまで統計的に有意な CO_TYPE が存在したことがない場所。
	Only High-High Cluster	高 - 高クラスターだけが期間全体を通して統計的に有意なタイプであった場所。
	Only High-Low Outlier	高 - 低外れ値だけが期間全体を通して統計的に有意なタイプであった場所。
	Only Low-High Outlier	低 - 高外れ値だけが期間全体を通して統計的に有意なタイプであった場所。
	Only Low-Low Cluster	低 - 低クラスターだけが期間全体を通して統計的に有意なタイプであった場所。
	Multiple Types	期間全体を通して統計的に有意なタイプのクラスターと外れ値が複数存在した場所 (たとえば、ある期間中は高 - 低外れ値が統計的に有意なタイプであり、それ以外の期間中は高 - 高クラスターが統計的に有意なタイプであった場所)。

さらに、分析結果を要約する「メッセージ」が、ツールの実行中に [ジオプロセシング] ウィンドウの下部に書き込まれます。このメッセージにアクセスするには、[ジオプロセシング] ウィンドウでプログレスバーの上にカーソルを置くか、[ポップアップ] ボタン別ウィンドウに表示をクリックするか、メッセージセクションを展開します。「ジオプロセシング履歴」を介して、以前に実行したツールのメッセージにアクセスすることもできます。

これらのメッセージには、期間、時間的バイアス、分析されたビンと場所の数など、[入力時空間キューブ] パラメーター値に関する情報が表示されます。またメッセージには、直近の時間ステップで生じた外れ値に関する重要な情報や対象となるキー時間ステップの要約なども表示されます。たとえば、販売テリトリー内に採算性の悪い地域があることが問題となっている状況で、低 - 高外れ値がないかを調べたい場合は、低 - 高外れ値の数が最も多いキー時間ステップをこれらのメッセージで確認できます。

このツールでは、[入力時空間キューブ] パラメーター値の各場所のビンを要約した次の各フィールドを含む新しい出力フィーチャクラスが作成されます。


エイリアス	フィールド名
Number of Outliers	NUM_OUT
Percentage of Outliers	PERC_OUT
Number of Low Clusters	N_LOW_CLS
Percentage of Low Clusters	P_LOW_CLS
Number of Low Outliers	N_LOW_OUT
Percentage of Low Outliers	P_LOW_OUT
Number of High Clusters	N_HIGH_CLS
Percentage of High Clusters	P_HIGH_CLS
Number of High Outliers	N_HIGH_OUT
Percentage of High Outliers	P_HIGH_OUT
No Spatial Neighbors の場所 (分析計算で時間近傍にのみ依存する)	NO_SP_NBR
位置 Outlier in the Most Recent Time Step	OUT_R_TIME
Cluster Outlier Type	CO_TYPE
分析された変数の合計値、最小値、最大値、平均値、標準偏差、および中央値を含むその他の要約統計量。	SUM_VALUE、MIN_VALUE、MAX_VALUE、MEAN_VALUE、STD_VALUE、および MED_VALUE

最後に、[ローカル外れ値分析 (Local Outlier Analysis)] ツールで、新しい複数の「変数」を [入力時空間キューブ] パラメーター値に追加します。これらの変数がすでに存在する場合 ([ローカル外れ値分析 (Local Outlier Analysis)] ツールを同じ [分析変数] パラメーター値に対して複数回実行した場合)、これらの変数は上書きされるため、常に最新の分析結果がキューブに含まれます。

これらの変数は ArcGIS Pro で「視覚化」できます。手法については、「時空間キューブの視覚化」をご参照ください。

解釈

[ローカル外れ値分析 (Local Outlier Analysis)] ツールの実行結果の解釈を分かりやすくするために、[時空間キューブレイヤーの作成 (Make Space Time Cube Layer)] ツールを使用して、キューブに追加された結果の変数を表示可能な時空間キューブレイヤーを作成できます。各ビンの Local Moran's I インデックス、p 値、Cluster Outlier Analysis Type を視覚化するには、時空間キューブレイヤーを選択し、時空間キューブリボンの [ローカル外れ値分析] セクションで、[表示テーマ] を適切なテーマに設定します。正の値のインデックスは、1 つのビンに、類似した高い属性値または低い属性値が設定された近傍ビンがあることを示します。このビンはクラスターの一部です。負の値のインデックスは、1 つのビンに、類似していない値が設定された近傍ビンがあることを示します。このビンは外れ値です。どちらの場合も、フィーチャの疑似 p 値または p 値を小さい値に設定し、クラスターと外れ値が統計的に有意と見なされるようにする必要があります。統計的有意性を判断する方法の詳細については、「Z スコアとは、 p 値とは」をご参照ください。 Local Moran's I インデックス (I) は、相対的な測定であり、生成された基準分布と算出された疑似 p 値または p 値に照らし合わせてのみ解釈できます。出力フィーチャクラスでレポートされる疑似 p 値または p 値は、多重検定と空間依存性に関して補正されています。

クラスターと外れ値のタイプでは、統計的に有意な高い値のクラスター (高 - 高)、統計的に有意な低い値のクラスター (低 - 低)、高い値が主に低い値に取り囲まれている外れ値 (高 - 低)、低い値が主に高い値に取り囲まれている外れ値 (低 - 高) が区別されます。統計的な有意性は、95 % の信頼度に設定されます。この統計的有意性は「FDR 補正」を表します。FDR 補正により、p 値の閾値が 0.05 から、「多重検定」の結果を考慮して 95 % の信頼度が十分に反映された値に調整されます。

近傍のデフォルト

時空間にあるビンの値が、統計的に有意なホットスポットまたはコールドスポットの一部であるか、統計的に有意な外れ値であるかを判断するために、各ビンがその近傍の時空間ビンに照らし合わせて評価されます。このツールのデフォルトは、[固定距離] オプションを使用してビン間のリレーションシップを定義することです。 [近傍距離] および [近傍時間のステップ] パラメーターのパラメーター値は、各ビンの近傍の範囲 (各ビンの分析のコンテキスト) を定義します。ビンのディメンションが 1 日単位で 400 x 400 メートルであるとします。 [近傍距離] パラメーターの値を 801 メートル、[近隣時間のステップ] パラメーターを「2」に設定すると、次に示すように、空間近傍が水平方向と垂直方向のどちらにも 2 つのビンの分だけ拡大され、対角線上に 1 つのビンの分だけ拡大されます。

加えて、時間近傍が存在します。一致する期間と前の 2 つの期間 (この例では合計 3 日) においてターゲットとその空間近傍 (上記参照) と同じ場所にあるすべてのビンが、近傍として含められます。時間近傍は時間を遡ること、および [近傍時間のステップ] パラメーターの値 2 には 3 つの時間ステップ間隔が含まれることに注意してください。各場所に 1 つ以上の時間近傍を確保するために、最初のタイムスライス内にあるビンでは Local Moran's インデックスの計算が行われません。ただし、最初のタイムスライス内にあるビンの値は、グローバル平均の計算に含められます。

[近傍距離] パラメーターに値を指定しない場合は、デフォルト値が計算されます。その式は、カーネル密度のデフォルトの検索範囲を決定するために使用される「計算」から生成されます。 [近傍時間のステップ] パラメーターに値を指定しない場合、デフォルト値は 1 です。

[空間リレーションシップのコンセプト] パラメーターを使用して近傍リレーションシップを定義するその他のオプションがあります。各オプションでは、ツールは最初に空間近傍を検出し、次にそれらの同じ位置で、N 時間ステップ前からビンを検出します。ここで、N は指定した [近傍時間のステップ] パラメーターの値です。

[空間リレーションシップのコンセプト] パラメーターの選択には、解析対象のフィーチャ間の固有のリレーションシップが反映されている必要があります。フィーチャの空間相互作用をより現実的にモデリングできればできるほど、結果はより正確になります。推奨事項については「空間リレーションシップのコンセプトの選択: ベストプラクティス」で説明しています。

順列

順列を使用すると、ランダムに生成された一連の値と比較して分析する値の実際の空間分布が検出される可能性がどれくらいあるかを判断できます。「空間完全ランダム性 (CSR)」を使用した場合でも、単にランダム性によって、ある程度のクラスター分布が常に観測されます。順列では、ランダムなデータセットが多数生成され、これらの値が元のデータの Local Moran's I と比較されます。順列を実行するごとに、各ビンの周囲の近傍値がランダムに並べ替えられ、このランダムなデータの Local Moran's I 値が算出されます。順列から生成された Local Moran's I の分布を確認すると、ランダム性によって生じたと考えられる Local Moran's I 値の範囲を特定できます。統計的に有意な空間パターンがデータに含まれている場合、順列から生成された Local Moran's I 値は、元のデータから生成された Local Moran's I 値よりも、クラスター分布の少ない状態で表示されることが予想されます。この後、順列から生成された Local Moran's I 値が元のデータよりもクラスター分布の多い状態で表示される比率を求めて、疑似 p 値が算出されます。この比率 (疑似 p 値) が小さい値 (0.05 未満) の場合は、そのデータから統計的に有意なクラスター分布が表示されると判断できます。

順列の数を選択する場合は、精度と処理時間の増加とのバランスを考慮します。順列の数を多くすると、疑似 p 値の範囲が広くなり、結果的に精度が上がります。たとえば、順列の数が 99 の場合は疑似 p 値の精度が .01 (1/99+1) になり、順列の数が 999 の場合は疑似 p 値の精度が .001 (1/999+1) になります。初期段階で問題を調査する場合には順列の数を少なくしてもかまいませんが、通常は順列の数を増やし、最終結果に適した最大数にすることが最善策です。

参考資料

Anselin, Luc 『Local Indicators of Spatial Association—LISA』Geographical Analysis 27 (2) : 93 ～ 115、1995 年

Mitchell, Andy. 『The ESRI Guide to GIS Analysis, Volume 2』 ESRI Press, 2005.

このトピックへのフィードバック

適用例

ツールの出力

解釈

近傍のデフォルト

順列

参考資料

このトピックの内容