[空間的外れ値の検出 (Spatial Outlier Detection)] ツールは、ローカル外れ値係数 (LOF) を計算し、分析範囲内のポイントがローカル近傍の他のポイントから離れている度合いを計測する仕組みとなっています。 このツールは、入力ポイントを外れ値とインライアーに分類するだけでなく、分析範囲全体で計算されたローカル外れ値係数でラスター サーフェスを作成できます。データの空間分布を考慮して新しい観測点の分類方法を決定するうえで役立つ可能性があります。
適用例
このツールの適用例としては、以下のようなシナリオがあります。
- ある組織は大気環境サーフェスの内挿を目的とした大気環境観測所を管理しており、孤立度の極めて高いモニターを特定し、補足的なデータ収集が必要な地点を特定したいと考えています。
- 献血活動は、多くの場合、ドナーの移動を最小限に抑えるためにドナー候補者が多くいる場所の近くで開催されます。遠方に住む重要なドナーに進んで献血してもらうには、いっそうのコミュニケーションとインセンティブが必要となる可能性があります。 コーディネーターは、空間的外れ値と見なされるこれらのドナー候補者を特定し、献血活動の場所まではるばる移動することに対する追加のインセンティブを記載した郵便広告を送ることができます。
空間的外れ値の検出 (Spatial Outlier Detection) の定義
空間的外れ値を計測して特定するこのツールを使用するには、フィーチャごとに評価された[近傍数] パラメーターの値と、分析範囲の [外れ値と見なされる場所の割合] パラメーターの値が必要です。これらの基準は、LOF 計算時の近傍のサイズや外れ値とインライアーを指定する閾値を決めるうえで重要です。
- [近傍数] パラメーターは、フィーチャごとの近傍を決めるものです。 LOF 計算では、この近傍を使って到達可能性距離とローカル到達可能性密度を計算します。これが、あるフィーチャが付近のフィーチャから空間的にどれだけ離れているかを推定するための比較の基準となります。
- [外れ値と見なされる場所の割合] パラメーターは、フィーチャが外れ値かインライアーかを指定する閾値を決めるものです。 この閾値は、入力データのすべてのフィーチャについて計算された LOF の値を使用して、外れ値として指定される LOF の最大値を持つフィーチャの割合を決めます。
可能であれば、特定領域の知識でこうしたパラメーターの値を以下の例のように設定するようお勧めします。
- 交差点での衝突数が体系的な安全性の問題を示していることについて固有の領域知識を持っている運輸業界のエンジニアは、この値を近傍数として使い空間的外れ値を検出することができます。
- 献血活動のコーディネーターは、献血ボランティア候補のリストを持っています。 コーディネーターには、献血活動の場所への移動時間を補完するために 10 パーセントの特に遠方のボランティアにインセンティブを与えるための予算があるので、外れ値と見なされる場所の割合として 10 パーセントを使用して、献血活動の場所や献血活動に対するインセンティブを計画するのに役立てます。
ツールの出力
このツールは、空間的外れ値として指定されたフィーチャをハイライト表示する出力フィーチャ レイヤーを提供します。 外れ値はオレンジ、インライアーは半透明の灰色でシンボル表示され、インライアーの空間密度を視覚的に評価できるようになります。
このフィーチャ レイヤーには 2 つのチャートがあります。1 つは外れ値の数を示すバー チャート、もう 1 つは LOF 値の分布を示すヒストグラムです。
外れ値の数を示すこのバー チャートには外れ値の数が即時表示されるので、出力解析結果からすべての外れ値を選択するのに効果的な方法です。
LOF 値の分布を示すこのヒストグラムには、LOF 平均値と、外れ値とインライアーを指定するのに使用される閾値が含まれます。
さらに、[出力予測ラスター] パラメーターに値が入力されると、分析範囲のセルごとに計算された LOF 値を示す出力ラスターが作成されます。
空間的外れ値の検出 (Spatial Outlier Detection) の概要
異常であったり他から離れている場所の特定は、多くの場合、一般的であったり集中している場所の特定よりも重要です。 例として、詐欺の可能性のある金融取引の調査があげられます。詐欺が発生するのは、多くの場合取引の一般的な空間パターンから外れた異常な場所です。
こうしたニーズがあるにもかかわらず、外れ値を特定しようとするアプローチの大半では、まずクラスターを特定したうえで、残りのフィーチャを空間的外れ値と推測できるものとして使用するというやり方にこだわります。 たとえば、[密度ベースのクラスター分析 (Density-based Clustering)] ツールは、さまざまなアプローチで空間的クラスターを定義し特定するのには長けていますが、このツールによる外れ値の特定は、クラスターの基準を満たさず、ノイズ フィーチャとして二値的に指定されたフィーチャでしかありません。 その結果、クラスター アプローチだけを使用して空間的外れ値を特定すると、少なくとも 2 つの短所が伴うことになります。 1 つ目の短所は、設計上クラスター アプローチが焦点を当てているのはクラスターの定義と特定であって、外れ値の定義と特定ではないということです。 もう 1 つの短所は、多くの場合外れ値の指定が二値的な手法で行われ、観測値の外れ値の度合いについての許容値や定量的レベルが存在しないということです。
ローカル外れ値係数 (LOF) は、外れ値の特定に焦点を当て、フィーチャの離れ度合いの計測値を提供することで、こうした短所に対処します。 さらに、このアプローチでは、ローカルな密度パターンを使用して、フィーチャの近傍の密度を、付近のその他のフィーチャの近傍に対して比較します。 これにより、分析範囲全体の状況において異常であることを示すグローバルな外れ値と、ごく近い周辺のみの状況において異常であることを示すローカルな外れ値とを区別することができます。 ローカルな外れ値に注目すれば、上述の取引履歴シナリオのような詳細な調査を要する複雑なローカル現象を明らかにするのに役立ちます。
ローカル外れ値係数
ローカル外れ値係数の計算は、空間的外れ値を特定して説明するうえで重要なメカニズムです。 この特徴は、次の 4 つの手順です。すなわち、近傍の確定、到達可能性距離の検索、ローカル到達可能性密度の計算、ローカル外れ値係数自体の計算です。 以下では、それらのアクションについて説明します。
近傍の確定と到達可能性距離の検索
ローカル近傍は、指定されたフィーチャの最小数を使用して場所ごとに確定します。 このアプローチは、一般的に K 近傍と呼ばれます。K とは、現在解析されているフィーチャ周辺の指定されたフィーチャの最小数に相当します。 例として、以下の図に示したフィーチャ A のシナリオでは、近傍数 k は 4 です。
フィーチャの近傍が確定すれば、到達可能性距離は、A と B の間の距離か、B から kth の最も近い近傍までの距離の、どちらか距離の大きい方となります。
次の図では、k = 4 のシナリオにおけるポイント A の到達可能性距離を示しています。
同様にして、各フィーチャにはそれぞれ K 近傍で定義された到達可能性距離があります。
ローカル到達可能性密度の検索
フィーチャごとに到達可能性距離が判明したら、フィーチャの近傍のすべてのフィーチャの到達可能性距離の平均値を計算します。 この平均値は、フィーチャの近傍の空間密度の計測値であるローカル到達可能性密度を決定するために使用されます。 ローカル到達可能性密度の計算値は、フィーチャの近傍のすべてのフィーチャの到達可能性距離の平均値の逆数に相当します。
ローカル到達可能性密度を概念化するもう 1 つの方法は、フィーチャ A の近傍に属する B1 から B4 までのすべてのフィーチャの到達可能性距離を算出することです。以下の図に示します。
その後、距離の合計をフィーチャの数 (この場合は 4) で除算し、その逆数を出します (合計値で 1 を除算)。
さらに、フィーチャの到達可能性距離の平均値が増加するとローカル到達可能性密度が下がることを概念化することもできます。 つまり、フィーチャの到達可能性距離の平均値が減少するとローカル到達可能性密度は上がることになります。
ローカル外れ値係数の計算
すべてのフィーチャに対してローカル到達可能性密度が計算できたので、ローカル外れ値係数の計算の最終ステップとして、あるフィーチャのローカル到達可能性密度とその近傍のローカル到達可能性密度の比率を計算します。 こうして計算された比率の平均値が、ローカル外れ値係数です。
この係数が、あるフィーチャが空間的外れ値かどうかを検出するのにどう役立つのかを概念化するため、フィーチャのローカル到達可能性密度が減少 (つまり、フィーチャの近傍は疎) し、近傍のローカル到達可能性が増加 (つまり、フィーチャの近傍の近傍はより密)すると、ローカル外れ値係数は増加する、と考えてみましょう。このフィーチャの空間密度は低く、近傍のフィーチャの空間密度はそれより高いことから、このフィーチャがその他のフィーチャよりも離れているということになります。
このツールは、すべてのフィーチャに対して計算されたローカル外れ値係数を使用して、指定された場所の割合を外れ値のパラメーター値として使用して、フィーチャを外れ値とインライアーとに指定します。 つまり、適切な割合を選択することが解析結果を定義し解釈するうえで重要な条件の 1 つということです。
注意事項と出力の解釈
このツールの出力を解釈する際、重要な注意事項がいくつかあります。
- ある入力データセットに対して計算された LOF 値は、別のデータセットで計算された LOF 値との比較に使用することはできません。 LOF 計算は、データセットの入力フィーチャの空間分布に依存します。つまり、異なるデータセットに存在する差異が原因で、計算されるローカル到達可能性密度や LOF 値も異なるものになります。
- 計算された LOF 結果が、出力フィーチャのポイントとそのポイントに合致する出力予測ラスターのセルとで、異なる可能性があります。 この差異が生じるのは、あるポイントの近傍には周辺の近傍は含まれるもののそのポイントそのものは含まれないのに対し、そのポイントに合致するラスター セルにはポイントそのものも近傍の 1 つとして含まれるためです。
- [外れ値と見なされる場所の割合] パラメーターに渡される値にわずかな差異があっても、外れ値と見なされる場所の割合の出力が同じとなる可能性があります。 この状態は、フィーチャの空間分布が類似していたために複数のフィーチャの LOF 値が同じとなっている場合や、割合に差はあってもわずかな幅だったために同じ LOF 閾値が設定される場合に発生する可能性があります。
- 10 個のフィーチャがあり、LOF 計算結果の LOF 値が次のようになっているシンプルなデータセットを考えてみましょう。: [0, 1, 2, 3, 4, 5, 9, 9, 9, 9]。 この例では、外れ値と見なされる場所の割合の値を 10 パーセントとすると、上位 10 パーセントの LOF 値が選択されることになり、LOF 閾値を 9 とした場合に相当します。 同様に、外れ値と見なされる場所の割合の値として 40 パーセントを渡すと、上位 40 パーセントの LOF 値が選択されることになりますが、これでも設定される LOF 閾値は 9 のままです。 そのため、外れ値として指定される外れ値の数は、10 パーセントの場合から 40 パーセントの場合まで同じとなります。
その他の参照先
ローカル外れ値係数の詳細については、次の資料をご参照ください。
- Breunig, M. M., Kriegel, H. P., Ng, R. T., Sander, J. (2000). "LOF: identifying density-based local outliers." Proceedings of the 2000 ACM SIGMOD international conference on Management of data。(pp. 93-104).