コロケーション分析 (Colocation Analysis) の詳細

[コロケーション分析 (Colocation Analysis)] ツールでは、コロケーション比率の統計を使用して、ポイント フィーチャの 2 つのカテゴリ間の空間的関連性のローカル パターンを測定します。このツールの出力は、コロケーション比率値と p 値が含まれる追加されたフィールドで分析された、2 つのカテゴリ間の空間的関連性の可能性を表す地図で表現されます。オプションのテーブル パラメーターでは、[対象の入力フィーチャ] パラメーターのすべてのカテゴリから、[入力近隣フィーチャ] パラメーターで表されるすべてのカテゴリまでの関連性をレポートするように指定できます。

適用例

[コロケーション分析 (Colocation Analysis)] ツールは、次のような場合に適用できます。

  • 特定の複数のビジネスタイプがコロケーションされる可能性が高いかどうか (喫茶店と小売店など)
  • 住居での窃盗の位置が特定のタイプの住宅で発生する可能性が高いか、またはコロケーションされるかどうか
  • レストランの検査が不合格だった分析範囲内の特定の地域で昆虫の侵入がコロケーションされるかどうか

コロケーション比率の計算の仕組み

[対象のカテゴリ] (カテゴリ A) 内の各フィーチャは、その近傍内で見つかった [近隣カテゴリ] (カテゴリ B) の存在によるコロケーションについて個別に評価されます。一般的に、A の近傍内にある B ポイントの比率が B のグローバルな比率より大きい場合、コロケーション比率は高くなります。A の近傍に他の A ポイントまたは B 以外のカテゴリが多く含まれる場合は、[対象のカテゴリ] (カテゴリ A) と [近隣カテゴリ] (カテゴリ B) の間のコロケーションは低くなります。

[入力タイプ] として 2 つの [カテゴリのないデータセット] が使用されている場合、[入力対象フィーチャ] はカテゴリ A、[入力隣接フィーチャ] はカテゴリ B として扱われます。

注意:

この分析のコロケーション リレーションシップは対称ではありません。カテゴリ A をカテゴリ B と比較したときに計算されるコロケーション比率値は、カテゴリ B をカテゴリ A と比較したときに計算されるコロケーション比率と異なります。

メモ:

近傍内にカテゴリ C がある場合、結果として導かれたコロケーション比率は、カテゴリ A と B しかない場合の値とは異なります。質問内容によっては、カテゴリ A と B のみが含まれるように、データの一部を抽出することが重要になる場合があります。ただし、一部を抽出するときに、存在する他のカテゴリについての情報は失われます。あるカテゴリの出現が、他の出現による影響をまったく受けない場合は、データの一部を選択して抽出することが重要です。

[対象のカテゴリ] A 内のポイント Ai から [近隣カテゴリ] B までの計算されたローカル コロケーション比率は次のとおりです。

ローカル コロケーション比率の方程式
ここで、NB は、分析範囲内に存在するカテゴリ B の総数であり、N は分析範囲内のポイント (存在するすべてのカテゴリを含む) の総数です。NAi–>B は、カテゴリ A の各ポイント (Ai) の近傍内にあるカテゴリ B のポイント数の加重平均です。これは、ターゲット フィーチャにより近いフィーチャを遠いフィーチャよりも計算で重視できる距離減衰関数に基づきます。ガウスまたは Bisquare カーネルに基づくことができ、[ローカル加重方式] パラメーターで指定します。[ローカル加重方式] パラメーターで [なし] を選択することで、加重方式を適用しないこともできます。

NAi–>B は、ガウスまたは Bisquare カーネル関数に基づいて、各 Ai の近傍内のタイプ B のポイント数の加重平均を表しています。

加重平均の方程式

ここで、fij は、ポイント j がカテゴリ B ポイントであるかどうかを示すバイナリ変数です。真の場合、1 と等しくなります。それ以外の場合は、0 と等しくなります。カーネル関数の方程式は次のとおりです。

カーネル関数の方程式
メモ:

[Bisquare カーネル] で、wij の値がマイナスである場合、割り当てられる加重値は 0 です。

さまざまなローカル加重方式の図

グローバル コロケーション比率を計算して、データセット内のすべてのカテゴリ間の空間的関連性を測定することもできます。こうすることで、強力にコロケーションされる他のカテゴリを包括的に見つけることができるため、データ内の他の関係性を調査することができます。グローバル コロケーション比率の方程式は次のとおりです。

グローバル コロケーション比率の方程式
ここで、N はフィーチャの総数、NA はカテゴリ A のフィーチャの数、N'B はカテゴリ B のフィーチャの数です。この方程式は、データセット内のカテゴリのすべての組み合わせに対して計算されます。

順列は、観察対象のコロケーション比率値が統計的に有意かどうかを判断するため、[対象の入力フィーチャ] それぞれの p 値を計算するのに使用します。各フィーチャについて、ローカル コロケーション比率が、近傍を使用して計算されます。また、他のすべてのポイントのカテゴリが、順列ごとに分析範囲全体でランダムに再編成されます (対象のポイント位置のカテゴリを一定に維持)。対象の各フィーチャについて、新しいローカル コロケーション比率が、順列ごとに近傍内のカテゴリを使用して計算されます。この計算結果がコロケーション比率値の基準分布になり、観測値が順列のランダム分布の中から検出される確率を求めるためにフィーチャの実際のコロケーション比率値と比較されます。この分布を見ると、ランダム性の原因であると考えることが妥当なコロケーション比率値の範囲を確認できます。 p 値が小さい (0.05 未満) 場合、フィーチャの実際のコロケーション比率は統計的に有意です。ツールのデフォルトの順列は 99 個です。ただし、順列が増加すると、計算される p 値の精度が向上します。

近傍タイプ

[近傍タイプ] は、3 つのうちのいずれかの方法で選択できます。[距離バンド] では、分析のスケールが分析範囲内のすべての近傍で必ず等しくなります。これは、密度の高い地域は、希薄な地域よりも、より多くのポイントが分析で考慮されることを意味します。[k 近傍法] オプションは、その距離内で適応性があり、各近傍には必ず、フィーチャごとに同じ数の近傍が含まれます。[空間ウェイト マトリックスの生成 (Generate Spatial Weights Matrix)] ツールで作成された .swm ファイルを指定して、別の方法で空間加重値を定義することもできます。

時空間ウィンドウの使用

データに日付と時間のフィールドが含まれる場合、分析を一連の時空間ウィンドウに分類できます。[対象の時間フィールド][近隣カテゴリの時間フィールド]、および [時間のリレーションシップ タイプ] を指定することで、分析対象の近傍にどのフィーチャを含めるかを管理できます。ターゲット フィーチャの場所とタイム スタンプに関連してすべてのフィーチャリレーションシップが評価されるため、空間および時間内で互いに近いフィーチャ群が一緒に分析されます。下の例で、1 km の [距離バンド] は「Jan 31」のラベルが付けられたフィーチャについて 6 個の近傍を見つけます。ただし、下の例では、1 km の [距離バンド] とターゲット フィーチャ後 1 日の時空間ウィンドウで見つけられるのは、2 個の近傍のみです。

時空間ウィンドウを適用していない場合と適用した場合の比較

ある地域の森林火災の火元と、キャンプ利用者の位置を分析していると仮定します。フィーチャ リレーションシップを定義するため、[近傍タイプ][距離バンド] オプションのみを使用して [コロケーション分析 (Colocation Analysis)] ツールを実行した場合、結果は、データセット内に記録されたすべてのキャンプ利用者がコロケーションされた、森林火災の火元のポイントの位置を示す地図になります。時空間ウィンドウと上のパラメーターを定義して分析を再度実行すると、1 年前に出現したキャンプ利用者の位置は、今年発生した森林火災の火元の分析に影響を及ぼしていないことを確認できます。森林火災とキャンプ利用者のこの時系列的特徴を理解することは、消防リソースの配備を大きく左右します。

結果の解析

[コロケーション分析 (Colocation Analysis)] ツールを実行すると、結果として導かれた出力フィーチャに 6 個のフィールドが追加されます。Local Colocation Quotient フィールドには、[対象の入力フィーチャ] それぞれについて結果として導かれた比率のスコアが含まれ、p-valueもレポートされます。ローカル コロケーション比率は、ビン化され (LCLQ Bin)、ラベル付けされて (LCLQ Type)、各フィーチャの LCLQ Type に従って地図上に表示されます。ローカル コロケーション比率が 1 よりも大きい [対象のカテゴリ] (カテゴリ A) のフィーチャには、近傍内の [近隣カテゴリ] (カテゴリ B) のフィーチャが存在する可能性が高いです。コロケーション比率が 1 未満のフィーチャでは、近傍内にカテゴリ B が存在する可能性は低いです。フィーチャのコロケーション比率が 1 に等しい場合は、近傍内のカテゴリの割合が、分析範囲全体でのカテゴリの割合を適切に表現していることを意味します。

シンボルLCLQ ビンLCLQ タイプ説明
「コロケーション - 有意」の記号

0

コロケーション - 有意

ローカル コロケーション比率は 1 より大きく、p 値は 0.05 未満。

「コロケーション - 有意でない」の記号

1

コロケーション - 有意でない

ローカル コロケーション比率は 1 より大きく、p 値は 0.05 より大きい。

「孤立 - 有意」の記号

2

孤立 - 有意

ローカル コロケーション比率は 1 以下で、p 値は 0.05 未満。

「孤立 - 有意でない」の記号

3

孤立 - 有意でない

ローカル コロケーション比率は 1 以下で、p 値は 0.05 より大きい。

「未定義」の記号

4

未定義

このフィーチャは、近傍内または 0 と等しい帯域幅内で他のフィーチャを持ちません。

Neighboring Categories フィールドでは、各フィーチャの近傍について、指定した近傍内で見つかったすべてのカテゴリが列挙されます。Neighbor Prevalence フィールドでは、対象の他のフィーチャの近傍内に何らかの近隣カテゴリの組み合わせが出現する回数が把握されます。たとえば、カテゴリ B が近隣カテゴリとして出現する場合、B の Neighbor Prevalence は、B が近隣カテゴリとして出現したフィーチャの数を [対象の入力フィーチャ] の総数で割った値と等しくなります。これは、分析範囲に出現するカテゴリの組み合わせ (または組み合わせの一部) がどれだけ一般的なのかを調査するのに役立ちます。次の表は、カテゴリ A は近傍の 100% に出現するのに対して、A と C の組み合わせは近傍の 20% に出現することを示しています。

近傍カテゴリの組み合わせNeighbor Prevalence (近傍普及)

A

1

A

1

A、B

0.4

A、B

0.4

A、C

0.2

散布図は、作成して、[コンテンツ] ウィンドウの [出力フィーチャ] の下でアクセスすることもできます。このウィンドウには、ローカル コロケーション比率と計算された p 値のリレーションシップが表示されます。

LCLQ 散布図

参考資料

  • Timothy F. Leslie、Barry J. Kronenfeld (2011) 『The Colocation Quotient: A New Measure of Spatial Association Between Categorical Subsets of Points』 Geographical Analysis43 (3)、306 ~ 326 ページ。doi: 10.1111/j.1538-4632.2011.00821.x
  • Fahui Wang、Yujie Hu、Shuai Wang、Xiaojuan Li (2017) 『Local Indicator of Colocation Quotient with a Statistical Significance Test: Examining Spatial Association of Crime and Facilities』 The Professional Geographer69 (1)、22 ~ 31 ページ。doi: 10.1080/00330124.2016.1157498