類似検索 (Similarity Search) の詳細

[類似検索 (Similarity Search)] ツールは、1 つ以上の [照合する入力フィーチャ] に最も類似している (または最も類似していない) [候補フィーチャ] を特定します。類似度は、指定した数値属性リスト (対象属性) に基づきます。複数の照合する入力フィーチャを指定した場合、類似度は、対象属性ごとの平均に基づきます。出力フィーチャクラス (出力フィーチャ) には、照合する入力フィーチャに加えて、検出された一致する候補フィーチャがすべて含まれ、類似度の順 ([類似度の高低] パラメーターで指定) に並んでいます。返される一致の数は、[結果の数] パラメーターの値に従います。

適用例

  • [類似検索 (Similarity Search)] ツールを使用して、人口、教育、および特定のレクリエーション施設への近さに関して自分の住んでいる都市によく似た他の都市を検索できます。
  • ある地方公務員が、税収を増やすために、自分の都市で潜在的な事業を促進したいとします。[類似検索 (Similarity Search)] ツールを使用して、事業を引き付ける属性 (低い犯罪率、高い成長率など) に関して比較するために、自分の都市と類似している他の都市を特定できます。この公務員は、自分の都市に類似しているが、自分の都市よりも大きいか小さい都市 (コサイン類似度) を検索することもできます。この公務員が誘致したい事業をすでに誘致している、より大きいか小さい類似する都市を検索することによって、類似度に注目しながら、小さいことによるメリット (混雑の少なさや小さい都市が持つ趣) または大きいことによるメリット (潜在的な顧客の多さ) を強調できます。自分の都市に最も類似していない都市に興味を持つこともできます。最も類似していない都市のいずれかが、誘致しようとする事業の競争相手を表している場合、この解析は、比較する必要がある情報を提供します。
  • ある人事マネージャーが、会社の給与範囲が正当であることを説明したいとします。規模、生活費、および環境に関して類似する都市を特定できれば、それらの都市の給与範囲を調べて、自分の会社の給与範囲が適正かどうかを確認できます。
  • 犯罪分析者は、データベースを検索して、ある犯罪がより大きなパターンまたは傾向に含まれているかどうかを調べることができます。
  • 放課後のフィットネス プログラムが、都市 A で非常に成功しました。プロモーターは、このプログラムを展開するために、類似する特徴を持つ他の都市を候補として検索できます。
  • ある司法当局は、薬物が増加しているか、製造されている地域を発見しました。類似する特徴を持つ地域を特定することによって、今後調査する地域を絞り込むことができます。
  • ある大手小売業者は、複数の成功した店舗と、販売実績の低いいくつかの店舗を所有しています。類似する人口統計と背景的な特徴 (交通の便、立地、補完的な事業など) を持つ場所を検索すると、新しい店舗に最適な場所の特定に役立ちます。

照合方法

照合は、属性値、ランク付けされた属性値、または属性プロファイル (コサイン類似度) に基づくことができます。以下では、これらの方法で採用されているアルゴリズムについて説明します。どの方法でも、照合する入力フィーチャが複数存在する場合、すべてのフィーチャの属性の平均が計算されて、照合処理で使用されるコンポジット ターゲット フィーチャが作成されます。平均化された対象属性

属性値

[照合方法] パラメーターで [属性値] を選択した場合、このツールは、まず、すべての対象属性を標準化します。 次に、候補ごとにターゲットの値から標準化された値を引き、その差分を 2 乗して、それらの値の和を取ります。この和は、この候補の類似度指標になります。すべての候補の処理が完了すると、最も小さい指標を持つ (最も類似する) 候補から、最も大きい指標を持つ (最も類似しない) 候補まで、ランク付けされます。

詳細:

属性値の標準化には、Z 変換が含まれます。この変換では、すべての値の平均値を各値から引いた後、その結果をすべての値の標準偏差で割ります ([照合する入力フィーチャ][候補フィーチャ] はどちらも平均値の計算と標準偏差の計算に含まれます)。標準化によって、属性が非常に異なる種類の数 (比率 (0 〜 1.0)、人口 (100 万以上)、距離 (キロメートルなど)) で表されている場合でも、すべての属性が同じスケールで表されます。

ランク付けされた属性値

[照合方法] パラメーターで [ランク付けされた属性値] を選択した場合、ツールは、ターゲット フィーチャとすべての候補の両方に対する各対象属性のランク付けから開始します。候補ごとに、ターゲット フィーチャの各属性について、2 乗差の合計が計算されます。ターゲットの人口値がすべての候補のうちで 10 番目に大きく、着目する候補の人口が 15 番目に大きい場合、その候補の人口ランクの 2 乗差の合計は、10 - 15 = -5、-5**2 を計算して 25 になります。すべての対象属性のランクの 2 乗差の合計が、この候補の類似度指標になります。すべての候補の処理が完了すると、最も小さい指標を持つ (最も類似する) 候補から、最も大きい指標を持つ (最も類似しない) 候補まで、ランク付けされます。

属性プロファイル

[照合方法] パラメーターで [属性プロファイル] を選択すると、ツールは、まず、すべての対象属性を標準化します (この方法では、2 つ以上の対象属性が必要です)。次にツールは、コサイン類似度計算を行って、各候補の標準化された属性のベクトルと、照合されるターゲット フィーチャの標準化された属性のベクトルを比較します。2 つのベクトル、A と B のコサイン類似度は、次の式に従って計算されます。

コサイン類似度の式

コサイン類似度は、属性値の大きさの一致には関係しません。この方法では、属性間の関係に焦点が当てられます。比較されるベクトル (ターゲットと候補のうちの 1 つ) で、標準化された属性のプロファイル (折れ線グラフ) を作成すると、非常に類似したプロファイルと非常に異なるプロファイルを確認できます。

属性プロファイル
最も上の属性のペアのプロファイルは、非常に類似しています。最も下のペアのプロファイルは、非常に異なっています。

コサイン類似度指標は、1.0 (完全な類似度) から -1.0 (完全な相違) までの範囲で、SIMINDEX (コサイン類似度) フィールドにレポートされます。この照合方法を使用して、同じ特徴を持つが、おそらく規模がより大きいか小さい場所を検索できます。

ベスト プラクティス

類似パターンのマッピング

[結果の数] パラメーターを 0 に設定した場合、ツールはすべての候補フィーチャをランク付けします。この解析の出力は、空間パターンの類似度を示します。なお、すべての候補をランク付けすると、類似度と相違に関する情報が得られます。

ランク付けされた類似度のマップ

空間変数を含める

特定の絶滅危惧種が生息している場所 (ポリゴン エリア) がわかっていて、その種が繁殖できる別の場所を見つけたいとします。現在生息している場所に類似する場所を検索しますが、その場所は、その種が繁殖できるほど大きく、かつコンパクトである必要があります。この解析では、ポリゴン エリアごとにコンパクトさの指標を計算できます (一般に、コンパクトさは、ポリゴンの面積を、それと同じ外周長を持つ円形の面積と比較することによって測定されます)。その後、[類似検索 (Similarity Search)] ツールを実行するときに、コンパクトさの測定値とポリゴンのサイズ (Shape_Area) を反映する属性を、[出力に追加するフィールド] パラメーターに含めることができます。コンパクトさと面積の両方に関して 上位 10 個の一致結果を並べると、種の再繁殖に最も適した場所を特定できます。

たとえば、ある小売業者が、店舗の展開に関心があるとします。すでに成功している店舗が存在する場合、成功した店舗の主要な特徴を反映する属性を使用して、展開のための候補地を検索できます。販売する製品が大学生に最も人気があり、現在の店舗に近い場所または競合他社に近い場所を避ける必要があるとします。[類似検索 (Similarity Search)] ツールを実行する前に、[最近接 (Near)] ツールを使用して、空間変数 (大学または大学生の人口密度が高い場所までの距離、既存の店舗までの距離、および競合他社までの距離) を作成します。その後、[類似検索 (Similarity Search)] ツールを実行するときに、これらの空間変数を [出力に追加するフィールド] パラメーターに含めることができます。