密度ベースのクラスター分析の機能

[密度ベースのクラスター分析 (Density-based Clustering)] ツールは、ポイントが集中しているエリアおよび空または疎なエリアによって分離されているエリアを検出することによって機能します。クラスターに含まれないポイントには、ノイズとしてラベルが付けられます。

このツールは、教師なし機械学習クラスタリング アルゴリズムを使用します。このアルゴリズムは、空間位置および指定された近傍数までの距離のみに基づいてパターンを自動的に検出します。このアルゴリズムは、クラスターになることが何を意味しているかに関するトレーニングを必要としないため、教師なしであると見なされています。

ヒント:

クラスタリング、グループ化、および分類手法は、機械学習で最も広く使用されている方法です。[多変量クラスター分析 (Multivariate Clustering)] ツールおよび [空間的に制限された多変量クラスター分析 (Spatially Constrained Multivariate Clustering)] ツールも、教師なし機械学習方法を使用してデータ内の自然なクラスターを決定します。これらの分類方法は、データ内のクラスターを見つけるように誘導またはトレーニングするために、事前に分類されたフィーチャのセットを必要としないため、教師なしであると見なされています。

適用例

このツールの適用例には、以下のようなものがあります。

  • 市街地の配水網は、重要な隠れ地下資産です。パイプの断裂および破裂のクラスタリングは、迫り来る問題を示す場合があります。エンジニアは、[密度ベースのクラスター分析 (Density-based Clustering)] ツールを使用して、これらのクラスターが存在する場所を見つけ、配水網内の危険性の高いゾーンに対して予防措置を講じることができます。
  • NBA の選手のすべての成功したシュートおよび失敗したシュートに関する位置データが存在すると仮定します。[密度ベースのクラスター分析 (Density-based Clustering)] は、選手ごとに成功したシュートと失敗したシュートの位置のさまざまなパターンを示すことができます。その後、この情報を使用して、ゲーム戦略に関する情報を提供することができます。
  • たとえば、害虫が運ぶ特定の病気を調査しており、分析範囲内の世帯を表しているポイント データセットが存在し、それらの世帯の一部が感染していて、その他の世帯が感染していないとします。[密度ベースのクラスター分析 (Density-based Clustering)] ツールを使用することによって、感染した世帯の最大のクラスターを決定し、害虫の処理および駆除を開始する必要のあるエリアを正確に示すことができます。
  • 自然災害またはテロ攻撃の後のジオロケートされたツイートをクラスタリングすることができ、識別されたクラスターのサイズおよび位置に基づいて、救助および避難の必要性に関する情報を提供することができます。

クラスター分析方法

[密度ベースのクラスター分析 (Density-based Clustering)] ツールは、ポイント データ内のクラスターを見つけるために使用する次の 3 種類の [クラスター分析方法] を提供します。

  • [指定距離 (DBSCAN)] - 指定された距離を使用して、密なクラスターを疎なノイズから分離します。DBSCAN アルゴリズムは、最も高速なクラスター分析手法ですが、使用する [検索距離] が非常に明確であり、その検索距離がすべての潜在的なクラスターに対して十分に機能する場合にのみ適しています。このアルゴリズムを使用するには、すべての意味のあるクラスターが類似する密度を持っている必要があります。
  • [自動調整 (HDBSCAN)] - 距離の範囲を使用して、さまざまな密度のクラスターを疎なノイズから分離します。 HDBSCAN アルゴリズムは、最高のデータ駆動型のクラスター分析方法であるため、最小限のユーザー入力で済みます。
  • [マルチスケール (OPTICS)] - 近傍のフィーチャ間の距離を使用して、到達可能性プロットを作成します。その後、このプロットは、さまざまな密度のクラスターをノイズから分離するために使用されます。OPTICS アルゴリズムは、検出されるクラスターの微調整において最も高い柔軟性を備えていますが、特に大きい [検索距離] を使用した場合、計算負荷が大きくなります。

このツールは、[入力ポイント フィーチャ][出力フィーチャ] のパス、およびクラスターと見なされるために必要なフィーチャの最小数を表す値を受け取ります。ここで選択した [クラスター分析方法] に応じて、下で説明されているように、その他のパラメーターを指定する必要があります。

クラスターあたりの最小フィーチャ数 (すべての方法で必須)

このパラメーターは、ポイントのグループをクラスターと見なすために必要な最小フィーチャ数を決定します。たとえば、10 個のポイントから 100 個のポイントまでのサイズの複数のクラスターが存在し、20 の [クラスターあたりの最小フィーチャ数] を選択した場合、20 個のポイントよりも少ないすべてのクラスターは、(クラスターと見なすことができるほど十分に大きいグループを形成しないため) ノイズと見なされるか、必要なフィーチャの最小数を満たすために近くのクラスターとマージされます。これに対して、最も小さい意味のあるクラスターと見なすサイズよりも小さい [クラスターあたりの最小フィーチャ数] を選択すると、意味のあるクラスターがさらに小さいクラスターに分割される場合があります。言い換えると、[クラスターあたりの最小フィーチャ数] が小さいほど、より多くのクラスターが検出されます。[クラスターあたりの最小フィーチャ数] が大きいほど、より少ないクラスターが検出されます。

ヒント:

理想的な [クラスターあたりの最小フィーチャ数] は、得ようとしていること、および解析問題によって変わります。この値は、意味のあるクラスターと見なしたい最小のサイズのグループに設定する必要があります。[クラスターあたりの最小フィーチャ数] を増やすと、小さいクラスターの一部が一緒にマージされる場合があります。

[クラスターあたりの最小フィーチャ数] パラメーターは、クラスターを見つけるために 3 つの方法すべてによって使用される計測値である、中心距離の計算においても重要になります。概念的には、中心距離または各ポイントは、各ポイントから、定義された最小数のフィーチャまで移動するために必要になる距離の計測値です。そのため、大きい [クラスターあたりの最小フィーチャ数] が選択された場合、対応する中心距離は大きくなります。小さい [クラスターあたりの最小フィーチャ数] が選択された場合、対応する中心距離は小さくなります。クラスターの境界では、ポイントの中心距離は大きくなります (クラスターに含まれない可能性が高くなります)。中心距離は、[指定距離 (DBSCAN)] 方法および [マルチスケール (OPTICS)] 方法の両方によって使用される [検索距離] パラメーターに関連しています。

中心距離のグラフィックス

特定のフィーチャからの距離として計測される中心距離の図であり、自分自身を含めて 4 つ以上のフィーチャを含むクラスターを作成するには、この距離を移動する必要があります。

検索距離 (DBSCAN and OPTICS)

[指定距離 (DBSCAN)] では、特定のポイントからの [検索距離] の範囲内で [クラスターあたりの最小フィーチャ数] を見つけることができなかった場合、そのポイントにはノイズとしてマークが付けられます。言い換えると、フィーチャの中心距離 (最小数のフィーチャに達するために必要になる距離) が [検索距離] よりも大きい場合、そのポイントにはノイズとしてマークが付けられます。[指定距離 (DBSCAN)] を使用する場合、[検索距離] は検索のカットオフとして扱われます。

クラスターによる

[検索距離] が中心距離 (指定された [クラスターあたりの最小フィーチャ数] に達するために必要になる距離、この図では 4) よりも小さい場合、そのフィーチャにはノイズとしてマークが付けられます。[検索距離] が中心距離よりも大きい場合、そのフィーチャにはクラスターの一部であるとしてマークが付けられます。

[マルチスケール (OPTICS)] の場合、[検索距離] は中心距離と比較される最大距離として扱われます。[マルチスケール (OPTICS)] は、最大到達可能性距離の概念を使用します。この距離は、あるポイントから、検索によってまだ訪問されていない最も近いポイントまでの距離です (注意: OPTICS は、OID 0 のフィーチャから開始し、そのポイントから次のポイントまで進んでプロットを作成する順序付けられたアルゴリズムです。ポイントの順序が、結果にとって重要になります)。[マルチスケール (OPTICS)] は、指定された [検索範囲] 内のすべての近傍フィーチャの距離を検索し、それらの距離を中心距離と比較します。いずれかの距離が中心距離よりも小さい場合、そのフィーチャには到達可能性距離としてその中心距離が割り当てられます。すべての距離が中心距離よりも大きい場合、それらの距離のうちの最小の距離が到達可能性距離として割り当てられます。その後、それらの到達可能性距離は、到達可能性プロットの作成に使用されます。到達可能性プロットは、クラスターの検出に使用される到達可能性距離の順序付けられたプロットです。

到達可能性距離の図

中心距離内のすべてのフィーチャがすでに訪問されている場合、フィーチャに割り当てられる到達可能性距離は、選択フィーチャと、[検索距離] の閾値の範囲内のその他すべてのフィーチャとの間の最小の距離になります。

[指定距離 (DBSCAN)] および [マルチスケール (OPTICS)] の両方とも、距離が指定されない場合、デフォルトの [検索距離] は、データセット内で検出された中心距離のうち、上位 1% を除く (言い換えると、最も極端な中心距離を除く) 最大の中心距離になります。

到達可能性プロット (OPTICS)

データセット全体に対して、すべての到達可能性距離が計算された後に、各距離を順序付けし、各ポイントのクラスタリング構造を明らかにする到達可能性プロットが構築されます。

[到達可能性チャート] の例

到達可能性プロット内の谷は、1 つのポイントから次のポイントまで、短い距離を移動する必要があることを意味しています。したがって、各谷は、プロット パターン内の異なるクラスターを表しています。クラスターの密度が高いほど、到達可能性距離が短くなり、プロット上の谷が低くなります (たとえば上の例では、ピンク色のクラスターの密度が最も高くなっています)。クラスターの密度が低いほど、到達可能性距離が長くなり、プロット上の谷が高くなります (たとえば上の例では、濃い緑色のクラスターの密度が最も低くなっています)。ピークは、ポイントのセットの構成に応じて、クラスター間で (つまり、クラスターからノイズを経て再びクラスターへ) 移動する必要のある距離を表しています。

ピークと谷の到達可能性距離

到達可能性プロット内のピークおよび谷の到達可能性距離。ポイント間でより長い距離が計測されたときに、到達可能性プロットでピークが得られます。

[検索距離] が最大中心距離よりも短い場合、到達可能性プロットでプラトーが発生する可能性があります。OPTICS クラスター分析方法を使用する場合の重要な側面は、到達可能性プロットからクラスターを検出する方法を決定することです。この決定は、[クラスター感度] パラメーターを使用して行います。

[クラスター感度] (OPTICS)

[クラスター感度] パラメーターは、到達可能性プロット内のピークの形状 (傾斜角および高さの両方) がクラスターの分離にどのように使用されるかを決定します。非常に高い (100 に近い) [クラスター感度] は、最小のピークでさえ、クラスター間の分離として扱い、多くのクラスターを生成します。非常に低い (0 に近い) [クラスター感度] は、最も急勾配の最高のピークのみを、クラスター間の分離として扱い、少ないクラスターを生成します。

[クラスター感度] の図

低い [クラスター感度] と高い [クラスター感度]

デフォルトの [クラスター感度] は、それ以上クラスターを追加しても情報が追加されない閾値として計算されます。この計算は、元の到達可能性プロットとクラスタリング後に得られるスムージングされた到達可能性プロットの間で、Kullback-Leibler Divergence を使用して行われます。

方法の比較

[マルチスケール (OPTICS)] のみが到達可能性プロットを使用してクラスターを検出しますが、このプロットを使用して、各方法が互いにどのように異なっているかを概念的に説明することができます。説明の目的で下の到達可能性プロットを使用して、3 つの方法の違いについて説明します。このプロットは、さまざまな密度のクラスターおよび分離距離を明らかにします。この図のデータに対して各クラスター分析手法を使用した結果を調べます。

概念的な到達可能性プロット

ポイントのクラスターを含んでいる概念的な到達可能性プロットであり、それらのクラスターの密度および距離は異なっています。

[指定距離 (DBSCAN)] の場合、指定された [検索距離] で到達可能性プロットを横切るラインを描画することを想像することができます。[検索距離] の下の領域はクラスターを表し、[検索距離] の上のピークはノイズ ポイントを表しています。[指定距離 (DBSCAN)] は、最も高速なクラスター分析手法ですが、カットオフとして使用する [検索距離] が非常に明確であり、その [検索距離] がすべてのクラスターに対して十分に機能する場合にのみ適しています。このアルゴリズムを使用するには、すべての意味のあるクラスターが類似する密度を持っている必要があります。

DBSCAN アルゴリズムでの検索距離の図

DBSCAN アルゴリズムでの [検索距離] の図

自己調整 (HDBSCAN) の場合、到達可能性距離は、クラスターのネストされたレベルであると考えることができます。各レベルのクラスタリングでは、異なるクラスターのセットが検出されます。自己調整 (HDBSCAN) は、ノイズを含まずにできるだけ多くのメンバーを含んでいる最も安定したクラスターを最適に作成する、一連のネストされたクラスター内のクラスターのレベルを選択します。このアルゴリズムの詳細については、HDBSCAN の作成者が提供しているすばらしいドキュメントをご参照ください。自己調整 (HDBSCAN) は、最高のデータ駆動型のクラスター分析方法であるため、最小限のユーザー入力で済みます。

HDBSCAN の階層レベルの図

安定性を最大化する最適なクラスターを見つけるために HDBSCAN アルゴリズムによって使用される階層レベルの図

[マルチスケール (OPTICS)] の場合、クラスターを検出する機能は、特定の距離に基づくのではなく、代わりにプロット内のピークおよび谷に基づきます。各ピークのレベルが小、中、または大のいずれかであるとします。

到達可能性プロット内のピークの強度の図

到達可能性プロット内のピークの強度の図

非常に高い [クラスター感度] を選択することは、本質的に、小から大までのすべてのピークがクラスター間の分離として機能する (より多くのクラスターが得られる) ことを意味しています。

高いクラスター感度の図

OPTICS で使用される高い [クラスター感度] の影響および対応するクラスターの図

中程度の [クラスター感度] を選択すると、中および大の両方のピークが使用されますが、小のピークは使用されません。

中程度のクラスター感度の図

OPTICS で使用される中程度の [クラスター感度] の影響および対応するクラスターの図

非常に低い [クラスター感度] を選択すると、大のピークのみが使用され、最も少ない数のクラスターが検出されます。

低いクラスター感度の図

OPTICS で使用される低い [クラスター感度] パラメーターの影響および対応するクラスターの図

[マルチスケール (OPTICS)] は、検出されるクラスターの微調整において最も高い柔軟性を備えていますが、3 つのクラスター分析方法のうちで最も低速でもあります。

結果

このツールは、各フィーチャがどのクラスターのメンバーになっているかを示す新しい整数フィールド CLUSTER_ID を含んでいる出力フィーチャクラスを生成します。デフォルトのレンダリングは COLOR_ID フィールドに基づきます。複数のクラスターに、それぞれ色が割り当てられます。各色は、各クラスターが近傍のクラスターから視覚的に区別されるように割り当てられ、反復されます。

選択された [クラスター分析方法]自己調整 (HDBSCAN) の場合、出力フィーチャクラスには、PROB (フィーチャが割り当てられたグループに存在する可能性)、OUTLIER (フィーチャが自身のクラスターの外れ値である可能性を示す (値が高いほど、フィーチャは外れ値である可能性が高い))、および EXEMPLAR (各クラスターの最も原型的または代表的なフィーチャを示す) フィールドも含まれます。

このツールは、識別されたクラスターの特徴を理解するのに役立つメッセージおよびチャートも作成します。このメッセージにアクセスするには[ジオプロセシング] ウィンドウでプログレス バーの上にカーソルを置くか、ポップアップ ボタンをクリックするか、[メッセージ] セクションを展開します。ジオプロセシング履歴を介して、以前に実行した [密度ベースのクラスター分析 (Density-based Clustering)] ツールのメッセージにアクセスすることもできます。作成されたチャートには、[コンテンツ] ウィンドウからアクセスできます。

[マルチスケール (OPTICS)] を選択したときに作成される到達可能性プロットに加えて、すべてのクラスター分析方法は、すべての一意のクラスター ID を表示するバー チャートも作成します。このチャートを使用して、指定したクラスターに含まれるすべてのフィーチャを簡単に選択すること、および各クラスターのサイズを調べることができます。

参考資料

DBSCAN の詳細については、次をご参照ください。

  • Ester, M., Kriegel, H. P., Sander, J., & Xu, X. (1996, August). A density-based algorithm for discovering clusters in large spatial databases with noise. In Kdd (Vol. 96, No. 34, pp. 226-231).

HDBSCAN の詳細については、次をご参照ください。

  • Campello, R. J., Moulavi, D., & Sander, J. (2013, April). Density-based clustering based on hierarchical density estimates. In Pacific-Asia Conference on Knowledge Discovery and Data Mining (pp. 160-172). Springer, Berlin, Heidelberg.

OPTICS の詳細については、次をご参照ください。

  • Ankerst, M., Breunig, M. M., Kriegel, H. P., & Sander, J. (1999, June). OPTICS: ordering points to identify the clustering structure. In ACM Sigmod record (Vol. 28, No. 2, pp. 49-60). ACM.