“基于密度的聚类”工作原理

基于密度的聚类工具的工作原理是检测点集中的区域以及被空的或稀疏的区域所分隔的区域。不属于聚类的点将被标记为噪点。

该工具使用非监督的机器学习聚类算法,此算法仅根据空间位置以及到指定邻域数的距离自动检测模式。由于这些算法不需要对其对聚类的含义进行任何训练,因此可将其视为非监督类型。

提示:

聚类、分组和分类技术是机器学习中使用最广泛的一些方法。多元聚类空间约束多元聚类工具也利用非监督的机器学习方法来确定数据中的自然聚类。由于这些分类方法不需要一组预先分类的要素来指导或进行训练以查找数据中的聚类,因此可将其视为非监督类型。

潜在的应用

应用此工具的一些方法如下:

  • 城市供水网络是一种重要的隐形地下资产。管道破裂和爆裂的聚类可以指明潜在的问题。使用基于密度的聚类工具,工程师可以找到这些聚类的位置并对供水网络中的高危区域抢先采取行动。
  • 假设您拥有 NBA 球员所有成功的和失败的投篮位置数据。基于密度的聚类可以显示每名球员成功与失败投篮位置的不同模式。然后可利用此信息告知比赛战术。
  • 假设您正在研究一种特别的害虫传播疾病,并且有一个代表您研究区域内家庭的点数据集,其中有些家庭已经被感染,有些家庭尚未被感染。通过使用基于密度的聚类工具,您可以确定受害家庭的最大聚类,以帮助确定一个区域以开始害虫的处理和消灭。
  • 可对自然灾害或恐怖袭击之后的地理定位推文进行聚类,根据所确定的聚类大小和位置报告救援和疏散需求。

聚类方法

基于密度的聚类工具提供了三种不同的聚类方法,可用来查找点数据中的聚类:

  • 定义的距离 (DBSCAN) - 使用指定距离将密集聚类与稀疏噪点分离。DBSCAN 算法是最快的聚类方法,但仅适用于要使用的搜索距离非常明确,并且非常适用于所有潜在聚类的情况。这要求所有有意义的聚类密度相似。
  • 自调整 (HDBSCAN) - 使用一系列距离将不同密度的聚类与稀疏噪点分离。HDBSCAN 算法是最以数据为驱动的聚类方法,因此需要的用户输入最少。
  • 多比例 (OPTICS) - 使用相邻要素之间的距离创建可达图,随后使用此可达图将不同密度的聚类与噪点分离。OPTICS 算法在优化检测到的聚类方面最为灵活,但其属于计算密集型,尤其是当搜索距离较大时。

此工具具有输入点要素输出要素的路径和表示被视为聚类所需最小要素数的值。根据所选择的聚类方法,可能需要指定其他参数,如下所述。

每个聚类的最小要素数(所有方法所需)

此参数用于确定将一组点视为聚类所需的最小要素数。例如,如果您有许多不同的聚类,范围从 10 个点到 100 个点不等,则可将每个聚类的最小要素数选为 20,所有少于 20 个点的聚类都将被视为噪点(因为它们没有形成足够大到被视为聚类的分组)或与邻近的聚类合并,以便满足所需的最小要素数。相反,如果您选择的每个聚类的最小要素数比您所认为有意义的最小聚类更小,可能会导致有意义的聚类被划分成更小的聚类。也就是说,每个聚类的最小要素数越小,可被检测到的聚类越多。每个聚类的最小要素数越大,可被检测到的聚类越少。

提示:

理想的每个聚类的最小要素数取决于您要尝试捕获的内容和您的分析问题。应将其设置为您要视为有意义聚类的最小大小。增大每个聚类的最小要素数可能会导致一些较小的聚类合并在一起。

每个聚类的最小要素数参数对核心距离的计算也非常重要,其中核心距离是全部三种查找聚类的方法都要使用的一个测量值。从概念上讲,核心距离或每个点是从各个点到所定义的最小要素数之间所需经过距离的测量值。因此,如果选择较大的每个聚类的最小要素数,则相应的核心距离会更大。如果选择较小的每个聚类的最小要素数,则相应的核心距离会更小。在聚类的边界的点会有很大的核心距离,(很有可能不属于聚类)。核心距离与搜索距离参数有关,定义的距离 (DBSCAN)多比例 (OPTICS) 这两种方法均会使用核心距离。

核心距离图形

核心距离图示,测量为创建一个包括自身在内最少包含 4 个要素的聚类时,与必须经过的特定要素之间的距离。

搜索距离(DBSCAN 和 OPTICS)

对于定义的距离 (DBSCAN),如果无法从某一特定点的搜索距离内找到每个聚类的最小要素数,则该点将会被标记为噪点。换言之,如果一个要素的核心距离(达到最小要素数所需的距离)大于搜索距离,则该点会被标记为噪点。当使用定义的距离 (DBSCAN) 时,将搜索距离视为搜索界限。

搜索距离影响聚类标识的原理图

搜索距离小于核心距离(达到指定的每个聚类的最小要素数所需的距离,如本图中 4 所示)时,此要素会被标记为噪点。当搜索距离大于核心距离时,此要素会被标记为聚类的一部分。

对于多比例 (OPTICS),将搜索距离视为与核心距离进行比较的最大距离。多比例 (OPTICS) 使用了最大可达距离的概念,它是指从一个点到其还未通过搜索访问过的最邻近点的距离(注意:OPTICS 是一种有序算法,它起始于 OID 0 的要素,然后从该点到达下一个点,进而创建图。点的顺序对结果非常重要)。多比例 (OPTICS) 会搜索指定搜索距离范围内的所有邻近距离,并将每个距离与核心距离进行比较。如果任意距离小于核心距离,则将为该要素分配核心距离作为其可达距离。如果所有距离都大于核心距离,则将最小的距离分配为可达距离。然后即可使用这些距离创建可达图,它是可用于检测聚类的可达距离的有序图。

可达距离图示

当核心距离内的所有要素都被访问后,分配给要素的“可达距离”是搜索距离阈值内所选要素和其他全部要素之间的最小距离。

对于定义的距离 (DBSCAN)多比例 (OPTICS),如果没有指定距离,则默认搜索距离为数据集中找到的最高核心距离,不包括前 1% 的核心距离(即排除最极端的核心距离)。

可达图 (OPTICS)

在计算出整个数据集的所有可达距离之后,将会构建出一张可达图,此可达图会将距离进行排序并且显示出点的聚类结构。

可达图表示例

可达图中的谷值意味着从一点到另一点需要经过的短距离。因此,谷值代表点模式中不同的聚类。聚类越密集,可达距离越低,图上的谷值也会越低(例如,在上面的例子中,粉红色的聚类是最密集的)。聚类越稀疏,可达距离越高,图上的谷值也会越高(例如,在上面的例子中,深绿色的聚类是最稀疏的)。峰值代表从聚类到聚类或从聚类到噪点再到聚类需要经过的距离,它取决于点集的配置。

峰值和谷值的可达距离

可达距离在可达图中形成峰值和谷值。随着点之间测量距离的增加,在可达图中将产生峰值。

搜索距离小于最大核心距离时,在可达图中会出现基台。要使用 OPTICS 聚类方法,一个很重要的方面就是确定如何使用聚类敏感度参数从可达图检测聚类。

聚类敏感度 (OPTICS)

聚类敏感度参数决定了如何使用可达图内的峰形(坡度和高度)分离聚类。如果聚类敏感度(接近 100)非常高,即使最小的峰也会被视为聚类之间的间隔,从而产生数量更多的聚类。如果聚类敏感度(接近 0)非常低,只有最陡、最高的峰会被视为聚类之间的间隔,从而产生数量更少的聚类。

聚类敏感度图示

聚类敏感度与高聚类敏感度

默认聚类敏感度是作为阈值计算的,增加更多的聚类并不会增加额外的信息,可在可达图原图和聚类后得到的平滑可达图之间使用 Kullback-Leibler Divergence 完成此计算。

方法对比

尽管只有多比例 (OPTICS) 使用可达图检测聚类,但是此图也有助于从概念上解释这些方法之间的差别。出于图示的目的,将使用下面的可达图来解释这 3 种方法之间的差别。此图显示了不同密度和间距的聚类。我们将会探究对此示例数据使用各种聚类方法的结果。

概念性可达图

点聚类之间具有不同密度和间距的概念性可达图。

对于定义的距离 (DBSCAN),您可以想象在可达图以指定的搜索距离绘制一条线。搜索距离以下的区域代表聚类,而搜索距离以上的峰则代表噪点。定义的距离 (DBSCAN) 是最快的聚类方法,但是仅适用于要作为界限使用的搜索距离非常明确,并且此搜索距离非常适用于所有聚类的情况。这要求所有有意义的聚类密度相似。

DBSCAN 算法中搜索距离的图示

DBSCAN 算法中搜索距离的图示

对于自调整 (HDBSCAN),可达距离可视为聚类的嵌套级别。每个级别的聚类都会导致检测到一组不同的聚类。自调整 (HDBSCAN) 选择了每个系列的嵌套聚类中会以最佳方式创建最稳定聚类的聚类级别,该聚类会尽可能多的合并成员而不加入噪点。要了解有关算法的详细信息,请参阅 HDBSCAN 创建者的重要文档自调整 (HDBSCAN) 是最以数据为驱动的聚类方法,因此需要的用户输入最少。

HDBSCAN 的级别图示

HDBSCAN 算法用来查找可使稳定性最大化的最优聚类的级别图示

对于多比例 (OPTICS),并不是根据特定的距离来检测聚类,而是根据图中的峰值和谷值。假设每个峰的级别为小、中或大。

可达图中峰强度图示

可达图中峰强度图示

选择非常高的聚类敏感度本质上意味着从小到大的所有峰都会作为聚类之间的间隔(从而产生更多的聚类)。

高聚类敏感度图示

与 OPTICS 配合使用的高聚类敏感度的影响以及相应的聚类图示

选择中等的聚类敏感度会导致除了小峰之外的中峰和大峰都被使用。

中等聚类敏感度图示

与 OPTICS 配合使用的中等聚类敏感度的影响以及相应的聚类图示

选择非常低的聚类敏感度会导致只使用了大峰,从而使检测到的聚类数最小。

低聚类敏感度图示

与 OPTICS 配合使用的低聚类敏感度参数的影响以及相应的聚类图示

多比例 (OPTICS) 在优化检测到的聚类方面最灵活,但它也是三种聚类方法中最慢的。

结果

此工具可生成包含新整型字段 CLUSTER_ID 的输出要素类,该字段可显示各个要素所属的聚类。默认渲染基于 COLOR_ID 字段。将为每个颜色分配多个聚类。将分配颜色并重复使用,以使每个聚类的外观不同于其邻近聚类。

如果所选聚类方法自调整 (HDBSCAN),则输出要素类还将包含字段 PROB,表示要素属于其所分配组的概率;OUTLIER,指明要素可能是其自己聚类中的异常值(值越高,要素是异常值的可能性越大);EXEMPLAR,表示各个聚类中最为典型或最具代表性的要素。

该工具还会创建消息和图表,以帮助您了解所标识聚类的特征。可将鼠标悬停在进度条上、单击弹出按钮并展开地理处理窗格中的消息部分来访问消息。还可通过地理处理历史访问之前运行基于密度的聚类工具的消息。所创建的图表可从内容窗格进行访问。

当选择多比例 (OPTICS) 时,除了创建可达图之外,所有聚类方法还将创建可显示所有唯一的聚类 ID 的条形图。此图表可用于轻松选择属于指定聚类中的所有要素,并探究各个聚类的大小。

其他资源

有关 DBSCAN 的详细信息,请参阅:

  • Ester, M., Kriegel, H. P., Sander, J., & Xu, X. (1996, August). A density-based algorithm for discovering clusters in large spatial databases with noise. In Kdd (Vol. 96, No. 34, pp. 226-231).

有关 HDBSCAN 的详细信息,请参阅:

  • Campello, R. J., Moulavi, D., & Sander, J. (2013, April). Density-based clustering based on hierarchical density estimates. In Pacific-Asia Conference on Knowledge Discovery and Data Mining (pp. 160-172). Springer, Berlin, Heidelberg.

有关 OPTICS 的详细信息,请参阅:

  • Ankerst, M., Breunig, M. M., Kriegel, H. P., & Sander, J. (1999, June). OPTICS: ordering points to identify the clustering structure. In ACM Sigmod record (Vol. 28, No. 2, pp. 49-60). ACM.