基于密度的聚类工具的工作原理是检测点集中的区域以及被空的或稀疏的区域所分隔的区域。 不属于聚类的点将被标记为噪点。 可以选择性地使用点的时间来查找在空间和时间上聚集到一起的点群。
该工具使用非监督的机器学习聚类算法,此算法仅根据空间位置以及到指定邻域数的距离自动检测模式。 由于这些算法不需要对其对聚类的含义进行任何训练,因此可将其视为非监督类型。
提示:
聚类、分组和分类技术是机器学习中使用最广泛的一些方法。 多元聚类和空间约束多元聚类工具也会使用非监督的机器学习方法来确定数据中的自然聚类。 由于这些分类方法不需要一组预先分类的要素来指导或进行训练以查找数据中的聚类,因此可将其视为非监督类型。
可能的应用
应用此工具的一些方法如下:
- 城市供水网络是一种重要的隐形地下资产。 管道破裂和爆裂的聚类可以指明潜在的问题。 使用基于密度的聚类工具,工程师可以找到这些聚类的位置并对供水网络中的高危区域抢先采取行动。
- 假设您拥有 NBA 球员所有成功的和失败的投篮位置数据。 基于密度的聚类可以显示每名球员成功与失败投篮位置的不同模式。 然后可利用此信息告知比赛战术。
- 假设您正在研究一种特别的害虫传播疾病,并且有一个代表您研究区域内家庭的点数据集,其中有些家庭已经被感染,有些家庭尚未被感染。 通过使用基于密度的聚类工具,您可以确定受害家庭的最大聚类,以帮助确定一个区域以开始害虫的处理和消灭。
- 可对自然灾害或恐怖袭击之后的地理定位推文进行聚类,根据所确定的聚类大小和位置报告救援和疏散需求。
聚类方法
基于密度的聚类工具的聚类方法参数提供三种选项,可用于查找点数据中的聚类:
- 定义的距离 (DBSCAN) - 使用指定距离将密集聚类与稀疏噪点分离。 DBSCAN 算法是最快的聚类方法,但仅适用于要使用的搜索距离非常明确,并且非常适用于所有潜在聚类的情况。 这要求所有有意义的聚类密度相似。 您还可以借助此方法使用时间字段和搜索时间间隔参数,以查找空间和时间上的点聚类。
- 自调整 (HDBSCAN) - 使用一系列距离将不同密度的聚类与稀疏噪点分离。 HDBSCAN 算法是最以数据为驱动的聚类方法,因此需要的用户输入最少。
- 多比例 (OPTICS) - 使用相邻要素之间的距离创建可达图,随后使用此可达图将不同密度的聚类与噪点分离。 OPTICS 算法在优化检测到的聚类方面最为灵活,但其属于计算密集型,尤其是当搜索距离较大时。 您还可以借助此方法使用时间字段和搜索时间间隔参数,以查找空间和时间上的点聚类。
此工具需要的值表示被视为聚类所需的最小要素数。 根据所选聚类方法,可能需要指定其他参数,如下所述。
每个聚类的最小要素数
此参数用于确定将一组点视为聚类所需的最小要素数。 例如,如果您拥有许多不同的聚类,范围从 10 个点到 100 个点不等,并且选择的每个聚类的最小要素数参数值等于 20,则所有少于 20 个点的聚类都将被视为噪点(因为它们没有形成足够大到被视为聚类的分组)或与邻近的聚类合并,以便满足所需的最小要素数。 相反,如果您选择的每个聚类的最小要素数参数值比您所认为有意义的最小聚类更小,则可能会导致聚类细分。 也就是说,每个聚类的最小要素数参数值越小,则将被检测到的聚类越多。 值越大,则将被检测到的聚类越少。
提示:
理想的每个聚类的最小要素数参数值取决于您要尝试捕获的内容和您的分析问题。 应将其设置为您希望视为有意义聚类的最小大小。 增大该值可能会导致合并一些较小的聚类。
每个聚类的最小要素数参数对核心距离的计算也非常重要,其中核心距离是全部三种查找聚类的方法都要使用的一个测量值。 从概念上讲,核心距离或每个点是从各个点到所定义的最小要素数之间所需经过距离的测量值。 因此,如果选择较大的“每个聚类的最小要素数”,则相应的核心距离将更大。 如果选择较小的值,则相应的核心距离将更小。 核心距离与搜索距离参数有关,定义的距离 (DBSCAN) 和多比例 (OPTICS) 聚类方法均会使用核心距离。
搜索距离(DBSCAN 和 OPTICS)
对于定义的距离 (DBSCAN),如果无法从某一特定点的搜索距离内找到每个聚类的最小要素数参数值,则该点将被标记为核心点,并与核心距离范围内的其他点一起包含在聚类中。 边界点是位于核心点的搜索距离范围内的点,但本身不具有搜索距离范围内的最小要素数。 产生的每个聚类都有核心点和边界点组成,其中核心点通常位于集群的中心,边界点位于外部。 如果点在搜索距离范围内不具有最小要素数,并且不在另一个核心点的搜索距离范围内(换言之,该点既不是核心点,也不是边界点),那么该点将被标记为噪点,不包含在任何聚类中。
对于多比例 (OPTICS) 聚类方法,将搜索距离值视为与核心距离进行比较的最大距离。 多比例 (OPTICS) 使用了最大可达距离的概念,它是指从一个点到其还未通过搜索访问过的最邻近点的距离。 (注意:OPTICS 是一种有序算法,它起始于具有最小 ID 的要素,然后从该点到达下一个点,进而创建图。 点的顺序对结果非常重要)。多比例 (OPTICS) 会搜索指定搜索距离范围内的所有邻近距离,并将每个距离与核心距离进行比较。 如果任意距离小于核心距离,则将为该要素分配核心距离作为其可达距离。 如果所有距离都大于核心距离,则将最小的距离分配为可达距离。 当搜索距离范围内没有更多的点时,该过程将在之前没有访问过的新点处重新开始。 每次迭代时,都会重新计算可达距离并排序。 将使用最短距离作为每个点的最终可达距离。 然后即可使用这些可达距离创建可达图,它是可用于检测聚类的可达距离的有序图。
对于定义的距离 (DBSCAN) 和多比例 (OPTICS),如果未指定距离,则默认搜索距离为数据集中找到的最高核心距离,不包括前 1% 的核心距离(即,排除最极端的核心距离)。
空间和时间上的聚类(DBSCAN 和 OPTICS)
在两个聚类方法中,可以在时间字段参数中提供每个点的时间。 提供参数后,工具将查找在空间和时间上彼此接近的点聚类。 搜索时间间隔参数类似于搜索距离,用于确定时空聚类的核心点、边界点和噪点。
对于定义的距离 (DBSCAN),在搜索聚类成员时,必须在搜索距离和搜索时间间隔中找到每个聚类的最小要素数,才能成为时空聚类的核心点。
在下图中,搜索距离是 1 英里、搜索时间间隔是 3 天,最小要素数是 4。 点 P 是核心点,因为在搜索距离和时间间隔范围内有四个点(包括自身)。 点 Q 是边界点,因为在搜索距离和时间间隔范围内只有三个点,但是该点位于聚类核心点(时间戳为 1/5/2021 的点)的搜索距离和时间间隔范围内。 点 C 和点 D 是噪点,因为它们既不是核心点也不是聚类的边界点,且所有其他的点(包括 P 和 Q)形成一个聚类。
对于多比例 (OPTICS),当点计算其核心距离、搜索指定搜索距离范围内的所有相邻要素距离并计算可达距离时,点的搜索时间间隔范围之外所有点都将被排除。
在下图中,搜索距离是 2 英里、搜索时间间隔是 3 天,最小要素数是 4。 点 P 的核心距离计算跳过了点 q3,因为该点位于搜索时间间隔之外。 在本例中,P 的核心距离等于 P 的可达距离。
下图显示了当已经访问某些相邻点时,可达距离的计算。 将跳过点 q1、q2 和 q4,因为之前已进行访问,还将跳过 q3 和 q5,因为它们位于搜索时间窗范围之外。
可达图 (OPTICS)
在计算出整个数据集的所有可达距离之后,将会构建出一张可达图,此可达图会将距离进行排序并且显示出点的聚类结构。
可达图中的谷值意味着从一点到另一点需要经过的短距离。 因此,谷值代表点模式中不同的聚类。 聚类越密集,可达距离越低,图上的谷值也会越低(例如,在上面的例子中,粉红色的聚类是最密集的)。 聚类越稀疏,可达距离越高,图上的谷值也会越高(例如,在上面的例子中,深绿色的聚类是最稀疏的)。 峰值代表从聚类到聚类或从聚类到噪点再到聚类需要经过的距离,它取决于点集的配置。
当搜索距离小于最大核心距离时,在可达图中会出现基台。 要使用 OPTICS 聚类方法,一个很重要的方面就是确定如何使用聚类敏感度参数从可达图检测聚类。
聚类敏感度 (OPTICS)
聚类敏感度参数决定了如何使用可达图内的峰形(坡度和高度)分离聚类。 如果聚类敏感度(接近 100)非常高,即使最小的峰也会被视为聚类之间的间隔,从而产生数量更多的聚类。 如果聚类敏感度非常低(接近 0),则只有最陡、最高的峰会被视为聚类之间的间隔,从而产生数量更少的聚类。
默认聚类敏感度是作为阈值计算的,增加更多的聚类并不会增加更多的信息,可在可达图原图和聚类后得到的平滑可达图之间使用 Kullback-Leibler Divergence 完成此计算。
方法对比
尽管只有多比例 (OPTICS) 使用可达图检测聚类,但是此图也有助于从概念上解释这些方法之间的差别。 出于图示的目的,将使用下面的可达图来解释这 3 种方法之间的差别。 此图显示了不同密度和间距的聚类。 我们将会探究对此示例数据使用各种聚类方法的结果。
对于定义的距离 (DBSCAN),您可以想象在可达图以指定的搜索距离绘制一条线。 搜索距离以下的区域代表聚类,而搜索距离以上的峰则代表噪点。定义的距离 (DBSCAN) 是最快的聚类方法,但是仅适用于要作为界限使用的搜索距离明确,并且此搜索距离非常适用于所有聚类的情况。 这要求所有有意义的聚类密度相似。
对于自调整 (HDBSCAN),可达距离可视为聚类的嵌套级别。 每个级别的聚类都会导致检测到一组不同的聚类。 自调整 (HDBSCAN) 选择了每个系列的嵌套聚类中会以最佳方式创建最稳定聚类的聚类级别,该聚类会尽可能多的合并成员而不加入噪点。 有关算法的详细信息,请参阅 HDBSCAN 创建者的文档。 自调整 (HDBSCAN) 是最以数据为驱动的聚类方法,因此需要的用户输入最少。
对于多比例 (OPTICS),并不是根据特定的距离来检测聚类,而是根据图中的峰值和谷值。 假设每个峰的级别为小、中或大。
选择非常高的聚类敏感度本质上意味着从小到大的所有峰都会作为聚类之间的间隔(从而产生更多的聚类)。
选择中等的聚类敏感度会导致除了小峰之外的中峰和大峰都被使用。
选择非常低的聚类敏感度会导致只使用了大峰,从而使检测到的聚类数最小。
多比例 (OPTICS) 在优化检测到的聚类方面最灵活,但它也是三种聚类方法中最慢的。
结果
此工具可生成包含新整型字段 CLUSTER_ID 的输出要素类,该字段可显示各个要素所属的聚类。 默认渲染基于 COLOR_ID 字段。 将为每个颜色分配多个聚类。 将分配颜色并重复使用,以使每个聚类的外观不同于其邻近聚类。
如果针对聚类方法参数选择自调整 (HDBSCAN),则输出要素类还将包含字段 PROB,表示要素属于其所分配组的概率;OUTLIER:指明要素可能是其自己聚类中的异常值(值越高,表示要素是异常值的可能性越大);EXEMPLAR:表示各个聚类中最具代表性的要素。
注:
确定为噪点的所有点都被视为相同聚类的一部分,并将为噪点聚类计算异常值、概率和原型。 这些值可能不如为其他不是由噪点组成的聚类计算的值有意义。
该工具还会创建消息和图表,以帮助您了解所标识聚类的特征。 可将鼠标悬停在进度条上、单击弹出按钮以及展开地理处理窗格中的消息部分来访问消息。 您还可以使用地理处理历史记录访问之前运行基于密度的聚类工具的消息。 所创建的图表可从内容窗格进行访问。
当选择多比例 (OPTICS) 时,除了创建可达图之外,所有聚类方法还将创建可显示所有唯一的聚类 ID 的条形图。 此图表可用于选择属于指定聚类中的所有要素,并探究各个聚类的大小。
其他资源
有关 DBSCAN 的详细信息,请参阅以下内容:
- Birant, D. & Kut, A. (2007, January). "ST-DBSCAN: An algorithm for clustering spatial–temporal data." In Data & Knowledge Engineering (Vol 60, No. 1, pp. 208-221). https://doi.org/10.1016/j.datak.2006.01.013
- Ester, M., Kriegel, H. P., Sander, J., & Xu, X. (1996, August). "A density-based algorithm for discovering clusters in large spatial databases with noise." In Kdd (Vol. 96, No. 34, pp. 226-231).
有关 HDBSCAN 的详细信息,请参阅以下内容:
- Campello, R. J., Moulavi, D., & Sander, J. (2013, April). "Density-based clustering based on hierarchical density estimates." In Pacific-Asia Conference on Knowledge Discovery and Data Mining (pp. 160-172). Springer, Berlin, Heidelberg.
有关 OPTICS 的详细信息,请参阅以下内容:
- Agrawal, K. P., Garg, S., Sharma, S., & Patel, P. (2016, November). "Development and validation of OPTICS based spatio-temporal clustering technique." In Information Sciences (Vol 369, pp. 388-401). https://doi.org/10.1016/j.ins.2016.06.048.
- Ankerst, M., Breunig, M. M., Kriegel, H. P., & Sander, J. (1999, June). "OPTICS: ordering points to identify the clustering structure." In ACM Sigmod record (Vol. 28, No. 2, pp. 49-60). ACM.