分组分析的工作原理

当我们观察周围的世界时,我们会很自然地对所看到的事物进行组织、分组、区别和划分,以便帮助我们更好地了解周围的一切;这类心理分类过程是学习和理解的基础。同样,为了帮助您了解以及更好地理解数据,您可以使用分组分析工具。给定要创建的组数,它将寻找一个能够使每个组中的所有要素都尽可能相似但各个组之间尽可能不同的解。要素相似性是基于您为分析字段参数指定的一组特性,同时还可以包括空间属性或空间-时间属性。当指定了空间或空间-时间空间约束时,算法将采用连通图(最小跨度树)来查找自然分组。在指定了无空间约束后,分组分析工具会使用 K 均值算法。

提示:

分组和分类技术是机器学习中使用最广泛的一些方法。分组分析工具利用非监督的机器学习方法来确定数据中的自然分组。由于这些分类方法不需要一组预先分类的要素来指导或进行训练以确定数据的分组,因此可将其视为非监督类型。

虽然存在数百个类似这样的聚类分析算法,但它们都被归类为 NP-hard 问题。这意味着要确保某个解能够完美地实现组内相似性和组间差异最大化,唯一方法就是对要分组的要素的每一种可能组合都进行尝试。虽然这对于少量的要素是可行的,但对于问题来说,会很快变得非常棘手。

不但确保找到最佳解非常困难,而且尝试找到一种最适合所有可能数据情景的分组算法也不现实。各个组包含的形状、大小和密度各不相同;属性数据可能包括各种范围、对称性、连续性和测量单位。这就是过去 50 年来开发了如此众多不同聚类分析算法的原因。因此,将分组分析视为一种可帮助您更好地了解数据基本结构的探索性工具比较合适。

潜在的应用

应用此工具的一些方法如下:

  • 假设您拥有来自所在州周围农场的沙门氏菌样本,以及包括类型/类别、位置和日期/时间在内的属性。为了更好地了解细菌如何传播和扩散,您可以使用分组分析工具将样本划分为各个“爆发”。您可能决定使用空间-时间约束,因为同一次爆发的样本会在空间和时间上非常接近,而且也会与相同类型或类别的细菌关联。确定分组之后,可以使用其他空间模式分析工具,比如标准差椭圆平均中心近邻来分析每一次爆发。
  • 如果您收集了有关动物观察方面的数据,以便更好地了解它们的领地,分组分析工具可能很有帮助。例如,了解鲑鱼在不同生命阶段的聚集地点和时间,可以帮助您规划保护区,以帮助确保成功繁育。
  • 作为一名农学家,您可能想将研究领域内的不同土壤进行分类。对通过一系列样本发现的土壤特征使用分组分析可以帮助识别出明显的、空间上相邻的土壤类型的聚类。
  • 按购买方式、人口统计特征和旅行方式对客户进行分组,可以帮助您为公司产品制订有效的营销策略。
  • 城市规则师常常需要将各个城市划分成不同的邻域,以便有效地定位公共设施、促进地方能动性并提高社区参与度。对城市街区的物理和人口统计特征使用分组分析,可以帮助规划师确定具有相似物理和人口统计特征并且在空间上相邻的城市区域。
  • 每当对聚合的数据进行分析时,生态谬误都是一个众所周知的统计推断问题。通常,用于分析的聚合方案对您想要分析的内容没有任何关系。例如,人口普查数据是根据人口分布而聚合,而人口分布情况可能不是用来进行火灾分析的最佳选择。针对与目前分析问题准确相关的一组属性,将可能的最小聚合单位划分成同质区域,是降低聚合偏差和避免生态谬误的一种有效方法。

输入

此工具将获取点、折线或面输入要素、唯一 ID 字段、输出要素类的路径、一个或多个分析字段、表示所要创建的组数的整数值以及应在分组算法中应用的空间约束的类型(如果有)。另外,还有许多可选的参数,包括允许您创建 PDF 输出报表文件的参数。

分析字段

选择反映比率、间隔或序数测量系统的数值字段。虽然标称数据可以使用“哑元”(二进制)变量进行表示,但它们通常不像其他数值变量类型一样起作用。例如,您可以创建一个名为 Rural 的变量,并向每个要素(如每个人口普查区)分配 1(如果大部分是乡村)和 0(如果大部分是城市)。但是,如果要与分组分析结合使用,那么此变量更好的表示方法是,使用与每个要素相关的乡村面积的数量或比例来表示。

注:

由于方差较大的变量(其中数据值围绕平均值扩散)对聚类的影响大于方差较小的变量对聚类的影响,因此分析字段中的值将由工具进行标准化。属性值的标准化涉及 Z 变换,即从每个值中减去所有值的平均值然后除以所有值的标准差。标准化将所有属性放在同一比例中,即使它们由不同类型的数字表示时也是如此:比率(0 到 1.0 的数字)、人口(超过 1 百万)和距离(例如,千米)。

您应该选择您认为可以将一组要素与另一组要素区别开来的变量。例如,假设您想要按学生在标准化成绩测试中的成绩对学区进行分组。您可以选择各种分析字段,如整体测试得分、数学和阅读等特定科目的成绩、满足一些最低考试得分阈值的学生比例等。当运行分组分析工具时,会为每个变量计算 R2 值。例如,在下面的汇总中,根据学生测试得分、该地区未上完中学的成人比例、每个学生的开支以及学生与教师的平均比率,来对学区进行分组。请注意,TestScores 变量具有最高的 R2 值。这表明此变量能够最有效地将学区分组。R2 值反映在分组流程之后原始 TestScores 数据中的变化的保留程度,因此,特定变量的 R2 值越大,变量越能更好地对要素进行区分。

分组分析变量汇总

抢先版本:

R2 的计算公式如下:

(TSS - ESS) / TSS

其中 TSS 是总平方和,ESS 是回归平方和。TSS 的计算方法是先计算平方,然后再计算变量全局平均值偏差的总和。ESS 的计算方法相同,不同之处在于偏差是分组计算:从所属组的平均值减去每个值,然后再计算平方和总和。

组数

有时,您会知道最适合于您的问题的组数。例如,如果您有五位销售经理,并且要为每一位经理指定自己的相邻区域,那么您可以为组数参数使用 5。但是,在许多情况下,对于选择具体组数您没有任何标准;而只是希望得到一个数,这个数能够最恰当地对要素相似性和差异性进行区分。为帮助您解决这种情形,您可以选中评估最佳组数参数,然后让分组分析工具评估将要素分为 2、3、4 和多达 15 个组时的有效性。分组有效性通过 Calinski-Harabasz 伪 F 统计量来测量,它是一个反映组内相似性和组间差异性的比率:

Calinski-Harabasz 伪 F 统计量

假设您想要创建四个空间上相邻的组。在这种情况下,此工具将创建一个既能反映要素的空间结构又能反映其相关的分析字段值的最小跨度树。然后,将使用此工具确定切割树的最佳位置,以便创建两个单独的分组。接下来,此工具将决定对生成的两个组中的哪个组进行划分,以生成三个最佳的分组解决方案。将划分两个组中的其中一个,另一个组则保持不变。最后,此工具将决定应对生成的三个分组中的哪个组进行划分,以便提供最佳的四个分组解决方案。对于每个分组,最佳解决方案即为将组内相似性和组间差异性最大化的解决方案。当组中所有要素的分析字段值相同时,将不再对该组进行划分(随机性除外)。如果生成的所有组中具有的要素均相同,那么即使没达到您所指定的组数分组分析工具也将停止创建新组。当所有分析字段具有相同值时,不存在任何划分组的依据。

空间约束

如果您希望生成的分组在空间上邻近,可指定空间约束。可为面要素类启用邻接选项,来指明仅当要素与组中的另一成员共享某条边(仅邻接边)或共享某条边或某个折点(邻接边拐角)时,才表示这些要素属于同一个组。 但是,如果数据集包括不连续面或根本没有相邻邻域的面的聚类,则面邻接选项并不是很好的选择。

不连续面

Delaunay 三角测量K 最近邻选项都适合点或面要素;这些选项用于指明,仅当某个要素至少有一个其他组成员是自然邻域(Delaunay 三角测量)或“K 最近邻”时,该要素才能包括在组中。例如,如果选择 K 最近邻并为相邻要素的数目参数输入 12,则组中每一个要素都将处于组中至少另外一个要素的 12 个最近的相邻要素范围内。

Delaunay 三角测量选项不得用于具有重合要素的数据集。另外,由于 Delaunay 三角测量方法会将要素转换为泰森面来确定邻域关系,特别是与面要素的邻域关系,有时是与数据集中外围要素的邻域关系,因此使用此选项所得的结果可能不会始终与您的预期相符。在下图中,请注意其中一些分组的原始面并不连续;但是,当它们转换为泰森面时,所有分组的要素事实上确实共享了一条边。

Delaunay 三角测量示例
对于 Delaunay 三角测量,泰森面邻接定义了邻域关系。

如果想让生成的组在空间和时态上都邻近,可使用生成空间权重矩阵工具创建空间权重矩阵文件 (SWM),然后为空间关系的概念化参数选择空间时间窗然后,可以在运行分组分析时,为权重矩阵文件参数指定您使用生成空间权重矩阵工具创建的 SWM 文件。

注:

虽然要素之间的空间关系存储在 SWM 文件中,并由分组分析工具用于施加空间约束,但在分组过程中并不涉及实际的权重。SWM 文件只用于跟踪同一个组中可以包含哪些要素以及不可以包含哪些要素。

对于许多分析,施加空间或空间-时间约束既不必要,也没有什么帮助作用。例如,假设您想按犯罪者的属性(身高、年龄、犯罪严重程度等等)对犯罪事件进行分组。虽然同一个人所犯的罪行可能往往是邻近的,但您并不可能找到某特定区域中的所有犯罪都是同一个人所为。对于这种类型的分析,您应为空间约束参数选择无空间约束但是,您可能选择在分析字段列表中包括一些空间变量(如与银行相邻),以便捕获您正分析的犯罪的某些空间特点。

K 均值

当为空间约束参数选择了无空间约束时,将使用 K 均值算法进行分组。“K 均值”算法的目标是对要素进行划分,从而使所有组的每一个组中要素之间的差异最小化。由于该算法属于 NP-hard 问题,因此将采用启发式贪婪算法对要素进行分组。贪婪算法始终收敛于局部最小值,但并不总是能够找到全局(最佳)最小值。

“K 均值”算法首先确定用于增长每个组的种子要素。因此,种子数始终与组数相匹配。第一个种子是随机选择的。但是,虽然采用的是随机分量,但选择剩余种子时会应用一个权重,该权重将有利于选择与现有的一组种子要素最远的后续种子(这部分算法称为 K 均值 ++)。由于在为初始化方法选择查找种子位置使用随机种子时将使用随机分量查找种子要素,因此每次运行此工具所获得的分组结果可能都会有所不同。

确定种子要素后,将向最近的种子要素(在数据空间中最近)分配所有要素。对于要素的每个聚类,将计算一个均值数据中心,并将每个要素重新分配给最近的中心。计算每个组的均值数据中心并随后向最近的中心重新分配要素这一过程将会一直继续,直至组成员关系稳定为止(最大迭代次数为 100)。

最小跨度树

当指定空间约束以将组成员资格限制为相连或相邻要素时,工具首先会构造一个表示要素间邻域关系的连通图。连通图上的最小跨度树将汇总要素空间关系和要素数据相似性。要素将成为最小跨度树中通过权重边进行连接的节点。每个边的权重与其连接的对象的相似性成正比。构建最小跨度树后,树中的分支(边)将被剪除,从而生成两个最小跨度树。要剪除的边会被选择,以使生成的组中的差异最小化,同时避免(如果可能)单一化(组中只具有一个要素)。在每次迭代时,将通过这种剪除过程对其中一个最小跨度树进行分割,直至获得指定的组数。所采用的发布方法被称为 SKATER (Spatial "K"luster Analysis by Tree Edge Removal)。虽然在每次迭代时会选择可优化组相似性的分支进行剪除,但并不保证最终结果是最佳的。

输出

分组分析工具会创建许多输出。所有这些输出(包括可选的 PDF 报表文件)均可从地理处理窗格进行访问,方法为将鼠标悬停在进度条上,单击弹出按钮 工具进度,或展开地理处理窗格底部的消息部分。您还可以通过地理处理历史访问之前运行分组分析的消息。

分组分析工具的默认输出是一个新的输出要素类,它包含分析中使用的字段,以及一个名为 SS_GROUP 的用于标识每个要素所属的组的新整型字段。此输出要素类会添加到内容列表中,并会向 SS_GROUP 字段应用一种独特的颜色渲染方案。空心渲染表示要素不能添加到任何组,通常是因为它们没有相邻要素。如果为空间约束参数指定无空间约束,则会向输出要素类添加一个附加字段 SS_SEED,以指明进行分组时所使用的是哪些种子要素。

分组分析输出要素类
使用邻接空间约束进行分组。

分组分析报表文件

如果为输出报表文件参数指定了路径,则会创建一个用于汇总所创建组的 PDF。

注:

创建可选报表文件会大大增加处理时间。因此,虽然分组分析将始终创建一个显示组成员资格的输出要素类,但如果指定超过 15 个组或超过 15 个变量,则不会创建 PDF 报表文件。

整个报表中会包括箱形图,因此,报表中的第一个元素是显示如何解释这些箱形图的图(参见下文)。分组分析报表中的箱形图以图形的形式描述每个分析字段和组的九个汇总值:最小数据值、下四分位数、中值、上四分位数、最大数据值、数据异常值(小于或大于四分位距 1.5 倍的值)、组最小值、组均值和组最大值。落在上须线或下须线之外的任何 + 标志代表数据异常值。
抢先版本:

四分位距 (IQR) 是上四分位数减去下四分位数。低异常值将是小于 1.5*IQR (Q1-1.5*IQR) 的值,而高异常值将是大于 1.5*IQR (Q3+1.5*IQR) 的值。异常值在箱形图中显示为 + 符号。

报表的第一页对每个组中的各个变量(分析字段)进行相互比较。例如,在下面的报表中,对人口普查区域执行分组分析,从而创建四个组。每个组的汇总统计使用不同的颜色(蓝色、红色、绿色和金黄色)打印。第一组汇总统计采用黑色进行打印,因为这些统计数据是针对每个分析字段中所有数据的全局均值、标准差 (Std.Dev.)、最小值、最大值和 R2 值。某个特定变量的 R2 值越大,该变量区分要素的性能越好。在全局汇总之后,将报告每个组中每个变量的均值、标准差、最小值、最大值和共享值。例如,在下面的报表中,您会看到组 1(蓝色)包含全局 AGE_UNDER5 变量中 52% 的值范围;全局值范围是 0 到 1,453 个 5 岁以下的儿童,蓝色组包含 488 到 1,246 个 5 岁以下儿童的区域。蓝色组区域 5 岁以下儿童的平均数量是 805.3750。蓝色组统计汇总右侧的箱形图显示该组的值与该相同分析字段的全局值的关系。请注意,箱形图上的蓝点落在上四分位数之外,第一条蓝色垂线(表示蓝色组区域的最小值)高于此字段的全局均值。事实上,观察所有变量的蓝点落在箱形图中的位置,您会看到除 MEDIANRENT 变量之外,所有分析字段中的均值均高于上四分位数。与其他组相比,该组具有最高的值范围。

抢先版本:

共享值是该组与全局范围的比率。例如,对于组 1 和 AGE_UNDER5 变量,通过将组范围 (1246-488=758) 除以全局范围 (1453-0=1453) 得到 52% 的比率,当取两个有效位时,得到 0.52。

分组汇总
输出报表的第 1 部分。

报表的第二部分比较每个组的变量范围,一次一个分析字段(变量)。通过这种方式,很容易了解哪个组中的每个变量具有最高和最低值范围。组最小值、均值和最大值叠加在反映所有值的箱形图的顶部上。请注意组 4(橙色)的 MEDIANRENT 变量具有最低值。该组的最小值、均值和最大值小于任何其他组。

变量汇总
输出报表的第 2 部分。

平行的箱形图汇总了各个组以及组中的各个变量。在下图中,请注意组 1(蓝色)反映具有平均租金、有孩子的女户主家庭的最高值 (FHH_CHILD)、住宅单元数量的最高值 (HSE_UNITS) 以及 5 岁以下儿童的最高值的区域。组 2(红色)反映具有最高中值租金、有孩子的女户主家庭的最低数量、超出住宅单元平均数量(尽管少于组 1 或组 3 中的区域)以及 5 岁以下儿童最少的区域。

分组分析箱形图
输出报表中的平行箱形图。

当选中评估最佳组数参数时,PDF 报表文件将包括伪 F 统计量值的图表。图表上的圆点是最大 F 统计量,表示使用多少个组来区分指定的要素和变量最有效。在下图中,与四个组相关的 F 统计量是最高的。具有较高伪 F 统计量的五个组也是不错的选择。

伪 F 统计量图
输出报表中的伪 F 统计量图。

最佳做法

虽然倾向于将尽可能多的分析字段包括在内,但对分组分析而言,最好从单个变量开始构建。较少的分析字段的结果更易于解释。而且,字段较少时,还易于确定哪些变量是最佳辨别因素。

在许多情况下,您可能运行分组分析工具多次,以寻找最佳组数、最有效的空间约束以及能够对要素进行最有效分组的分析字段的组合。由于创建输出报表会大大增加处理时间,因此在尝试不同的输入参数时,您可能不想创建报表。

其他资源

Duque, J. C., R. Ramos, and J. Surinach. 2007. "Supervised Regionalization Methods: A Survey" in International Regional Science Review 30: 195–220.

Assuncao, R. M., M. C. Neves, G. Camara, and C. Da Costa Freitas. 2006. "Efficient Regionalisation Techniques for Socio-economic Geographical Units using Minimum Spanning Trees" in International Journal of Geographical Information Science 20 (7): 797–811.

Jain, A. K. 2009. "Data Clustering: 50 years beyond K-Means." Pattern Recognition Letters.

Hinde, A., T. Whiteway, R. Ruddick, and A. D. Heap. 2007. "Seascapes of the Australian Margin and adjacent sea floor: Keystroke Methodology." in Geoscience Australia, Record 2007/10, 58pp.