评估点聚合的图格大小的工作原理

将点计数聚合到按镶嵌方式排列的正方形或六边形图格中时,评估点聚合的图格大小工具用于选择合适的图格大小。 您也可以使用该工具来评估其他各种图格大小,以确定如果改用其他图格大小,最终得到的计数和模式将如何变化。

将点计数聚合到六边形图格中

对图格内的点进行聚合和计数是 GIS 中的常见工作流,其中包括聚合紧急呼叫、服务中断和动物目击。 该操作还可用于更清晰地可视化大量点,并通过模糊单个点位置来保护隐私。 但是,虽然应用广泛,但关于这些图格大小的设置,目前却几乎没有指导信息。 实际上,在选择图格大小时,人们往往会根据方便程度来决定(例如,使用一个整数),或者选择能够呈现最佳视觉效果的图格大小。 但是,比例的选择会同时影响可检测内容及其解读方式(可塑性区域单元问题的示例),因此必须制定合理且可复现的决策。 同时,评估所得点计数对图格大小的敏感程度也至关重要:若采用更大或更小的图格大小,是否会得出不同的模式和结论?

从本质上讲,针对点数据聚合确定合适的图格大小是一个比例问题。 如果图格过小,则会导致大部分图格为空且计数不稳定;如果图格过大,则会模糊细节并掩盖重要的局部模式。 合适的图格大小是指足够大,能够产生多样化的点计数(而非出现许多空图格和少量较大的计数);但仍然足够小,能够在生成的图格中保留局部点模式(而非对其进行聚合)。

要确定合适的图格大小,可以使用两个条件来评估一系列候选图格大小:内部均匀性和点计数变异度。 内部均匀性指标用于衡量每个图格内的点在空间上是否倾向于随机,该指标几乎总是更倾向于较小的图格大小。 相反,点计数变异度指标用于衡量生成图格的均匀分布程度,该指标几乎总是更倾向于较大的图格大小。

点计数变异度和内部均匀性曲线

然后,将这两个指标(每个指标的值介于 0 到 1 之间)相乘,针对每个图格大小产生单个评估得分,工具会建议评估得分最高的图格大小。 借助评估得分曲线,您也可以查看其他图格大小与工具建议的图格大小的比较。

评估得分曲线

有关评估得分及其计算方法的详细信息,请参阅以下图格大小评估附加详细信息部分。

定义合适的聚合边界

除了提供将进行聚合的点之外,您还必须使用聚合边界参数来定义将在其中聚合点并创建图格的区域。 聚合边界(有时称为研究区域或感兴趣区域)应定义可以出现点并记录点的区域。 例如,当聚合城市内的紧急呼叫时,应将城市边界用作聚合边界,因为紧急呼叫可以来自城市内的任何地点,而来自城市外的任何呼叫都不会包含在数据集中。 虽然人们很容易想到先创建图格,然后将其裁剪到聚合边界,但该边界对评估得分和建议图格大小有着深远的影响。 选择不合适的聚合边界通常会导致建议图格大小过大或过小,因此强烈建议您考虑最适合您的数据的边界。

提供一个边界以确定点可能出现和不可能出现的位置将非常重要,因为该工具必须能够区分某个区域是否因为没有发生任何事件而没有点(例如某个城市的某个区域在某一周没有发生抢劫),或者是否不可能在该区域中观察到点(例如在陆地上看到鲸鱼)。 由于该工具将评估图格的生成点计数的变异度,因此等于零的计数与任何其他计数同样重要,并且该工具将避免导致大量图格没有任何点的图格大小。 在实践中,这意味着如果聚合边界过大(即包含许多无法记录到点的区域),则建议图格大小将大得不切实际,以填补空白区域并减少空图格的数量。 相反,如果研究区域过小,该工具将建议较小的图格大小,以增加没有任何点的图格数量。

如果已知适合这些点的聚合边界(例如城市边界),请选择自定义面选项,并在自定义面参数中提供该边界。 您也可以使用交互式要素输入以交互方式绘制聚合边界。

如果未知合适的聚合边界,则可以使用凹包凸包包络选项自动创建边界(有关详细信息,请参阅最小边界几何)。 当使用自动创建的边界时,您应该始终直观地评估该边界是否充分代表了这些点。 如果边界不合适,请使用其他选项或者以交互方式绘制能够更好地代表点的边界。

下图显示了使用聚合边界参数的所有选项得到的相同数据的图格大小。 自定义选项将使用已在其中采集点的实际边界。 对于其他数据集(尤其是包含空间异常值的数据集),产生的图格大小和模式的差异可能会更加极端。

聚合边界

工具输出

该工具将创建三个输出,这些输出包含在图层组中。 主要输出是使用建议图格大小的聚合图格的面要素类。 将根据每个图格内的点计数对该图层进行符号化。

第二个输出是该工具已使用的聚合边界的面要素类。 此输出对于凹包和凸包选项最有用,以便查看边界的形状。 第三个输出是一个表,其中包含该工具已检验的所有图格大小的评估得分。 该表附带两个图表,可用于调查图格大小。

不同图格大小的评估得分图表

不同图格大小的评估得分图表将显示所有已检验图格大小的评估得分。 图表中的蓝点是图格大小的原始评估得分,通过样条曲线(蓝色曲线)对其进行了平滑处理。 蓝色曲线的最大值是建议的图格大小,由垂直橙色线指示。 建议图格大小周围也会显示一个浅橙色的置信区间,此范围内的任何图格大小的评估得分都不会显著低于建议图格大小,因此可以选择此范围内的任何值(例如,选择一个整数),而不会显著降低评估得分。

不同图格大小的评估得分图表

建议图格大小和每个图格的关联区域将显示在图表底部。 对于正方形图格,图格大小是指每个正方形的宽度或高度;对于六边形图格,图格大小是指每个六边形的高度(即从一个平边到对面平边的距离)。

注:

经过检验的最小图格大小(x 轴的最小值)是针对每个输入点产生 20 个图格的图格大小(换句话说,这些图格非常小,超过 95% 的图格将不包含任何点),而最大图格大小(x 轴的最大值)是 x 方向或 y 方向范围中较大者的 25%。 该工具将在最小和最大图格大小之间均匀递增地检验 100 个图格大小。

不同图格大小的内部均匀性和点计数变异度图表

不同图格大小的内部均匀性和点计数变异度图表显示了组合在一起以产生评估得分的两个条件。 针对每个经过检验的图格大小,绿色曲线显示了内部一致性得分,紫色曲线显示了点计数变异度得分。 通常情况下,绿色曲线呈现下降趋势,而紫色曲线则呈现上升趋势。 为了便于理解,页面还会显示建议图格大小和置信区间。 建议图格大小通常针对两个条件都具有合理的得分,表明在相互冲突的条件之间实现了有效平衡。 有关每个条件的详细信息,请参阅以下图格大小评估附加详细信息部分。

不同图格大小的内部均匀性和点计数变异度图表

地理处理消息

该工具的消息包括结果汇总部分和聚合汇总部分。 结果汇总部分显示了建议图格大小和关联图格面积。 对于六边形,其中还会显示每个六边形的边长。 聚合汇总包含生成的图格及点计数的各种汇总统计数据,例如点数量、图格数量、平均点计数以及聚合边界的面积。

最佳做法和限制

以下是使用该工具时的最佳做法和限制:

  • 该工具假设存在适用于对点进行聚合的单一图格大小。 但是,在许多情况下,并不存在将充分代表整个聚合边界内所有点情况的单一图格大小。 例如,在一个既包含人口密度较低的农村区域又包含人口密度较高的城市区域的大型县域中,可能难以在整个县域范围内对紧急呼叫进行聚合。 如果图格大小足够小,能够准确呈现城市区域的特征,则农村区域的图格大多为空;而如果图格大小对于农村区域足够大,则会将城市中心压缩至仅少数几个图格中。 此问题的常见表现是:建议图格大小周围的置信区间非常宽,这表明对于应选用何种图格大小存在高度不确定性。 一种可能的解决方案是将点分隔到不同的数据集中,并针对各数据集分别使用不同的图格大小对其进行聚合。

  • 该工具最适用于您计划使用生成的点计数执行某些类型的分析(例如热点分析局部异常值分析),而非单纯进行制图平滑处理的情况。 虽然该工具能够有效平滑大量点以提升可视化效果,但其核心功能在于生成相应聚合图格,在该聚合图格中,能够尽可能保留点的空间结构,并生成有利于后续分析的点计数。
  • 大量重合的点(多个点位于同一坐标)会生成不切实际的图格大小。 如果任何输入点重合,则该工具将返回警告。

图格大小评估附加详细信息

该工具采用的基本方法是使用两个指标(内部均匀性和点计数变异度)来评估一系列图格大小。 对于每个指标,将为每个图格大小分配介于 0 到 1 之间的得分,然后将这些值相乘在一起,由此得到用于平衡这两个条件的最终评估得分。 内部均匀性指标通常倾向于较小的图格大小,而点计数变异度指标通常倾向于较大的图格大小,因此,具有最高评估得分的图格大小是能够在相互冲突的指标之间实现最佳平衡的中间图格大小。 以下部分将进一步阐述这两个条件。

内部均匀性

内部均匀性指标用于衡量点在生成的图格内是否呈现均匀分布状态。 例如,在下图中,左侧图格中的点高度聚集于角落区域,而右侧图格中的点呈现随机均匀的散布状态,因此右侧图格的内部均匀性更高。

内部均匀性示例

确保内部均匀性的重要意义在于避免因图格大小选择不当而隐藏重要局部模式。 如果图格内的点形成明显聚类或模式,则采用单一计数对其进行汇总可能导致分析结论失真。 此指标用于检查每个图格内的点是否随机排列,如果满足此条件,则表明图格能够公平且具有代表性地概括其内部包含的点。 当多个图格显示结构化模式时,这表明当前图格大小可能过大,由此隐藏图格内部的重要模式。

将通过检验每个图格是否符合完全空间随机性来计算该指标,并以 p 值大于 0.05 的图格(即未检测出存在聚类的图格)比例作为值。 不含任何点的图格不会包含在该比例中,因为空图格既不能被归类为空间随机分布,也无法判定为存在聚类。

完全空间随机性检验会将每个图格进一步细分为若干更小的图格。 对于正方形,图格将划分为 25 个较小的正方形;对于六边形,图格将划分为 24 个三角形。 然后,使用卡方拟合优度检验来检验正方形或三角形内的点计数是否均匀。

点计数变异度

点计数变异度指标用于量化图格间点计数的多样性,优先选择能产生各种计数值的图格大小,由此既能避免出现大量空图格的图格大小,又能防止仅有少量图格具有较大点计数的失衡分布情况。 从概念上讲,该指标鼓励提升信息的丰富程度,其核心理念在于,聚合应当在点计数上呈现出有意义的差异和多样性,尤其是当您计划对点计数执行分析(例如热点分析)时,这一点尤为重要。 实际上,随着图格大小的增大,此指标通常也会增大,因为较大的图格能够包含更多类型且分布更均匀的数据点。

例如,在下图中,底部图格所产生点计数的变异度更广,分布也更均匀,因此在点计数变异度方面,底部图格会获得更高的得分。 通常,点计数的分布越接近均匀分布(即曲线越平坦),则得分越高。

点计数变异度示例

将使用归一化香农熵度量计算该指标。 对于每个图格大小,可将图格计数的分布划分为五个相等的区间,并计算该分布的熵。 然后,将该熵除以均匀分布的熵,最终得到一个介于 0 和 1 之间的得分。

注:

通过模拟聚合边界内的随机正方形或六边形来计算内部均匀性和点计数变异度得分,此方法无需为每个图格大小构建完整镶嵌。 由此可以提高处理速度,但再次运行该工具时,结果可能会略有不同。 但是,可以使用随机数生成器环境以确保结果的可重复性。 对于每个图格大小,将根据以下标准计算模拟多边形的数量,平均而言,模拟结果能够覆盖 75% 的聚合边界范围。

引导置信区间

图表中建议图格大小周围的橙色置信区间是使用自助重采样方法构建的。 此过程通过替换对评估得分进行随机重采样,并为每组重采样的评估得分拟合一条样条曲线。 对于每次重采样,都会记录原始建议图格大小的评估得分,并确定第五个百分位数。 所有评估得分高于此值的图格大小都将被包含在置信区间内。 这些图格大小的评估得分与工具建议的图格大小的评估得分相比,差异并不显著。

H3 六边形

该工具不支持将数据聚合到 H3 六边形中。 但是,将数据聚合到六边形中时,可以在不同图格大小的评估得分图表中显示关联的 H3 分辨率作为参考线。 默认情况下,将禁用参考线,但您可以在图表属性窗格的参考线选项卡上将其启用。

H3 六边形图表属性

启用后,参考线(灰色垂直虚线)可以帮助您查看处于检验图格大小范围内的 H3 分辨率的评估得分,并选择最适合您数据的分辨率。 例如,在下图中,H3 分辨率 4 的评估得分最高,其值最接近建议图格大小,并且也位于置信区间内。

H3 六边形参考线

参考资料

使用了以下资源来实现该工具:

  • Ramos, Rafael G. 2025. "Finding an Adequate Areal Unit to Map Crime: A Spatial Data Perspective." New Research in Crime Modeling and Mapping Using Geospatial Technologies (pp. 27-44). Cham: Springer Nature Switzerland. https://doi.org/10.1007/978-3-031-81580-5_2.

相关主题