使用分区概化大型数据集

根据上下文来处理多个数据专题的地理处理工具必须在处理开始前将全部输入数据载入到内存。大型数据集或大量的输入数据集极容易超过这些工具的内存限制。分区是一种将大量数据细分为更小、更易于管理的要素集的手段。

当工具运行分区的数据时,将按顺序处理每个分区。分区边界或附近的要素需要严格管理,以避免误差。工具会加载超出每个分区范围的附加数据,并在处理过程中使用这些数据,不过只对位于分区内的要素进行修改。最终的输出结果没有任何缝隙。

通常,如果所有输入图层中共有超过 100,000 个要素,或如果要素因含有大量折点而变得复杂,则需要考虑使用分区来运行工具。可为分区启用以下工具:

如何启用分区

通过在制图分区地理处理环境设置中指定一个分区要素类,可为以上列出的地理处理工具启用分区功能。使用该设置,促使适用的工具将输入要素分成多个部分逐个处理,而不是一次性处理所有输入要素。

分区要素类应该合理地覆盖感兴趣区域且大致均匀分割输入要素。分区过大则仍会超过内存限制,但是分区过小则会导致工具逐渐脱离上下文,进而影响结果的质量。

可用作分区的要素

分区要素可以有不同的来源。一些工作流可能已经包括固有的逻辑分区,例如一组连续的打印地图上显示的数据范围。建模为面要素的地图图幅通常可以生成理想的分区。在这种情况下,可以使用格网索引要素工具来创建矩形面要素的格网。只要输入数据可相对均匀地分布在整个感兴趣区域,这些格网将创建合理的分区。

在 Web 制图中,缓存切片方案可以生成一组合适的分区。考虑使用地图服务器缓存切片方案转换为面工具创建表示该方案的面格网。与使用地图图幅范围相似,当输入要素分布较为均匀时,该工作流有效。

在一些工作流中,数据集可能包括构成自然连续分区的要素类,如县或邮政编码。如果这些要素完全覆盖并分割输入要素,它们可用作分区。对于随密度变化的数据分布,这是一个不错的方法。例如,在住宅密度较高的地方,邮政编码面可能会较小,所以在解决建筑物冲突时,邮政编码可能会生成良好的分区。

如果现有的面不适用于分区,则可以专门为其创建合适的面。使用创建制图分区工具创建一组含有大致相等数量的输入要素或折点的连续面。

分区要求

  • 每个分区的大小不应包含超出工具能力的输入数据。该阈值通常是由所有输入图层要素的数量和这些要素的复杂性确定的。它还会根据运行的工具以及参数定义方式的不同而发生改变。作为常规准则,分区包含的输入要素最好不超过 50,000 个。如果将折点用于分区方法,则请根据可用的内存量选择一个值。尽管因工具不同可能有所差异,但一百万个折点将占用约 0.5 GB 的内存。
  • 分区要素应该表示输入要素的逻辑细分,这些输入要素由采用该设置的工具进行处理。输入要素应该基本上均匀分布在分区要素中。这些要素可以是一组空间上相关的要素,如县或者其他行政边界;也可以是表示单独地图图幅的面,如使用格网索引要素工具创建的面;或者是使用创建 Cartographic Partitions 工具专门创建的面分区。
  • 分区要素必须具有正确的拓扑。相邻面的边应该匹配,不能有重叠。分区要素之前可以存在孔洞,但是分区要素不能是多部分面或带有孔洞的面。面必须包含简单的、不重叠的几何。
  • 每个分区面的面积必须大于零。Null 或空的分区将不做处理,而且会引发警报。这些分区将在处理过程中被忽略。
  • 分区要素应该表示输入要素的逻辑细分,这些输入要素由采用该设置的工具进行处理。输入要素应该基本上均匀分布在分区要素中。
  • 分区要素应该覆盖输入要素的范围。
  • 分区几何越简单越好。当启用分区时,复杂几何会影响工具的性能。

处理与分区配合的方式

当启用分区时(通过在制图分区地理处理环境设置中指定分区要素类),启用分区的工具将以分区定义的方式,分段处理输入数据。分区将按每个分区的对象 ID 的顺序处理。如果只处理地图的特定区域,则在地图中使用图层作为环境变量,然后在处理之前只需选择相关的分区要素。如果分区要素类未完全覆盖输入,那么仅需要对由分区覆盖的区域进行处理。

即使数据已分区,仍可能会出现单个分区描述的输入数据的数量超过处理工具内存限制的情况。在这种情况下,该分区的处理将失败,将继续处理下一分区。地理处理消息将指出哪些分区没有进行处理。名为 STATUS 的字段将追加到分区要素类中,并使用以下某一概述其状态的语句进行填充:

  • 0 - 未处理
  • 1 - 正在处理
  • 2 - 成功处理
  • 3 - 内存不足
  • 4 - 错误

提示:

如果需要保留在 STATUS 字段中显示的处理状态,则在运行下一个启用分区的工具之前,将新的字段添加到数据中并计算 STATUS 字段的字段值。

相关主题