准备数据

您可以使用数据工程工具清理和准备数据。 “数据工程”视图中提供了地理处理工具的子集,可帮助您准备数据以供在地图或分析中使用。 这些工具可分为以下类别:

  • 清理 - 清理数据。 例如,您可以移除不需要的行或字段。 您也可以修改字段或填写缺失值。
  • 构建 - 创建从图层的现有字段或属性派生的字段。 例如,您可以添加并计算新字段;标准化、变换或重分类现有字段;并根据输入图层的几何添加字段。
  • 集成 - 将来自另一个数据源的数据集成或添加到输入表或要素类。 例如,您可以通过丰富数据来连接字段或添加字段。
  • 格式化 - 更改字段的格式或重新组织表或要素类中的字段。 例如,您可以转换时间字段、对分类字段进行编码或缩小现有字段的尺寸。

注:

“数据工程”视图中的某些地理处理工具不适用于不可编辑的图层。 在这种情况下,请创建图层的可编辑副本,然后打开一个新的“数据工程”视图。

您可以通过执行以下操作之一在“数据工程”视图中访问这些组和工具:

“数据工程”功能区

激活“数据工程”视图后,上下文功能区将显示在应用程序顶部。 通过功能区可以访问用于探索和准备数据的命令和工具。

“数据工程”功能区

功能区上的数据组提供对字段视图和与活动“数据工程”视图关联的图层的属性表的访问。 工具组提供四个工具库:清理构造集成格式化。 每个工具库均包含用于相应数据工程任务的地理处理工具的子集。 默认情况下,与活动“数据工程”视图关联的图层用于自动填充这些工具的输入要素参数。

“数据工程”工具

下表描述了数据工程功能区上的所有工具。

注:

某些地理处理工具不适用于非空间数据,例如独立表。

清理

以下工具在清理类别中可用:

工具描述

填充缺失值

用于将缺失值(空值)替换为基于空间邻域、时空邻域或时间序列值的估算值。

删除字段

可从表、要素类、要素图层或栅格数据集中删除一个或多个字段。

空间异常值检测

通过计算每个要素的局部异常值因子 (LOF) 来识别点要素中的空间异常值。 空间异常值是异常隔离的位置中的要素,LOF 是一种测量,用于描述某个位置与其局部相邻要素之间的隔离程度。

工程

将空间数据从一种坐标系投影到另一种坐标系。

构建

以下工具在构建类别中可用:

工具描述

计算几何属性

向要素的属性字段(表示各要素的空间或几何特性以及位置)添加信息,例如长度或面积以及 x、y、z 和 m 坐标。

计算字段

为要素类、要素图层或栅格计算字段的值。

转换字段

通过对每个值应用数学函数并更改分布的形状来变换一个或多个字段中的连续值。 该工具中的变换方法包括对数、平方根、Box-Cox 变换、倒数、平方、指数和逆 Box-Cox 变换。

标准化字段

通过将字段中的值转换为遵循指定比例的值来标准化这些值。标准化方法包括 z 得分、最小值-最大值、最大绝对值和稳健标准化。

添加字段

向表或要素类表、要素图层以及带属性表的栅格添加新字段。

降维

使用主成分分析 (PCA) 或降级线性判别分析 (LDA) 将尽可能高的方差量聚合成更少的分量,来降低连续变量集的维数。

时间序列平滑

平滑时间序列数据,这有助于解决短期波动以揭示长期趋势和周期。 工具可以使用通过居中、向前和向后移动平均值的一个或多个时间序列的数字变量,以及基于局部线性回归的自适应方法。

集成

以下工具在集成类别中可用:

工具描述

连接字段

基于公用属性字段将一个表的内容连接到另一个表。 输入表将被更新,从而包含连接表中的字段。 您可以选择连接表中的哪些字段将添加到输入表。

丰富

可通过添加与数据位置周围或内部的人员及地点相关的人口统计和景观信息来丰富数据。 输出是输入的副本,其中包含其他属性字段。 此工具需要 ArcGIS Online 组织帐户或本地安装的 Business Analyst 数据集。

周边

可计算输入要素与其他图层或要素类中的最近要素之间的距离和其他邻近性信息。

空间连接

根据空间关系将一个要素类的属性连接到另一个要素类的属性。 目标要素和来自连接要素的被连接属性写入到输出要素类。

范围内汇总

将一个面图层与另一个图层叠加,以便汇总各面内点的数量、线的长度或面的面积,并计算面内此类要素的属性字段统计数据。

示例

创建一个表或点要素类,其中显示从一个栅格或一组栅格提取的已定义位置的像元值。该位置由栅格像元、点、折线或面进行定义。

邻近汇总

无论时区如何,所有点的开始时间均应同步。

分配面

基于目标面图层的空间叠加来汇总输入面图层的属性,并将汇总的属性分配给目标面。 目标面具有从每个目标重叠的输入面派生的求和数值属性。

格式化

以下工具在格式化类别中可用:

工具描述

编码字段

将分类值(字符串、整数或日期)转换为多个数值字段,每个字段表示一个类别。编码的数值字段可用于大多数数据科学和统计工作流,包括回归模型。

转换时间字段

将存储在字符串或数值字段中的时间值转换为日期字段。此工具也可用于将以字符串、数值或日期字段形式存储的时间值转换为如一周中周几或一年中第几个月等自定义格式。

转置字段

在新表或要素类中,将字段或列中存储的数据转换到行中。

转换时区

将日期字段中所记录的时间值从一个时区转换到另一个时区。

重分类字段

根据手动定义的边界或使用重分类方法将数值字段或文本字段中的值重分类为多个类。

数据透视表

通过在“输入表”中减少记录中的冗余并简化一对多关系来创建表。

注:

修改输入数据的大多数地理处理操作无法撤消。

相关主题