数据工程工具集概览

“数据工程”工具集包含用于准备字段以进行分析工作流的工具,例如转换、标准化、编码和重分类值。 这些工具旨在确保数据集干净、一致并为建模或分析工作流做好准备。

工具描述

编码字段

将分类值(字符串、整数或日期)转换为多个数值字段,每个字段表示一个类别。 编码的数值字段可用于大多数数据科学和统计工作流,包括回归模型。

字段统计数据转表

为表或要素类中的一个或多个输入字段创建描述性统计表。

重分类字段

根据手动定义的边界或使用重分类方法将数值字段或文本字段中的值重分类为多个类。

标准化字段

通过将字段中的值转换为遵循指定比例的值来标准化这些值。 标准化方法包括 z 得分、最小值-最大值、最大绝对值和稳健标准化。

变换字段

通过对每个值应用数学函数并更改分布的形状来变换一个或多个字段中的连续值。 该工具中的变换方法包括对数、平方根、Box-Cox 变换、倒数、平方、指数和逆 Box-Cox 变换。

数据工程工具集中的工具

相关主题