“数据工程”工具集包含用于准备字段以进行分析工作流的工具,例如转换、标准化、编码和重分类值。 这些工具旨在确保数据集干净、一致并为建模或分析工作流做好准备。
工具 | 描述 |
---|---|
将分类值(字符串、整数或日期)转换为多个数值字段,每个字段表示一个类别。 编码的数值字段可用于大多数数据科学和统计工作流,包括回归模型。 | |
为表或要素类中的一个或多个输入字段创建描述性统计表。 | |
根据手动定义的边界或使用重分类方法将数值字段或文本字段中的值重分类为多个类。 | |
通过将字段中的值转换为遵循指定比例的值来标准化这些值。 标准化方法包括 z 得分、最小值-最大值、最大绝对值和稳健标准化。 | |
通过对每个值应用数学函数并更改分布的形状来变换一个或多个字段中的连续值。 该工具中的变换方法包括对数、平方根、Box-Cox 变换、倒数、平方、指数和逆 Box-Cox 变换。 |