データ エンジニアリング ツールセットには、値の変換、標準化、エンコード、再分類など、解析ワークフロー用のフィールドを準備するツールが含まれています。 これらのツールは、データセットが明瞭で一貫したものとなり、モデリングや解析のワークフローに使用できるようにするために設計されています。
ツール | 説明 |
---|---|
カテゴリ値 (文字列、整数、または日付) を複数の数値フィールド (それぞれが 1 つのカテゴリを表す) に変換します。 エンコードされた数値フィールドは、ほとんどのデータ サイエンス ワークフローと統計ワークフロー (回帰モデルを含む) で使用できます。 | |
テーブルまたはフィーチャクラスにある 1 つ以上の入力フィールドの説明的な統計のテーブルを作成します。 | |
手動で定義した境界に基づき、または再分類方法を使用して、数字フィールドまたはテキスト フィールドの値をクラスに再分類します。 | |
フィールド内の値を指定のスケールに準拠した値に変換することで標準化します。 標準化方法には、Z スコア、最小-最大、絶対最大値、およびロバスト標準化があります。 | |
それぞれの値に数学関数を適用し、分布の形状を変更して、1 つ以上のフィールド内の連続値を変換します。 このツールでの変換方法には、対数、平方根、Box-Cox、逆数、二乗、指数、および逆 Box-Cox があります。 |