El conjunto de herramientas Ingeniería de datos contiene herramientas para preparar campos para flujos de trabajo de análisis, como transformar, estandarizar, codificar y reclasificar valores. Estas herramientas están diseñadas para garantizar que los datasets estén limpios, sean coherentes y estén listos para los flujos de trabajo de modelado o análisis.
Herramienta | Descripción |
---|---|
Convierte valores de categorías (cadena de caracteres, entero o fecha) en varios campos numéricos, cada uno de los cuales representa una categoría. Los campos numéricos codificados se pueden utilizar en la mayoría de flujos de trabajo estadísticos y de ciencia de datos, incluidos los modelos de regresión. | |
Crea una tabla de estadísticas descriptivas para uno o más campos de entrada en una tabla o clase de entidad. | |
Reclasifica valores de un campo numérico o de texto en clases en función de unos límites definidos manualmente o utilizando un método de reclasificación. | |
Estandariza los valores de los campos al convertirlos en valores que siguen una escala especificada. Entre los métodos de estandarización se encuentran puntuación z, mínimo-máximo, máximo absoluto y estandarización sólida. | |
Transforma valores continuos en uno o varios campos aplicando funciones matemáticas a cada valor y cambiando la forma de la distribución. Entre los métodos de transformación de la herramienta se encuentran logarítmica, raíz cuadrada, Box-Cox, inverso multiplicativo, cuadrado, exponencial y Box-Cox inversa. |