Le jeu d’outils Data Engineering contient des outils pour préparer les champs aux processus d’analyse, tels que la transformation, la standardisation, l’encodage et le reclassement des valeurs. Ces outils sont conçus pour s’assurer que les jeux de données sont validés, cohérents et prêts à intégrer des processus de modélisation ou d’analyse.
Outil | Description |
---|---|
Convertit des valeurs de catégorie (chaîne, entier ou date) en plusieurs champs numériques représentant chacun une catégorie. Les champs numériques encodés peuvent être utilisés dans la plupart des processus de science des données et statistiques, y compris les modèles de régression. | |
Crée une table de statistiques descriptives d’un ou de plusieurs champs en entrée d’une table ou d’une classe d’entités. | |
Reclasse les valeurs d’un champ numérique ou de texte dans des classes en fonction de limites définies manuellement ou à l’aide d’une méthode de reclassification. | |
Standardise les valeurs des champs en les convertissant en valeurs conformes à une échelle spécifiée. Parmi les méthodes de standardisation figurent les suivantes : score z, minimum-maximum, maximum absolu et standardisation robuste. | |
Transforme des valeurs continues en un ou plusieurs champs en appliquant des fonctions mathématiques à chaque valeur et en modifiant la forme de la distribution. Les méthodes de transformation de l’outil sont les suivantes : logarithmique, racine carrée, Box-Cox, inverse multiplicatif, carré, exponentielle et Box-Cox inverse. |
Rubriques connexes
Vous avez un commentaire à formuler concernant cette rubrique ?