CatBoost est une méthode Machine Learning supervisée qui est utilisée par l’outil Entraîner à l’aide d’AutoML et qui recourt aux arbres de décision pour la classification et la régression. Comme son nom l’indique, l’algorithme CatBoost comprend deux fonctionnalités principales. Il fonctionne avec des données catégorielles (Cat) et il utilise le « gradient boosting » (Boost), également appelé l’amplification de gradient. L’amplification de gradient est un processus au cours duquel de nombreux arbres de décision sont construits de manière itérative. Chaque arbre suivant améliore le résultat de l’arbre précédent, ce qui optimise les résultats. CatBoost renforce la méthode d’amplification de gradient d’origine pour une implémentation plus rapide.
CatBoost résout une limitation des autres méthodes basées sur les arbres de décision, dans laquelle en général les données doivent être prétraitées pour convertir les variables catégorielles de type chaîne en valeurs numériques, encodages one-hot, etc. Cette méthode peut consommer directement une combinaison de variables explicatives catégorielles et non catégorielles sans prétraitement. Le prétraitement s’effectue dans le cadre de l’algorithme. CatBoost utilise une méthode appelée l’encodage ordonné pour encoder les entités catégorielles. L’encodage ordonné tient compte des statistiques cibles de toutes les lignes avant un point de données pour calculer une valeur et remplacer l’entité catégorielle.
Une autre caractéristique unique de l’algorithme CatBoost réside dans l’utilisation d’arbres symétriques. Cela signifie qu’à chaque niveau de profondeur, tous les nœuds de décision utilisent la même condition de fractionnement.
CatBoost peut également être plus rapide que d’autres méthodes comme XGBoost. Cet algorithme conserve certaines entités (prise en charge de la validation croisée, de la régularisation et des valeurs manquantes) des algorithmes précédents. Cette méthode fonctionne parfaitement avec les données de petite taille comme de grande taille.
Vous avez un commentaire à formuler concernant cette rubrique ?