Cómo funciona el algoritmo CatBoost

CatBoost es un método de aprendizaje automatizado supervisado utilizado por la herramienta Entrenar con AutoML y utiliza árboles de decisión para la clasificación y regresión. CatBoost tiene dos entidades principales, funciona con datos categóricos y utiliza la mejora de gradiente. La mejora en gradiente es un proceso en el que muchos árboles de decisión se construyen iterativamente. Cada árbol subsiguiente mejora el resultado del árbol anterior, lo que mejora los resultados. CatBoost mejora el método de mejora de gradiente original para una implementación más rápida.

CatBoost supera una limitación de otros métodos basados en árboles de decisión en los que, por lo general, los datos deben ser procesados previamente para convertir variables de cadena de caracteres categóricas en valores numéricos, codificación one-hot, etc. Este método puede consumir directamente una combinación de variables explicativas categóricas y no categóricas sin preprocesamiento. Preprocesa como parte del algoritmo. CatBoost utiliza un método llamado codificación ordenada para codificar entidades de categorías. La codificación ordenada considera las estadísticas de destino de todas las filas anteriores a un punto de datos para calcular un valor a fin de sustituir a la entidad categórica.

Otra característica única de CatBoost es que utiliza árboles simétricos. Esto significa que en cada nivel de profundidad todos los nodos de decisión utilizan la misma condición de división.

CatBoost también puede ser más rápido que otros métodos como XGBoost. Mantiene determinadas entidades, como la validación cruzada, la regularización y la compatibilidad de valores ausentes desde los algoritmos anteriores. Este método funciona bien con datos de poco volumen o de gran volumen.