LightGBM es un método de ensamblaje de refuerzo de gradientes que se utiliza en la herramienta Entrenar con AutoML y se basa en árboles de decisión. Al igual que con otros métodos basados en árboles de decisión, LightGBM se puede utilizar tanto para la clasificación como para la regresión. LightGBM está optimizado para un alto rendimiento con sistemas distribuidos.
LightGBM crea árboles de decisión que crecen por hojas, lo que significa que, dada una condición, solo se divide una única hoja, en función de la ganancia. En ocasiones, los árboles por hojas pueden ajustarse en exceso, especialmente con datasets más pequeños. Limitar la profundidad del árbol puede ayudar a evitar el exceso de ajuste.
LightGBM utiliza un método basado en histograma en el que los datos se agrupan en bins utilizando un histograma de la distribución. Los bins, y no los puntos de datos individuales, se utilizan para iterar, calcular la ganancia y dividir los datos. Este método también se puede optimizar para un dataset disperso. Otra característica de LightGBM es el empaquetado exclusivo de entidades, en el cual el algoritmo combina entidades exclusivas para reducir la dimensionalidad, haciendo que sea más rápida y eficiente.
LightGBM utiliza el muestreo unilateral basado en gradientes (GOSS) para muestrear el dataset. El GOSS pondera los puntos de datos con gradientes más grandes, a la vez que calcula la ganancia. En este método, las instancias que no se han usado bien para el entrenamiento contribuyen más. Los puntos de datos con gradientes más pequeños se eliminan aleatoriamente y algunos otros se mantienen para mantener la precisión. Por lo general, este método resulta mejor que el muestreo aleatorio dado el mismo índice de muestreo.
Recursos adicionales
Ke, Guolin, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye y Tie-Yan Liu. "Lightgbm: A highly efficient gradient boosting decision tree". Advances in neural information processing systems 30 (2017).
Documentación de LightGBM