Fonctionnement de l’algorithme LightGBM

LightGBM est une méthode d’ensemble d’optimisation de dégradé utilisée par l’outil Entraîner à l’aide d’AutoML et basée sur les arbres de décision. Tout comme les autres méthodes basées sur les arbres de décision, la méthode LightGBM peut être utilisée dans la classification et la régression. L’algorithme LightGBM est optimisé pour des performances élevées dans les systèmes distribués.

L’algorithme LightGBM crée des arbres de décision prenant les feuilles en charge, ce qui signifie que, selon une condition donnée, une seule feuille est fractionnée, en fonction du gain. Les arbres prenant en charge les feuilles peuvent parfois provoquer un surajustement, en particulier avec les jeux de données plus petits. Limiter la profondeur de l’arbre peut aider à prévenir un surajustement.

L’algorithme LightGBM utilise une méthode basée sur les histogrammes qui compartimente les données dans des groupes à l’aide d’un histogramme de la distribution. Les groupes, à la place de chaque point de données, sont utilisés pour itérer, calculer le gain et fractionner les données. Cette méthode peut être optimisée pour un petit jeu de données également. Une autre caractéristique de l’algorithme LightGBM réside dans le regroupement des entités exclusives, qui combine les entités exclusives pour procéder à une réduction dimensionnelle, ce qui rend l’algorithme plus rapide et plus efficace.

La méthode GOSS (Gradient-based One Side Sampling) est utilisée pour échantillonner le jeu de données dans LightGBM. La méthode GOSS pondère les points de données avec les dégradés plus grands plus élevés tout en calculant le gain. Dans cette méthode, les instances n’ayant pas été bien utilisées pour l’entraînement contribuent davantage. Les points de données présentant des dégradés plus faibles sont supprimés aléatoirement et certains sont conservés pour maintenir la précision. Cette méthode est généralement meilleure que l’échantillonnage aléatoire avec le même taux d’échantillonnage.

Ressources supplémentaires

Ke, Guolin, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye et Tie-Yan Liu. « Lightgbm: A highly efficient gradient boosting decision tree. » Advances in neural information processing systems 30 (2017).

Documentation LightGBM

Rubriques connexes


Dans cette rubrique
  1. Ressources supplémentaires