LightGBM ist eine Gradientenverstärkungs-Ensemble-Methode, die vom Werkzeug Mit AutoML trainieren verwendet wird und auf Entscheidungsbäumen basiert. Wie andere auf Entscheidungsbäumen basierende Methoden kann LightGBM sowohl für die Klassifizierung als auch für die Regression verwendet werden. LightGBM ist für hohe Performance auf verteilten Systemen optimiert.
Mit LightGBM werden Entscheidungsbäume erstellt, die Blatt für Blatt wachsen, das heißt, je nach Verstärkung wird für eine Bedingung nur ein einziges Blatt geteilt. Bei Bäumen mit blattweisem Wachstum ist insbesondere bei kleineren Datasets eine Überanpassung möglich. Diese Überanpassung kann durch Begrenzen der Baumtiefe vermieden werden.
LightGBM verwendet eine histogrammbasierte Methode, bei der Daten mithilfe eines Histogramms der Verteilung in Abschnitten angeordnet werden. Die Abschnitte werden anstelle der einzelnen Datenpunkte zum Iterieren, Berechnen der Verstärkung und Teilen der Daten verwendet. Diese Methode kann auch für ein Dataset mit geringer Datendichte optimiert werden. Ein anderes Merkmal von LightGBM ist Exclusive Feature Bundling, bei dem der Algorithmus exklusive Features kombiniert, um die Dimensionalität zu reduzieren, die damit schneller und effizienter wird.
Gradient-based One Side Sampling (GOSS) wird für Stichproben des Datasets in LightGBM verwendet. GOSS gewichtet beim Berechnen der Verstärkung Datenpunkte mit größeren Gradienten höher. Bei der Methode fließen Instanzen, die beim Training nicht gut verwendet wurden, stärker ein. Datenpunkte mit kleineren Gradienten werden nach dem Zufallsprinzip entfernt, wobei einige aus Gründen der Genauigkeit beibehalten werden. Diese Methode ist in der Regel bei gleicher Stichprobenrate besser als zufällige Stichproben.
Zusätzliche Ressourcen
Ke, Guolin, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye und Tie-Yan Liu. "Lightgbm: A highly efficient gradient boosting decision tree". Advances in neural information processing systems 30 (2017).
LightGBM-Dokumentation