LightGBM это метод градиентной бустинговой сборки, который используется инструментом Обучение с использованием AutoML и основан на деревьях решений. Как и в случае с другими методами, основанными на деревьях решений, LightGBM можно использовать и для классификации, и для регрессии. LightGBM оптимизирован для высокой производительности в распределенных системах.
LightGBM создает деревья решений, которые растут по листам, что означает, что при заданном условии разделяется только один лист, в зависимости от усиления. Деревья с большим числом листьев иногда могут переобучаться, особенно с небольшими наборами данных. Ограничение глубины дерева может помочь избежать переобучения.
LightGBM использует метод, основанный на гистограмме, в котором данные распределяются по ячейкам с использованием гистограммы распределения. Бины вместо каждой точки данных используются для итерации, вычисления коэффициента усиления и разделения данных. Этот метод можно оптимизировать и для разреженного набора данных. Еще одной характеристикой LightGBM является объединение эксклюзивных функций, в котором алгоритм объединяет эксклюзивные функции для уменьшения размерности, это делает его более быстрым и эффективным.
Односторонняя выборка на основе градиента (GOSS) используется для выборки набора данных в LightGBM. GOSS присваивает точкам данных с большими градиентами при расчете усиления более высокий вес. В этом методе экземпляры, которые недостаточно использовались для обучения, вносят больший вклад. Точки данных с меньшими градиентами удаляются случайным образом, некоторые из них сохраняются для поддержания точности. Этот метод обычно лучше, чем случайная выборка, при той же частоте выборки.
Дополнительные источники
Ke, Guolin, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, and Tie-Yan Liu. "Lightgbm: A highly efficient gradient boosting decision tree." Advances in neural information processing systems 30 (2017).
Документация по LightGBM