LightGBM 是一种基于决策树的梯度提升集成方法,由使用 AutoML 进行训练工具使用。 与其他基于决策树的方法相似,LightGBM 可用于分类和回归。 LightGBM 通过分布式系统进行了高性能优化。
LightGBM 创建了逐叶生长的决策树,这意味着在给定条件下,将仅分割一个叶片,具体取决于增益。 逐叶生长的树有时会过度拟合,尤其是对于较小的数据集。 限制树的深度有助于避免过度拟合。
LightGBM 使用基于直方图的方法,其中使用分布直方图将数据划分到图格中。 使用图格(而不是每个数据点)进行迭代、计算增益和拆分数据。 该方法也可以针对稀疏数据集进行优化。 LightGBM 的另一个特征是专有要素绑定,其中算法结合专有要素来降低维度,以提高速度和效率。
使用基于梯度的一侧采样 (GOSS) 对 LightGBM 中的数据集进行采样。 在 GOSS 中,在计算增益时具有较大梯度的数据点的权重较高。 在这种方法中,未在训练中得到很好使用的实例作用更大。 将随机移除具有较小梯度的数据点,并保留一些以保持准确性。 在相同采样率的情况下,这种方法通常比随机采样更好。
其他资源
Ke, Guolin, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, and Tie-Yan Liu. "Lightgbm: A highly efficient gradient boosting decision tree." Advances in neural information processing systems 30 (2017).
LightGBM 文档