随机森林是一种基于决策树的监督机器学习方法,由使用 AutoML 进行训练工具使用。 决策树对训练数据过于敏感。 在这种方法中,创建了许多用于预测的决策树。 每棵树会生成其自己的预测,然后用作大多数投票的一部分来进行最终预测。 最终预测不会基于任何单个树,而是基于整个决策树森林。 使用整个森林有助于避免将模型与训练数据集过度拟合,就像使用组成森林的每棵树中训练数据的随机子集和解释变量的随机子集那样。
Bootstrapping 用于创建训练数据的随机子集。 该子集与原始训练数据的大小相同,因为数据是通过重复随机选择的。 这使得模型对原始训练数据不那么敏感。 解释变量的随机选择降低了树之间的相关性并会减少方差。 这种方差水平使随机森林比决策树更有效。 结果引导和聚合统称为 bagging。 要测试树的准确性,使用未选择的数据子集(袋外)。 该方法迭代不同的设置以找到袋外错误最少的森林。
在以下示例中,显示了根据花萼和花瓣宽度和长度对花朵进行分类的随机森林的前五棵决策树。
其他资源
Liaw, Andy, and Matthew Wiener. "Classification and regression by randomForest." R news 2, no. 3 (2002): 18-22.