Как работает алгоритм Классификация и регрессия произвольного леса

Произвольный лес - это контролируемый метод машинного обучения на основе дерева решений, который используется в инструменте Обучение с использованием AutoML. Дерево решений слишком чувствительно к обучающим данным. В этом методе создается множество деревьев решений, которые используются для прогнозирования. Каждое дерево создает свой собственный прогноз и используется как часть голосования большинства для окончательного прогноза. Окончательные прогнозы основаны не на одном дереве, а на целом лесе деревьев решений. Использование леса целиком помогает избежать избыточной подгонки модели к обучающему набору данных, а также использования как случайного подмножества обучающих данных, так и случайного подмножества независимых переменных в каждом дереве, составляющем лес.

Начальная загрузка используется для создания случайного поднабора обучающих данных. Поднабор имеет тот же размер, что и исходные обучающие данные, поскольку данные выбираются случайным образом с повторением. Это делает модель менее чувствительной к исходным обучающим данным. Случайный выбор независимых переменных снижает корреляцию между деревьями и вызывает меньшую дисперсию. Этот уровень дисперсии делает случайный лес более эффективным, чем деревья решений. Совместное использование начальной загрузки и агрегации результатов называется бэггингом. Чтобы проверить точность дерева, используется поднабор данных, который не выбран (не вошел в набор). Этот метод итерирует различные настройки, чтобы найти лес с наименьшей ошибкой, не вошедшей в набор.

В приведенном ниже примере показаны первые пять деревьев решений случайного леса, который классифицирует цветы на основе их ширины и длины чашелистиков и лепестков.

Пример деревьев решений для произвольного леса

Дополнительные источники

Liaw, Andy, and Matthew Wiener. "Classification and regression by randomForest." R news 2, no. 3 (2002): 18-22.

Понимания произвольного леса

Связанные разделы