Как работает алгоритм классификации и регрессии дополнительных деревьев

Дополнительные деревья (сокращенное понятие для экстремально случайных деревьев) — это метод контролируемого машинного обучения, который использует деревья решений и применяется инструментом Обучение с использованием AutoML. Информацию о том, как работают деревья решений, см. в разделе Классификация деревьев решений и алгоритм регрессии. Этот метод похож на лес произвольных деревьев, но может быть быстрее.

Алгоритм дополнительных деревьев, как и алгоритм леса произвольных деревьев, создает множество деревьев решений, но выборка для каждого дерева является случайной, без замены. Это создает набор данных с уникальными выборками для каждого дерева. Определенное количество объектов из общего набора объектов также выбирается случайным образом для каждого дерева. Наиболее важной и уникальной характеристикой дополнительных деревьев является случайный выбор значения разбиения для объекта. Вместо вычисления локального оптимального значения с использованием коэффициента Джини или энтропии для разбиения данных алгоритм случайным образом выбирает значение разбиения. Это делает деревья разнообразными и некоррелированными.

Дополнительные источники

Гертс, Пьер, Дэмиен Эрнст и Луи Вехенкель. "Extremely randomized trees." Machine learning 63, № 1 (2006): 3-42.

В чем разница между Дополнительными деревьями и Лесом произвольных деревьев?

Связанные разделы