Деревья решений — это тип контролируемого алгоритма машинного обучения, который используется инструментом Обучение с использованием AutoML и классифицирует или вычисляет регрессию данных, используя истинные или ложные ответы на определенные вопросы. Результирующая структура при визуализации имеет вид дерева с различными типами узлов — корневыми, внутренними и конечными. Корневой узел является отправной точкой для дерева решений, которое затем разветвляется на внутренние и конечные узлы. Конечные узлы являются окончательными категориями классификации или реальными значениями. Деревья решений просты для понимания и легко объяснимы.
Чтобы построить дерево решений, начните с указания объекта, который станет корневым узлом. Как правило, ни один объект не может точно предсказать окончательные классы; это называется загрязненность (impurity). Такие методы, как Джини, энтропия и накопление информации, используются для измерения этой загрязненности и определения того, насколько хорошо объект классифицирует данные. В качестве узла на любом уровне выбирается объект с наименьшей загрязненностью. Чтобы вычислить загрязненность Джини для объекта с числовыми значениями, сначала данные сортируются в порядке возрастания и рассчитывается средние значения соседних значений. Затем вычисляется загрязненность Джини для каждого выбранного среднего значения, путем расположения точек данных в зависимости от того, меньше или больше значения объектов, чем выбранное значение, и правильно ли этот выбор классифицирует данные. Далее загрязненность Джини рассчитывается с использованием приведенного ниже уравнения, где K — количество категорий классификации, а p — доля экземпляров этих категорий.
Рассчитывается средневзвешенное значение загрязнения Джини для листьев при каждом значении. Для этого объекта выбирается значение с наименьшим загрязнением. Процесс повторяется для разных объектов, чтобы выбрать объект и значение, которые станут узлом. Этот процесс повторяется в каждом узле на каждом уровне глубины, пока все данные не будут классифицированы. После того, как дерево построено, чтобы сделать прогноз для точки данных, необходимо спуститься по дереву, используя условия в каждом узле, чтобы получить окончательное значение или классификацию. При использовании деревьев решений для регрессии, чтобы измерить загрязнения вместо коэффициента Джини используется сумма квадратов невязки или дисперсии. Остальная часть метода следует аналогичным шагам.
В следующем примере показано дерево решений, которое классифицирует цветы на основе ширины и высоты лепестков и чашелистиков:
Дополнительные источники
Куинлан, Дж. Р. C4.5: Программы для машинного обучения. Издательство Морган Кауфманн, 1993.