Как работает Классификация на основе леса и регрессия, регрессия с бустингом

Инструмент Классификация на основе леса и регрессия, регрессия с бустингом обучает модель на основании известных значений, предоставленных как часть обучающего набора данных. Затем модель можно использовать для прогнозирования неизвестных значений в наборе данных, который имеет те же независимые переменные. Инструмент создает модели и прогнозы, используя один из двух контролируемых методов машинного обучения: адаптацию алгоритма случайного леса, разработанную Лео Брейманом и Адель Катлер, и XGBoost, популярный метод бустирования, разработанный Тяньци Ченом и Карлосом Гестрином.

Модель на основе леса создает множество независимых деревьев решений, которые вместе называются множеством или лесом. Каждое дерево решений создается из случайного подмножества обучающих данных и независимых переменных. Каждое дерево генерирует свой собственный прогноз и используется как часть схемы агрегирования для получения окончательных прогнозов. Итоговое прогнозирование основано не на каком-то отдельном дереве, а лесе в целом. Это помогает избежать избыточной подгонки модели к набору обучающих данных.

Модель с градиентным бустингом создает серию последовательных деревьев решений. Каждое последующее дерево решений строится так, чтобы минимизировать ошибку (предвзятость) предыдущего дерева решений, поэтому модель с градиентным бустингом объединяет несколько слабых обучателей, чтобы стать сильной моделью прогнозирования. Модель с градиентным бустингом включает в себя регуляризацию и раннюю остановку, что может предотвратить избыточную подгонку модели к набору обучающих данных.

Оба типа моделей могут быть построены для прогнозирования либо категориальной переменной (бинарная классификация и многоклассовая классификация), либо непрерывной переменной (регрессия). Если прогнозируемая переменная является категориальной, модель строится на основе деревьев классификации; когда она непрерывная, построенная модель основана на деревьях регрессии.

Возможное применение

Ниже приведены потенциальные варианты применения этого инструмента:

  • Имея данные о распространении морских водорослей, несколько объясняющих экологических переменных, представленных как в виде атрибутов, так и в виде растров, а также значения расстояния до заводов вверх по течению и крупных портов, спрогнозировать появление морских водорослей можно на основе прогнозов этих же объясняющих экологических переменных.
  • Предположим, у вас есть данные об урожайности на сотнях ферм по всей стране, данные о характеристиках каждой фермы, такие как количество сотрудников и площадь, а также несколько растров, которые представляют уклон, высоту, количество осадков и температуру на каждой ферме. Используя эти данные, вы можете создать модель, которая будет прогнозировать урожайность сельскохозяйственных культур. Если затем вы предоставите модели набор объектов, которые представляют фермы с такими же независимыми переменными, вы сможете сделать прогноз урожайности на каждой ферме.
  • Стоимость жилья можно спрогнозировать на основе цен домов, которые были проданы в текущем году. Цена домов при продаже, а также информация о числе спален, расстоянии до школ, близости автомагистралей, среднем доходе и числе преступлений могут быть использованы для прогноза продажной стоимости аналогичных домов.
  • Типы землепользования можно классифицировать с помощью обучающих данных, комбинации растровых слоев, включая несколько отдельных каналов, и таких продуктов, как NDVI.
  • Имея информацию об уровнях свинца в крови детей и идентификационный номер налогового участка их домов, атрибуты участка, такие как возраст дома, данные переписи населения, такие как уровень дохода и образования, а также национальные наборы данных, отражающие выбросы токсичных веществ свинца и его соединений, позволят спрогнозировать риск воздействия свинца для участков, у которых нет данных об уровне свинца в крови. Эти прогнозы риска могут стимулировать политику и образовательные программы в области.

Обучение модели

Первым шагом в использовании инструмента Классификация на основе леса и регрессия, регрессия с бустингом является обучение модели для прогнозирования. При обучении строится лес или последовательность деревьев, которая устанавливает отношения между независимыми переменными и параметром Переменной для прогнозирования. Независимо от того, выбираете ли вы опцию Только обучение, Прогнозировать в объекты или Прогнозировать в растр, инструмент начнет работу с построения модели на основании параметра Переменная для прогнозирования и любых сочетаний параметров Независимые переменные обучения, Независимые объекты расстояния обучения и Независимые обучающие растры (доступно с лицензией дополнительного модуля Spatial Analyst).

Независимые переменные обучения

Распространенным источником независимых переменных для обучения модели являются другие поля в наборе обучающих данных, которые содержат параметр Переменная для прогнозирования. Независимо от того, выберете ли вы прогнозирование непрерывных переменных или категориальных, каждое поле в значениях Независимых переменных обучения может быть непрерывным или категориальным. Если обученная модель также используется для построения прогнозов, каждое из предоставленных значений Независимых переменных обучения должно быть доступно и для обучающего набора данных, и для набора данных прогнозирования.

Независимые объекты расстояния обучения

Хотя Классификация на основе леса и регрессия, регрессия с бустингом не является пространственным инструментом машинного обучения, одним из способов усиления влияния пространства в анализе является использование объектов расстояния. Например, если вы моделируете производительность ряда розничных магазинов, переменная, представляющая расстояние до автомагистрали или ближайшего конкурента, может быть критичной для получения точного прогноза. Аналогично, если моделируется качество воздуха, независимая переменная, представляющая расстояние до основного источника загрязнения или до основных дорог, может иметь решающее значение. Объекты расстояния используются для автоматического создания независимых переменных путем вычисления расстояния от предоставленных объектов до значения Входных обучающих объектов. Расстояния будут рассчитываться от каждого объекта значения Входные обучающие объекты до ближайшего объекта входного значения Независимые объекты расстояния обучения. Если входные Независимые объекты расстояния обучения содержат полигоны или линии, атрибуты расстояния вычисляются как расстояние между ближайшими сегментами пары объектов. Но для полигонов и линий расстояния рассчитываются по-разному. Более подробно см. Как инструменты близости вычисляют расстояние.

Независимые обучающие растры

Значения Независимых обучающих растров также можно использовать для обучения модели. Это позволяет использовать в модели изображения, ЦМР, модели плотности населения, измерения окружающей среды и многие другие источники данных. Независимо от того, выберете ли вы прогнозирование непрерывных переменных или категориальных, каждое из значений Независимых обучающих растров может быть непрерывным или категориальным. Параметр Независимые обучающие растры доступен, только если имеется лицензия Spatial Analyst.

Если объекты в значении Входные обучающие объекты являются точками и вы указали значение Независимых обучающих растров, инструмент извлекает независимые переменные в каждом местоположении точки. Для многоканальных растров используется только первый канал. При работе с набором данных мозаики сначала используйте инструмент Создать слой мозаики. Если ваше значение для Входных обучающих объектов содержит полигоны, значение Переменной для прогнозирования является категориальным и вы указали значение для Независимых обучающих растров, параметр Конвертировать полигоны в разрешение растра для обучения доступен и активен. Если эта опция включена, каждый полигон разделяется на точки в центроидах каждой из ячеек растра, попадающих в полигон, а полигон рассматривается как точечный набор данных. Значения растра в местоположении каждой точки затем извлекаются и используются для обучения модели. Модель больше не обучается на самом полигоне, а обучается на значениях растра, извлеченных для каждого центроида ячейки. Для числовых переменных используется билинейный метод пересчета, а для категориальных переменных – ближайший. Размером ячейки конвертированных полигонов по умолчанию будет максимальный размер ячейки входных растров. Но это можно изменить при помощи параметра среды Размер ячейки. Если параметр Конвертировать полигоны в разрешение растра для обучения не отмечен, в модели будет использоваться одно растровое значение для каждого полигона. Каждому полигону назначается среднее значение для непрерывных растров и значение большинства для категориальных растров.

Полигоны конвертированы в разрешение растра (первое изображение) или им присваивается среднее значение (второе изображение).

Прогнозирование с помощью модели

Рекомендуется начать с опции Только обучение, оценить результаты анализа, настроить включенные переменные и дополнительные параметры, как необходимо, и, когда будет найдена хорошая модель, запустить инструмент заново для прогнозирования по объектам или растру. Вы можете использовать этот инструмент для облегчения поиска лучшей модели. Включите отметку для параметра Оптимизировать и выберите опцию параметра Модель оптимизации.

Подробнее об оптимизации параметров

При переходе к прогнозированию рекомендуется изменить параметр Обучающие данные, исключенные из проверки (%) на 0 процентов, чтобы можно было включить все доступные обучающие данные в итоговую модель, используемую для прогнозирования. Прогнозирование можно выполнить следующими способами:

  • Прогнозирование в той же изучаемой области

    • При прогнозировании в объекты в той же изучаемой области, каждый объект прогнозирования должен включать все связанные независимые переменные (поля). Экстент объектов должен перекрываться с экстентом значений Независимые объекты расстояния обучения и Независимые обучающие растры.

    • При прогнозировании в растр в той же изучаемой области, с использованием предоставленного значения Независимые обучающие растры, экстент прогнозируемого растра будет представлять собой перекрывающийся экстент всех независимых растров.

  • Прогнозирование в другой изучаемой области

    • При прогнозировании в объекты в другой изучаемой области, каждый объект прогнозирования должен включать все связанные независимые переменные (поля), независимые объекты расстояния и независимые растры. Эти новые объекты расстояния и растры должны быть доступны для новой изучаемой области и соответствовать значениям Независимые объекты расстояния обучения и Независимые обучающие растры.

    • При прогнозировании в растр в другой изучаемой области необходимо предоставить новые независимые растры прогнозирования и сопоставить их с соответствующим значением Независимых обучающих растров. Экстент полученного значения Выходного растра прогнозирования будет являться экстентом перекрытия всех предоставленных независимых растров прогнозирования.

  • Прогнозирование в другой период времени, путем сопоставления независимых переменных, используемых для обучения, с переменными, спрогнозированными на будущее

    • При прогнозировании в другой период времени в будущем, в объекты или в растр, каждая спроецированная независимая переменная прогноза (поля, объекты расстояния и растры) необходимо сопоставить с соответствующими независимыми переменными обучения.

Инструмент Классификация на основе леса и регрессия, регрессия с бустингом не выполняет экстраполяцию, поэтому соответствующие поля независимых переменных, объекты расстояний и независимые растры в значении Входные объекты прогнозирования не могут иметь диапазон значений или категорий, существенно отличающийся от тех, которые используются для обучения модели.

Прогнозировать в объекты

Модель, обученную с любыми сочетаниями значений параметров Независимые переменные обучения, Независимые объекты расстояния обучения и Независимые обучающие растры, можно использовать для прогнозирования либо в точки, либо в полигоны в той же или разных изучаемых областях. При прогнозировании в объекты необходимо, чтобы каждый объект, получающий прогноз, получал значение для каждого поля, объекта расстояния и растра, используемых для обучения модели.

Если имена полей в значениях Входные обучающие объекты и Входные объекты прогнозирования не совпадают, параметр Сопоставление независимых переменных включен и активен. При сопоставлении независимых переменных поле, заданное значениями параметров Прогнозирование и Обучение, должно быть одного типа. Например, поле двойной точности в значении Входные обучающие объекты должно соответствовать полю двойной точности в значении Входные объекты прогнозирования. Если вы прогнозируете в другой изучаемой области или в другой период времени, вы можете использовать объекты расстояний или растры, которые не использовались для обучения модели. Параметр Сопоставление объектов расстояния и Сопоставление независимых растров будет включен и активен.

Прогнозирование в растры

Использование модели, которая обучена только при помощи Независимых обучающих растров можно чтобы прогнозировать раст в той же самой или другой изучаемой области. Если вы выполняете прогнозирование в другой изучаемой области или в другой период времени, вы можете использовать растры прогнозирования, которые не использовались для обучения модели. Параметр Сопоставление независимых растров будет включен и активен. Выходной растр прогнозирования можно создать с помощью лицензии Spatial Analyst, выбрав опцию Прогнозировать в растр в качестве значения параметра Тип прогнозирования.

Оценить модель

Как только этот инструмент создаст модель, вы сможете ее оценить. Этот инструмент создает сообщения и диаграммы, которые помогут вам понять характеристики модели и оценить ее производительность.

Сообщения геообработки

Вы можете получить доступ к сообщениям, наведя курсор мыши на индикатор выполнения, щелкнув на кнопку всплывающего окна и развернув раздел Сообщения на панели Геообработка. Вы также можете получить доступ к сообщениям предыдущего запуска этого инструмента в истории геообработки. Сообщения включают информацию о характеристиках вашей модели, не вошедших в набор ошибках (Out of Bag (OOB)), важности переменной, диагностике обучения и проверки, а также диагностике диапазона объясняющих переменных.

Таблица характеристик модели

Таблица Характеристик модели содержит информацию о ряде важных аспектов вашей модели леса или модели с бустингом, некоторые из которых выбираются с помощью параметров в раскрывающемся меню Дополнительные опции модели, а некоторые управляются данными. Характеристики модели, управляемые данными, важно понимать при оптимизации производительности модели. Диапазон глубины деревьев сообщает о минимальной и максимальной глубине деревьев в лесу или последовательности деревьев. Максимальная глубина задается параметром Максимальная глубина дерева; однако возможна любая глубина меньше максимальной. Значение Средняя глубина дерева показывает среднюю глубину деревьев в лесу или последовательности деревьев. Если для параметра Максимальная глубина дерева установлено значение 100, а значения Диапазон глубины деревьев и Средняя глубина дерева имеют меньшие значения, установка меньшей максимальной глубины дерева может повысить производительность модели, поскольку это снижает вероятность излишней подгонки модели к обучающим данным. Значение Число произвольно выбранных переменных говорит о количестве произвольно выбранных переменных, используемых для любого заданного дерева в модели. Каждое дерево будет иметь разную комбинацию переменных, но одинаковое количество переменных. По умолчанию это число основано на сочетании количества объектов и количества доступных переменных. Для регрессии оно составляет треть общего числа независимых переменных (включая объекты, растры и объекты расстояния). Для классификации это квадратный корень из общего числа переменных. Если параметр Тип модели задан как На основе леса, таблица Характеристики модели будет включать Число деревьев, Размер листа, Диапазон глубины деревьев, Среднюю глубина дерева, % обучений, доступных для дерева, Число произвольно выбранных переменных и % обучающих данных, исключенных для проверки. Если для параметра Тип модели указано значение Градиентный бустинг, в таблице будут приведены четыре дополнительных значения: Упорядочивание L2 (Lambda), Минимальное сокращение потерь для разбиений (Gamma), Скорость обучения (Eta) и Максимальное количество бинов для разбиений поиска.

Таблица характеристик модели

Таблица ошибок модели, не вошедших в набор

Если для параметра Тип модели указано значение На основе леса, сообщения геообработки будут включать таблицу ошибок модели, не вошедших в набор. Ошибки OOB помогают оценить точность модели. Как MSE (среднеквадратическая ошибка), так и % описанных переменных основаны на способности модели точно прогнозировать значение Переменной для прогнозирования на основе наблюдаемых значений в обучающем наборе данных. OOB – это ошибка прогнозирования, вычисленная с использованием данных, которые являются частью обучающего набора данных, но не рассматриваются поднабором деревьев, составляющих лес. Если вы хотите обучить модель на 100% ваших данных, вы будете полагаться на OOB для оценки точности модели. Эти ошибки выдаются для половины числа деревьев и общего числа используемых деревьев, чтобы помочь оценить, улучшит ли производительность модели увеличение числа деревьев. Одинаковое значение ошибки и процента описанных переменных для обоих чисел деревьев указывает на возможность использования меньшего числа деревьев для минимизации влияния на производительность модели. Однако рекомендуется использовать столько деревьев, сколько позволяет машина. Большее число деревьев в лесу приведет к стабильности в результатах и модели, которая менее подвержена шуму в данных и схеме выборки.

Ошибки OOB для непрерывной переменной

Если Переменная для прогнозирования является категориальной (это определяется значением параметра Рассматривать переменную как Категориальную), то ошибки OOB вычисляются на основе процента некорректных классификаций для каждой категории среди деревьев, которые не видят поднабор деревьев в лесу. Процент некорректных классификаций OOB для каждой категории печатается в сообщениях геообработки. Среднеквадратическая ошибка классификаций также печатается и может быть интерпретирована как общая доля некорректных классификаций OOB среди всех категорий. Если значение Число деревьев невелико, возможно, одна или несколько категорий никогда не будут использоваться для обучения данных. В этом случае ошибка OOB будет 100 процентов.

Ошибки OOB для категориальной переменной

Таблица Наибольшая значимость переменных

Еще одним важным фактором, влияющим на производительность модели, являются используемые независимые переменные. В таблице Наибольшая значимость переменных перечислены независимые переменные с 20 наивысшими оценками важности. Значимость переменных позволяет вам понять, какие переменные влияют на результаты модели. Лучше всего сначала использовать все данные для обучения и изучить важность каждой независимой переменной. Затем вы можете использовать значимость переменных для создания более простой (экономной) модели, включающей только те независимые переменные, которые признаны значимыми.

Таблица высокой значимости переменных
Значения в столбце Важность представляют собой сумму коэффициентов Гини из всех деревьев для каждой перечисленной переменной. Значения в столбце % представляют собой процент от общей суммы коэффициентов Гини.

Если значением параметра Тип модели является На основе леса, значимость рассчитывается при помощи коэффициента Джини, который можно рассматривать как количество раз, когда переменная отвечает за разбиение, и влияние этого разбиения, деленное на количество деревьев. Каждое разбиение представляет собой отдельное решение в дереве решений.

Если для параметра Тип модели установлено значение Градиентный бустинг, значимость переменной рассчитывается тремя различными способами: Важность (Последовательность), Важность (Вес) и Важность (Покрытие). Важность (Последовательность) представляет собой относительный вклад объясняющей переменной в модель. Важность (Последовательность) рассчитывается путем суммирования прироста всех разделений, в которых используется независимая переменная. Важность (Вес) представляет собой количество раз, когда независимая переменная используется во всех разбиениях. Важность (Покрытие) представляет собой количество наблюдений во всех деревьях, определяемых независимой переменной. Важность (Покрытие) не указывается в сообщениях геообработки; однако, если задан параметр Выходная таблица значимости переменных, Важность (Покрытие) будет полем в таблице и может отображаться в диаграмме Сводка значимости переменных. Доступ к этим двум выходным данным можно получить из панели Содержание. Если значение Число запусков для проверки больше 1, инструмент рассчитает набор значимости переменных для каждой итерации. В сообщениях геообработки будет указан набор значимости переменных итерации с R-квадратом или точностью, наиболее близкой к медианному R-квадрату или точности. Чтобы просмотреть все наборы значимости переменных, укажите значение параметра Выходная таблица значимости переменных.

Таблица Наибольшая значимость переменных при использовании типа модели с градиентным бустингом.
Отображается значимость переменной, когда значением параметра Тип модели является опция Градиентный бустинг.

Проверка и диагностика обучающих данных

Еще один важный способ оценить производительность модели — использовать ее для прогнозирования значений объектов, а затем сравнить эти прогнозируемые значения с наблюдаемыми значениями и вычислить диагностику. Это выполняется на обучающих данных и данных тестирования (проверки). По умолчанию этот инструмент исключит 10 процентов объектов из значения Входные обучающие объекты для тестирования. Однако этим можно управлять с помощью параметра Обучающие данные, исключенные из проверки (%). Одним из недостатков OOB является то, что он использует поднабор леса (деревья, не использующие определенный объект из обучающего набора данных), а не лес в целом. Путем исключения некоторых данных из проверки, метрики ошибок могут оцениваться для всей модели. Сообщения геообработки сообщают о диагностике в таблице диагностик проверочных данных и таблице диагностик обучающих данных. Эти диагностики могут помочь вам понять, насколько хорошо модель соответствует данным.

При прогнозировании непрерывной переменной наблюдаемое значение для каждого обучающего объекта и объекта тестирования сравнивается с прогнозами для этих объектов на основе обученной модели и связанные с ней значения R-квадрата, Средней абсолютной ошибки (MAE), Средней абсолютной ошибки в процентах ( MAPE), Симметричной средней абсолютной ошибки в процентах (SMAPE), Среднеквадратической ошибки (RMSE), p-значения и Стандартной ошибки сообщаются в сообщениях геообработки. Эта диагностика будет меняться каждый раз при прохождении процесса обучения, так как выборка обучающего и тестового набора данных является произвольной. Для создания модели, не меняющейся при каждом запуске, можно задать начальное значение в параметре среды Генератор случайных чисел.

Таблица диагностики обучающих данных и таблица диагностики данных проверки при прогнозировании непрерывной переменной

При прогнозировании категориальной переменной Чувствительность, Точность, F1-оценка и MCC сообщаются в сообщениях геообработки. Эти диагностики рассчитываются с использованием таблицы, заданной параметром Выходная таблица эффективности классификации (Матрица несоответствий), которая отслеживает сколько раз интересующая категория классифицируется правильно и неправильно, а также сколько раз другие категории ошибочно классифицируются как интересующая категория. Чувствительность каждой категории показывается как процент числа случаев, когда объекты этой категории наблюдений точно прогнозировались для этой категории. Например, если вы прогнозируете Land и Water, и Land имеет чувствительность, равную 1.00, то каждый объект, который должен был быть отмечен Land, был правильно спрогнозирован. Однако если объект Water был не точно помечен как Land, это не отразится в числе чувствительности для Land. Это будет отражено в показателе чувствительности Water, поскольку один из водных объектов не был правильно классифицирован.

Диагностика точности учитывает и то, насколько хорошо спрогнозированы объекты в определенной категории, и то, как часто другие категории были ошибочно классифицированы для категории интереса. Она дает оценку того, насколько часто категория определяется правильно среди общего числа наблюдений для этой категории. При классификации переменной только с двумя классами, мера точности одинакова для каждого класса, а чувствительность различается. При классификации переменной с большим, чем два, количеством классов, для каждого из классов и точность, и чувствительность различны.

Таблица диагностики обучающих данных и таблица диагностики данных проверки при прогнозировании категориальной переменной

ДиагностикаОписание

R-квадрат

R-квадрат показывает, насколько модель соответствует действительности. Доля дисперсии зависимой переменной, которая объясняется моделью регрессии. Значение варьируется от 0,0 до 1,0, более высокое значение означает лучшую модель. Увеличение числа независимых переменных всегда приводит к увеличению R2. Такое увеличение может отражать не улучшение соответствия модели, а скорее то, как рассчитывается R2.

Средняя абсолютная ошибка (MAE)

MAE - это среднее значение абсолютной разницы между фактическими значениями и прогнозируемыми значениями параметра Переменная интереса. Значение 0 означает, что модель правильно предсказала каждое наблюдаемое значение. MAE выражается в единицах переменной интереса, поэтому ее нельзя сравнивать между разными моделями.

Средняя абсолютная ошибка в процентах (MAPE)

MAPE похожа на MAE, он представляет собой разницу между фактическими значениями и прогнозируемыми значениями. MAE представляет собой разницу в исходных единицах измерения, MAPE представляет разницу в процентах. MAPE — это относительная ошибка, поэтому она является лучшей диагностикой при сравнении разных моделей. Из-за способа вычисления MAPE ее нельзя использовать, если какое-либо из фактических значений равно 0. Если фактические значения близки к 0, MAPE будет стремиться к бесконечности. Еще одним ограничением MAPE является ее асимметричность. Например, если есть два случая, когда разница между фактическими значениями и прогнозируемыми значениями одинакова, случай, когда фактическое значение меньше, будет вносить больший вклад в MAPE.

Симметричная средняя абсолютная ошибка в процентах (SMAPE)

Как и MAPE, SMAPE представляет разницу между фактическими значениями и прогнозируемыми значениями в процентах, но SMAPE решает проблему асимметричности в своих расчетах.

Среднеквадратическая ошибка (RMSE)

RMSE — это квадратный корень из среднеквадратической ошибки (MSE), который представляет собой квадратный корень из усредненной квадратичной разницы между фактическими значениями и прогнозируемыми значениями. Как и MAE, RMSE представляет собой среднюю ошибку прогноза модели в единицах интересующей переменной; однако RMSE более чувствителен к большим ошибкам. Чтобы избежать модели, которая имеет большую разницу между фактическими и прогнозируемыми значениями, вы можете использовать RMSE для оценки модели.

p-значение

Значение P - это статистическое измерение, используемое для проверки гипотезы о том, что наблюдения не коррелируют с прогнозами. Когда значение p меньше 0,05, корреляция между наблюдениями и прогнозами значительна.

Стандартная ошибка

Это стандартная ошибка уклона регрессии. Он показывает, насколько в среднем наблюдаемые значения отклоняются от прогнозируемых значений.

F1-оценка

Оценка F1 - измерение производительности модели. Это значение между 0 и 1, вычисляемое для каждого класса. Чем выше оценка F1, тем лучше модель. Оценка F1 всех классов (макро F1-оценка) представляет собой среднюю оценку F1 отдельных классов. Если количество объектов в каждом классе неравномерно, то F1-оценка является лучшим показателем для оценки модели, чем точность.

Оценка F1 максимизирует параметры F1-Точность и Полнота. Точность рассчитывается путем деления количества раз, когда категория интереса была правильно классифицирована, на общее количество раз, когда категория интереса была предсказана. Полнота вычисляется путем деления количества раз, когда интересующая категория была правильно классифицирована, на количество объектов этой категории. F1-оценка вычисляется следующим образом:

Уравнение оценки F1

В таблице ниже класс A был корректно классифицирован 25 раз и прогнозирован 30 раз (25 + 4 + 1), поэтому точность класса A составляет 25/30. Есть 25 объектов класса A (25 + 0 + 0), поэтому точность класса A составляет 25/25. Оценка F1 класса A составляет 0.909.

КлассA (Прогнозировано)B (Прогнозировано)C (Прогнозировано)Все

A (Фактически)

25

0

0

25

B (Фактически)

4

19

3

26

C (Фактически)

1

2

21

24

Все

30

21

24

75

MCC

Подобно F1-оценке, MCC суммирует матрицу неточностей, используя значение от -1 до 1. Значение -1 означает, что модель неправильно классифицировала каждый объект, а значение 1 указывает, что модель правильно классифицировала каждый объект. В отличие от F1-оценки, MCC также учитывает сколько раз была предсказана категория интереса, поэтому MCC будет высоким только в том случае, если модель хорошо работает и с категорией интереса, и категорией не интересующих данных.

Чувствительность

Чувствительность вычисления процента случаев, когда объекты наблюдаемой категории были правильно предсказаны для этой категории. Она вычисляется путем деления количества раз, когда интересующий класс был правильно классифицирован, на количество объектов этого класса.

В таблице ниже класс A был корректно спрогнозирован 25 раз, а также он содержит 25 объектов (25 + 0 + 0), поэтому чувствительность класса A составляет 25/25.

КлассA (Прогнозировано)B (Прогнозировано)C (Прогнозировано)Все

A (Фактически)

25

0

0

25

B (Фактически)

4

19

3

26

C (Фактически)

1

2

21

24

Все

30

21

24

75

Точность

Точность - сколько раз категория была идентифицирована правильно среди общего количества наблюдений для этой категории. Точность учитывает, насколько хорошо спрогнозированы объекты в определенной категории, и то, как часто другие категории были корректно классифицированы как не являющиеся категориями интереса. Уровень точности рассчитывается следующим образом:

Уравнение точности

где TP означает True Positive, TN означает True Negative, FP означает False Positive и FN означает False Negative.

В таблице ниже для класса A, TP равно 25, TN равно 45 (19 + 3 + 2 + 21), FP равно 5 (4 + 1) и FN равно 0 (0 + 0). Точность класса A составляет 70/(25+45+5+0) = 0.93. Точность всех классов составляет (25 + 19 +21)/75 = 0.866.

КлассA (Прогнозировано)B (Прогнозировано)C (Прогнозировано)Все

A (Фактически)

25

0

0

25

B (Фактически)

4

19

3

26

C (Фактически)

1

2

21

24

Все

30

21

24

75

Метрики, приведенные в сообщениях геообработки, помогают оценить производительность модели.

Таблица Диагностики диапазоне независимых переменных

Диагностика независимых диапазонов поможет оценить, действительно ли те значения, которые использовались для обучения, проверки и прогноза, являются достаточно эффективными для построения корректной модели и можно ли доверять другим диагностикам модели. Данные, используемые для обучения модели, оказывают большое влияние на качество итоговой классификации и прогноза. В идеале обучающие данные должны представлять репрезентативную выборку тех данных, которые вы моделируете. По умолчанию 10 процентов объектов из значения Входные обучающие объекты случайным образом исключаются из проверки. В результате получается набор обучающих данных и набор проверочных данных. Таблица Диагностики диапазона независимых переменных показывает минимальное и максимальное значения для этих наборов данных и, в случае прогноза в объекты или растры, для данных, которые использовались в прогнозе.

Таблица Диагностики диапазоне независимых переменных

В связи с тем, что поднаборы определяются случайным образом, значения переменных в обучающем поднаборе могут быть нерепрезентативными по отношению ко всем значениям во Входных обучающих объектах. Для каждой непрерывной независимой переменной столбец Обучение в группе Доля указывает процент наложения диапазона значений обучающего подмножества и диапазона значений всех объектов во Входных обучающих объектах. Например, если переменная A из Входных обучающих объектов имела значения от 1 до 100, а обучающее подмножество имело значения от 50 до 100, значение переменной A в столбце Обучение в группе Доля будет равно 0,50 или 50 процентов. Для переменной A 50 процентов диапазона значений Входных обучающих объектов включено в обучающее подмножество. Если обучающий поднабор не закрывает значительный диапазон значений, найденных во Входных обучающих объектах, для каждой независимой переменной модели, то имеет смысл использовать другие варианты диагностики модели. Аналогичный расчет выполняется для создания столбца Проверка в группе таблицы Доля. Важно, чтобы диапазон значений, используемых для проверки модели, охватывал как можно большую часть диапазона значений, используемых для обучения модели. Например, если переменная B из обучающего подмножества имела значения от 1 до 100, а подмножество проверки имело значения от 1 до 10, столбец Проверка в группе Доля для переменной B будет равен 0,10 или 10 процентов. Этот маленький диапазон может покрывать только все высокие или все низкие значения и, таким образом, будет влиять на другие диагностики. Если в проверочном поднаборе содержатся только низкие значения, то другие диагностики модели, например, среднеквадратическая ошибка и % описанных переменных будут по факту говорить о том, как хорошо модель предсказывает низкие значения, а не весь диапазон значений из входных обучающих объектов. Кроме того, значение больше 1 указывает, что диапазон значений, используемый для проверки, больше, чем диапазон значений в обучающем подмножестве. Таким образом, диагностика проверки будет плохой, поскольку алгоритмы произвольного леса и экстремального градиентного бустинга не могут выполнять экстраполяцию.

Столбец Прогноз в группе Доля таблицы Диагностика диапазона независимых переменных особенно важен. Модели на основе леса и модели с градиентным бустингом не выполняют экстраполяцию; они могут классифицировать или прогнозировать значение только в пределах диапазона, в котором была обучена модель. Столбец Прогноз в группе Доля представляет собой процент перекрытия диапазона значений обучающих данных и диапазона значений прогнозируемых данных. Значение 1 говорит о том, что диапазон значений в обучающем поднаборе и диапазон значений, который используется для прогноза, совпадают. Значение больше 1 указывает, что диапазон значений, используемых для прогнозирования, больше, чем диапазон значений в обучающем подмножестве. Это также указывает на то, что вы пытаетесь спрогнозировать значение, на котором модель не обучалась.

Все три диагностики корректны, только если диапазоны поднаборов совпадают. Например, если во входном поднаборе для переменной C содержатся значения от 1 до 100, а в обучающем поднаборе от 90 до 200, они будут перекрываться на 10%, но их диапазоны не совпадают. В этом случае диагностика помечается звездочкой, что говорит о несовпадающих диапазонах. Проверьте минимальное и максимальное значения, чтобы понять, насколько сильно в какую сторону они не совпадают. Столбец Прогноз в группе Доля помечен знаком плюс (+), если модель пытается спрогнозировать значение за пределами диапазона обучающих данных.

Нет однозначных правил по допустимым значениям для таблицы Диагностики диапазона независимых переменных. Столбец Обучение и Проверка в группе Доля должен быть как можно выше, с учетом ограничений ваших обучающих данных. Если в столбце Проверка в группе Доля указано низкое значение, рассмотрите возможность увеличения значения параметра Обучающие данные, исключенные из проверки(%). Столбец Прогноз в группе Доля должен быть как можно ближе к 1. Если в столбце Проверка в группе Доля указано низкое значение, рассмотрите возможность уменьшения значения параметра Обучающие данные, исключенные из проверки. Также можно запустить модель несколько раз и выбрать тот запуск балансирует значения диагностик диапазонов. В сообщениях будет указано значение случайных местоположений при каждом запуске.

Дополнительные выходные данные

Инструмент Классификация на основе леса и регрессия, регрессия с бустингом также создает различные таблицы, диаграммы и выходные данные.

Выходные обученные объекты

Значение параметра Выходные обученные объекты будет содержать значение Входные обучающие объекты, включая набор обучающих данных и набор тестовых (проверочных) данных, значение параметра Независимые переменные обучения, используемое в модели, прогнозируемые значения, вероятность прогнозируемого значения при классификации и вероятность других возможных значений при классификации, когда отмечен параметр Включать все вероятности прогнозирования. Если прогнозируемая переменная является непрерывной, выходные данные будут включать поля Residual и Standardized Residual. Если прогнозируемая переменная является категориальной, выходные данные будут включать поле Correctly Classified. Если модель правильно прогнозирует известную категорию, объект помечается как Классифицирован правильно; иначе - как Неверная классификация. Для регрессионных моделей обученные объекты обозначаются по стандартизированным невязкам прогнозов. Для классификации, символы обученных объектов основаны на правильности классификации объектов.

Поля выходных обученных объектов включают извлеченные значения растров для каждой переменной Независимые обучающие растры и вычисленные значения расстояния для каждой переменной Независимые объекты расстояния обучения. Эти новые поля можно использовать для повторного запуска обучающей части анализа без необходимости каждый раз извлекать значения растра и вычислять значения расстояния. Выходные обученные объекты также будут содержать прогнозы для всех объектов, включая те, которые используются для обучения, и те, которые исключены для тестирования. Это может быть полезно при оценке эффективности модели. Поле trained_features в Выходных обученных объектах указывает, использовался ли объект для обучения.

Выходные обученные объекты также будут включать следующие диаграммы, если прогнозируемая переменная является категориальной:

  • Эффективность прогноза — стековая линейная диаграмма. Каждый столбец представляет прогнозируемую категорию, а цвет подстолбцов отражает фактическую категорию. Размер подстолбцов отражает долю объектов данного фактического класса в пределах прогнозируемого класса. Например, столбец справа показывает, что из объектов, которые прогнозируются как Species 2, 5,66% фактически имели категорию Species 1.

    Диаграмма эффективности прогноза

  • Матрица неточностей — матричная диаграмма интенсивности. Ось X представляет прогнозируемую категорию объектов во Входных обучающих объектах, а ось Y представляет их фактическую категорию. Диагональные ячейки отображают сколько раз модель правильно спрогнозировала категорию. Более высокие значения в диагональных ячейках указывают на то, что модель работает хорошо. Эта диаграмма создается только в том случае, если отмечен параметр Рассматривать переменную как Категориальную.

    Диаграмма матрицы неточностей

Обе диаграммы включают обучающие данные и данные тестирования. Чтобы оценить, насколько хорошо модель соответствует обучающим данным, выберите объекты, у которых поле trained_features равно 1, и заново создайте эту диаграмму. Чтобы оценить, насколько хорошо модель работает на данных тестирования, выберите объекты, у которых поле trained_features равно 0, и заново создайте эту диаграмму.

Выходная таблица значимости переменных

Выходная таблица значимости переменных содержит независимые переменные, используемые в модели, и их значимость.

Выходная таблица значимости переменных
Выходная таблица значимости переменных при использовании типа модели на основе леса.

Выходная таблица значимости переменных
Выходная таблица значимости переменных при использовании типа модели с градиентным бустингом.

Если вы укажете значение параметр Выходная таблица значимости переменных, а значение Число запусков для проверки равно 1, инструмент также выведет диаграмму Сводка значимости переменных. Если значением параметра Тип модели является опция На основе леса, на диаграмме по оси Y отображаются переменные, используемые в модели, а по оси X их значимость на основе коэффициента Джини. Если значением параметра Тип модели является опция Градиентный бустинг, значимость, показанная по оси X, основана на значениях усиления. Независимые переменные отображаются в порядке их значимости от наиболее значимого (сверху) до наименее значимого (снизу).

Диаграмма Сводка значимости переменных

Если вы укажете параметр Выходная таблица значимости переменных, а значение Число запусков для проверки больше 1, значение Выходная таблица значимости переменных будет включать в себя значимость каждой независимой переменной для каждого запуска и будет отмечать итерацию с наибольшей точностью или R2. Набор значимости переменных, печатаемый в сообщениях геообработки, — это не набор с лучшим R-квадратом или точностью, а набор с R2 или точностью, наиболее близкой к медиане R2 или точности.

Выходная таблица значимости переменных при использовании более одного запуска для проверки.

Кроме того, если значение Число запусков для проверки больше 1, инструмент выведет диаграмму Распределение значимости переменных. Используйте эту ящичковую диаграмму, чтобы оценить изменение значимости переменной между различными запусками.

Диаграмма распределения значимости переменных

На диаграмме показано распределение значений значимости переменных по всем запускам проверки. Распределение значимости переменной является показателем устойчивости обученной модели. Если значимость переменной сильно меняется в ходе проверок, это может указывать на нестабильность модели. Нестабильную модель часто можно улучшить, увеличив значение параметра Число деревьев, чтобы отразить более сложные взаимосвязи в данных.

Выходная таблица эффективности классификации (Матрица несоответствий)

Если прогнозируемая переменная является категориальной, будет доступен параметр Выходная таблица эффективности классификации (Матрица несоответствий). Эта таблица включает в себя все объекты, указанные во Входных обучающих данных, исключенных из проверки. Каждая строка представляет фактическую категорию, а каждый столбец представляет прогнозируемую категорию. В таблице показано количество истинно положительных результатов (TP), истинно отрицательных результатов (TN), ложноположительных результатов (FP) и ложноотрицательных результатов (FN) в каждой категории, что позволяет рассчитать несколько классификационных диагностик, таких как точность и чувствительность.

Выходные прогнозы

Если вы используете этот инструмент для прогнозирования в объекты, указанное значение для Выходных объектов прогнозирования будет классом объектов с прогнозируемым значением модели для каждого объекта. Если вы выполняете прогнозирование в растр, указанное значение Выходной поверхности прогноза будет выходным растром с результатами прогнозирования.

Вероятности прогнозируемых значений указываются, когда прогнозируемое значение является категориальным. Если отмечен парамер Включать все вероятности прогнозирования, то также включаются вероятности всех других возможных значений. Вероятности вычисляются по-разному в зависимости от значения параметра Тип модели:

  • На основе леса — вероятности рассчитываются с использованием процента деревьев, голосующих за каждую категорию.
  • С градиентным бустингом — вероятности рассчитываются для каждой категории индивидуально путем подбора логистической функции и стандартизации вероятностей, чтобы гарантировать, что они в сумме равны единице.

Вы можете использовать вероятности для измерения неопределенности в прогнозе. Значения, близкие к 1, связаны с более высокой достоверностью прогноза. Вы также можете проанализировать вероятности для определенного класса по всей исследуемой области, отметив параметр Включить все вероятности прогнозирования и оценив вероятность наличия определенного класса в интересующих местоположениях.

Дополнительные опции модели

Одно из преимуществ метода на основе леса заключается в выявлении общих черт слабых предикторов (или деревьев). Если отношения постоянно определяются сингулярными деревьями, это означает, что в данных имеются сильные отношения, которые можно выявить, даже если модель не является комплексной. Еще одним преимуществом моделей на основе леса и моделей с градиентным бустингом является то, что они объединяют слабые предикторы (независимые деревья или последовательность деревьев) для создания сильного предиктора. Настройка параметров модели может помочь в создании большого количества слабых предикторов, что приведет к созданию сильной модели. Слабых предикторов можно создать при использовании меньшего количества информации для каждого дерева. Этого можно добиться, используя небольшое подмножество объектов на дерево, небольшое количество переменных на дерево, небольшую глубину дерева или любую их комбинацию. Число деревьев управляет тем, сколько таких слабых предикторов создано, и чем слабее предикторы (деревья), тем больше деревьев необходимо создать для сильной модели.

В инструменте доступны следующие дополнительные опции обучения и проверки:

  • Значение параметра Число деревьев по умолчанию равно 100. Увеличение числа деревьев в модели леса или модели с бустингом приведет к более точному прогнозированию модели, но модель будет дольше вычисляться. Если значение параметра Число деревьев равно 0, модель не будет создана, а значение Выходные обученные объекты будет содержать только объекты из значения Входные обучающие объекты и предоставленного значения Независимые переменные обучения. 
  • Минимальный размер листа — это минимальное количество наблюдений, необходимое для сохранения листа (конечного узла дерева). По умолчанию установлено значение 5 для регрессии и 1 для классификации. Для очень больших наборов данных увеличение значения Минимальный размер листа уменьшит время работы инструмента. Если значение Минимальный размер листа невелико (близко к минимальному), ваша модель будет склонна к появлению шума в данных. Для более стабильной модели поэкспериментируйте с увеличением значения Минимальный размер листа.
  • Максимальная глубина дерева – максимальное число разбиений, которые будут сделаны вниз по дереву. При использовании большей максимальной глубины будет создано больше разбиений, что может увеличить вероятность чрезмерной подгонки модели. По умолчанию модель на основе леса управляется данными и зависит от числа созданных деревьев и количества включенных переменных. По умолчанию для модели с градиентым бустингом установлено значение 6. При использовании модели с градиентым бустингом рекомендуется использовать меньшее значение Максимальной глубины дерева. Обратите внимание, что узел невозможно разбить после того, как он достиг Минимального размера листа. Если заданы значения параметров Минимальный размер листа и Максимальная глубина дерева, Минимальный размер листа будет доминировать в определении глубины деревьев.
  • Параметр Данные, доступные для одного дерева (%) определяет процент Входных обучающих объектов, которые будут использоваться для каждого дерева решений. По умолчанию это 100 процентов от данных. Каждое дерево решений в модели создается с использованием произвольного поднабора (примерно две трети) доступных обучающих данных. Понижение процента входных данных для каждого дерева решений увеличит скорость инструмента при работе с очень большими наборами данных.
  • Параметр Число произвольно выбранных переменных задает число независимых переменных, используемых для создания каждого дерева решений. Каждое из деревьев решений в модели создается с использованием случайного поднабора заданных независимых переменных. Увеличение числа переменных, используемых для создания каждого дерева решений, увеличит вероятность чрезмерной подгонки модели, особенно, если имеется хотя бы одна доминирующая переменная. Обычно используется (и по умолчанию используется инструментом) квадратный корень от общего числа независимых переменных (поля, объекты расстояния и растры), если значение Переменной для прогнозирования является числовым полем, или общее число независимых переменных (поля, объекты расстояния и растры) деленное на 3, если Переменная для прогнозирования является категориальной.
  • Если значением параметра Тип модели является параметр Градиентный бустинг, в категории параметра Дополнительные опции модели доступны следующие параметры:
    • Упорядочивание L2 (Lambda) — слагаемое регуляризации, которое снижает чувствительность прогнозов для отдельных объектов. Увеличение этого значения сделает модель более консервативной и предотвратит переобучение. Значение по умолчанию равно 1. Если значение равно 0, модель становится традиционным градиентным бустингом.
    • Минимальное сокращение потерь для разбиений (Gamma) — порог минимального снижения потерь, необходимого для разделения деревьев. Если кандидат на разбиение имеет более высокое сокращение потерь, чем это значение, происходит разбиение. Большее значение Минимального сокращения потерь для разбиения (гамма) предотвращает слишком глубокое разрастание деревьев и переподгонку модели под обучающие данные. По умолчанию - 0.
    • Скорость обучения (Eta) — значение, которое уменьшает вклад каждого дерева в окончательный прогноз. Меньшее значение скорости обучения предотвращает переобучение модели, но может привести к увеличению времени вычислений.По умолчанию — 0,3. Допускается любое число больше 0, но не более 1. 
    • Максимальное количество бинов для разбиений поиска – Определяет количество бинов, в которые помещаются данные для поиска точек разбиения. По умолчанию установлено значение 0. Это соответствует использованию поглощающего алгоритма, который будет создавать варианты разбиения во всех точках данных. Поглощающий алгоритм может потребовать больше времени для вычисления. Меньшее значение Максимального количества бинов для разбиений поиска означает, что данные будут разбиты на меньшее количество сегментов, что приведет к меньшему количеству тестируемых разбиений. Более низкие значения могут привести к ускорению вычислений за счет производительности прогнозирования. Более высокое значение означает, что данные будут разбиты на большее количество бинов, что приводит к тестированию дополнительных разбиений. Более высокие значения могут улучшить модель за счет времени вычисления. Значение 1 не допускается.
  • Параметр Обучающие данные, исключенные из проверки (%) указывает процент (от 10 до 50) от Входных обучающих объектов, который сохраняется как тестовый набор данных для проверки. Обучение модели будет происходить без этого произвольного поднабора данных, и значения наблюдений для этих объектов будут сравниваться с прогнозируемыми значениями для проверки производительности модели. Значение по умолчанию – 10 процентов.
  • Параметр Вычислить неопределенность доступен только в том случае, если значением параметра Тип модели является опция На основе леса, а прогнозируемая переменная не является категориальной. Если отмечен параметр Вычислить неопределенность, инструмент вычислит интервал прогнозирования 90 процентов вокруг каждого предсказанного значения. Если значением Типа прогнозирования является опция Только обучение или Прогнозирование в объекты, к Выходным объектам обучения или Выходным прогнозируемым объектам добавляются два дополнительных поля. Эти поля представляют верхнюю и нижнюю границы интервала прогнозирования. Для каждого нового наблюдения вы можете прогнозировать с 90-процентной вероятностью, что значение нового наблюдения попадет в этот интервал, исходя из тех же самых независимых переменных. При прогнозировании в растр два растра, отражающие верхнюю и нижнюю границу интервала прогнозирования, добавляются в панели Содержание. Интервал прогнозирования вычисляется с использованием лесов квантильной регрессии. В лесу квантильной регрессии прогнозируемые значения для каждого листа леса сохраняются и используются для построения распределения прогнозируемых значений, а не просто для сохранения окончательного прогноза из леса.

Оптимизация параметров

Модели на основе леса и модели с градиентным бустингом имеют несколько гиперпараметров, которые можно использовать для настройки модели. Однако может быть сложно выбрать лучшее значение для каждого гиперпараметра данного набора данных. Инструмент Классификация на основе леса и регрессия, регрессия с бустингом предоставляет несколько методов оптимизации, которые проверяют различные комбинации значений гиперпараметров, чтобы найти набор гиперпараметров с наилучшей производительностью модели. Если вы не уверены, какое значение использовать для гиперпараметра, воспользуйтесь методом оптимизации. Существует три метода оптимизации: Случайный поиск (Быстрый), Случайный поиск (Надежный) и Поиск по сетке.

Чтобы использовать оптимизацию параметров, установите флажок Оптимизировать параметр и выберите опцию Модель оптимизации. По умолчанию значением параметра Модель оптимизации является опция Случайный поиск (Быстрый). Инструмент также предоставляет несколько вариантов целевого объекта, которые используются для оценки производительности модели с выбранным набором значений гиперпараметров. Если прогнозируемая переменная не является категориальной, то параметр Оптимизировать целевые данные (Цель) включает две опции: R-квадрат и RMSE. По умолчанию используется R-квадрат. Если прогнозируемая переменная является категориальной, доступны следующие опции: Точность, Коэффициент корреляции Мэтьюза (MCC) и F1-оценка. По умолчанию используется Точность. Параметр Настройка параметров модели задает верхнюю границу, нижнюю границу и интервал, который определяет пространство поиска гиперпараметра. Если значением параметра Модель оптимизации является Поиск по сетке, инструмент будет искать все точки поиска в пространстве поиска и выбирать набор значений гиперпараметров с наилучшей производительностью модели. Если значением параметра Модель оптимизации является Случайный поиск (Быстрый) или Случайный поиск (Надежный), параметр Числа запусков для набора параметров включен и активен. Он будет использоваться для определения числа точек поиска в пространстве поиска, в котором будет осуществляться поиск. Для каждой точки поиска метод Случайного поиска (Быстрый) строит модель с использованием 10 различных случайных начальных значений, выбирает набор значений гиперпараметров с медианной производительностью модели, а затем переходит к следующей точке поиска. Инструмент повторяет этот процесс, пока не выполнит поиск всех кандидатов точек поиска. Наконец, инструмент выбирает набор значений гиперпараметров с наилучшей производительностью модели.

Схема опций модели оптимизации

Если вы оптимизируете гиперпараметры, доступен параметр Выходная таблица настройки параметров. В Выходной таблице настроек параметров перечислены все найденные наборы значений гиперпараметров, а также представлены следующие диаграммы:

  • История оптимизации (Все проходы) – Диаграмма, визуализирующая историю оптимизации.

    Диаграмма истории оптимизации

  • Производительность параметров модели — диаграмма, которая помогает оценить вклад каждого гиперпараметра в производительность модели.

    Диаграмма производительности параметров модели
    В этом примере более высокие значения лямбды и гаммы приводят к более высокой точности модели, и вместе с тем более низкие скорости обучения приводят к более высокой точности модели.

Рекомендации

Ниже приведены рекомендации по использованию этого инструмента:

  • Инструмент может работать плохо при попытке прогнозирования с помощью независимых переменных, которые находятся за пределами диапазона независимых переменных, используемых для обучения модели. Модели на основе леса и с бустингом не выполняют экстраполяцию, они могут только классифицировать или прогнозировать диапазон значений, на которых обучалась модель. Если для прогнозирования вы используете независимых переменные с гораздо более высоким или меньшим диапазоном, чем в исходном наборе обучающих данных, модель будет оценивать значение примерно как самое высокое или самое низкое значение в исходном наборе данных.
  • Для увеличения производительности при извлечении значений из Независимых обучающих растров и вычисления расстояний с использованием Независимых объектов расстояния обучения, рассмотрите возможность обучения модели на 100% данных без исключения данных для проверки и выберите создание Выходных обученных объектов. В следующий раз, когда вы запустите инструмент, используйте значение Выходные обученные объекты в качестве значения параметра Входные обучающие объекты и используйте все извлеченные значения и расстояния в качестве значения для Независимых переменных обучения вместо того, чтобы извлекать их каждый раз при обучении модели. Если вы решите сделать это, установите значения параметров Число деревьев, Максимальная глубина дерева и Число произвольно выбранных переменных равными 1, чтобы создать очень маленькое дерево-заполнитель для быстрой подготовки данных для анализа.
  • По соображениям производительности параметр Независимые объекты расстояния обучения недоступен, если для параметра Тип прогнозирования установлено значение Прогнозировать в растр. Чтобы включить расстояния до объектов в качестве независимых переменных, вычислите растры расстояний с помощью инструмента Накопление расстояния и включите растры расстояний в параметре Независимые обучающие растры.
  • Хотя по умолчанию значение параметра Число деревьев равно 100, это число не управляется данными. Число необходимых деревьев увеличивается с увеличением сложности отношений между независимыми переменными, увеличением размера набора данных и прогнозируемой переменной, а также с изменением этих переменных.
  • Увеличьте число деревьев в лесу и отслеживайте ошибки OOB или классификации. Рекомендуется увеличить Число деревьев не менее, чем 3 раза, хотя бы до 500 деревьев, чтобы наилучшим образом оценить производительность модели.
  • Время выполнения инструмента очень чувствительно к количеству переменных, используемых для каждого дерева. Использование небольшого количества переменных на дерево снижает вероятность переобучения. Однако, если вы используете небольшое количество переменных в каждом дереве, обязательно используйте много деревьев, чтобы улучшить производительность модели.

    При использовании типа модели с градиентым бустингом на время работы инструмента сильно влияет значение параметра Максимальное количество бинов для разбиений поиска. Значение по умолчанию для параметра Число бинов равно 0, что соответствует использованию поглощающего алгоритма. Этот алгоритм создаст разбиение кандидатов в каждой точке данных, что может привести к длительному времени выполнения. Поэтому, если размер данных велик или в оптимизации много точек поиска, рассмотрите возможность использования разумного значения для параметра Число бинов разбиений поиска.

  • Для создания модели, не меняющейся при каждом запуске, можно задать начальное значение в параметре среды Генератор случайных чисел. Произвольность в модели останется, но произвольность будет согласована между запусками.
  • Значимость переменных позволяет вам понять, какие переменные влияют на результаты модели. Это не измеряет, насколько хорошо прогнозирует модель. Лучше всего использовать все данные для обучения, установив для значения Данные обучения, исключенные для проверки (%) значение 0 и изучив ящичковую диаграмму значимости переменной. Затем измените другие параметры, в частности Число деревьев и Максимальная глубина деревьев, и изучите ящичковые диаграммы, до тех пор пока не получите стабильную модель. После обучения стабильной в отношении значимости переменных модели вы можете увеличить Обучающие данные, исключаемые для проверки (%), чтобы определить точность вашей модели. Если указана модель на основе леса, изучите ошибки OOB в диагностических сообщениях, чтобы определить точность вашей модели. Если у вас есть точная модель со стабильной значимостью переменных, вы можете установить значение 1 для Число проходов для проверки и получить одну столбчатую диаграмму, которая отобразит конечную значимость переменных вашей модели.

Список литературы

Breiman, Leo. (1996). "Out-Of-Bag Estimation." Abstract.

Breiman, L. (1996). "Bagging predictors." Machine learning 24 (2): 123–140.

Breiman, Leo. (2001). "Random Forests." Machine Learning 45 (1): 5-32. https://doi.org/10.1023/A:1010933404324.

Breiman, L., J.H. Friedman, R.A. Olshen, and C.J. Stone. (2017). Деревья классификации и регрессии. New York: Academic. Chapter 4.

Чен Т. и Гестрин К. (2016). «XGBoost: масштабируемая система повышения качества деревьев». В материалах 22 конференции ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 785-794.

Dietterich, T. G. (2000, June). "Ensemble methods in machine learning." In International workshop on multiple classifier systems,. 1–15. Springer, Berlin, Heidelberg.

Gini, C. 1912 1955. Variabilità e mutabilità. Reprinted in Memorie di metodologica statistica (eds. E. Pizetti and T. Salvemini). Rome: Libreria Eredi Virgilio Veschi.

Grömping, U. (2009). "Variable importance assessment in regression: linear regression versus random forest." The American Statistician 63 (4): 308–319.

Ho, T. K. (1995, August). "Random decision forests." In Document analysis and recognition, 1995., proceedings of the third international conference on Document Analysis and Recognition Vol. 1: 278-282. IEEE.

James, G., D. Witten, T. Hastie, and R. Tibshirani. (2013). An introduction to statistical learning Vol. 112. New York: springer.

LeBlanc, M. and R. Tibshirani. (1996). "Combining estimates in regression and classification." Journal of the American Statistical Association 91 (436): 1641–1650.

Loh, W. Y. and Y. S. Shih. (1997). "Split selection methods for classification trees." Statistica sinica, 815–840.

Meinshausen, Nicolai. "Quantile regression forests." Journal of Machine Learning Research 7. Jun (2006): 983-999.

Nadeau, C. and Y. Bengio. (2000). "Inference for the generalization error." In Advances in neural information processing systems, 307-313.

Strobl, C., A. L. Boulesteix, T. Kneib, T. Augustin, and A. Zeileis. (2008). "Conditional variable importance for random forests." BMC bioinformatics 9 (1): 307.

Zhou, Z. H. (2012). "Ensemble methods: foundations and algorithms". CRC press.