Как работает Оценка прогнозов перекрестной проверкой

Инструмент Оценка прогнозов перекрестной проверкой выполняет k-кратную перекрестную проверку для оценки того, насколько хорошо модель предсказывает невидимые данные с помощью нескольких проверок. Инструмент разбивает входной набор данных на группы, оставляет одну группу в качестве тестового набора, обучает модель, используя оставшиеся группы, и вычисляет показатели оценки того, насколько хорошо модель прогнозирует значения из оставленной группы. Зачем повторяет этот процесс для каждой группы. Группы могут быть выбраны случайным образом (произвольное k-кратное распределение) или пространственно сгруппированы (пространственное k-кратное распределение), если вы хотите понять способность модели предсказывать неизвестные данные в новых геопространственных регионах. У инструмента также есть опции балансировки данных, которые могут помочь при классификации редких событий. Этот инструмент используется в сочетании с инструментами прогнозирования, такими как Классификация на основе леса и классификация с бустингом и регрессия, Обобщенная линейная регрессия и Прогнозирование только присутствия (Max-Ent). Он обеспечивает более совершенный метод проверки для оценки производительности модели, чем те, которые предлагаются в инструментах прогнозирования.

K-кратная перекрестная проверка

Инструмент Оценка прогнозов перекрестной проверкой оценивает, насколько хорошо модель предсказывает невидимые данные с помощью нескольких проверок. При K-кратной проверке объекты, полученные в результате входного анализа, сначала разбиваются на несколько (k) групп (кратно) одинакового или сходного размера. При выполнении проверки одна группа резервируется в качестве тестового набора, в то время как модель обучается на оставшихся группах. Затем модель используется для прогнозирования тестового набора и создаются статистические показатели для оценки производительности модели. После этого инструмент итеративно использует каждую группу в качестве тестового набора и выполняет проверку.

K-кратная перекрестная проверка повторяет процесс проверки несколько раз и создает более полную оценку производительности модели с использованием различных тестовых наборов. Если простая проверка с одним разбиением на тест для обучения может быть несложной и полезной, то K-кратная перекрестная проверка более информативна. Инструменты прогнозирования, такие как Классификация на основе леса и классификация с бустингом и регрессия и Обобщенная линейная регрессия, предлагают шаг проверки, однако K-кратная перекрестная проверка лучше, так как многократно разбивает данные на различные обучающие и тестовые наборы. Она обеспечивает более надежную оценку производительности модели в прогнозировании новых данных и помогает предотвратить потенциальную чрезмерную подгонку в процессе обучения.

Группировка объектов

K-кратная перекрестная проверка разбивает объекты анализа на группы. Параметр Число групп управляет количеством создаваемых групп (k). Значение параметра может находится в диапазоне от 2 до количества объектов в наборе данных. Параметр Тип оценки определяет, будут ли объекты в группе выбраны случайным образом или пространственно сгруппированы. При работе с категорийными переменными все категорийные уровни могут быть представлены неодинаково. Некоторые категории могут быть редкими, а другие - частыми.

Произвольное k-кратное распределение

Произвольная K-кратная перекрестная проверка случайным образом разбивает объекты результата анализа на k групп. Каждая группа содержит одинаковое или схожее число объектов.

Пространственное k-кратное распределение

Пространственное k-кратное распределение обеспечивает то, что каждая обучающая и тестируемая группа пространственно отделены друг от друга. Пространственные группы создаются при помощи кластеризации k-средних. При этом берутся координаты каждого объекта и создается k пространственно разделенных групп. Однако такие группы могут содержать неодинаковое число объектов в каждом из наборов проверки. Пространственная k-кратная проверка применяется для изучения способности модели предсказывать неизвестные данные в новых геопространственных регионах.

Перекрестная проверка "исключение по одному"

Если число групп соответствует числу входных объектов, выполняется перекрестная проверка "исключение по одному" - Leave One Out Cross-validation (LOOCV), например, если выходные данные анализа Обобщенная линейная регрессия со 100 объектами являются Объектом результатов анализа, а для параметра Число групп задано 100. Модель будет обучена на 99 объектах, а прогнозироваться и оцениваться будет оставшийся 1 объект. Этот процесс повторится 100 раз. Преимущество LOOCV заключается в том, что она обеспечивает надежную и непредвзятую оценку показателей ошибок, таких как MSE, RMSE и MAPE. Однако ее не следует применять для оценки глобальных показателей, таких как R2, так как ее невозможно вычислить с размером выборки, равным 1, и она не является надежным показателем для очень маленьких наборов данных.

Оценка результатов пространственного k-кратного распределения

Показатели оценки для пространственной перекрестной проверки зависят от выбранного количества групп. Чем меньше размер пространственно смежного кластера, используемого в качестве набора проверки, тем ближе показатели проверки будут к показателям перекрестной проверки "исключение по одному". Меньший по размеру пространственно смежный проверочный набор, вероятно, будет иметь меньшую пространственную экстраполяцию, поскольку у него есть более близкие соседи в обучающем наборе. С другой стороны, показатели произвольной перекрестной проверки, как правило, остаются стабильными и аналогичными или равными показателям перекрестной проверки "исключение по одному", независимо от количества выбранных групп. Таким образом, количество групп, выбранных для пространственной перекрестной проверки, является важным параметром, который необходимо учитывать. Например, если вы обучаете модель на данных по округам в 49 из 50 штатов США, а целью является создание прогноза в 50м штате, подходящим числом групп может быть 49. При таком подходе обеспечивается то, каждая группа представляет гипотетический штат, позволяя итоговым показателям точно отражать производительность модели при прогнозировании в новом штате.

Сравнение типов оценки

В целом, показатели пространственной перекрестной проверки, как правило, дают более низкие результаты оценки по сравнению с произвольной перекрестной проверкой. Например, если при произвольной перекрестной проверке может быть достигнута средняя точность 90 процентов по группам, то пространственная перекрестная проверка покажет среднюю точность ниже - примерно 70 процентов. Это расхождение ожидаемо, поскольку произвольная перекрестная проверка выигрывает от пространственной автокорреляции. В наборах произвольной проверки объекты часто имеют пространственных соседей, которые очень похожи на них в соответствующем обучающем наборе, особенно при высокой автокорреляции. Напротив, поднаборы пространственной проверки лишены этого преимущества, что приводит к некоторой степени пространственной экстраполяции. Здесь прогнозы делаются в новой пространственной области, на которой модель не обучалась. Использование произвольной перекрестной проверки для оценки модели не улучшит базовую модель, даже если показатели выглядят лучше. Скорее, это переоценка того, как модель будет работать в реальном сценарии, где используются новые регионы.

Просмотр результатов перекрестной проверки

Распространенное заблуждение относительно перекрестной проверки и других вариантов проверки моделей - то, что они предназначены для определения, корректна ли модель для данных. Не бывает корректных моделей для данных, полученных в реальном мире, но они и не должны быть полностью корректными для предоставления информации для принятия решений. Статистика перекрестной проверки показывает полезность той или иной модели, а не проверку модели на корректность. Имея в наличии множество статистических показателей (отдельные значения, суммарная статистика, диаграммы), можно присмотреться к ним слишком внимательно и найти проблемы и отклонения от идеальных значений и закономерностей. Модели не могут быть идеальными, так как они никогда не представляют идеальные данные.

При просмотре результатов перекрестной проверки важно помнить о целях и ожиданиях вашего анализа. Например, вы прогнозируете значения температур в градусах Цельсия, чтобы дать рекомендацию в совете по общественному здравоохранению о поведении на случай аномальной жары. В этом сценарии что вы думаете об усредненной ошибке в 0.1 градус? В буквальном прочтении это означает, что модель имеет положительное смещение и тенденцию к завышению значений температуры. Тем не менее, среднее смещение составляет всего лишь одну десятую градуса, что не имеет существенного значения для публичных рекомендаций. С другой стороны, значение среднеквадратичной ошибки в 10 градусов означает, что в среднем прогнозируемые значения отклонены на 10 градусов от реальных значений температуры. Такая модель слишком неточная для применения, так как разница в 10 градусов уже может служить основанием для выдачи абсолютно разных рекомендаций.

Выходные данные

Инструмент создаст сообщения геообработки и два набора выходных данных: класс объектов и таблицу. В класс объектов записывается обучающий набор данных и результаты обучения и прогнозирования каждого объекта в обучающем наборе данных. В таблицу записываются показатели оценки для каждого запуска проверки. Инструмент также создает множество полезных сообщений геообработки, включая Среднюю статистику диагностики вне выборки.

Сообщения геообработки

Вы можете получить доступ к сообщению, переместив курсор мыши на индикатор выполнения, щелкнув на всплывшую кнопку или развернув раздел сообщений на панели Геообработка. Вы также можете получить доступ к сообщениям предыдущего запуска этого инструмента в истории геообработки. Сообщения включают таблицу Средняя статистика диагностики вне выборки.

Таблица Средняя статистика диагностики вне выборки

Диагностика анализа предоставляется в таблице Средняя статистика диагностики вне выборки.

Таблица Средняя статистика диагностики вне выборки содержит следующие показатели:

  • R-квадрат — показывает, насколько модель соответствует действительности. Доля дисперсии зависимой переменной, которая объясняется моделью регрессии. Значение варьируется от 0,0 до 1,0, более высокое значение означает лучшую модель. В отличие от значения R-квадрат для обучающих данных, R-квадрат вне выборки может уменьшаться при включении дополнительных независимых переменных, поэтому может быть полезным определение того, является ли включение новых независимых переменных эффективным. R-квадрат не будет вычисляться, если группы содержат менее трех объектов.
  • Скорректированный R-квадрат — Скорректированный R-квадрат похож на R-квадрат, однако он добавляет штраф за включение дополнительных независимых переменных, что отдает некоторое предпочтение моделям с меньшим количеством независимых переменных. Вычисление значения скорректированного R-2 нормирует числитель и знаменатель по их степеням свободы. При такой корректировке вы теряете интерпретацию значения как пропорцию объясняемой переменной. Этот показатель вычисляется только для моделей Обобщенной линейной регрессии. Скорректированный R-квадрат не будет вычисляться, если группы содержат менее трех объектов.
  • Среднеквадратичная ошибка (RMSE) — это квадратный корень из среднеквадратической ошибки (MSE), который представляет собой квадратный корень из усредненной квадратичной разницы между фактическими значениями и прогнозируемыми значениями. Как и MAE (средняя абсолютная ошибка), RMSE представляет собой среднюю ошибку прогноза модели в единицах интересующей переменной; однако RMSE более чувствителен к большим ошибкам и выбросам. Эта статистика обычно используется для измерения точности прогнозирования. RMSE выражается в единицах переменной интереса, поэтому ее нельзя сравнивать между разными моделями.
  • Средняя абсолютная ошибка (MAE) — это среднее значение абсолютной разницы между фактическими значениями и прогнозируемыми значениями параметра Переменная интереса. Значение 0 означает, что модель правильно предсказала каждое наблюдаемое значение. MAE выражается в единицах переменной интереса, поэтому ее нельзя сравнивать между разными моделями.
  • Средняя абсолютная процентная ошибка (MAPE) — похожа на MAE тем, что представляет собой разницу между исходными значениями и прогнозируемыми значениями. Однако тогда как MAE представляет собой разницу в исходных единицах измерения, MAPE представляет разницу в процентах. MAPE — это относительная ошибка, поэтому она является лучшей диагностикой при сравнении разных моделей. Из-за способа вычисления MAPE ее нельзя использовать, если какое-либо из исходных значений равно 0. Если исходные значения близки к 0, MAPE будет стремиться к бесконечности и показана как Null в таблице. Еще одним ограничением MAPE является зависимость от масштаба. Например, если есть два случая, когда разница между фактическими значениями и прогнозируемыми значениями одинакова, случай, когда фактическое значение меньше, будет вносить больший вклад в MAPE.

Дополнительные выходные данные

Этот инструмент также создает таблицу и выходной класс объектов.

Выходная таблица

Выходная таблица проверки содержит ту же диагностику, что включена в сообщения геообработки: Скорректированный R-квадрат, R-квадрат, Среднеквадратичная ошибка (RMSE), Средняя абсолютная процентная ошибка (MAPE) и Средняя абсолютная ошибка (MAE). В таблице показана статистика для каждой из K-групп (кратно).

Выходные объекты

Поля выходных объектов: независимые переменные обучения, использованные в модели, переменные для прогноза, среднее прогнозируемое значение обучения, средняя невязка обучения, прогнозируемое значение вне выборки и невязка вне выборки. Среднее прогнозируемое значение обучения, средняя невязка обучения, прогнозируемое значение вне выборки и невязка вне выборки могут использоваться для оценки того, насколько точно было спрогнозировано значение поля.

Рекомендации и ограничения

Ниже приведены рекомендации и ограничения по использованию этого инструмента:

  • Используйте этот инструмент при настройке параметров и оптимизации модели. Например, можно задать настройки параметров в инструменте Классификация на основе леса, классификация с бустингом и регрессия и оценить обученную модель, введя выходной обучающий набор данных в инструмент Оценка прогнозов перекрестной проверкой. С результатами перекрестной проверки можно вернуться к инструменту Классификация на основе леса и регрессия, регрессия с бустингом, чтобы настроить определенные параметры более точно. Эти два шага можно повторять то тех пор, пока вы не найдете подходящие показатели перекрестной проверки вашей модели. Можно подготовить итоговую модель, используя полный обучающий набор данных или сбалансированный набор данных, а затем прогнозировать на основе новых, неизвестных данных.
  • Решите, какой показатель оценки наиболее важен в вашем определенном случае использования. Примите во внимание следующее:
    • Для классификации — если вы прогнозируете редкое событие, которое является очень важным, вы можете оптимизировать чувствительность этой категории. Если у вас много категорий и нужна модель, которая предсказывает наилучшие результаты по всем категориям, вы можете рассмотреть показатели MCC или общие F1. Точность не всегда является наилучшим показателем, особенно когда речь идет о редких категориях. Например, если 99% ваших данных относятся к Категории A, а 1% - к категории B, модель, прогнозирующая каждый объект как Категорию A получит точность 99%, но чувствительность будет равна 0% для Категории B.
    • Для регрессии — Если вас интересует общее соответствие модели данным, вы можете оптимизировать R-квадрат. Если вас беспокоят отдельные ошибки модели, возможно, вы захотите оптимизировать MAPE или MAE. Если вас беспокоят отдельные ошибки модели и минимизация экстремальных ошибок, возможно, понадобиться оптимизация на основе RMSE.
  • Гиперпараметры, дающие оптимальные показатели при произвольном разбиении, могут отличаться от тех, которые обеспечивают наилучшие показатели при пространственном разбиении. Если ваша цель - выполнить прогноз для новой пространственной области, оцените его с помощью пространственных разбиений. Экспериментируйте с различными моделями и выборкой параметров и вводите каждый в инструмент, чтобы определить, какая комбинация приводит к наилучшим средним показателям при пространственной перекрестной проверке.
  • R-квадрат и Скорректированный R-квадрат не будет вычисляться, если наборы данных проверки содержат менее трех объектов. Это означает, что они не будут вычисляться, если число групп превышает одну треть от числа объектов.
  • Коэффициент корреляции Мэтьюза вычислить невозможно, если все прогнозируемые выходные данные имеют одинаковое значение.
  • Балансировка данных может помочь улучшить точность модели при классификации редких случайных событий.

Связанные разделы