Использование перекрестной проверки для оценки результатов интерполяции

Доступно с лицензией Geostatistical Analyst.

Прежде чем использовать модель интерполяции для принятия решений, важно изучить, насколько точно модель прогнозирует значения в неизвестных местоположениях. Если вы не знаете истинные значения в местоположениях между точками измерений, как вы можете быть уверены, что ваша модель прогнозирует неизвестные значения точно и надежно? Чтобы ответить на этот вопрос, видимо, надо знать значения местоположений, которые не попали в выборку для интерполяции. Есть широко известный и активно используемый метод оценки точности и надежности результатов интерполяции - перекрестная проверка.

Перекрестная проверка

Перекрестная проверка - метод пересчета "убрать одну точку" - при этом, сначала используются все входные точки для оценки параметров модели интерполяции (вариограмма в кригинге или степень в обратно взвешенных расстояниях). Затем, по очереди из расчета удаляется каждая точка, а остальные точки используются для расчета прогнозируемого значения в местоположении удаленной точки, которое затем сравнивается с измеренным. Далее удаленная точка возвращается к набору данных, а следующая точка удаляется, затем выполняется расчет ее прогнозируемого значения. Процесс повторяется для всех входных точек.

На рисунке ниже показаны результаты перекрестной проверки для отдельной входной точки. После выполнения модели интерполяции на всех точках голубого цвета, значение точки красного цвета убирается, и оставшиеся точки используются для прогнозирования значений скрытой точки. Затем измеренное значение сравнивается с прогнозируемым значением. Процесс повторяется для всех 10 точек.

Перекрестная проверка
Красная точка скрывается, значение рассчитывается на основании 9 остальных точек. Процесс повторяется для всех точек.

Перекрестная проверка эффективна при оценке моделей интерполяции, поскольку она имитирует прогнозируемые значения в местоположениях без измерений, но измерения в местоположениях есть, хотя они и скрыты, соответственно можно проверить, насколько рассчитанные значения соответствуют измеренным. Если модель точно прогнозирует значения в скрытых точках, то должна верно вычислять значения и в новых местоположениях, где нет измеренных значений. Если же ошибка перекрестной проверки очень велика, соответственно вы можете ожидать существенные ошибки и в расчете новых местоположений.

Перекрестная проверка выполняется автоматически в процессе построения модели интерполяции, и ее результаты отображаются в последнем шаге Мастера геостатистики. Перекрестную проверку можно также выполнить для существующего слоя с помощью инструмента Перекрестная проверка. Если на карте есть геостатистический слой, вы можете посмотреть статистику перекрестной проверки, щелкнув правой кнопкой мыши этот слой и выбрав Перекрестная проверка или нажав кнопку Перекрестная проверка на ленте, на вкладке Данные для геостатистического слоя.

Но перекрестная проверка имеет один недостаток - она сначала использует все входные точки для оценки параметров модели интерполяции, а затем последовательно убирает каждую точку. Так как все точки участвовали в оценке параметров интерполяции, их нельзя полностью исключить из проверки. Обычно каждая отдельная точка не существенно влияет на оцениваемые параметры интерполяции; при этом в небольших наборах данных, или наборах данных с выбросами даже отдельная точка может существенно изменить оценку параметров интерполяции. Чтобы полностью убрать значения точек и избежать дублированного использования данных, можно использовать проверку.

Проверка

Проверка похожа на перекрестную проверку, за исключением того, что сначала полностью удаляется поднабор точек, который становится тестовым набором данных. Затем он использует оставшиеся точки, которые называются учебным набором данных, для оценки параметров модели интерполяции. Модель интерполяции прогнозирует все местоположения тестового набора данных, и ошибки вычисляются для каждой тестовой точки. Поскольку тестовый набор данных никак не использовался для оценки параметров интерполяции или прогнозирования, проверка является более строгим способом оценки того, насколько точно и надежно модель интерполяции будет прогнозировать новые местоположения с неизвестными значениями. Но такая проверка тоже имеет недостаток - вы не можете использовать все данные для построения модели интерполяции, поэтому оценки параметров могут быть не такими точными и достоверными, как если бы использовались все данные. Из-за необходимости уменьшить размер набора данных, обычно предпочтительнее выполнять перекрестную проверку, если только ваши данные представляют собой избыточную выборку.

Для создания тестового и учебного наборов данных применяется инструмент Поднабор пространственных объектов. После построения модели интерполяции (геостатистического слоя) на учебном наборе данных, вы можете выполнить проверку, используя инструмент Слой GA в точки. Укажите геостатистический слой, созданный из учебных данных, прогнозируйте местоположения тестового набора данных и проверьте поле, используемое для интерполяции. Ошибки и другая статистика проверки сохраняются в выходном классе объектов.

В остальной части статьи обсуждается только перекрестная проверка, но основные концепции ее совпадают с обычной проверкой.

Статистика перекрестной проверки

При выполнении перекрестной проверки для каждой точки вычисляются разные статистические показатели. Эти показатели можно увидеть на вкладке Таблица диалогового окна перекрестной проверки, или сохранить в класс объектов с использованием инструмента Перекрестная проверка. Для каждой точки создаются следующие поля:

  • Измерено — измеренное значение скрытой точки..
  • Проинтерполированное — прогнозированное в результате перекрестной проверки значение в местоположении скрытой точки.
  • Ошибка – разность между измерением и проинтерполированным значением (проинтерполированное минус измеренное). Положительное значение ошибки говорит о том, что прогноз выше измерения, а отрицательное - прогноз ниже измерения.
  • Стандартная ошибка — стандартная ошибка прогнозированного значения. Если ошибки соответствуют нормальному распределению, примерно две трети измеренных значений попадают в пределы одной стандартной ошибки прогнозированного значения, а 95 процентов попадают в пределы двух стандартных ошибок.
  • Нормированная ошибка - ошибка, деленная на стандартную ошибку. Для использования типов результатов - квантиль или вероятность, значения нормированных ошибок должны соответствовать нормальному распределению среднее значение равно нулю, а среднеквадратичное значение - 1).

Дополнительно, для моделей Эмпирического байесовского кригинга доступны следующие статистические показатели перекрестной проверки:

  • Непрерывная ранжированная оценка вероятности - положительное число, измеряющее точность и достоверность прогнозированного значения, чем меньше значение, тем лучше. Значение трудно интерпретировать само по себе, но чем ближе ошибка к нулю, и чем меньше стандартная ошибка, тем меньше непрерывная ранжированная оценка вероятности. Фактически статистика измеряет расстояние (не обычное, географическое) между измеренным значением и прогнозированным распределением, что влияет на точность как прогнозирования, так и стандартной ошибки. Сужение прогнозированного распределения, центрированного вокруг измеренного значения (ошибка ближе к нулю, и небольшая стандартная ошибка), ведет к тому, что непрерывная ранжированная оценка стремится к нулю. Значения измерены в квадратных единицах измерения, поэтому нельзя выполнять сравнение между наборами данных с другими единицами или диапазонами значений.
  • Квантиль проверки – квантиль измеренного значения объекта с учетом распределения прогнозируемых значений. Если модель настроена корректно, квантили проверки будут произвольно распределены между значениями 0 и 1, без каких-либо закономерностей. Квантили проверки ненастроенных моделей часто кластеризуются в середине (большинство значений около 0.5) или в экстремумах (большинство значений стремится к 0 или к 1).
  • В пределах 90-процентного интервала — индикатор (1 или 0) того, находится ли измеренное значение в пределах 90-процентного интервала прогнозирования (аналогично доверительному интервалу). Если модель настроена корректно, примерно 90 процентов точек будут в пределах этого интервала и иметь значение 1.
  • В пределах 95-процентного интервала — индикатор (1 или 0) того, находится ли измеренное значение в пределах 95-процентного интервала прогнозирования. Если модель настроена корректно, примерно 95 процентов точек будут в пределах этого интервала и иметь значение 1.

Примечание:

Методы интерполяции, которые не поддерживают выходной тип стандартной ошибки прогнозирования могут вычислять только измеренное, прогнозированное или значение ошибки.

Суммарная статистика перекрестной проверки

Отдельные показатели статистики перекрестной проверки для каждой скрытой точки обеспечивают подробную информацию о производительности модели, но если число входных точек очень велико, информацию необходимо суммировать для более простоя интерпретации того, что представляют собой результаты интерполяции. Суммарную статистику перекрестной проверки можно увидеть на вкладке Итоговая информация диалогового окна перекрестной проверки и в виде сообщений инструмента Перекрестная проверка. Доступны следующие показатели суммарной статистики:

Примечание:

Во всех формулах, n - число точек. si - местоположение скрытой точки. z(si) - измеренное значение в местоположении. z-hat(si) прогнозируемое значение. σ-hat стандартная ошибка прогнозированного значения.

  • Средняя ошибка – среднее значение всех ошибок перекрестной проверки. Это значение должно быть максимально близко к 0. Средняя ошибка указывает на смещение модели, где положительные значения средней ошибки свидетельствуют о тенденции к прогнозированию слишком больших значений, а отрицательные значения ошибки указывают на прогнозирование значений меньше измеренных. Этот показатель выражен в единицах измерения значений данных.
    • Средняя ошибка
  • Среднеквадратичная ошибка – квадратный корень среднего значений ошибок прогнозирования, возведенных в квадрат. Это значение должно быть как можно меньше. Этот показатель измеряет точность прогнозирования, значение апроксимирует среднее отклонение прогнозированных значений от измеренных. Это значение выражено в единицах измерения значений данных. Например, для интерполяции значений температуры в градусах Цельсия, величина среднеквадратичной ошибки - 1.5 означает, что прогнозируемые значения в среднем отличаются от измеренных на 1.5 градуса.
    • Среднеквадратичная ошибка
  • Средняя нормированная ошибка – среднее значение нормированных ошибок (ошибка деленная на стандартную ошибку). Это значение должно быть максимально близко к 0. Этот показатель измеряет смещение модели в нормированном масштабе, поэтому его можно сравнивать для разных наборов данных в разных единицах измерения.
    • Средняя нормированная ошибка
  • Средняя стандартная ошибка — среднеквадратичное (среднее квадратическое значение) стандартных ошибок. Этот показатель измеряет точность модели, тенденцию к сужению распределения прогнозированных значений близко к центру прогнозированного значения. Это значение должно быть максимально мало, но приблизительно равно среднеквадратичной ошибке.
    • Средняя стандартная ошибка
    • Среднее вычисляется для значений дисперсии перекрестной проверки (квадрат стандартной ошибки), так как дисперсия всегда накопительная, а стандартные ошибки - нет.
  • Среднеквадратичная нормированная ошибка — среднеквадратичное значение нормированных ошибок. Этот показатель оценивает точность вычисления стандартных ошибок, сравнивая вариабельность ошибок перекрестной проверки с оцененными стандартными ошибками. Это значение должно быть максимально близко к 1. Значения меньше 1 указывают на то, что вычисленные стандартные ошибки слишком велики, а значения больше 1 говорят о том, что они слишком малы. Это значение можно интерпретировать как обратное отношение - например, значение 3 означает, что стандартные ошибки в среднем равны 1/3 значений, которые должны быть. И, наоборот, значение 0.5 означает, что стандартные ошибки вдвое больше, чем ожидалось.
    • Среднеквадратичная нормированная ошибка

Дополнительно, для моделей Эмпирического байесовского кригинга также доступны следующие сводные статистические показатели перекрестной проверки:

  • Средний CRPS – средняя непрерывная ранжированная вероятностная оценка (CRPS). Это значение должно быть как можно меньше. Чтобы у модели был низкий CRPS, прогнозируемые значения и стандартные ошибки должны быть рассчитаны с высокой точностью и достоверностью.
  • В пределах интервала 90 процентов – процент измеренных значений входящих в 90% интервал прогнозирования. Это значение должно быть близко к 90. Этот показатель указывает, насколько стандартные ошибки совпадают с прогнозируемыми значениями. Значения выше 90 указывают на то, что стандартные ошибки слишком велики по отношению к прогнозированным значениям. Значения ниже 90 указывают на то, что стандартные ошибки слишком малы.
  • В пределах интервала 95 процентов – процент измеренных значений входящих в 95% интервал прогнозирования. Это значение должно быть близко к 95. Этот показатель указывает, насколько стандартные ошибки совпадают с прогнозируемыми значениями.

Примечание:

Методы интерполяции, которые не поддерживают выходной тип стандартной ошибки прогнозирования могут вычислять только статистические показатели усредненной ошибки и среднеквадратичной ошибки.

Сравнение моделей интерполяции

Перекрестная проверка может использоваться для оценки качества геостатистической модели, но также ее можно применить для сравнения одной или нескольких моделей - кандидатов, чтобы подобрать наилучшую для вашего анализа. Если у вас немного моделей - кандидатов, вы можете изучить их, открыв несколько диалоговых окон перекрестной проверки. Расположив все диалоговые окна рядом, вы увидите все результаты разу и сможете подробно изучить информацию по каждой модели.

Но если у вас много моделей - кандидатов, или создание моделей автоматизировано, инструмент Сравнить геостатистические слои может автоматически сравнить и ранжировать модели на основе настроенных критериев. Вы можете ранжировать модели на основании одного критерия (например по уменьшению среднеквадратичной ошибки, или усредненной ошибке, максимально близкой к 0), по взвешенному среднему рангу нескольких критериев, или по результатам иерархической сортировки нескольких критериев (где уровни по каждому критерию разбиваются по следующим в цепочке критериям в иерархии). Критерии исключения также можно использовать для исключения результатов интерполяции из сравнения, если они не отвечают минимальным требованиям стандартов качества. Инструмент Исследовательская интерполяция также может выполнить сравнение результатов перекрестной проверки, но он создает геостатистические слои автоматически из набора данных и поля. Инструмент можно использовать, чтобы быстро определить, какой из методов интерполяции лучше всего подходит к вашим данным без выполнения каждого метода отдельно.

Диаграммы перекрестной проверки

Всплывающие окна диалогового окна перекрестной проверки содержат различные диаграммы для визуализации и изучения статистических показателей результатов перекрестной проверки интерактивно. Раздел диаграмм в диалоговом окне содержит 5 основных вкладок, на каждой будет своя диаграмма.

На вкладке Проинтерполированное отображены вычисленные значения в сравнении с измеренными в виде точечной диаграммы, где голубая линия регрессии подогнана к данным. Так как, если модель корректна, проинтерполированные значения должны совпадать с измеренными, а базовая линия показывает, насколько близко линия регрессии приближена к идеальной ситуации. Тем не менее, на практике линия регрессии обычно имеет более крутой уклон, чем базовая линия, так как модели интерполяции (в особенности, кригинг) имеют тенденцию к сглаживанию значений данных, занижая высокие значения и занижая низкие.

Примечание:

Значение Функции регрессии под каждым из графиков вычисляется с использованием устойчивого уравнения регрессии. Эта процедура сначала помещает стандартную линию линейной регрессии на точечную диаграмму. Затем удаляются все точки, имеющие более двух стандартных отклонений выше или ниже линии регрессии, и вычисляется новое уравнение регрессии. Этот процесс гарантирует, что небольшое количество не приведет к смещению вычисления уклона линии регрессии и пересечения с осью координат. Все точки представлены на точечной диаграмме, даже если они не используются в функции регрессии.

Сравнение проинтерполированных и измеренных значений

Вкладки Ошибка и Нормированная ошибка похожи на вкладку проинтерполированное, но там награфике представлены ошибки перекрестной провреки и нормированные ошибки в сравнении с измеренными значениями. На этих графиках линия регрессии должна быть плоской и распределение точек не должно демонстрировать каких либо закономерностей Но в реальности обычно наблюдается отрицательный уклон, из-за сглаживания.

Вкладка Нормальный график КК содержит точечную диаграмму распределения нормированных ошибок в сравнении с эквивалентными квантилями стандартного нормального распределения. Если ошибки перекрестной проверки нормально распределены, и стандартные ошибки вычислены с высокой точностью, точки на диаграмме будут расположены близко к базовой линии. Изучение этого графика очень важно, если используются квантили и вероятностные выходные типы, так как для них необходимо распределение ошибок в соответствии с нормальным.

Нормальный график КК

На вкладке Распределение показано распределение показателей статистики перекрестной проверки (вычисленное с использованием плотности ядер). Используйте ниспадающий список Поле для выбора отображаемых показателей статистики. Полезная возможность (показана на рисунке ниже) - наложить распределение измеренных и интерполированных значения на один график,и посмотреть насколько они совпадают. Эти два распределения должны быть очень похожи; однако распределение прогнозируемых значений обычно выше и уже, чем измеренных, из-за сглаживания.

Распределение измеренных и прогнозируемых значений

Статистика перекрестной проверки интерполяции в контексте

Распространенное заблуждение относительно перекрестной проверки и других вариантов проверки моделей - то, что они предназначены для определения, корректна ли модель для данных. В реальности не бывает корректных моделей для данных реального мира, но они и не должны быть полностью корректными для предоставления информации для принятия решений. Эта концепция выражена в известной формулировке George Box (1978): "Все модели неверные, но некоторые можно использовать". Фактически, статистика перекрестной проверки показывает полезность той или иной модели, а не проверку модели на корректность. Имея в наличии множество статистических показателей (отдельные значения, суммарная статистика, диаграммы) - вы можете очень тщательно изучить проблему, закономерности и отклонения от идеальных значений. Модели не могут быть идеальными, так как они никогда не представляют идеальные данные.

При оценке результатов перекрестной проверки помните о целях и задачах вашего анализа. Например, вы интерполируете значения температур в градусах Цельсия чтобы дать рекомендацию в совете по общественному здравоохранению о поведении на случай аномальной жары. В этом сценарии что вы думаете об усредненной ошибке в 0.1 градус? В буквальном прочтении это означает, что модель имеет положительное смещение и тенденцию к завышению значений температуры. Тем не менее, среднее смещение составляет всего лишь одну десятую градуса, что не имеет существенного значения для публичных рекомендаций. С другой стороны, значение среднеквадратичной ошибки в 10 градусов означает, что в среднем прогнозируемые значения отклонены на 10 градусов от реальных значений температуры. Такая модель слишком неточная для применения, так как разница в 10 градусов уже может служить основанием для выдачи абсолютно разных рекомендаций.

Другой важный момент - хотите ли вы вычислить доверительные интервалы или предел погрешности проинтерполированных значений Например, вы прогнозируете значение температуры 28 градусов, плюс-минус два градуса. Если вы не собираетесь вычислить пределы погрешности, статистические данные, относящиеся к стандартной ошибке, менее важны, поскольку их основной целью является определение точности пределов погрешности. Хотя проблемы с точностью стандартных ошибок могут привести к проблемам с прогнозированными значениями, в целом для моделей интерполяции характерно точное прогнозирование, но неточное определение пределов погрешности.

В моделях интерполяции больше всего сложностей с расчетом экстремальных значений, самых больших и и самых малых. Модели интерполяции интерполируют значения на основе взвешенного среднего измеренных значений в окрестности прогнозируемого местоположения. При вычислении среднего по значениям данных интерполированное значение приближаются к среднему значению точек в окрестности - это явление называется сглаживанием. В той или иной степени сглаживание присутствует почти во всех моделях интерполяции, и его можно оценить по выраженности уклона графиков перекрестной проверки. Вам необходимо пытаться минимизировать сглаживание, но в реальности к вычислениям интерполированных значений в области максимальных и минимальных значений следует относиться с недоверием.

Наконец, ваши ожидания от результатов перекрестной проверки напрямую связаны с качеством и объемом данных. Если у вас мало точек, или между точками большое расстояние - вы понимаете, что результаты перекрестной проверки отражают ограниченную информацию, соответствующую вашим точкам. Даже если модель очень хорошо подогнана, ошибки перекрестной проверки могут быть очень большими вследствие ограничения объема информации, доступной в наборе данных для выполнения точного прогнозирования. Аналогично, большой объем информации и репрезентативные данные, даже если модель конфигурирована не очень хорошо с недостоверными параметрами, может выдать точные и надежные прогнозированные значения.

Связанные разделы