Использование перекрестной проверки для оценки результатов интерполяции—ArcGIS Pro

Доступно с лицензией Geostatistical Analyst.

Прежде чем использовать модель интерполяции для принятия решений, важно изучить, насколько точно модель прогнозирует значения в неизвестных местоположениях. Если вы не знаете истинные значения в местоположениях между точками измерений, как вы можете быть уверены, что ваша модель прогнозирует неизвестные значения точно и надежно? Чтобы ответить на этот вопрос, видимо, надо знать значения местоположений, которые не попали в выборку для интерполяции. Есть широко известный и активно используемый метод оценки точности и надежности результатов интерполяции - перекрестная проверка.

Перекрестная проверка

Перекрестная проверка - метод пересчета "убрать одну точку" - при этом, сначала используются все входные точки для оценки параметров модели интерполяции (вариограмма в кригинге или степень в обратно взвешенных расстояниях). Затем, по очереди из расчета удаляется каждая точка, а остальные точки используются для расчета прогнозируемого значения в местоположении удаленной точки, которое затем сравнивается с измеренным. Далее удаленная точка возвращается к набору данных, а следующая точка удаляется, затем выполняется расчет ее прогнозируемого значения. Процесс повторяется для всех входных точек.

На рисунке ниже показаны результаты перекрестной проверки для отдельной входной точки. После выполнения модели интерполяции на всех точках голубого цвета, значение точки красного цвета убирается, и оставшиеся точки используются для прогнозирования значений скрытой точки. Затем измеренное значение сравнивается с прогнозируемым значением. Процесс повторяется для всех 10 точек.

Красная точка скрывается, значение рассчитывается на основании 9 остальных точек. Процесс повторяется для всех точек.

Перекрестная проверка эффективна при оценке моделей интерполяции, поскольку она имитирует прогнозируемые значения в местоположениях без измерений, но измерения в местоположениях есть, хотя они и скрыты, соответственно можно проверить, насколько рассчитанные значения соответствуют измеренным. Если модель точно прогнозирует значения в скрытых точках, то должна верно вычислять значения и в новых местоположениях, где нет измеренных значений. Если же ошибка перекрестной проверки очень велика, соответственно вы можете ожидать существенные ошибки и в расчете новых местоположений.

Перекрестная проверка выполняется автоматически в процессе построения модели интерполяции, и ее результаты отображаются в последнем шаге Мастера геостатистики. Перекрестную проверку можно также выполнить для существующего слоя с помощью инструмента Перекрестная проверка. Если на карте есть геостатистический слой, вы можете посмотреть статистику перекрестной проверки, щелкнув правой кнопкой мыши этот слой и выбрав Перекрестная проверка или нажав кнопку Перекрестная проверка на ленте, на вкладке Данные для геостатистического слоя.

Но перекрестная проверка имеет один недостаток - она сначала использует все входные точки для оценки параметров модели интерполяции, а затем последовательно убирает каждую точку. Так как все точки участвовали в оценке параметров интерполяции, их нельзя полностью исключить из проверки. Обычно каждая отдельная точка не существенно влияет на оцениваемые параметры интерполяции; при этом в небольших наборах данных, или наборах данных с выбросами даже отдельная точка может существенно изменить оценку параметров интерполяции. Чтобы полностью убрать значения точек и избежать дублированного использования данных, можно использовать проверку.

Проверка

Проверка похожа на перекрестную проверку, за исключением того, что сначала полностью удаляется поднабор точек, который становится тестовым набором данных. Затем он использует оставшиеся точки, которые называются учебным набором данных, для оценки параметров модели интерполяции. Модель интерполяции прогнозирует все местоположения тестового набора данных, и ошибки вычисляются для каждой тестовой точки. Поскольку тестовый набор данных никак не использовался для оценки параметров интерполяции или прогнозирования, проверка является более строгим способом оценки того, насколько точно и надежно модель интерполяции будет прогнозировать новые местоположения с неизвестными значениями. Но такая проверка тоже имеет недостаток - вы не можете использовать все данные для построения модели интерполяции, поэтому оценки параметров могут быть не такими точными и достоверными, как если бы использовались все данные. Из-за необходимости уменьшить размер набора данных, обычно предпочтительнее выполнять перекрестную проверку, если только ваши данные представляют собой избыточную выборку.

Для создания тестового и учебного наборов данных применяется инструмент Поднабор пространственных объектов. После построения модели интерполяции (геостатистического слоя) на учебном наборе данных, вы можете выполнить проверку, используя инструмент Слой GA в точки. Укажите геостатистический слой, созданный из учебных данных, прогнозируйте местоположения тестового набора данных и проверьте поле, используемое для интерполяции. Ошибки и другая статистика проверки сохраняются в выходном классе объектов.

В остальной части статьи обсуждается только перекрестная проверка, но основные концепции ее совпадают с обычной проверкой.

Статистика перекрестной проверки

При выполнении перекрестной проверки для каждой точки вычисляются разные статистические показатели. Эти показатели можно увидеть на вкладке Таблица диалогового окна перекрестной проверки, или сохранить в класс объектов с использованием инструмента Перекрестная проверка. Для каждой точки создаются следующие поля:

Измерено — измеренное значение скрытой точки..
Проинтерполированное — прогнозированное в результате перекрестной проверки значение в местоположении скрытой точки.
Ошибка – разность между измерением и проинтерполированным значением (проинтерполированное минус измеренное). Положительное значение ошибки говорит о том, что прогноз выше измерения, а отрицательное - прогноз ниже измерения.
Стандартная ошибка — стандартная ошибка прогнозированного значения. Если ошибки соответствуют нормальному распределению, примерно две трети измеренных значений попадают в пределы одной стандартной ошибки прогнозированного значения, а 95 процентов попадают в пределы двух стандартных ошибок.
Нормированная ошибка - ошибка, деленная на стандартную ошибку. Для использования типов результатов - квантиль или вероятность, значения нормированных ошибок должны соответствовать нормальному распределению среднее значение равно нулю, а среднеквадратичное значение - 1).

Дополнительно, для моделей Эмпирического байесовского кригинга доступны следующие статистические показатели перекрестной проверки:

Непрерывная ранжированная оценка вероятности - положительное число, измеряющее точность и достоверность прогнозированного значения, чем меньше значение, тем лучше. Значение трудно интерпретировать само по себе, но чем ближе ошибка к нулю, и чем меньше стандартная ошибка, тем меньше непрерывная ранжированная оценка вероятности. Фактически статистика измеряет расстояние (не обычное, географическое) между измеренным значением и прогнозированным распределением, что влияет на точность как прогнозирования, так и стандартной ошибки. Сужение прогнозированного распределения, центрированного вокруг измеренного значения (ошибка ближе к нулю, и небольшая стандартная ошибка), ведет к тому, что непрерывная ранжированная оценка стремится к нулю. Значения измерены в квадратных единицах измерения, поэтому нельзя выполнять сравнение между наборами данных с другими единицами или диапазонами значений.
Квантиль проверки – квантиль измеренного значения объекта с учетом распределения прогнозируемых значений. Если модель настроена корректно, квантили проверки будут произвольно распределены между значениями 0 и 1, без каких-либо закономерностей. Квантили проверки ненастроенных моделей часто кластеризуются в середине (большинство значений около 0.5) или в экстремумах (большинство значений стремится к 0 или к 1).
В пределах 90-процентного интервала — индикатор (1 или 0) того, находится ли измеренное значение в пределах 90-процентного интервала прогнозирования (аналогично доверительному интервалу). Если модель настроена корректно, примерно 90 процентов точек будут в пределах этого интервала и иметь значение 1.
В пределах 95-процентного интервала — индикатор (1 или 0) того, находится ли измеренное значение в пределах 95-процентного интервала прогнозирования. Если модель настроена корректно, примерно 95 процентов точек будут в пределах этого интервала и иметь значение 1.