Что такое эмпирический байесовский кригинг?

Доступно с лицензией Geostatistical Analyst.

Эмпирический байесовский кригинг (EBK, Empirical Bayesian kriging) – это метод геостатистической интерполяции, автоматизирующий наиболее трудоемкие аспекты построения корректной модели кригинга. Другие методы кригинга в модуле Geostatistical Analyst требуют ручного изменения параметров для достижения точных результатов, в то время как метод ЭБК автоматически вычисляет эти параметры путем разбиения данных на поднаборы и моделирования данных.

Кроме того, эмпирический байесовский кригинг отличается от других методов кригинга тем, что учитывает ошибку, связанную с оценкой основной вариограммы. Другие методы кригинга рассчитывают вариограмму на основе известных местоположений данных и используют эту единственную вариограмму для прогнозирования в неизвестных местоположениях; данный процесс неявно предполагает, что расчетная вариограмма является истинной для региона интерполяции. Не учитывая неопределенность расчета вариограммы, другие методы кригинга недооценивают стандартные ошибки интерполяции.

Эмпирический байесовский кригинг предоставляется в составе мастера геостатистики и в качестве инструмента геообработки.

Достоинства и недостатки

Эмпирический байесовский кригинг имеет ряд преимуществ и недостатков по сравнению с другими методами интерполяции.

Преимущества

  • Требуется минимум интерактивного моделирования.
  • Стандартные ошибки интерполяции меньше по сравнению с другими методами кригинга.
  • Возможность точной интерполяции умеренно нестационарных данных.
  • Более высокая точность для небольших наборов данных по сравнению с другими методами кригинга.

Недостатки

  • Время обработки быстро возрастает с увеличением числа входных точек, размера поднабора или коэффициента перекрытия. Применение преобразования также увеличит время обработки, особенно если для типа вариограммы выбраны K-Бесселя или K-Бесселя с исключенным трендом. Эти параметры описаны в следующих секциях данного раздела.
  • Обработка происходит медленнее, чем в других методах кригинга, особенно при выводе в растр.
  • Кокригинг и анизотропная коррекция недоступны.
  • Логарифмическое эмпирическое преобразование особенно чувствительно к выпадающим значениям. Если это преобразование применяется к данным с выпадающими значениями, результаты интерполяции могут отличаться от значений входных точек на несколько порядков. Этот параметр описан в расположенном ниже разделе Преобразования.

Оценка вариограммы

В отличие от других методов кригинга (которые используют метод взвешенных наименьших квадратов), параметры вариограммы в ЭБК оцениваются с использованием ограниченной максимальной вероятности (REML). В связи с вычислительными ограничениями REML для крупных наборов данных, входные данные сначала делятся на перекрывающиеся поднаборы определенного размера (по умолчанию 100 точек на каждый поднабор). В каждом поднаборе вариограммы рассчитываются следующим образом.

  1. Вариограмма рассчитывается на основе данных в поднаборе.
  2. С использованием этой вариограммы в качестве модели выполняется безусловное моделирование новых данных в каждой входной точке в поднаборе.
  3. Новая вариограмма рассчитывается на основе смоделированных данных.
  4. Шаги 2 и 3 повторяются заданное число раз. При каждом повторении вариограмма, рассчитанная в шаге 1, используется для моделирования нового набора данных во входных точках, а на основе смоделированных данных выполняется оценка новой вариограммы.

В результате этого процесса создается множество вариограмм для каждого поднабора. Если изобразить их на одной диаграмме, получится эмпирическое распределение вариограмм, заштрихованных в зависимости от плотности (чем темнее синий цвет, тем больше вариограмм проходит через данный регион). Эмпирические вариации представлены синими крестиками. Кроме того, медиана распределения обозначена сплошной красной линией, а 25-й и 75-й процентили – пунктирными красными линиями, как показано ниже.

Моделированные вариограммы
Моделированные вариограммы показаны для одного поднабора.

Число моделированных вариограмм для каждого поднабора по умолчанию равно 100, и каждая из этих вариограмм является оценкой истинной вариограммы для поднабора.

Для каждого местоположения, интерполяция рассчитывается с использованием новой эмпирической вариограммы распределения, которая сгенерирована путем объединения отдельных вариограмм из распределений вариограммы в окрестности точки. Например, если у прогнозируемого значения есть соседние значения из трех поднаборов (как указано в поиске соседства), оно будет рассчитываться с помощью моделируемых вариограмм из каждого поднабора. Вариограммы каждого поднабора взвешиваются по количеству соседей, влияющих на прогноз. Это позволяет поднаборам, влияющим на большее количество соседей, иметь большее влияние на прогнозируемое значение.

Когда эмпирический байесовский кригинг выполняется в Мастере операций геостатистики, вы можете увидеть все поднаборы, которые используются для вычисления интерполируемого значения. На рисунке ниже интерполируемое значение находится в центре перекрестия на предварительной поверхности. Небольшая окружность вокруг перекрестия – это окрестность поиска, а два больших перекрывающихся полигона показывают точки, содержащиеся в двух поднаборах, используемых при вычислении интерполяции. В данном примере точки в середине карты содержатся в обоих поднаборах. Можно включить или выключить визуализацию полигонов при помощи кнопки, обозначенной стрелкой:

Интерполяция с поднаборами
Интерполяция выполняется по соседним поднаборам.

Модель кригинга

Эмпирический байесовский кригинг отличается от других методов кригинга в Geostatistical Analyst использованием внутренней случайной функции в качестве модели кригинга.

Другие методы кригинга предполагают, что процесс следует общему среднему (или заданному тренду) с отдельными отклонениями относительно этого среднего. Большие отклонения смещаются к среднему, поэтому значения никогда не отклоняются слишком сильно. В отличие от них, метод ЭБК не предполагает тенденции к общему среднему, поэтому большие отклонения могут с равной вероятностью стать как меньше, так и больше. Таким образом, внутренние случайные функции, по существу, вносят поправку на тенденции в данных.

Модель вариограммы

Для данного расстояния h эмпирический байесовский кригинг поддерживает следующие вариограммы:

  • Степенная
    • γ(h)= Nugget + b|h|α
  • Линейная
    • γ(h)= Nugget + b|h|
  • Плоский сплайн
    • γ(h)= Nugget + b|h2|*ln(|h|)

Самородок и b (уклон) должны быть положительными, а α (степень) принимать значения от 0,25 до 1,75. При этих ограничениях параметры оцениваются с использованием REML. Такие модели вариограмм не имеют параметра диапазона или порога, поскольку функции не имеют верхней границы.

В ЭБК можно анализировать эмпирическое распределение оценок параметров, поскольку в каждом местоположении рассчитывается множество вариограмм. На вкладках Самородок, Уклон и Степень отображаются распределения связанных параметров. На приведенном ниже рисунке показаны распределения параметров моделированных вариограмм, которые изображены на предыдущем рисунке:

Показаны распределения самородка, уклона и степени.
Распределения самородка, уклона и степени

Если щёлкнуть другое местоположение на поверхности предварительного просмотра, то распределение вариограмм и распределения параметров вариограмм будут показаны для нового местоположения. Если распределения по области данных меняются несущественно, значит, данные являются глобально стационарными. Распределения должны плавно меняться по области данных, но если в распределениях заметны значительные изменения на малых расстояниях, то увеличение значения Коэффициента перекрытия может сгладить переходы между распределениями.

Примечание:

Как описано в разделе Преобразования, применение преобразования меняет модель кригинга с внутренней случайной функции на модель простого кригинга, и несколько дополнительных моделей вариограмм становятся доступными.

Преобразования

Эмпирический байесовский кригинг предусматривает преобразование по методу нормальных меток для мультипликативного искажения с двумя вариантами базовых распределений: Эмпирическим и Логарифмическим эмпирическим. Для Логарифмического эмпирического преобразования необходимо, чтобы все значения были положительны – в этом случае и результаты интерполяции будут также положительны. Этот вариант подходит данных, которые не могут быть отрицательными, например, количество атмосферных осадков.

Если применяется преобразование, модель простого кригинга используется вместо внутренней случайной функции. Из-за этих изменений распределения параметров меняются на Самородок, Частичный порог и Диапазон.

Если для Типа вариограммы выбраны K-Бесселя или K-Бесселя с исключенным трендом, то для параметра Форма в K-Бесселя будет отображаться дополнительный граф. Также появляется дополнительная закладка Преобразование (Transformation), где показано распределение подобранных преобразований (по одному для каждой имитации). Как и на вкладке Вариограммы, распределение преобразований выделено цветом в зависимости от плотности и показаны линии квантилей.

Показаны распределения самородка, частичного порога, диапазона и преобразования.
Распределения самородка, частичного порога, диапазона и преобразования

Вариограммы

Все геостатистические методы предполагают пространственную автокорреляцию, а именно то, что близко расположенные сущности более похожи, чем удалённые, и вариограмма определяет, как это сходство уменьшается с расстоянием. Некоторые вариограммы (Экспоненциальные, например) предполагают, что сходство быстро уменьшается. Модель вариограммы Уиттла, с другой стороны, предполагает, что сходство уменьшается медленно. Даже с тем же самородком, диапазоном и порогом, эти две вариограммы определят уменьшение подобия в совершенно разных направлениях. Ключом к получению надежных результатов является выбор вариограммы, которая наиболее близко описывает поведение вашего явления. Модели вариограмм доступны для вас в зависимости от вашего выбора преобразования.

Если Преобразование установлено на Нет (None), то будут доступны следующие вариограммы:

  • Степенная (по умолчанию)
  • Линейная
  • Плоский сплайн

Если Преобразование установлено на Эмпирическое (Empirical) или Логарифмически эмпирическое (Log Empirical), то будут доступны следующие вариограммы:

  • Экспоненциальная (по умолчанию)
  • Экспоненциальная с исключенным трендом
  • Уиттла
  • Распределение Уиттла с исключенным трендом
  • K-Бесселя
  • Распределение K-Бесселя с исключенным трендом

Три модели вариограмм с исключенным трендом являются такими же, как и их аналоги без исключенного тренда, за исключением того, что будет применяться удаление тренда первого порядка. Удаление тренда оказывает незначительное влияние на скорость вычислений.

Преимущества и недостатки каждой модели

Каждая вариограмма имеет преимущества и недостатки. При выборе вариограммы, должны быть приняты во внимание время расчета и гибкость модели (способность точно вместить широкий спектр наборов данных):

  • Степенная
    • Преимущества: Относительно быстрая и гибкая. Обычно, это безопасный выбор, который обеспечивает баланс между производительностью и точностью.
    • Недостатки: Менее гибкая и медленнее, чем другие варианты.
  • Линейная
    • Преимущества: Очень быстрая.
    • Недостатки: Наименее гибкая модель.
  • Плоский сплайн
    • Преимущества: Очень быстрая. Отлично работает, когда присутствуют сильные тренды.
    • Недостатки: Менее гибкая, особенно когда отсутствует тренд.
  • Экспоненциальная
    • Преимущества: Предлагает гибкое преобразование. Быстрее, чем K-Бесселя или K-Бесселя с исключенным трендом.
    • Недостатки: Форма вариограммы не является гибкой. Медленная по сравнению со Степенью, Линейной и Плоским сплайном.
  • Экспоненциальная с исключенным трендом
    • Преимущества: Предлагает гибкое преобразование. Быстрее, чем K-Бесселя или K-Бесселя с исключенным трендом. Удаляет тренд первого порядка.
    • Недостатки: Форма вариограммы не является гибкой. Медленная по сравнению со Степенью, Линейной и Плоским сплайном.
  • Уиттла
    • Преимущества: Предлагает гибкое преобразование. Быстрее, чем K-Бесселя или K-Бесселя с исключенным трендом.
    • Недостатки: Форма вариограммы не является гибкой. Медленная по сравнению со Степенью, Линейной и Плоским сплайном.
  • Распределение Уиттла с исключенным трендом
    • Преимущества: Предлагает гибкое преобразование. Быстрее, чем K-Бесселя или K-Бесселя с исключенным трендом. Удаляет тренд первого порядка.
    • Недостатки: Форма вариограммы не является гибкой. Медленная по сравнению со Степенью, Линейной и Плоским сплайном.
  • K-Бесселя
    • Преимущества: Наиболее гибкая и точная.
    • Недостатки: Занимает самое большое время для вычислений.
  • Распределение K-Бесселя с исключенным трендом
    • Преимущества: Наиболее гибкая и точная. Удаляет тренд первого порядка.
    • Недостатки: Занимает самое большое время для вычислений.

Выбор вариограммы

Выбор вариограммы должен быть ясен в большинстве случаев, основываясь на следующих критериях:

  • Если вы готовы ждать, чтобы получить наиболее точные результаты, то должны быть выбраны варианты K-Бесселя или K-Бесселя с исключенным трендом. Наличие или отсутствие тренда должно определить, какой из них следует выбрать.
  • Если вам нужно получить результаты быстро и вы готовы пожертвовать некоторой точностью, то следует выбрать Линейную или Плоский Сплайн. Если тренд отсутствует или тренд слабый, лучшим выбором является Линейная.
  • Если вам нужен баланс точности и скорости, то Степень является хорошим выбором.
  • Если преобразование требуется, но вы не можете позволить себе ждать долгое время выходных данных, то следует выбрать Экспоненциальную или Уиттла (или их коллег с исключенным трендом). Вам следует выбрать ту, которая наилучшим образом соответствует эмпирическим вариациям Мастера операций геостатистики (см. ниже). Перекрестная проверка должна также быть принята во внимание.

Если вы пытаетесь сделать выбор между Экспоненциальной, Уиттла и их коллег с исключенным трендом, то вы должны выбрать вариограмму, которая обеспечивает лучшее визуальное соответствие эмпирическим вариациям (синие крестики на графике ниже). В идеале, эмпирические вариации должны попадать в середину спектра вариограмм. Например, на рисунке ниже синие крестики не попадают в середину спектра вариограммы (большинство попадает в верхнюю часть спектра):

Эмпирические вариации не должны попадать в середину спектра.
Эмпирические вариации не должны попадать в середину спектра.

Вместо этого, следующие вариограммы должны быть предпочтительными, так как синие крестики попадают в середину спектра вариограмм:

Эмпирические вариации должны попадать в середину спектра.
Эмпирические вариации должны попадать в середину спектра.

Вычисление расстояний для данных, записанных в географических координатах

Если ваши входные данные записаны в географической системе координат, все расстояния будут вычисляться с использованием хордовых расстояний. Хордовое расстояние между любыми двумя точками является прямой линией, соединяющей их. Эта линия идёт сквозь поверхность земли, а не по её поверхности. Для наглядности можно представить луч фонарика, проходящий сквозь прозрачную сферу. Длина луча между двумя точками, в которых луч входит и выходит из сферы, является хордовым расстоянием между данными точками. Основное преимущество использования хордового расстояния от вычисления геодезического расстояния заключается в скорости его выполнения. Но для выполнения кригинга на сфероидах есть ограничения.

Примечание:

Так как хордовые расстояния не очень хорошо аппроксимируют геодезические расстояния для дистанции свыше 30 десятичных градусов, радиус поиска не может превышать 15 десятичных градусов (следовательно диаметр не может превышать 30 градусов), и любое местоположения, к которого нет соседей в пределах 15 градусов, будет рассчитываться как NoData. Дополнительно, некоторые модели вариограмм требуют подбора плоской поверхности для каждого поднабора, чтобы выполнить удаление тренда. Эта поверхность не может быть точно создана для поднаборов, экстент которых превышает 30 десятичных градусов, поэтому экстент отдельных поднаборов ограничен 30 градусами для следующих моделей вариограмм:

  • Плоский сплайн
  • Экспоненциальная с исключенным трендом
  • Распределение Уиттла с исключенным трендом
  • Распределение K-Бесселя с исключенным трендом

Предыдущие версии ArcGIS рассматривали географические координаты, как координаты площади и вычисляли Евклидово расстояние между точками. Но ячейка 1 градус на 1 градус в действительности не является площадью, поэтому данное расстояние будет искажено. Это искажение становится больше, если двигаться дальше к северу или к югу от экватора.

Дополнительные = параметры для Эмпирического байесовского кригинга

Эмпирический байесовский кригинг использует три параметра, которые отсутствуют в других методах кригинга.

  • Максимальное число точек в каждой локальной модели – указывает число точек в каждом поднаборе. Чем больше размер поднабора, тем больше времени займет вычисление ЭБК.
  • Коэффициент перекрытия области локальной модели – указывает степень перекрытия между поднаборами. Каждая входная точка может попадать в несколько поднаборов, и коэффициент перекрытия определяет среднее число поднаборов, в которые попадает каждая точка. Например, если коэффициент перекрытия равен 1,5, то около половины точек будет использоваться в одном поднаборе и половина – в двух поднаборах. Чем выше значение коэффициента перекрытия, тем более сглаженной будет выходная поверхность, но тем больше время обработки.
  • Количество имитаций вариограмм – указывает число вариограмм, которые будут смоделированы для каждого поднабор. Чем больше имитаций, тем точнее интерполяция, но время обработки при этом также возрастает.

Список литературы

  • Дж-П Чилес и П. Дельфинер (1999). Глава 4 книги Геостатистика: Моделирование пространственной неопределенности. Нью-Йорк: John Wiley & Sons, Inc.
  • Krivoruchko K. (2012). "Empirical Bayesian Kriging," (Эмпирический байесовский кригинг) ArcUser Fall 2012.
  • Krivoruchko K. (2012). "Modeling Contamination Using Empirical Bayesian Kriging," (Моделирование загрязнения с использованием эмпирического байесовского кригинга) ArcUser Fall 2012.
  • Krivoruchko K. и Gribov A. (2014). "Pragmatic Bayesian kriging for non-stationary and moderately non-Gaussian data," (Прагматический байесовский кригинг для нестационарных и умеренно не гауссовых данных) Mathematics of Planet Earth. Материалы 15ой Ежегодной Конференции Международной Ассоциации Математических Наук о Земле, Springer 2014, стр. 61-64.
  • Krivoruchko K. and Gribov A. (2019). "Evaluation of empirical Bayesian kriging," Spatial Statistics Volume 32. https://doi.org/10.1016/j.spasta.2019.100368.
  • Дж. Пильц и Г. Спёк (2007). "Why Do We Need and How Should We Implement Bayesian Kriging Methods," (Зачем необходимы и как применять методы байесовского кригинга) Stochastic Environmental Research and Risk Assessment 22 (5):621–632.

Связанные разделы