Что такое Прогнозирование регрессии ЭБК?

Доступно с лицензией Geostatistical Analyst.

Введение

Прогнозирование регрессии ЭБК – это метод геостатистической интерполяции, в котором используется Эмпирический байесовский кригинг (EBK) с растрами независимых переменных, которые будут оказывать влияние на значения интерполируемых данных. В этом подходе объединены методы кригинга и регрессионного анализа для выполнения прогнозов, которые будут более точными, чем результаты регрессионного анализа или кригинга по отдельности.

Более подробно об эмпирическом байесовском кригинге

Более подробно об основах регрессионного анализа

Основы регрессионных моделей кригинга

Как можно понять из их имени, регрессионные модели кригинга представляют собой комбинацию регрессии по методу наименьших квадратов и простого кригинга. Эти регрессионные модели и модели кригинга производят прогноз зависимой переменной за счет разделения оценки среднего значения и значения ошибок:

Dependent variable = (mean) + (error)

Метод наименьших квадратов (МНК) производит моделирование среднего значения в виде взвешенной суммы независимых переменных (называемой уравнением регрессии), и подразумевается, что ошибки представляют собой случайный некоррелированный шум. Простой кригинг производит моделирование ошибок с помощью модели вариограммы/ковариации, а среднее значение считается постоянным. В таком смысле с помощью МНК выполняется основная часть анализа для расчета среднего значения, а с помощью кригинга рассчитываются ошибки. Регрессионные модели кригинга, однако, одновременно производят оценку регрессионной модели для получения среднего значения и модели вариограммы/ковариации для получения значения ошибки. Поскольку одновременно учитываются оба компонента, регрессионные модели кригинга позволяют делать более точные прогнозы, чем те, которые могут быть получены при использовании регрессии или кригинга по отдельности. В действительности и регрессия МНК, и обычный кригинг представляют собой особый вариант регрессионного кригинга.

При выборе растров независимых переменных нужно быть осторожным в выборе переменных. Каждая независимая переменная должна оказывать влияние на значение зависимой переменной. Рекомендуется выбирать независимые переменные таким же способом, как и для метода Наименьшие квадраты. Однако нет необходимости отмечать исследовательские переменные, связанные друг с другом. Это поясняется в следующем разделе.

Анализ по методу главных компонент

Перед созданием регрессионной модели кригинга производится расчет главных компонент растров независимых переменных, и эти главные компоненты используются в качестве независимых переменных в регрессионной модели. Главные компоненты представляют собой линейные комбинации (взвешенные суммы) независимых переменных и рассчитываются таким образом, чтобы главная компонента не имела корреляции ни с какой из других главных компонент. Поскольку все они не связаны друг с другом (не коррелируют), при использовании главных компонент решается проблема мультиколлинеарности (независимые переменные, которые коррелируют друг с другом) в регрессионной модели.

Каждая главная компонента получает определенную часть общей изменчивости независимых переменных. Во многих случаях, большая часть информации, хранящейся в независимых переменных, можно зарегистрировать всего в нескольких главных компонентах. Исключив наименее полезные главные компоненты, процесс расчета модели становится более устойчивым без значительной потери точности. Вы можете управлять тем, какую вариацию главные компоненты должны учитывать при использовании параметра Минимальный процент суммарной вариации.

Почему независимые переменные должны быть растрами?

При использовании этого инструмента все независимые переменные должны быть представлены в виде растров, а регрессионная модель кригинга будет построена при извлечении значений растров независимых переменных, которые находятся под каждой из входных точек. Возможно, вы хотели бы знать, почему в качестве независимых переменных нельзя использовать поля точечного класса объектов, в которых хранятся значения зависимой переменной. Чтобы создать прогноз в новом местоположении, в нем должны быть измерены независимые переменные, для вычисления прогноза по модели кригинга регрессии. Если в качестве независимых переменных использовались бы значения в полях объектов зависимых переменных, то вы смогли бы произвести прогнозы только в местоположении входных точек. Для интерполяции (прогноза значений в новом местоположении) независимые переменные должны быть измерены в местоположениях, значения которых вы хотите интерполировать. Самым удобным способом определения независимых переменных в каждом из местоположений прогноза является хранение независимых переменных в виде растров.

Если данные ваших независимых переменных хранятся не в формате растра, а в виде значений полей объектов зависимых переменных, то вам нужно сконвертировать каждую независимую переменную в растр, используя один из доступных методов интерполяции. Однако следует заметить, что при использовании Прогнозирования регрессии ЭБК подразумевается, что значения независимых переменных являются измеренными (а не интерполированными), так что ошибки, которые могли возникнуть в ходе интерполяции независимых переменных, не будут учитываться в дальнейших расчетах. На самом деле, это означает, что полученные прогнозы могут быть необъективны, и стандартные ошибки могут быть недооценены.

Создание и оценка локальных моделей

Одним из главных преимуществ Прогнозирования регрессии ЭБК по сравнению с другими регрессионными моделями кригинга является то, что расчет моделей производится локально. Это позволяет модели изменять свое поведение в различных областях и учитывать местные воздействия. Например, отношения между независимыми и зависимыми переменными могут меняться в различных регионах, Прогнозирование регрессии ЭБК может точно смоделировать эти региональные изменения.

Прогнозирование регрессии ЭБК учитывает эти локальные воздействия за счет того, что перед моделированием происходит разделение входных данных на подмножества определенного размера. Число точек в каждом из локальных подмножеств определяется в параметре Максимальное число точек в каждой локальной модели. Регрессионная модель кригинга будет рассчитана для каждого из локальных поднаборов независимо, а затем эти локальные модели будут объединены для получения полной карты прогноза. С другой стороны локальные поднаборы могут быть определены с помощью параметра Поднабор полигональных объектов. Если для этого параметра приведены полигональные объекты, то каждый полигон будет определять один поднабор, а все точки, находящиеся внутри этого полигона, будут обрабатываться как поднабор. В этом случае каждый полигон должен содержать от 20 до 1000 точек.

Параметр Выходной диагностический класс объектов можно использовать для получения диагностических сведений для каждой из этих локальных моделей. Использование этого параметра приводит к созданию класса полигональных объектов, в котором каждый полигон содержит все точки, которые вносят вклад в локальную модель. Например, если имеется пять подмножеств, то будет создано пять полигонов, и каждый полигон будет представлять регион каждого подмножества. Полигональный класс объектов будет также содержать различные поля с диагностической информацией о том, насколько успешно локальная модель применена для каждого из подмножеств. Если приведены полигональные объекты поднабора, то выходной класс объектов диагностики будет иметь ту же геометрию, что и полигоны поднабора.

Трансформации и модели вариограмм

Для Прогнозирования регрессии ЭБК имеется несколько трансформаций и моделей вариограмм.

Доступны следующие варианты трансформации:

  • Нет – для зависимой переменной не используется трансформация.
  • Эмпирическая – для зависимой переменной используется непараметрическое смешение ядер. Рекомендуется использовать эту опцию, когда для зависимой переменной имеется ненормальное распределение.
  • Логарифмическая эмпирическая – для зависимой переменной используется логарифмическая трансформация перед применением эмпирической трансформации. Данная опция обеспечит то, что каждое прогнозирование будет больше ноля, поэтому ее рекомендуется использовать, когда зависимая переменная не может быть негативной, например, для измерений дождевых осадков.

Доступны следующие модели вариограмм:

  • Экспоненциальная – эта модель вариограммы подразумевает, что пространственная автокорреляция ошибки будет уменьшаться сравнительно быстро по сравнению с другими опциями. Это значение по умолчанию.
  • Самородок – эта модель вариограммы подразумевает, что ошибки будут пространственно независимыми. Использование этой опции равносильно использованию линейной регрессии по методу наименьших квадратов, так что эта опция редко полезна для выполнения непосредственно интерполяции. Однако ее можно использовать в виде исходной точки, чтобы увидеть, насколько существенными будут улучшения, которые вы сможете получить при использовании регрессионного кригинга, по сравнению с методом регрессии по методу наименьших квадратов.
  • Уиттл – эта модель вариограммы подразумевает, что пространственная автокорреляция ошибки будет уменьшаться сравнительно медленно по сравнению с другими опциями.
  • K-Бессель – эта модель вариограммы позволит пространственной автокорреляции ошибки уменьшаться медленно, быстро или средне. Поскольку она очень гибкая, вы сможете получить самые точные прогнозы, однако для нее требуется расчет дополнительного параметра, поэтому для ее выполнения будет нужно больше времени. Если вы не уверены, какую вариограмму следует использовать, и вы готовы ждать дольше для получения самых точных результатов, рекомендуется использовать эту опцию.

Справочная информация

  • J-P. Chilès, P. Delfiner (1999). Глава 4 Geostatistics: Modeling Spatial Uncertainty. Нью-Йорк: 'John Wiley & Sons, Inc.
  • Krivoruchko K. (2012). "Empirical Bayesian Kriging," (Эмпирический байесовский кригинг) ArcUser Fall 2012.
  • Krivoruchko K. (2012). "Modeling Contamination Using Empirical Bayesian Kriging," (Моделирование загрязнения с использованием эмпирического байесовского кригинга) ArcUser Fall 2012.
  • Krivoruchko K. и Gribov A. (2014). "Pragmatic Bayesian kriging for non-stationary and moderately non-Gaussian data," (Прагматический байесовский кригинг для нестационарных и умеренно не гауссовых данных) Mathematics of Planet Earth. Материалы 15ой Ежегодной Конференции Международной Ассоциации Математических Наук о Земле, Springer 2014, pp. 61-64.
  • Krivoruchko K. and Gribov A. (2019). "Evaluation of empirical Bayesian kriging," Spatial Statistics Volume 32. https://doi.org/10.1016/j.spasta.2019.100368.
  • J. Pilz, G. Spöck (2007). "Why Do We Need and How Should We Implement Bayesian Kriging Methods," (Зачем необходимы и как применять методы байесовского кригинга) Stochastic Environmental Research and Risk Assessment (Стохастические исследования окружающей среды и оценка риска) 22 (5):621–632.

Связанные разделы