Как удалять тренды из данных

Доступно с лицензией Geostatistical Analyst.

Из данных можно удалить поверхностный тренд и применить кригинг или кокригинг на данных без тренда (остаточных). Рассмотрим аддитивную модель:

Z(s) = µ(s) + ε(s),

где µ(s) ― это некая детерминированная поверхность (тренд), а ε(s) ― это пространственно автокоррелированная ошибка.

Концептуально тренд является фиксированным, что означает, что при повторной имитации данных тренд будет всегда оставаться неизменным. Однако колебания имитированной поверхности все равно отмечаются из-за случайных автокоррелированных ошибок. Тренд обычно меняется в пространстве постепенно, а случайные ошибки меняются гораздо быстрее. В качестве примера наблюдаемого (и известного в теории) градиента температуры, меняющейся с изменением высоты, можно привести метеорологические данные. Однако наблюдения в определенный день показывают локальные изменения из-за атмосферных фронтов, подстилающего земельного покрова, облачности и так далее, которые являются менее предсказуемыми, поэтому в модели для локальных колебаний выполняется автокорреляция.

К сожалению, не существует волшебного способа точного разделения данных на тренд и случайные ошибки. Далее приведено описание возможного решения этой задачи.

На следующей диаграмме удаления тренда данные имитировались из двух моделей. Одной была модель ординарного кригинга, где Z(s) = µ + ε(s) а ошибки e(s) были автокоррелированы. Процесс имел среднее µ = 0 с экспоненциальной вариограммой. Другой набор данных был симулирован с помощью универсального кригинга, где µ(s) = ß0 + ß1x(s) + ß2x2(s). Он показан сплошной линией, но ошибки были независимыми со средним 0 и вариацией 1.

Диаграмма удаления тренда

Данные отличить сложно (синие круги ― это результат выполнения модели ординарного кригинга, а красные ― модели универсального кригинга с независимыми ошибками). С помощью пространственной автокорреляции можно создавать гибкие прогнозируемые поверхности, а этот пример показывает, что сложно бывает выбрать между моделями, если учитывать только данные. В целом, следует использовать ординарный кригинг, если только нет обоснованных причин удалять поверхность тренда. Делать это следует потому, что модели должны быть как можно более простыми. Если удалить поверхность тренда, будет больше параметров для анализа. Двухмерная квадратичная поверхность добавляет к параметру деления еще пять параметров, которые необходимо будет проанализировать. Чем большее количество параметров анализируется, тем менее точной становится модель.

Однако могут быть случаи, когда пространственные координаты выступают посредником к определенному известному тренду в данных. Например, урожайность может меняться с широтой. Не из-за самих координат, а потому что температура, влажность, количество осадков и так далее меняются с изменением широты. В этих случаях удаление поверхностей тренда является обоснованным. Опять же, поверхности должны быть как можно более простыми, такими, как полиномы первого или второго порядка.

Существует более чем реальная опасность излишней подгонки данных при использовании трендов, когда в остатках оставляется слишком незначительная вариация, чтобы надлежащим образом учесть неопределенность интерполяции. Следует всегда выполнять перекрестную проверку моделей, особенно при использовании моделей трендов.

Более подробно о преобразованиях и трендах