Как работает Прогноз экспоненциального сглаживания

Инструмент Прогноз экспоненциального сглаживания использует метод экспоненциального сглаживания Холта-Уинтерса для разложения временных рядов в каждом местоположении куба пространство-время на сезонные и трендовые компоненты для эффективного прогнозирования будущих временных шагов в каждом местоположении. Первичным выходом является карта окончательного прогноза временного шага, а также информационные сообщения и всплывающие диаграммы. Вы также можете создать новый куб пространство-время, содержащий данные из исходного куба и добавленные прогнозируемые значения.

Модель экспоненциального сглаживания.

Модель экспоненциального сглаживания используется для прогнозирования будущих временных шагов.

Возможное применение

Экспоненциальное сглаживание является одним из старейших и наиболее изученных методов прогнозирования временных рядов. Оно наиболее эффективно, когда значения временного ряда следуют за постепенным трендом и отображают сезонное поведение, в котором значения следуют повторяющейся циклической схеме в течение заданного количества временных шагов.

Например, вы можете использовать этот инструмент в следующих приложениях:

  • Городские медицинские службы могут использовать этот инструмент для прогнозирования почасовой температуры в центре города во время жары, чтобы подготовиться к болезням, связанным с жарой.
  • Торговая сеть может использовать этот инструмент для прогнозирования спроса на отдельные товары на каждый день следующей недели.

Прогнозирование и проверка

Инструмент строит две модели при прогнозировании каждого временного ряда. Первая – это модель прогнозирования, которая используется для прогнозирования значений будущих временных шагов. Вторая – это модель проверки, которая используется для проверки прогнозируемых значений.

Модель прогнозирования

Модель прогнозирования строится путем экспоненциального сглаживания значений временного ряда в каждом местоположении куба пространства-времени. Затем эта модель используется для прогнозирования будущих временных шагов. Подгонка модели экспоненциального сглаживания к каждому временному ряду измеряется среднеквадратичной ошибкой прогноза (RMSE), которая равна квадратному корню из среднего квадрата разницы между моделью экспоненциального сглаживания и значениями временного ряда.

RMSE прогноза, где T – количество временных шагов, ct – подогнанное значение из экспоненциального сглаживания, а rt – необработанное значение временного ряда во времени t.

На следующем изображении показаны необработанные значения временного ряда и модель экспоненциального сглаживания, подогнанные к временному ряду, а также прогнозы для двух будущих временных шагов. RMSE прогноза показывает, насколько подогнанные значения из модели отличаются от необработанных значений временного ряда.

Модель прогнозирования для Прогноза экспоненциального сглаживания

RMSE прогноза только измеряет, насколько хорошо модель экспоненциального сглаживания соответствует необработанным значениям временного ряда. Она не измеряет, насколько хорошо модель фактически прогнозирует будущие значения. Обычно модели близко соответствуют временным рядам, но не дают точных прогнозов при экстраполяции. Эта проблема решается с помощью модели проверки.

Модель проверки

Модель проверки используется для определения того, насколько хорошо модель прогнозирования может прогнозировать будущие значения каждого временного ряда. Она строится путем исключения некоторых из последних временных шагов каждого временного ряда и подгонки модели экспоненциального сглаживания к данным, которые не были исключены. Затем эта модель используется для прогнозирования значений данных, которые были удержаны, а прогнозные значения сравниваются с необработанными значениями, которые были скрыты. По умолчанию 10 процентов временных шагов удерживаются для проверки, но это число можно изменить с помощью параметра Число временных шагов, исключаемых для проверки. Число исключенных временных шагов не может превышать 25 процентов от количества временных шагов, и проверка не выполняется, если указано 0. Точность прогнозов измеряется путем вычисления статистики RMSE Проверки, которая равна квадратному корню из среднего квадрата разности между прогнозируемыми и необработанными значениями исключенных временных шагов.

RMSE Проверки, где T – количество временных шагов, m – количество временных шагов, удерживаемых для проверки, ct – значение, прогнозируемое по первым T-m временным шагам, а rt – необработанное значение временного ряда, удерживаемого для проверки во время t.

На следующем изображении показана модель экспоненциального сглаживания, подогнанная к первой половине временного ряда и использовавшаяся для прогнозирования второй половины временного ряда. RMSE проверки измеряет, насколько прогнозируемые значения отличаются от необработанных значений на исключенных временных шагах.

Модель проверки для Прогноза экспоненциального сглаживания

Модель проверки важна, потому что она может напрямую сравнивать прогнозные значения с необработанными значениями, чтобы измерить, насколько хорошо модель экспоненциального сглаживания может прогнозировать. Хотя она фактически не используется для прогнозирования, она используется для обоснования модели прогноза.

Примечание:

Проверка в прогнозировании временных рядов аналогична, но не идентична общепринятой методике, называемой перекрестной проверкой. Разница заключается в том, что проверка прогноза всегда исключает последние временные шаги для проверки, а перекрестная проверка либо исключает случайное подмножество данных, либо исключает каждое значение последовательно.

Интерпретация

При интерпретации значений RMSE Прогноза и RMSE Проверки есть несколько соображений.

  • Значения RMSE не могут быть напрямую сопоставлены друг с другом, потому что они измеряют разные вещи. RMSE Прогноза измеряет соответствие модели необработанным значениям временного ряда, а RMSE Проверки измеряет, насколько хорошо модель может прогнозировать будущие значения. Поскольку RMSE Прогноза использует больше данных и не экстраполирует, она обычно меньше, чем RMSE Проверки.
  • Оба значения RMSE указаны в единицах данных. Например, если ваши данные представляют собой измерения температуры в градусах Цельсия, RMSE Проверки 50 очень высокая, поскольку это означает, что прогнозируемые значения в среднем отличались от истинных значений примерно на 50 градусов. Однако, если ваши данные представляют собой ежедневный доход в долларах США крупного розничного магазина, то же значение RMSE Проверки, равное 50, очень мало, поскольку это означает, что прогнозируемый ежедневный доход в среднем отличался от истинных значений только на 50 долларов в день.

Построение модели экспоненциального сглаживания

Существуют различные виды экспоненциального сглаживания, но все они работают путем разделения временных рядов на несколько компонентов. Значения каждого компонента оцениваются путем экспоненциального взвешивания компонентов из предыдущих временных шагов, так что влияние каждого временного шага уменьшается экспоненциально по мере продвижения вперед во времени. Каждый компонент определяется рекурсивно через подход модели пространства состояний, и каждый компонент зависит от всех других компонентов. Все параметры оцениваются с использованием оценки максимального подобия.

В этом инструменте все компоненты являются дополнительными, так что модель прогноза является суммой отдельных компонентов. Если используется сезонный компонент, инструмент использует метод Холта-Винтерса для временных рядов с наличием сезонности. Если сезонный компонент не используется, инструмент использует метод затухающего тренда. Вы можете найти подробную информацию об этих компонентах и уравнениях, определяющих модели пространства состояний, в учебнике в разделе Дополнительные материалы.

Компонент тренда

Первым компонентом модели экспоненциального сглаживания является компонент тренда. Этот компонент используется для моделирования постепенных и систематических изменений значений временного ряда. Он оценивается путем экспоненциального взвешивания значений каждого временного шага по разнице между его значением и значением предыдущего временного шага. Компонент тренда используется непосредственно при составлении прогнозов с использованием последнего тренда, обнаруженного моделью. Однако, чтобы не допустить, чтобы прогнозы следовали за последним трендом навсегда, тренд затухает и постепенного сглаживается в будущем. Затухание выравнивает тренд, умножая наклон значения тренда на каждом временном шаге на экспоненциально убывающее значение. Уровень затухания оценивается моделью, поэтому тренд может сглаживаться быстрее или медленнее (или не сглаживаться вообще в некоторых крайних случаях) у одних моделей по сравнению с другими при прогнозировании в будущем.

Сезонный компонент

Вторым компонентом экспоненциального сглаживания является сезонный компонент, который используется для моделирования моделей в данных, которые повторяются в течение определенного количества временных шагов. Форма и магнитуда модели в каждом сезоне могут меняться со временем, но продолжительность одного сезона должна быть одинаковой для всего временного ряда. Например, температура отображает сезонное поведение, соответствующее дням и ночам с самыми низкими температурами в течение ночи и самыми высокими температурами в течение дня. Хотя солнце может подниматься в разное время дня в течение года (и, таким образом, изменять форму и магнитуду температурного режима в течение одного дня), продолжительность сезона всегда составляет один день.

Как и с компонентом тренда, сезонный компонент данного временного шага определяется экспоненциальным взвешиванием сезонных значений предыдущих временных шагов. Однако вместо использования временных шагов непосредственно перед этим он взвешивает только предыдущие временные шаги, соответствующие той же точке в сезонном цикле. Например, если продолжительность сезона составляет четыре временных шага, сезонный компонент экспоненциально взвешивает значения за 4 временных шага до, за 8 временных шагов до, за 12 временных шагов до и т. д.

Если вы знаете количество временных шагов, которые соответствуют одному сезону в ваших данных, вы можете указать его в параметре Длина сезона и это значение будет использоваться каждым местоположением в кубе пространства-времени. Если вы не знаете продолжительность сезона, или если длительность сезона отличается для разных местоположений, значение параметра можно оставить пустым, и оптимальная продолжительность сезона будет оценена для каждого местоположения с использованием функции спектральной плотности. Подробнее об этой функции см. раздел Дополнительные ресурсы.

Для отдельного местоположения, если оптимальная длительность сезона, определенная с помощью спектрального анализа, больше одного временного шага и меньше одной трети от числа временных шагов в местоположении, продолжительность сезона устанавливается на это оптимальное значение. В противном случае местоположение не использует сезонный компонент. Длительность сезона, используемая в местоположении, сохраняется в поле Длительность сезона выходных объектов. Если сезонный компонент не используется, значение в этом поле равно 1. Этот рабочий процесс представлен на следующем рисунке:

Определение параметра Длительность сезона

Длительность сезона может быть указана или оценена для каждого местоположения.

Компонент уровня

Компонент уровня экспоненциального сглаживания представляет собой базовое значение временного ряда с учетом сезонности и тренда. При подгонке модели прогнозирования к входному кубу пространство-время уровень временного шага вычисляется путем экспоненциального взвешивания предыдущих уровней с учетом сезонности и тренда. При прогнозировании на будущее компонент уровня остается равным компоненту уровня последнего измеренного временного шага, а фактические прогнозы вместо этого определяются трендовым и сезонным компонентами.

Остаточный компонент и доверительные интервалы

Последний компонент – это остаточный компонент (или невязка). Этот компонент представляет собой разницу между истинным значением и значением, оцененным всеми другими компонентами. Он представляет собой оставшуюся неопределенность и ошибку в данных после моделирования компонентов тренда, сезона и уровня. Этот компонент важен, потому что он формирует основу для доверительных интервалов.

Для каждого прогнозируемого временного шага инструмент вычисляет верхнюю и нижнюю границы 90-процентного доверительного интервала для прогнозируемого значения. Прогнозируемое значение на каждом временном шаге представляет собой единственную наилучшую оценку для будущего значения, но доверительный интервал можно использовать для визуализации неопределенности и вероятного диапазона истинного будущего значения. Верхняя и нижняя границы сохраняются в виде полей и отображаются во всплывающих диаграммах Выходных объектов.

Доверительные интервалы оцениваются исходя из предположения, что остатки модели независимо и одинаково нормально распределены. При этом предположении могут быть получены формулы для доверительных интервалов. Эти формулы и их производные можно найти в учебнике в разделе Дополнительные материалы.

Визуализация компонентов

Вы можете визуализировать компоненты вашей модели экспоненциального сглаживания, создав выходной куб пространство-время. Используйте этот куб в инструменте Визуализация куба пространство-время в 3D с опцией Результаты прогнозирования для параметра Тема отображения. Для выходных объектов создается диаграмма, и различные компоненты модели экспоненциального сглаживания можно включать и выключать на панели Свойства диаграммы. Когда эти компоненты добавляются вместе, они создают модель прогнозирования и прогнозы для будущих временных шагов. На следующем рисунке показаны отдельные компоненты модели экспоненциального сглаживания, показанной на первом изображении этого раздела:

Компоненты экспоненциального сглаживания.

Модель экспоненциального сглаживания разделена на несколько компонентов.

Выходные данные инструмента

Первичным результатом этого инструмента является 2D-класс пространственных объектов, показывающий каждое местоположение в Входном кубе Пространство-Время, символизированное конечным прогнозируемым временным шагом, с прогнозами для всех других временных шагов, сохраненными в виде полей. Хотя каждое местоположение независимо прогнозируется и пространственные отношения не принимаются во внимание, карта может отображать пространственные структуры для областей с аналогичными временными рядами.

Всплывающие диаграммы

Если щелкнуть любой объект на карте с помощью инструмента Исследовать, на Всплывающей панели отобразится диаграмма, показывающая значения куба пространства-времени, а также встроенную модель экспоненциального сглаживания и прогнозные значения, а также 90-процентные доверительные интервалы для каждого прогноза. Значения куба пространства-времени отображаются синим цветом и связаны синей линией. Установленные значения отображаются оранжевым цветом и связаны пунктирной оранжевой линией. Прогнозные значения отображаются оранжевым цветом и связаны сплошной оранжевой линией, обозначающей прогноз модели. Светло-красные доверительные границы проводятся вокруг каждого прогнозируемого значения. Вы можете навести курсор на любую точку на графике, чтобы увидеть дату и значение точки.

Всплывающая диаграмма Прогноза экспоненциального сглаживания

Всплывающая диаграмма отображает исходные значения, подогнанные значения, прогнозные значения и доверительные интервалы.

Примечание:

Всплывающие диаграммы не создаются, когда выходные объекты сохраняются в виде шейп-файла. (.shp).

Сообщения геообработки

Инструмент предоставляет ряд сообщений с информацией о выполнении инструмента. Сообщения имеют три основных раздела.

В разделе Информация о входном кубе пространства-времени отображаются свойства входного куба пространства-времени, а также информация о количестве временных шагов, количестве местоположений и количестве пространственно-временных бинов. Свойства, отображаемые в этом разделе, зависят от того, как куб был изначально создан, поэтому информация варьируется от куба к кубу.

В разделе Детали анализа отображаются свойства результатов прогноза, включая количество прогнозируемых временных шагов, количество временных шагов, исключенных для проверки, процент мест с сезонностью и информацию о прогнозируемых временных шагах. Если значение для параметра Длительность сезона не указано, отображаются сводные статистические данные о предполагаемой продолжительности сезона, включая минимальное, максимальное, среднее значение, медиану и стандартное отклонение.

В разделе Суммарная точность в разных местоположениях отображаются сводные статистические данные для RMSE прогноза и RMSE проверки среди всех местоположений. Для каждого значения отображаются минимальное, максимальное, среднее значение, медиана и стандартное отклонение.

Примечание:

Сообщения геообработки отображаются в нижней части панели Геообработка в процессе выполнения инструмента. Вы можете получить доступ к сообщениям, переместив курсор мыши на индикатор выполнения, щелкнув на всплывшую кнопку Открыть всплывающее окно или развернув раздел сообщений на панели Геообработка. Вы можете получить доступ к сообщениям для выполненного ранее инструмента, используя историю геообработки.

Поля выходных объектов

В дополнение к Object ID, полям геометрии и полю, содержащему всплывающие диаграммы, Выходные объекты будут иметь следующие поля:

  • Location ID (LOCATION) – идентификатор местоположения соответствующего местоположения куба пространства-времени.
  • Прогноз для (переменной анализа) для (временного шага) (FCAST_1, FCAST_2, и т.д.) – прогнозируемое значение каждого будущего шага по времени. Псевдоним поля отображает название Переменной анализа и дату прогноза. Поле этого типа создается для каждого прогнозируемого временного шага.
  • Верхняя граница для (Переменной анализа) для (Временного шага) (HIGH_1, HIGH_2, и т.д.) – верхняя граница 90-процентного доверительного интервала для прогнозируемой величины каждого будущего временного шага. Псевдоним поля отображает название Переменной анализа и дату прогноза. Поле этого типа создается для каждого прогнозируемого временного шага.
  • Нижняя граница для (Переменной анализа) для (Временного шага) (LOW_1, LOW_2, и т.д.) – нижняя граница 90-процентного доверительного интервала для прогнозируемого значения каждого будущего временного шага. Псевдоним поля отображает название Переменной анализа и дату прогноза. Поле этого типа создается для каждого прогнозируемого временного шага.
  • Средне-квадратичная ошибка прогноза (F_RMSE) – средне-квадратичная ошибка прогноза.
  • Средне-квадратичная ошибка проверки (V_RMSE) – среднеквадратичная ошибка проверки. Если для проверки не было исключено ни одного временного шага, это поле не создается.
  • Длительность сезона (SEASON) – количество временных шагов, соответствующих одному сезону для местоположения. Значение 1 в этом поле означает, что сезонность отсутствует.
  • Метод прогнозирования (METHOD) – текстовое поле, отображающее модель, используемую для данного местоположения. Для этого инструмента всегда значение экспоненциальное сглаживание. Это поле позволяет указать, какие модели используются в инструменте Выполнение прогнозов по местоположению.

Выходной куб пространство-время

Если указан Выходной куб пространство-время он будет содержать значения исходного куба пространство-время и добавленные прогнозированные значения. Этот новый куб пространство-время можно визуализировать с использованием инструментов Визуализировать куб пространство-время в 2D или Визуализировать куб пространство-время в 3D или использовать в качестве входного в инструментах набора Углубленный анализ пространственно-временных закономерностей, например, Анализ возникновения горячих точек или Кластеризация временных рядов.

Несколько прогнозируемых кубов пространство-время можно сравнить и объединить с помощью инструмента Оценить прогнозы по местоположению. Это позволит создавать несколько прогнозных кубов с использованием различных инструментов и параметров прогнозирования, а инструмент будет определять наилучший прогноз для каждого местоположения с помощью RMSE прогноза или RMSE проверки.

Лучшие практики и ограничения

При принятии решения, подходит ли этот инструмент для ваших данных и какие параметры вы должны выбрать, следует принять во внимание несколько вещей.

  • По сравнению с другими инструментами прогнозирования в наборе инструментов Прогнозирование временных рядов, этот инструмент рекомендуется для данных с умеренными трендами и сильным сезонным поведением. Экспоненциальная модель предполагает, что сезонное поведение и тренд могут быть разделены, поэтому она наиболее эффективна для данных, тренд которых изменяется постепенно и следует последовательным сезонным моделям во времени. Сезонный компонент модели является необязательным, поэтому этот инструмент можно использовать для данных, которые не отображают сезонность, но лучше всего подходят для сильного сезонного поведения.
  • Важно решить, сколько временных шагов исключить для проверки. Чем больше временных шагов исключено, тем меньше временных шагов остается для оценки модели проверки. Однако, если исключено слишком мало временных шагов, RMSE проверки оценивается с использованием небольшого количества данных и может вводить в заблуждение. Рекомендуется исключить как можно больше временных шагов при сохранении достаточного количества временных шагов для оценки модели проверки. Также рекомендуется, чтобы вы удерживали как минимум столько временных шагов для проверки, сколько временных шагов вы намереваетесь прогнозировать, если у вашего пространственно-временного куба достаточно временных шагов, чтобы это сделать.

Дополнительные ресурсы

Для получения дополнительной информации о прогнозировании с экспоненциальным сглаживанием с использованием подхода пространства состояний см. следующий учебник:

Для получения дополнительной информации о функции спектральной плотности, используемой для оценки продолжительности сезона, см. функцию findfrequency в следующих ссылках:

  • Hyndman R, Athanasopoulos G, Bergmeir C, Caceres G, Chhay L, O'Hara-Wild M, Petropoulos F, Razbash S, Wang E, and Yasmeen F (2019). "Forecasting functions for time series and linear models." R package version 8.7, https://pkg.robjhyndman.com/forecast.
  • Hyndman RJ and Khandakar Y (2008). "Automatic time series forecasting: the forecast package for R." Journal of Statistical Software, 26(3), pp. 1–22. https://www.jstatsoft.org/article/view/v027i03.

Связанные разделы