Как работает Прогноз экспоненциального сглаживания

Инструмент Прогноз экспоненциального сглаживания использует метод экспоненциального сглаживания Холта-Уинтерса для разложения временных рядов в каждом местоположении куба пространство-время на сезонные и трендовые компоненты для эффективного прогнозирования будущих временных шагов в каждом местоположении. Основным результатом является карта с итоговым временным шагом прогноза, а также информативные сообщения и всплывающие диаграммы. Вы также можете создать новый куб пространства-времени, содержащий данные из оригинального куба, с присоединенными значениями прогноза. Кроме того, у вас есть возможность обнаружить выбросы в каждом временном ряду, чтобы определить местоположения и времена, которые значительно отклоняются от закономерностей и тенденций остальных временных рядов.

Модель экспоненциального сглаживания.

Модель экспоненциального сглаживания используется для прогнозирования будущих временных шагов.

Возможное применение

Экспоненциальное сглаживание является одним из старейших и наиболее изученных методов прогнозирования временных рядов. Оно наиболее эффективно, когда значения временного ряда следуют за постепенным трендом и отображают сезонное поведение, в котором значения следуют повторяющейся циклической схеме в течение заданного количества временных шагов.

Например, вы можете использовать этот инструмент в следующих областях:

  • Городские медицинские службы могут использовать этот инструмент для прогнозирования почасовой температуры в центре города во время жары, чтобы подготовиться к болезням, связанным с жарой.
  • Торговая сеть может использовать этот инструмент для прогнозирования спроса на отдельные товары на каждый день следующей недели.

Прогнозирование и проверка

Инструмент создает две модели во время прогнозирования каждого из временных рядов. Первая - это модель прогноза, которая используется для прогнозирования значений следующих временных шагов. Вторая модель - это модель проверки, которая используется для проверки спрогнозированных значений.

Модель прогнозирования

Модель прогнозирования строится путем экспоненциального сглаживания значений временного ряда в каждом местоположении куба пространства-времени. Затем эта модель используется для прогнозирования будущих временных шагов. Подгонка модели экспоненциального сглаживания к каждому временному ряду измеряется среднеквадратичной ошибкой прогноза (RMSE), которая равна квадратному корню из среднего квадрата разницы между моделью экспоненциального сглаживания и значениями временного ряда.

RMSE прогноза, где T – количество временных шагов, ct – подогнанное значение из экспоненциального сглаживания, а rt – необработанное значение временного ряда во времени t.

На следующем изображении показаны необработанные значения временного ряда и модель экспоненциального сглаживания, подогнанные к временному ряду, а также прогнозы для двух будущих временных шагов. RMSE прогноза показывает, насколько подогнанные значения из модели отличаются от необработанных значений временного ряда.

Модель прогнозирования для Прогноза экспоненциального сглаживания

RMSE прогноза только измеряет, насколько хорошо модель экспоненциального сглаживания соответствует необработанным значениям временного ряда. Он не измеряет, насколько хорошо модель прогноза реально прогнозирует будущие значения. Обычно модели близко соответствуют временным рядам, но не дают точных прогнозов при экстраполяции. Эта проблема решается с помощью модели проверки.

Модель проверки

Модель проверки используется для определения, насколько хорошо модель прогноза может предсказывать будущие значения для каждого временного ряда. Она строится путем исключения некоторых из последних временных шагов каждого временного ряда и подгонки модели экспоненциального сглаживания к данным, которые не были исключены. Затем эта модель используется для прогнозирования значений данных, которые были удержаны, а прогнозные значения сравниваются с необработанными значениями, которые были скрыты. По умолчанию 10 процентов временных шагов удерживаются для проверки, но это число можно изменить с помощью параметра Число временных шагов, исключаемых для проверки. Число исключаемых временных шагов не может превышать 25 процентов от общего числа временных шагов, и проверка не выполняется, если указано значение 0. Точность прогнозов измеряется путем вычисления статистики Проверяемое значение ошибки RMSE, которая равна квадратному корню из средней квадратной разницы между прогнозом и сырыми значениям для исключенных временных шагов.

Проверяемое значение ошибки RMSE, где T равно числу временных шагов, m - число временных шагов, удержанных для проверки, ct - значение, прогнозируемое из первых T-m временных шагов, а rt - это необработанное значение во временных рядах, удержанных для проверки в момент времени t.

На следующем изображении показана модель экспоненциального сглаживания, подогнанная к первой половине временного ряда и использовавшаяся для прогнозирования второй половины временного ряда. Проверяемое значение ошибки RMSE измеряет, насколько прогнозируемые значения отличаются от сырых значений для удержанных временных шагов.

Модель проверки для Прогноза экспоненциального сглаживания

Модель проверки важна, потому что она может напрямую сравнивать прогнозные значения с необработанными значениями, чтобы измерить, насколько хорошо модель экспоненциального сглаживания может прогнозировать. Хотя она и не используется непосредственно для прогноза, она используется для обоснования модель прогноза.

Примечание:

Проверка в прогнозе временных рядов похожа, но не идентична общему методу, называемому перекрестной проверкой. Разница заключается в том, что проверка прогноза всегда исключает итоговые временные шаги для проверки, а перекрестная проверка либо исключает случайных поднабор данных, или исключает каждое последовательное значение.

Интерпретация

Существует несколько важных моментов при интерпретации прогнозных значений ошибки RMSE и проверяемых значений ошибки RMSE.

  • Значения RMSE нельзя сравнивать друг с другом напрямую, поскольку они измеряют разные величины. RMSE Прогноза измеряет соответствие модели необработанным значениям временного ряда, а RMSE Проверки измеряет, насколько хорошо модель может прогнозировать будущие значения. Поскольку RMSE Прогноза использует больше данных и не экстраполирует, она обычно меньше, чем RMSE Проверки.
  • Оба значения ошибок RMSE используют единицы измерения данных. Например, если ваши данные представляют собой измерения температуры в градусах Цельсия, RMSE Проверки 50 очень высокая, поскольку это означает, что прогнозируемые значения в среднем отличались от истинных значений примерно на 50 градусов. Однако если ваши данные представляют ежедневный доход крупного сетевого магазина в долларах, то же проверяемое значение ошибки RMSE, равное 50, является весьма небольшим, поскольку означает, что прогнозируемый ежедневный доход отличается от истинных значений в среднем на $50 в день.

Построение модели экспоненциального сглаживания

Существуют различные виды экспоненциального сглаживания, но все они работают путем разделения временных рядов на несколько компонентов. Значения каждого компонента оцениваются путем экспоненциального взвешивания компонентов из предыдущих временных шагов, так что влияние каждого временного шага уменьшается экспоненциально по мере продвижения вперед во времени. Каждый компонент определяется рекурсивно через подход модели пространства состояний, и каждый компонент зависит от всех других компонентов. Все параметры оцениваются с использованием оценки максимального подобия.

В этом инструменте все компоненты являются дополнительными, так что модель прогноза является суммой отдельных компонентов. Если используется сезонный компонент, инструмент использует метод Холта-Винтерса для временных рядов с наличием сезонности. Если сезонный компонент не используется, инструмент использует метод затухающего тренда. Вы можете найти подробную информацию об этих компонентах и уравнениях, определяющих модели пространства состояний, в учебнике в разделе Дополнительные материалы.

Компонент тренда

Первым компонентом модели экспоненциального сглаживания является компонент тренда. Этот компонент используется для моделирования постепенных и систематических изменений значений временного ряда. Он оценивается путем экспоненциального взвешивания значений каждого временного шага по разнице между его значением и значением предыдущего временного шага. Компонент тренда используется непосредственно при составлении прогнозов с использованием последнего тренда, обнаруженного моделью. Однако, чтобы не допустить, чтобы прогнозы следовали за последним трендом навсегда, тренд затухает и постепенного сглаживается в будущем. Затухание выравнивает тренд, умножая наклон значения тренда на каждом временном шаге на экспоненциально убывающее значение. Уровень затухания оценивается моделью, поэтому тренд может сглаживаться быстрее или медленнее (или не сглаживаться вообще в некоторых крайних случаях) у одних моделей по сравнению с другими при прогнозировании в будущем.

Сезонный компонент

Вторым компонентом экспоненциального сглаживания является сезонный компонент, который используется для моделирования моделей в данных, которые повторяются в течение определенного количества временных шагов. Форма и магнитуда модели в каждом сезоне могут меняться со временем, но продолжительность одного сезона должна быть одинаковой для всего временного ряда. Например, температура отображает сезонное поведение, соответствующее дням и ночам с самыми низкими температурами в течение ночи и самыми высокими температурами в течение дня. Хотя солнце может подниматься в разное время дня в течение года (и, таким образом, изменять форму и магнитуду температурного режима в течение одного дня), продолжительность сезона всегда составляет один день.

Как и с компонентом тренда, сезонный компонент данного временного шага определяется экспоненциальным взвешиванием сезонных значений предыдущих временных шагов. Однако вместо использования временных шагов непосредственно перед этим он взвешивает только предыдущие временные шаги, соответствующие той же точке в сезонном цикле. Например, если продолжительность сезона составляет четыре временных шага, сезонный компонент экспоненциально взвешивает значения за 4 временных шага до, за 8 временных шагов до, за 12 временных шагов до и т. д.

Если вы знаете количество временных шагов, которые соответствуют одному сезону в ваших данных, вы можете указать его в параметре Длина сезона и это значение будет использоваться каждым местоположением в кубе пространства-времени. Если вы не знаете продолжительность сезона, или если эта продолжительность отличается для разных местоположений, значение параметра можно оставить пустым, и оптимальная продолжительность будет определена с помощью функции спектральной плотности для каждого местоположения. Подробную информацию об этой функции см. в разделе Дополнительные ресурсы.

Для отдельного местоположения, если оптимальная длительность сезона, определенная с помощью спектрального анализа, больше одного временного шага и меньше одной трети от числа временных шагов в местоположении, продолжительность сезона устанавливается на это оптимальное значение. В противном случае местоположение не использует сезонный компонент. Длительность сезона, используемая в местоположении, сохраняется в поле Длительность сезона выходных объектов. Если сезонный компонент не используется, значение в этом поле равно 1. Этот рабочий процесс представлен на следующем рисунке:

Определение параметра Длительность сезона

Длительность сезона может быть указана или оценена для каждого местоположения.

Компонент уровня

Компонент уровня экспоненциального сглаживания представляет собой базовое значение временного ряда с учетом сезонности и тренда. При подгонке модели прогнозирования к входному кубу пространство-время уровень временного шага вычисляется путем экспоненциального взвешивания предыдущих уровней с учетом сезонности и тренда. При прогнозировании на будущее компонент уровня остается равным компоненту уровня последнего измеренного временного шага, а фактические прогнозы вместо этого определяются трендовым и сезонным компонентами.

Остаточный компонент и доверительные интервалы

Последний компонент – это остаточный компонент (или невязка). Этот компонент представляет собой разницу между истинным значением и значением, оцененным всеми другими компонентами. Он представляет собой оставшуюся неопределенность и ошибку в данных после моделирования компонентов тренда, сезона и уровня. Этот компонент важен, потому что он формирует основу для доверительных интервалов.

Для каждого прогнозируемого временного шага инструмент вычисляет верхнюю и нижнюю границы 90-процентного доверительного интервала для прогнозируемого значения. Прогнозируемое значение на каждом временном шаге представляет собой единственную наилучшую оценку для будущего значения, но доверительный интервал можно использовать для визуализации неопределенности и вероятного диапазона истинного будущего значения. Верхняя и нижняя границы сохраняются в виде полей и отображаются во всплывающих диаграммах Выходных объектов.

Доверительные интервалы оцениваются исходя из предположения, что остатки модели независимо и одинаково нормально распределены. При этом предположении могут быть получены формулы для доверительных интервалов. Эти формулы и их производные можно найти в учебнике в разделе Дополнительные материалы.

Визуализация компонентов

Вы можете визуализировать компоненты вашей модели экспоненциального сглаживания, создав выходной куб пространство-время. Используйте этот куб в инструменте Визуализация куба пространство-время в 3D с опцией Результаты прогнозирования для параметра Тема отображения. Для выходных объектов создается диаграмма, и различные компоненты модели экспоненциального сглаживания можно включать и выключать на панели Свойства диаграммы. Когда эти компоненты добавляются вместе, они создают модель прогнозирования и прогнозы для будущих временных шагов. На следующем рисунке показаны отдельные компоненты модели экспоненциального сглаживания, показанной на первом изображении этого раздела:

Компоненты экспоненциального сглаживания.

Модель экспоненциального сглаживания разделена на несколько компонентов.

Идентификация выбросов временных рядов

Выбросы в данных временных рядов - это значения, которые существенно отличаются от закономерностей и тенденций других значений во временных рядах. Например, большое количество покупок в интернете во время праздников или большое количество дорожно-транспортных происшествий во время сильных ливней, скорее всего, будут обнаружены как выбросы в их временных рядах. Простые ошибки ввода данных, такие как пропуск десятичной части числа, являются еще одним распространенным источником выбросов. Выявление выбросов в прогнозе временных рядов важно, поскольку выбросы влияют на прогнозную модель, которая используется для прогнозирования будущих значений, и даже небольшое количество выбросов во временных рядах местоположения может значительно снизить точность и надежность прогнозов. Местоположения с выбросами, особенно в начале или в конце временного ряда, могут давать неверные прогнозы, и идентификация этих местоположений помогает определить, насколько вы должны быть уверены в прогнозируемых значениях в каждом местоположении.

Выбросы определяются не просто их исходными значениями, а тем, насколько их значения отличаются от установленных значений прогнозной модели. Это означает, что определение того, является ли значение выбросом, является контекстуальным и зависит как от его места, так и от времени. Прогнозная модель определяет, какое значение ожидается на основе всего временного ряда, а выбросы – это значения, которые сильно отклоняются от этого базового уровня. Например, рассмотрим временной ряд среднегодовой температуры. Поскольку средние температуры увеличились за последние несколько десятилетий, подходящая прогнозная модель температуры также будет увеличиваться с течением времени, чтобы отразить это увеличение. Это означает, что значение температуры, которое будет считаться типичным, а не выбросом в 1950 году, скорее всего, будет считаться выбросом, если такая же температура произойдет в 2020 году. Другими словами, типичная температура 1950 года будет считаться очень низкой по стандартам 2020 года.

Вы можете выбрать обнаружение выбросов временных рядов в каждом местоположении с помощью параметра Идентифицировать выбросы. Если указано, то для каждого местоположения выполняется обобщенный тест экстремальных отклонений (ESD) для проверки выбросов временных рядов. Уровень достоверности теста можно задать с помощью параметра Уровень достоверности, и по умолчанию используется 90 - процентная достоверность. Обобщенный тест ESD итеративно проверяет наличие одного выброса, двух выбросов, трех выбросов и т. д. в каждом местоположении вплоть до значения параметра Максимального числа выбросов (по умолчанию 5 процентов от числа временных шагов, округленных вниз), и возвращается наибольшее статистически значимое число выбросов. Количество выбросов в каждом местоположении можно увидеть в таблице атрибутов выходных объектов, а отдельные выбросы – во всплывающих диаграммах временных рядов, которые рассматриваются в следующем разделе.

Узнайте больше о выбросах в анализе временных рядов, обобщенном тесте ESD и о том, как интерпретировать полученные результаты

Выходные данные инструмента

Основным результатом этого инструмента является класс 2D-объектов, отображающий каждое местоположение во Входном кубе пространства-времени, использующий символы из последнего спрогнозированного временного шага с помощью прогнозов всех остальных временных шагов, использованных в качестве полей. Хотя каждое местоположение прогнозируется независимо, и пространственные отношения не принимаются во внимание, карта может отображать пространственные закономерности для областей с похожими временными рядами.

Всплывающие диаграммы

Если щелкнуть любой объект на карте с помощью инструмента Исследовать, на Всплывающей панели отобразится диаграмма, показывающая значения куба пространства-времени, а также встроенную модель экспоненциального сглаживания и прогнозные значения, а также 90-процентные доверительные интервалы для каждого прогноза. Значения куба пространства-времени отображаются синим цветом и соединяются синей линией. Подходящие значения отображаются оранжевым цветом и соединяются пунктирной оранжевой линией. Прогнозные значения отображаются оранжевым цветом и связаны сплошной оранжевой линией, обозначающей прогноз модели. Допустимые границы отображаются вокруг каждого прогнозируемого значения с использованием светло-красного цвета. Вы можете задержать курсор над любой точкой диаграммы, чтобы просмотреть дату и значение в этой точке. Кроме того, если вы выбрали обнаружение выбросов во временных рядах, любые выбросы отображаются в виде больших фиолетовых точек.

Всплывающая диаграмма Прогноза экспоненциального сглаживания

Всплывающая диаграмма отображает исходные значения, подходящие значения, прогнозируемые значения и доверительные интервалы.

Примечание:

Всплывающие диаграммы не создаются, когда выходные объекты сохраняются в виде шейп-файла. (.shp).

Сообщения геообработки

Этот инструмент предоставляет целый ряд сообщений, содержащих информацию о выполнении инструмента. Сообщения содержат три основных раздела.

Раздел Информация о входном кубе пространства-времени отображает свойства входного куба пространства-времени, а также информацию о временных шагах, количестве местоположений и число пространственно-временных бинов. Свойства, отображаемые в этом первом разделе, зависят от первоначального метода создания куба, поэтому информация может отличаться от куба к кубу.

В разделе Детали анализа отображаются свойства результатов прогноза, включая количество прогнозируемых временных шагов, количество временных шагов, исключенных для проверки, процент мест с сезонностью и информацию о прогнозируемых временных шагах. Если значение для параметра Длительность сезона не указано, отображаются сводные статистические данные о предполагаемой продолжительности сезона, включая минимальное, максимальное, среднее значение, медиану и стандартное отклонение.

Раздел Обзор точности среди Местоположений отображает суммарную статистику для Прогнозного значения ошибки RMSE и Проверяемого значения ошибки RMSE среди всех местоположений Для каждого значения отображаются минимум, максимум, среднее, медиана и среднеквадратичное отклонение.

Раздел Сводка выбросов временных рядов появляется, если вы решите обнаружить выбросы временных рядов с помощью опции Параметр выбросов. В этом разделе отображается информация, включая количество и процент местоположений, содержащих выбросы, временной шаг, содержащий наибольшее количество выбросов, а также сводная статистика по количеству выбросов по местоположению и временному шагу.

Примечание:

Сообщения геообработки отображаются в нижней части панели Геообработка в процессе выполнения инструмента. Вы можете получить доступ к сообщениям, переместив курсор мыши на индикатор выполнения, щелкнув на всплывшую кнопку Всплывающее окно или развернув раздел сообщений на панели Геообработка. Вы можете получить доступ к сообщениям для выполненного ранее инструмента, используя историю геообработки.

Поля в выходных объектах

Дополнительно к полю Object ID, полям геометрии и полю, содержащему всплывающие диаграммы, Выходные объекты будут иметь следующие поля:

  • Location ID (LOCATION) - идентификатор (Location ID) соответствующего местоположения в кубе пространства-времени.
  • Прогноз для (Переменная анализа) в (Временном шаге) (FCAST_1, FCAST_2 и т.д.) - прогнозируемое значение для каждого будущего временного шага. Псевдоним поля отображает имя Переменной анализа и дату прогноза. Поле данного типа создается для каждого прогнозируемого временного шага.
  • Частый интервал для (Переменной анализа) в (Временном шаге) (HIGH_1, HIGH_2 и т.д.) - верхняя граница в 90-процентном доверительном интервале для прогнозируемого значения в каждом будущем временном шаге. Псевдоним поля отображает имя Переменной анализа и дату прогноза. Поле данного типа создается для каждого прогнозируемого временного шага.
  • Низкий интервал для (Переменной анализа) в (Временном шаге) (LOW_1, LOW_2 и т.д.) - нижняя граница в 90-процентном доверительном интервале для прогнозируемого значения в каждом будущем временном шаге. Псевдоним поля отображает имя Переменной анализа и дату прогноза. Поле данного типа создается для каждого прогнозируемого временного шага.
  • Среднеквадратичная ошибка прогноза (F_RMSE) - значение RMSE прогноза.
  • Среднеквадратичная ошибка проверки (V_RMSE) - значение RMSE проверки. Если для проверки не были исключены никакие временные шаги, это поле не создается.
  • Длительность сезона (SEASON) – количество временных шагов, соответствующих одному сезону для местоположения. Значение 1 в этом поле означает, что сезонность отсутствует.
  • Метод прогнозирования (METHOD) – текстовое поле, отображающее модель, используемую для данного местоположения. Для этого инструмента всегда значение экспоненциальное сглаживание. Это поле позволяет указать, какие модели используются в инструменте Выполнение прогнозов по местоположению.
  • Число выбросов подгонки модели (N_OUTLIERS) – количество выбросов, обнаруженных во временном ряду местоположения. Это поле создается только в том случае, если вы выбрали обнаружение выбросов с помощью опции Параметр выбросов.

Выходной куб пространство-время

Если указан Выходной куб пространство-время он будет содержать значения исходного куба пространство-время и добавленные прогнозированные значения. Этот новый куб пространство-время можно визуализировать с использованием инструментов Визуализировать куб пространство-время в 2D или Визуализировать куб пространство-время в 3D или использовать в качестве входного в инструментах набора Углубленный анализ пространственно-временных закономерностей, например, Анализ возникновения горячих точек или Кластеризация временных рядов.

Несколько прогнозируемых кубов пространство-время можно сравнить и объединить с помощью инструмента Оценить прогнозы по местоположению. Это позволит создавать несколько прогнозных кубов с использованием различных инструментов и параметров прогнозирования, а инструмент будет определять наилучший прогноз для каждого местоположения с помощью RMSE прогноза или RMSE проверки.

Лучшие практики и ограничения

Необходимо учитывать некоторые моменты при принятии решения, насколько данный инструмент подходит для ваших данных, и какие параметры следует выбрать.

  • По сравнению с другими инструментами прогнозирования в наборе инструментов Прогнозирование временных рядов, этот инструмент рекомендуется для данных с умеренными трендами и сильным сезонным поведением. Экспоненциальная модель предполагает, что сезонное поведение и тренд могут быть разделены, поэтому она наиболее эффективна для данных, тренд которых изменяется постепенно и следует последовательным сезонным моделям во времени. Сезонный компонент модели является необязательным, поэтому этот инструмент можно использовать для данных, которые не отображают сезонность, но лучше всего подходят для сильного сезонного поведения.
  • Важным моментом является принятие решения о том, сколько временных шагов следует исключить при проверке. Чем больше временных шагов исключается, тем меньше временных шагов остается для определения модели проверки. Однако, если исключено слишком мало временных шагов, проверочное значение ошибки RMSE будет оцениваться с помощью меньшего количества данных и может быть обманчивым. Рекомендуется исключить максимальное число временных шагов, но при этом оставить достаточное количество временных шагов для оценки модели проверки. Еще одной рекомендация состоит в том, что следует удержать для проверки как минимум столько же временных шагов, сколько вы собираетесь прогнозировать, если ваш куб пространства-времени содержит достаточное для этого число временных шагов.

Дополнительные ресурсы

Для получения дополнительной информации о прогнозировании с экспоненциальным сглаживанием с использованием подхода пространства состояний см. следующий учебник:

Для получения дополнительной информации о функции спектральной плотности, используемой для оценки продолжительности сезона, см. функцию findfrequency в следующих ссылках:

  • Hyndman R, Athanasopoulos G, Bergmeir C, Caceres G, Chhay L, O'Hara-Wild M, Petropoulos F, Razbash S, Wang E, and Yasmeen F (2019). "Forecasting functions for time series and linear models." R package version 8.7, https://pkg.robjhyndman.com/forecast.
  • Hyndman RJ and Khandakar Y (2008). "Automatic time series forecasting: the forecast package for R." Journal of Statistical Software, 26(3), pp. 1–22. https://www.jstatsoft.org/article/view/v027i03.

Связанные разделы