Как работает инструмент Прогнозирование подгонки кривой

Инструмент Прогнозирование подгонки кривой использует простой метод подгонки кривой для моделирования временных рядов и прогнозирования будущих значений в каждом местоположении в кубе пространства-времени. Например, используя куб пространства-времени с ежегодными данными по численности населения, инструмент может спрогнозировать численность населения в предстоящие годы. Основным результатом является карта с итоговым временным шагом прогноза, а также информативные сообщения и всплывающие диаграммы. Вы также можете создать новый куб пространства-времени, содержащий данные из оригинального куба, с присоединенными значениями прогноза.

Инструмент вписывает кривую в каждое место Входного куба пространства-времени и прогнозирует временной ряд, экстраполируя эту кривую на будущие шаги. Кривые могут быть линейными, параболическими, S-образными (функция Гомперца) или экспоненциальными. Вы можете использовать один и тот же тип кривой в каждом местоположении Куба пространства-времени или разрешить инструменту установить, какой тип кривой лучше всего подходит для каждого местоположения. Вы также можете выбрать обнаружение выбросов в каждом временном ряду, чтобы определить местоположения и времена, которые значительно отклоняются от установленной кривой.

Типы кривых и возможное применение

Инструмент поддерживает четыре типа кривых, один из которых можно выбрать в параметре Тип кривой. На следующем рисунке показаны стандартные примеры каждого типа кривой:

Четыре типа кривой.
Используются четыре типа кривых.
  • Линейная – каждый временной ряд моделируется с использованием прямой линии.
    • Уравнение: Линейное уравнение, где Xt значение временного ряда в момент времени t, и a и b рассчитываются на основе данных с помощью метода наименьших квадратов.
    • Возможное применение: линейный тип кривой подходит для данных, которые равномерно возрастают или уменьшаются с течением времени. Например, этот инструмент может быть использован для прогнозирования численности населения на том уровне развития сообществ, когда прирост населения более или менее линейный.
  • Параболическая – каждый временной ряд моделируется с использованием параболы, или кривой второго порядка.
    • Уравнение: Параболическая, где Xt значение временного ряда в момент времени t, и a, b и c рассчитываются на основе данных с помощью метода наименьших квадратов.
    • Возможное применение: параболические кривые подходят для данных, направление изменений которых меняются с течением времени, не важно, с увеличения на уменьшение, или наоборот. Остальные типы кривых предполагают, что значения в данных последовательно возрастают или уменьшаются.
  • Экспоненциальная – каждый временной ряд моделируется с использованием экспоненциальной или геометрической кривой.
    • Уравнение: Экспоненциальное уравнение, где Xt значение временного ряда в момент времени t, и a, b и k рассчитываются на основе данных с помощью метода наименьших квадратов. Значение k позволяет экспоненциальной кривой смещаться для лучшей подгонки к временному ряду.
    • Возможное применение: экспоненциальная кривая подходит для данных, которые резко возрастают или уменьшаются с течением времени. Например, периоды быстрого роста населения в развивающихся странах можно моделировать с использованием экспоненциальной кривой.
  • S-образная (функция Гомперца) – каждый временной ряд моделируется с использованием кривой Гомперца. Для таких кривых есть верхняя и нижняя границы, при этом кривая имеет форму буквы S.
    • Уравнение: уравнение Гомперца, где Xt значение временного ряда в момент времени t, и a, b, c и k рассчитываются на основе данных с помощью метода наименьших квадратов. Значения a и k не должны быть отрицательными. Значение k позволяет кривой Гомперца смещаться для лучшей подгонки к временному ряду, при этом оно не может быть максимального значения временного ряда, умноженного на 10.
    • Возможное применение: кривые Гомперца используются для моделирования роста с ограничением емкости. Например, численность населения, как правило, сначала растет довольно медленно, но как только достигает определенного порога, достаточного для поддержки промышленности, сразу же существенно ускоряется. Затем рост снова замеляется, так как численность достигает предела возможностей региона.

По умолчанию параметр Тип кривой использует опцию Автоопределения, благодаря которой анализируются все четыре типа, и подбирается тот, который обеспечивает наилучшую подгонку по временным рядам в каждом местоположении. При выборе это опции к различным местоположениям в кубе пространства-времени могут быть подобраны кривые разных типов. Тип кривой с минимальным значением средне-квадратичной ошибки проверки (RMSE) будет использован для каждого местоположения; если же временные ряды для проверки отсутствуют, используется RMSE прогноза. Оба этих показателя статистики сохраняются в полях Выходных объектов и будут подробно рассмотрены далее.

Прогнозирование и проверка

Инструмент создает две модели во время прогнозирования каждого из временных рядов. Первая - это модель прогноза, которая используется для прогнозирования значений следующих временных шагов. Вторая модель - это модель проверки, которая используется для проверки спрогнозированных значений.

Модель прогнозирования

Модель прогнозирования строится путем подгонки кривой выбранного типа к значениям временного ряда в каждом местоположении куба пространства-времени. Затем кривая экстраполируется для прогнозирования будущих значений этих временных рядов. Степень подгонки кривой к каждому временному ряду измеряется величиной среднеквадратичной ошибки прогноза (RMSE), которая равна квадратному корню из среднего квадрата разницы между значениями кривой и значениями временного ряда.

RMSE прогноза, где T – количество временных шагов, ct – подогнанное значение кривой, а rt – необработанное значение временного ряда в момент времени t.

На следующем рисунке показаны необработанные значения временного ряда вдоль кривой Гомперца, подогнанной к временному ряду. RMSE прогноза показывает, насколько эти два временных ряда отличаются друг от друга.

Модель прогноза для Прогнозирования подгонки кривой

Модель прогнозирования подгоняется ко всем временным рядам.

RMSE прогноза только измеряет, насколько хорошо модель подгонки кривой соответствует необработанным значениям временного ряда. Он не измеряет, насколько хорошо модель прогноза реально прогнозирует будущие значения. Обычно кривые максимально близко подгоняются под временные ряды, но не дают точных прогнозов при экстраполяции. Эта проблема решается с помощью модели проверки.

Модель проверки

Модель проверки используется для определения, насколько хорошо модель прогноза может предсказывать будущие значения для каждого временного ряда. Она строится путем исключения некоторых из последних временных шагов каждого временного ряда и подгонки кривой к данным, которые не были исключены. Эта кривая используется для прогнозирования значений данных, которые были удержаны, а прогнозные значения сравниваются с необработанными значениями, которые были скрыты. По умолчанию 10 процентов временных шагов удерживаются для проверки, но это число можно изменить с помощью параметра Число временных шагов, исключаемых для проверки. Число исключаемых временных шагов не может превышать 25 процентов от общего числа временных шагов, и проверка не выполняется, если указано значение 0. Точность прогнозов измеряется путем вычисления статистики Проверяемое значение ошибки RMSE, которая равна квадратному корню из средней квадратной разницы между прогнозом и сырыми значениям для исключенных временных шагов.

Проверяемое значение ошибки RMSE, где T равно числу временных шагов, m - число временных шагов, удержанных для проверки, ct - значение, прогнозируемое из первых T-m временных шагов, а rt - это необработанное значение во временных рядах, удержанных для проверки в момент времени t.

На следующем изображении показана кривая Гомперца, подогнанная к первой половине временного ряда и экстраполированная для прогнозирования второй половины временного ряда. Проверяемое значение ошибки RMSE измеряет, насколько прогнозируемые значения отличаются от сырых значений для удержанных временных шагов.

Модель проверки для Прогнозирования подгонки кривой

Модель проверки подгоняется под первую половину временного ряда и используется для прогнозирования второй половины.

Модель проверки важна, потому что она может напрямую сравнивать прогнозные значения с необработанными значениями, чтобы измерить, насколько хорошо модель подгонки кривой может прогнозировать. Хотя она и не используется непосредственно для прогноза, она используется для обоснования модель прогноза.

Примечание:

Проверка в прогнозе временных рядов похожа, но не идентична общему методу, называемому перекрестной проверкой. Разница заключается в том, что проверка прогноза всегда исключает итоговые временные шаги для проверки, а перекрестная проверка либо исключает случайных поднабор данных, или исключает каждое последовательное значение.

Интерпретация

Существует несколько важных моментов при интерпретации прогнозных значений ошибки RMSE и проверяемых значений ошибки RMSE.

  • Значения RMSE нельзя сравнивать друг с другом напрямую, поскольку они измеряют разные величины. RMSE прогноза измеряет соответствие кривой необработанным значениям временного ряда, а RMSE проверки измеряет, насколько хорошо кривая может прогнозировать будущие значения. Поскольку RMSE Прогноза использует больше данных и не экстраполирует, она обычно меньше, чем RMSE Проверки.
  • Оба значения ошибок RMSE используют единицы измерения данных. Например, если ваши данные представляют собой измерения температуры в градусах Цельсия, RMSE Проверки – 50 очень высокая, поскольку это означает, что прогнозируемые значения в среднем отличались от истинных значений примерно на 50 градусов. Однако если ваши данные представляют ежедневный доход крупного сетевого магазина в долларах, то же проверяемое значение ошибки RMSE, равное 50, является весьма небольшим, поскольку означает, что прогнозируемый ежедневный доход отличается от истинных значений в среднем на $50 в день.

Идентификация выбросов временных рядов

Выбросы в данных временных рядов - это значения, которые существенно отличаются от закономерностей и тенденций других значений во временных рядах. Например, большое количество покупок в интернете во время праздников или большое количество дорожно-транспортных происшествий во время сильных ливней, скорее всего, будут обнаружены как выбросы в их временных рядах. Простые ошибки ввода данных, такие как пропуск десятичной части числа, являются еще одним распространенным источником выбросов. Выявление выбросов в прогнозе временных рядов важно, поскольку выбросы влияют на прогнозную модель, которая используется для прогнозирования будущих значений, и даже небольшое количество выбросов во временных рядах местоположения может значительно снизить точность и надежность прогнозов. Местоположения с выбросами, особенно в начале или в конце временного ряда, могут давать неверные прогнозы, и идентификация этих местоположений помогает определить, насколько вы должны быть уверены в прогнозируемых значениях в каждом местоположении.

Выбросы определяются не просто их исходными значениями, а тем, насколько их значения отличаются от установленных значений прогнозной модели. Это означает, что определение того, является ли значение выбросом, является контекстуальным и зависит как от его места, так и от времени. Прогнозная модель определяет, какое значение ожидается на основе всего временного ряда, а выбросы – это значения, которые сильно отклоняются от этого базового уровня. Например, рассмотрим временной ряд среднегодовой температуры. Поскольку средние температуры увеличились за последние несколько десятилетий, подходящая прогнозная модель температуры также будет увеличиваться с течением времени, чтобы отразить это увеличение. Это означает, что значение температуры, которое будет считаться типичным, а не выбросом в 1950 году, скорее всего, будет считаться выбросом, если такая же температура произойдет в 2020 году. Другими словами, типичная температура 1950 года будет считаться очень низкой по стандартам 2020 года.

Вы можете выбрать обнаружение выбросов временных рядов в каждом местоположении с помощью параметра Идентифицировать выбросы. Если указано, то для каждого местоположения выполняется обобщенный тест экстремальных отклонений (ESD) для проверки выбросов временных рядов. Уровень достоверности теста можно задать с помощью параметра Уровень достоверности, и по умолчанию используется 90 - процентная достоверность. Обобщенный тест ESD итеративно проверяет наличие одного выброса, двух выбросов, трех выбросов и т. д. в каждом местоположении вплоть до значения параметра Максимального числа выбросов (по умолчанию 5 процентов от числа временных шагов, округленных вниз), и возвращается наибольшее статистически значимое число выбросов. Количество выбросов в каждом местоположении можно увидеть в таблице атрибутов выходных объектов, а отдельные выбросы – во всплывающих диаграммах временных рядов, которые рассматриваются в следующем разделе.

Узнайте больше о выбросах в анализе временных рядов, обобщенном тесте ESD и о том, как интерпретировать полученные результаты

Выходные данные инструмента

Основным результатом этого инструмента является класс 2D-объектов, отображающий каждое местоположение во Входном кубе пространства-времени, использующий символы из последнего спрогнозированного временного шага с помощью прогнозов всех остальных временных шагов, использованных в качестве полей. Хотя каждое местоположение прогнозируется независимо, и пространственные отношения не принимаются во внимание, карта может отображать пространственные закономерности для областей с похожими временными рядами.

Всплывающие диаграммы

Если щелкнуть любой объект на карте с помощью инструмента Исследовать, на Всплывающей панели отобразится диаграмма, показывающая значения куба пространства-времени, а также подогнанная кривая и прогнозные значения. Значения куба пространства-времени отображаются синим цветом и соединяются синей линией. Значения подогнанной кривой отображаются оранжевым цветом и связаны пунктирной оранжевой линией. Прогнозные значения отображаются оранжевым цветом и связаны сплошной оранжевой линией, обозначающей экстраполяцию и прогноз по кривой. Вы можете навести курсор на любую точку на графике, чтобы увидеть дату и значение точки. Кроме того, если вы выбрали обнаружение выбросов во временных рядах, любые выбросы отображаются в виде больших фиолетовых точек.

Включение всплывающих окон временных рядов

Всплывающая диаграмма отображает исходные значения, подогнанные значения и прогнозные значения.

Примечание:

Всплывающие диаграммы не создаются, когда выходные объекты сохраняются в виде шейп-файла. (.shp).

Сообщения геообработки

Этот инструмент предоставляет целый ряд сообщений, содержащих информацию о выполнении инструмента. Сообщения содержат три основных раздела.

В разделе Информация о входном кубе пространства-времени отображаются свойства входного куба пространства-времени, а также информация о количестве и интервале временных шагов, количестве местоположений и количестве пространственно-временных бинов. Свойства, отображаемые в этом первом разделе, зависят от первоначального метода создания куба, поэтому информация может отличаться от куба к кубу.

В разделе Детали анализа отображаются свойства результатов прогноза, включая количество прогнозируемых временных шагов, количество временных шагов, исключенных для проверки и информацию о прогнозируемых временных шагах.

Раздел Обзор точности среди Местоположений отображает суммарную статистику для Прогнозного значения ошибки RMSE и Проверяемого значения ошибки RMSE среди всех местоположений Для каждого значения отображаются минимум, максимум, среднее, медиана и среднеквадратичное отклонение.

Раздел Сводка по выбранным типам кривых появится, если выбрана опция Автоопределение для параметра Тип кривой. В этом разделе указывается число местоположений и процент от общего числа местоположений, который выбран для кривой каждого типа.

Раздел Сводка выбросов временных рядов появляется, если вы решите обнаружить выбросы временных рядов с помощью опции Параметр выбросов. В этом разделе отображается информация, включая количество и процент местоположений, содержащих выбросы, временной шаг, содержащий наибольшее количество выбросов, а также сводная статистика по количеству выбросов по местоположению и временному шагу.

Примечание:

Сообщения геообработки отображаются в нижней части панели Геообработка в процессе выполнения инструмента. Вы можете получить доступ к сообщениям, переместив курсор мыши на индикатор выполнения, щелкнув на всплывшую кнопку Всплывающее окно или развернув раздел сообщений на панели Геообработка. Вы можете получить доступ к сообщениям для выполненного ранее инструмента, используя историю геообработки.

Поля в выходных объектах

Дополнительно к полю Object ID, полям геометрии и полю, содержащему всплывающие диаграммы, Выходные объекты будут иметь следующие поля:

  • Location ID (LOCATION) - идентификатор (Location ID) соответствующего местоположения в кубе пространства-времени.
  • Прогноз для (Переменная анализа) в (Временном шаге) (FCAST_1, FCAST_2 и т.д.) - прогнозируемое значение для каждого будущего временного шага. Псевдоним поля отображает имя Переменной анализа и дату прогноза. Поле данного типа создается для каждого прогнозируемого временного шага.
  • Среднеквадратичная ошибка прогноза (F_RMSE) - значение RMSE прогноза.
  • Среднеквадратичная ошибка проверки (V_RMSE) - значение RMSE проверки. Если для проверки не были исключены никакие временные шаги, это поле не создается.
  • Метод прогноза (METHOD) – тип кривой, используемой в этом местоположении. Это поле используется для идентификации кривой в местоположении при выборе опции Автоопределение.
  • Уравнение прогнозирования (EQUATION) – текстовое поле, отображающее уравнение кривой прогнозирования в этом местоположении. Это поле не создается при выборе опции Автоопределение.
  • Число выбросов подгонки модели (N_OUTLIERS) – количество выбросов, обнаруженных во временном ряду местоположения. Это поле создается только в том случае, если вы выбрали обнаружение выбросов с помощью опции Параметр выбросов.

Выходной куб пространство-время

Если указан Выходной куб пространство-время он будет содержать значения исходного куба пространство-время и добавленные прогнозированные значения. Этот новый куб пространство-время можно визуализировать с использованием инструментов Визуализировать куб пространство-время в 2D или Визуализировать куб пространство-время в 3D или использовать в качестве входного в инструментах набора Углубленный анализ пространственно-временных закономерностей, например, Анализ возникновения горячих точек или Кластеризация временных рядов.

Несколько прогнозируемых кубов пространство-время можно сравнить и объединить с помощью инструмента Оценить прогнозы по местоположению. Это позволит создавать несколько прогнозных кубов с использованием различных инструментов и параметров прогнозирования, а инструмент будет определять наилучший прогноз для каждого местоположения с помощью RMSE прогноза или RMSE проверки.

Лучшие практики и ограничения

Необходимо учитывать некоторые моменты при принятии решения, насколько данный инструмент подходит для ваших данных, и какие параметры следует выбрать.

  • По сравнению с другими инструментами прогнозирования в группе инструментов Прогнозирование временных рядов этот инструмент является простым и наиболее подходящим для временных рядов, которые следуют предсказуемому тренду, не проявляющему сильной сезонности. Если ваши данные следуют сложному тренду или показывают сильные сезонные циклы, рекомендуется использовать другие инструменты прогнозирования.
  • Важным моментом является принятие решения о том, сколько временных шагов следует исключить при проверке. Чем больше временных шагов исключается, тем меньше временных шагов остается для определения модели проверки. Однако, если исключено слишком мало временных шагов, проверочное значение ошибки RMSE будет оцениваться с помощью меньшего количества данных и может быть обманчивым. Рекомендуется исключить максимальное число временных шагов, но при этом оставить достаточное количество временных шагов для оценки модели проверки. Еще одной рекомендация состоит в том, что следует удержать для проверки как минимум столько же временных шагов, сколько вы собираетесь прогнозировать, если ваш куб пространства-времени содержит достаточное для этого число временных шагов.
  • Инструмент не рассчитывает доверительный интервал для прогнозируемых значений.

Дополнительные ресурсы

Для получения дополнительной информации о прогнозировании с использованием подгонки кривой см. следующий учебник:

  • Klosterman, R. E., Brooks, K., Drucker, J., Feser, E., & Renski, H. (2018). Planning support methods: Urban and regional analysis and projection. Rowman & Littlefield. ISBN: 1442220309

Связанные разделы