Как работает инструмент Прогнозирование подгонки кривой

Инструмент Прогнозирование подгонки кривой использует простой метод подгонки кривой для моделирования временных рядов и прогнозирования будущих значений в каждом местоположении в кубе пространства-времени. Например, используя куб пространства-времени с ежегодными данными по численности населения, инструмент может спрогнозировать численность населения в предстоящие годы. Первичным выходом является карта окончательного прогноза временного шага, а также информационные сообщения и всплывающие диаграммы. Вы также можете создать новый куб пространство-время, содержащий данные из исходного куба и добавленные прогнозируемые значения.

Инструмент вписывает кривую в каждое место Входного куба пространства-времени и прогнозирует временной ряд, экстраполируя эту кривую на будущие шаги. Кривые могут быть линейными, параболическими, S-образными (функция Гомперца) или экспоненциальными. Вы можете использовать один и тот же тип кривой в каждом местоположении Куба пространства-времени или разрешить инструменту установить, какой тип кривой лучше всего подходит для каждого местоположения.

Типы кривых и возможное применение

Инструмент поддерживает четыре типа кривых, один из которых можно выбрать в параметре Тип кривой. На следующем рисунке показаны стандартные примеры каждого типа кривой:

Четыре типа кривой.
Используются четыре типа кривых.
  • Линейная – каждый временной ряд моделируется с использованием прямой линии.
    • Уравнение: Линейное уравнение, где Xt значение временного ряда в момент времени t, и a и b рассчитываются на основе данных с помощью метода наименьших квадратов.
    • Возможное применение: линейный тип кривой подходит для данных, которые равномерно возрастают или уменьшаются с течением времени. Например, этот инструмент может быть использован для прогнозирования численности населения на том уровне развития сообществ, когда прирост населения более или менее линейный.
  • Параболическая – каждый временной ряд моделируется с использованием параболы, или кривой второго порядка.
    • Уравнение: Параболическая, где Xt значение временного ряда в момент времени t, и a, b и c рассчитываются на основе данных с помощью метода наименьших квадратов.
    • Возможное применение: параболические кривые подходят для данных, направление изменений которых меняются с течением времени, не важно, с увеличения на уменьшение, или наоборот. Остальные типы кривых предполагают, что значения в данных последовательно возрастают или уменьшаются.
  • Экспоненциальная – каждый временной ряд моделируется с использованием экспоненциальной или геометрической кривой.
    • Уравнение: Экспоненциальное уравнение, где Xt значение временного ряда в момент времени t, и a, b и k рассчитываются на основе данных с помощью метода наименьших квадратов. Значение k позволяет экспоненциальной кривой смещаться для лучшей подгонки к временному ряду.
    • Возможное применение: экспоненциальная кривая подходит для данных, которые резко возрастают или уменьшаются с течением времени. Например, периоды быстрого роста населения в развивающихся странах можно моделировать с использованием экспоненциальной кривой.
  • S-образная (функция Гомперца) – каждый временной ряд моделируется с использованием кривой Гомперца. Для таких кривых есть верхняя и нижняя границы, при этом кривая имеет форму буквы S.
    • Уравнение: уравнение Гомперца, где Xt значение временного ряда в момент времени t, и a, b, c и k рассчитываются на основе данных с помощью метода наименьших квадратов. Значения a и k не должны быть отрицательными. Значение k позволяет кривой Гомперца смещаться для лучшей подгонки к временному ряду, при этом оно не может быть максимального значения временного ряда, умноженного на 10.
    • Возможное применение: кривые Гомперца используются для моделирования роста с ограничением емкости. Например, численность населения, как правило, сначала растет довольно медленно, но как только достигает определенного порога, достаточного для поддержки промышленности, сразу же существенно ускоряется. Затем рост снова замеляется, так как численность достигает предела возможностей региона.

По умолчанию параметр Тип кривой использует опцию Автоопределения, благодаря которой анализируются все четыре типа, и подбирается тот, который обеспечивает наилучшую подгонку по временным рядам в каждом местоположении. При выборе это опции к различным местоположениям в кубе пространства-времени могут быть подобраны кривые разных типов. Тип кривой с минимальным значением средне-квадратичной ошибки проверки (RMSE) будет использован для каждого местоположения; если же временные ряды для проверки отсутствуют, используется RMSE прогноза. Оба этих показателя статистики сохраняются в полях Выходных объектов и будут подробно рассмотрены далее.

Прогнозирование и проверка

Инструмент строит две модели при прогнозировании каждого временного ряда. Первая – это модель прогнозирования, которая используется для прогнозирования значений будущих временных шагов. Вторая – это модель проверки, которая используется для проверки прогнозируемых значений.

Модель прогнозирования

Модель прогнозирования строится путем подгонки кривой выбранного типа к значениям временного ряда в каждом местоположении куба пространства-времени. Затем кривая экстраполируется для прогнозирования будущих значений этих временных рядов. Степень подгонки кривой к каждому временному ряду измеряется величиной среднеквадратичной ошибки прогноза (RMSE), которая равна квадратному корню из среднего квадрата разницы между значениями кривой и значениями временного ряда.

RMSE прогноза, где T – количество временных шагов, ct – подогнанное значение кривой, а rt – необработанное значение временного ряда в момент времени t.

На следующем рисунке показаны необработанные значения временного ряда вдоль кривой Гомперца, подогнанной к временному ряду. RMSE прогноза показывает, насколько эти два временных ряда отличаются друг от друга.

Модель прогноза для Прогнозирования подгонки кривой

Модель прогнозирования подгоняется ко всем временным рядам.

RMSE прогноза только измеряет, насколько хорошо модель подгонки кривой соответствует необработанным значениям временного ряда. Она не измеряет, насколько хорошо модель фактически прогнозирует будущие значения. Обычно кривые максимально близко подгоняются под временные ряды, но не дают точных прогнозов при экстраполяции. Эта проблема решается с помощью модели проверки.

Модель проверки

Модель проверки используется для определения того, насколько хорошо модель прогнозирования может прогнозировать будущие значения каждого временного ряда. Она строится путем исключения некоторых из последних временных шагов каждого временного ряда и подгонки кривой к данным, которые не были исключены. Эта кривая используется для прогнозирования значений данных, которые были удержаны, а прогнозные значения сравниваются с необработанными значениями, которые были скрыты. По умолчанию 10 процентов временных шагов удерживаются для проверки, но это число можно изменить с помощью параметра Число временных шагов, исключаемых для проверки. Число исключенных временных шагов не может превышать 25 процентов от количества временных шагов, и проверка не выполняется, если указано 0. Точность прогнозов измеряется путем вычисления статистики RMSE Проверки, которая равна квадратному корню из среднего квадрата разности между прогнозируемыми и необработанными значениями исключенных временных шагов.

RMSE Проверки, где T – количество временных шагов, m – количество временных шагов, удерживаемых для проверки, ct – значение, прогнозируемое по первым T-m временным шагам, а rt – необработанное значение временного ряда, удерживаемого для проверки во время t.

На следующем изображении показана кривая Гомперца, подогнанная к первой половине временного ряда и экстраполированная для прогнозирования второй половины временного ряда. RMSE проверки измеряет, насколько прогнозируемые значения отличаются от необработанных значений на исключенных временных шагах.

Модель проверки для Прогнозирования подгонки кривой

Модель проверки подгоняется под первую половину временного ряда и используется для прогнозирования второй половины.

Модель проверки важна, потому что она может напрямую сравнивать прогнозные значения с необработанными значениями, чтобы измерить, насколько хорошо модель подгонки кривой может прогнозировать. Хотя она фактически не используется для прогнозирования, она используется для обоснования модели прогноза.

Примечание:

Проверка в прогнозировании временных рядов аналогична, но не идентична общепринятой методике, называемой перекрестной проверкой. Разница заключается в том, что проверка прогноза всегда исключает последние временные шаги для проверки, а перекрестная проверка либо исключает случайное подмножество данных, либо исключает каждое значение последовательно.

Интерпретация

При интерпретации значений RMSE Прогноза и RMSE Проверки есть несколько соображений.

  • Значения RMSE не могут быть напрямую сопоставлены друг с другом, потому что они измеряют разные вещи. RMSE прогноза измеряет соответствие кривой необработанным значениям временного ряда, а RMSE проверки измеряет, насколько хорошо кривая может прогнозировать будущие значения. Поскольку RMSE Прогноза использует больше данных и не экстраполирует, она обычно меньше, чем RMSE Проверки.
  • Оба значения RMSE указаны в единицах данных. Например, если ваши данные представляют собой измерения температуры в градусах Цельсия, RMSE Проверки – 50 очень высокая, поскольку это означает, что прогнозируемые значения в среднем отличались от истинных значений примерно на 50 градусов. Однако, если ваши данные представляют собой ежедневный доход в долларах США крупного розничного магазина, то же значение RMSE Проверки, равное 50, очень мало, поскольку это означает, что прогнозируемый ежедневный доход в среднем отличался от истинных значений только на 50 долларов в день.

Выходные данные инструмента

Первичным результатом этого инструмента является 2D-класс пространственных объектов, показывающий каждое местоположение в Входном кубе Пространство-Время, символизированное конечным прогнозируемым временным шагом, с прогнозами для всех других временных шагов, сохраненными в виде полей. Хотя каждое местоположение независимо прогнозируется и пространственные отношения не принимаются во внимание, карта может отображать пространственные структуры для областей с аналогичными временными рядами.

Всплывающие диаграммы

Если щелкнуть любой объект на карте с помощью инструмента Исследовать, на Всплывающей панели отобразится диаграмма, показывающая значения куба пространства-времени, а также подогнанная кривая и прогнозные значения. Значения куба пространства-времени отображаются синим цветом и связаны синей линией. Значения подогнанной кривой отображаются оранжевым цветом и связаны пунктирной оранжевой линией. Прогнозные значения отображаются оранжевым цветом и связаны сплошной оранжевой линией, обозначающей экстраполяцию и прогноз по кривой. Вы можете навести курсор на любую точку на графике, чтобы увидеть дату и значение точки.

Включение всплывающих окон временных рядов

Всплывающая диаграмма отображает исходные значения, подогнанные значения и прогнозные значения.

Примечание:

Всплывающие диаграммы не создаются, когда выходные объекты сохраняются в виде шейп-файла. (.shp).

Сообщения геообработки

Инструмент предоставляет ряд сообщений с информацией о выполнении инструмента. Сообщения имеют три основных раздела.

В разделе Информация о входном кубе пространства-времени отображаются свойства входного куба пространства-времени, а также информация о количестве и интервале временных шагов, количестве местоположений и количестве пространственно-временных бинов. Свойства, отображаемые в этом разделе, зависят от того, как куб был изначально создан, поэтому информация варьируется от куба к кубу.

В разделе Детали анализа отображаются свойства результатов прогноза, включая количество прогнозируемых временных шагов, количество временных шагов, исключенных для проверки и информацию о прогнозируемых временных шагах.

В разделе Суммарная точность в разных местоположениях отображаются сводные статистические данные для RMSE прогноза и RMSE проверки среди всех местоположений. Для каждого значения отображаются минимальное, максимальное, среднее значение, медиана и стандартное отклонение.

Раздел Сводка по выбранным типам кривых появится, если выбрана опция Автоопределение для параметра Тип кривой. В этом разделе указывается число местоположений и процент от общего числа местоположений, который выбран для кривой каждого типа.

Примечание:

Сообщения геообработки отображаются в нижней части панели Геообработка в процессе выполнения инструмента. Вы можете получить доступ к сообщениям, переместив курсор мыши на индикатор выполнения, щелкнув на всплывшую кнопку Открыть всплывающее окно или развернув раздел сообщений на панели Геообработка. Вы можете получить доступ к сообщениям для выполненного ранее инструмента, используя историю геообработки.

Поля выходных объектов

В дополнение к Object ID, полям геометрии и полю, содержащему всплывающие диаграммы, Выходные объекты будут иметь следующие поля:

  • Location ID (LOCATION) – идентификатор местоположения соответствующего местоположения куба пространства-времени.
  • Прогноз для (переменной анализа) для (временного шага) (FCAST_1, FCAST_2, и т.д.) – прогнозируемое значение каждого будущего шага по времени. Псевдоним поля отображает название Переменной анализа и дату прогноза. Поле этого типа создается для каждого прогнозируемого временного шага.
  • Средне-квадратичная ошибка прогноза (F_RMSE) – средне-квадратичная ошибка прогноза.
  • Средне-квадратичная ошибка проверки (V_RMSE) – среднеквадратичная ошибка проверки. Если для проверки не было исключено ни одного временного шага, это поле не создается.
  • Метод прогноза (METHOD) – тип кривой, используемой в этом местоположении. Это поле используется для идентификации кривой в местоположении при выборе опции Автоопределение.
  • Уравнение прогнозирования (EQUATION) – текстовое поле, отображающее уравнение кривой прогнозирования в этом местоположении. Это поле не создается при выборе опции Автоопределение.

Выходной куб пространство-время

Если указан Выходной куб пространство-время он будет содержать значения исходного куба пространство-время и добавленные прогнозированные значения. Этот новый куб пространство-время можно визуализировать с использованием инструментов Визуализировать куб пространство-время в 2D или Визуализировать куб пространство-время в 3D или использовать в качестве входного в инструментах набора Углубленный анализ пространственно-временных закономерностей, например, Анализ возникновения горячих точек или Кластеризация временных рядов.

Несколько прогнозируемых кубов пространство-время можно сравнить и объединить с помощью инструмента Оценить прогнозы по местоположению. Это позволит создавать несколько прогнозных кубов с использованием различных инструментов и параметров прогнозирования, а инструмент будет определять наилучший прогноз для каждого местоположения с помощью RMSE прогноза или RMSE проверки.

Лучшие практики и ограничения

При принятии решения, подходит ли этот инструмент для ваших данных и какие параметры вы должны выбрать, следует принять во внимание несколько вещей.

  • По сравнению с другими инструментами прогнозирования в группе инструментов Прогнозирование временных рядов этот инструмент является простым и наиболее подходящим для временных рядов, которые следуют предсказуемому тренду, не проявляющему сильной сезонности. Если ваши данные следуют сложному тренду или показывают сильные сезонные циклы, рекомендуется использовать другие инструменты прогнозирования.
  • Важно решить, сколько временных шагов исключить для проверки. Чем больше временных шагов исключено, тем меньше временных шагов остается для оценки модели проверки. Однако, если исключено слишком мало временных шагов, RMSE проверки оценивается с использованием небольшого количества данных и может вводить в заблуждение. Рекомендуется исключить как можно больше временных шагов при сохранении достаточного количества временных шагов для оценки модели проверки. Также рекомендуется, чтобы вы удерживали как минимум столько временных шагов для проверки, сколько временных шагов вы намереваетесь прогнозировать, если у вашего пространственно-временного куба достаточно временных шагов, чтобы это сделать.
  • Инструмент не рассчитывает доверительный интервал для прогнозируемых значений.

Дополнительные ресурсы

Для получения дополнительной информации о прогнозировании с использованием подгонки кривой см. следующий учебник:

  • Klosterman, R. E., Brooks, K., Drucker, J., Feser, E., & Renski, H. (2018). Planning support methods: Urban and regional analysis and projection. Rowman & Littlefield. ISBN: 1442220309

Связанные разделы