Инструмент Оценка прогнозов по местоположению используется для оценки и объединения нескольких прогнозов одних и тех же базовых данных временных рядов в наборе местоположений. В каждом местоположении выбирается наиболее точный метод прогноза для представления прогнозных данных для этого местоположения, поэтому вы можете попробовать несколько методов прогнозирования и выбрать наиболее точное местоположение по исходным данным местоположения. Первичные выходные данные – это карта конечного прогнозируемого временного шага для выбранного метода прогноза в каждом местоположении, а также информационные сообщения и всплывающие диаграммы.
Входные данные для этого инструмента должны быть созданы инструментами из набора Прогнозирование временных рядов, использующими тот же куб Пространство-Время в качестве входных данных. Наиболее точный метод прогнозирования в каждом местоположении может быть определен тем, насколько точно модель соответствует измеренным значениям куба Пространство-Время или насколько точно она предсказывает задержанные временные шаги в конце каждого временного ряда.
Рекомендуется ознакомиться с документацией по каждому методу прогноза для инструмента, чтобы узнать о каждой модели метода прогноза, модели проверки и среднеквадратичной ошибки (RMSE).
Более подробно о том, как работает инструмент Прогноз подгонки кривой
Более подробно о том, как работает инструмент Прогноз с помощью экспоненциального сглаживания
Более подробно о работе инструмента Прогноз на основе леса
Оценка метода прогноза в каждом местоположении
Цель инструмента – выбрать наиболее точный метод прогноза в каждом местоположении куба Пространство-Время. Однако существует несколько способов измерения точности метода прогнозирования. Этот инструмент использует один из двух критериев для определения наиболее точного прогноза в каждом местоположении.
Оценка с помощью проверки RMSE
Опция по умолчанию инструмента выбирает метод прогноза с наименьшим значением ошибки для Проверки RMSE в каждом местоположении. Чтобы использовать эту опцию, установите отметку Оценить с помощью результатов проверки.Проверка RMSE рассчитывается путем удержания некоторых конечных временных шагов в каждом местоположении и использования оставшихся временных шагов для прогнозирования значений, которые были удержаны. Затем предсказанные значения сравниваются с истинными значениями, чтобы увидеть, насколько близко они совпадают. Обычно рекомендуется проводить оценку с применением результатов проверки, поскольку прогнозирование удерживаемых временных шагов в конце временного ряда аналогично прогнозированию будущих временных шагов, что и является целью прогнозирования временных рядов.
Чтобы использовать эту опцию, все входные кубы Пространство-Время должны исключать одинаковое количество временных шагов для проверки, и это число должно быть больше 0.
Оценка с помощью прогноза RMSE
Вы также можете выбрать метод прогноза с наименьшим значением ошибки Прогноза RMSE в каждом местоположении. Чтобы использовать эту опцию, снимите отметку Оценить с помощью результатов проверки. Прогноз RMSE измеряет, насколько точно модель прогноза соответствует измеренным значениям временного ряда в каждом местоположении. Поскольку Прогноз RMSE измеряет соответствие данных, которые были использованы для оценки прогнозной модели, прогнозная модель часто более точно соответствует измеренным значениям временного ряда, чем предсказанным значениям будущих временных шагов.
Эту опцию рекомендуется применять, когда для проверки исключается относительно небольшое количество временных шагов. Эта ситуация характерна для кубов Пространство-Время с небольшим числом временных шагов, где невозможно исключить много временных шагов для проверки. Эту опцию также рекомендуется использовать, когда необходимо проверить, обеспечивает ли выбранный метод прогноза статистически значимое лучшее соответствие, чем другие методы.
Тест на эквивалентную точность методов прогнозирования
Если вы оцениваете с помощью Прогноза RMSE, выбранный метод в каждом местоположении статистически сравнивается с каждым из методов, которые не были выбраны. Инструмент выбирает метод с наименьшим значением ошибки для Прогноза RMSE, но это не означает, что выбранный метод значительно более точен, чем другие методы. Чтобы определить, обеспечивает ли выбранный метод значительно лучшее соответствие, необходим статистический тест.
Для каждого сравнения либо выполняется тест Дибольда-Мариано (DM), либо тест Харви, Лейборна и Ньюболда (HLN) с 95-процентным уровнем достоверности. Тесты DM и HLN являются статистическими тестами гипотезы о том, имеют ли две прогнозные модели эквивалентную точность. Тест HLN представляет собой модифицированную версию теста Дибольда-Мариано (DM) для коррекции небольших размеров выборки. Для больших размеров выборки эти тесты эквивалентны. Если число временных шагов в прогнозных моделях равно 30 или больше, то тест Дибольда-Мариано выполняется в указанном местоположении. В противном случае выполняется тест HLN.
Тесты DM и HLN рассчитывают свою тестовую статистику на основе соответствия прогнозных моделей измеренным значениям временного ряда. Эти вычисления не используют модели проверки в каком-либо качестве, поэтому они не применимы при оценке с помощью результатов проверки. Нулевая гипотеза каждого теста состоит в том, что обе прогнозные модели обеспечивают одинаково точное соответствие измеренным значениям временного ряда. Если эта нулевая гипотеза отвергается, то выбранный метод считается значительно более точным, чем метод, который не был выбран. Если нулевая гипотеза не отвергается, то оба метода определяются как имеющие эквивалентную точность. Полную информацию о тестах DM и HLN можно найти в разделе Дополнительные ресурсы.
Выполняя тест HLN между выбранным методом и всеми другими методами, инструмент генерирует список методов, которые являются эквивалентно точными для выбранного метода. Эта информация суммируется в сообщениях геообработки и диаграммах.
Лучшие практики и ограничения
Необходимо учитывать некоторые моменты при принятии решения, насколько данный инструмент подходит для ваших данных, и какие параметры следует выбрать.
- Для каждого местоположения этот инструмент выбирает метод прогноза, который обеспечивает наименьшее значение Проверки или Прогноза RMSE, и это может привести к выбору различных методов для местоположений, которые находятся рядом друг с другом. Например, если ваши данные представляют ежегодную численность населения округов, то один из округов может использовать метод на основе леса, а два соседних - кривую Гомперса и метод сглаживания сезонной экспоненты. Продумайте, имеет ли смысл для разных местоположений использовать разные методы прогноза с очень разными формами, и проверьте, действительно ли выбор местоположения метода прогноза по местоположению обеспечивает заметное снижение RMSE прогноза или проверки в этих местоположениях. Если один метод в каждом местоположении почти так же точен, как другой метод по местоположению, принцип бережливости гласит, что вы должны использовать один метод прогноза для всех местоположений.
- Выбор способа оценки с использованием результатов проверки имеет свои преимущества и недостатки. Выполнение проверки для удерживаемых временных шагов является наиболее близким эквивалентом прогнозирования неизвестных будущих значений, поэтому использование проверки будет чаще выбирать метод, который прогнозирует будущие значения наиболее точно. Однако тесты DM и HLN выполняются только в том случае, если вы не проводите оценку с применением результатов проверки. Это связано с тем, что тесты DM и HLN являются тестами на хорошее соответствие, поэтому они только проверяют, насколько хорошо модель соответствует измеренным значениям в местоположении, поэтому они не применимы при оценке с использованием результатов проверки. Вы должны решить, что наиболее важно – выбрать метод, который наиболее точно предсказывает будущие значения, или проверить, обеспечивает ли выбранный метод значительно лучшее соответствие временному ряду.
- Методы прогнозирования, созданные с помощью инструмента Прогнозирование на основе леса, обычно лучше всего подходят для временных рядов местоположения, но зачастую не предсказывают будущие значения точнее, чем другие методы. Если какой-либо из входных кубов Пространство-Время прогноза представляет собой метод на основе леса, рекомендуется выполнить оценку с использованием результатов проверки.
Выходные данные инструмента
Первичные выходные данные этого инструмента – это 2D класс пространственных объектов, отображающий каждое местоположение во Входном кубе Пространство-Время, обозначенное конечным прогнозируемым временным шагом выбранного метода. Прогнозируемые значения из выбранного метода на всех остальных временных шагах хранятся в виде полей. Хотя метод в каждом местоположении выбирается независимо и пространственные отношения не учитываются, карта может отображать пространственные закономерности для областей с аналогичными временными рядами.
Всплывающие диаграммы
Если щелкнуть любой объект на карте с помощью инструмента навигации Исследовать, во всплывающем окне отображается интерактивная диаграмма, показывающая установленные значения, значения прогноза и доверительный интервал (если метод поддерживает доверительные интервалы) выбранного метода в местоположении вместе с вертикальной серой линией в начале прогноза. Для всех остальных методов показаны прогнозные значения.
Выбранный метод выделяется в легенде диаграммы, и если один и тот же метод используется более одного раза, то для их различения используется индексный номер. На следующем рисунке показана всплывающая диаграмма двух методов на основе леса, метода подгонки линейной кривой и метода экспоненциального сглаживания. Первый метод на основе леса – это метод, выбранный в местоположении:
Вы можете щелкнуть любой другой метод в легенде, чтобы отобразить его соответствующие значения и доверительный интервал (если он поддерживается). На следующем изображении показан тот же график после выбора метода экспоненциального сглаживания:
При наведении указателя мыши на всплывающее окно создается интерактивный бегунок времени (вертикальная голубая линия), который отображает все значения диаграммы на этом временном шаге:
Примечание:
Всплывающие диаграммы не создаются, когда выходные объекты сохраняются в виде шейп-файла (.shp). Кроме того, если какие-либо доверительные интервалы выходят за пределы диаграммы, над диаграммой появляется кнопка Показать полный диапазон данных, которая позволяет расширить диаграмму, чтобы показать весь доверительный интервал.
Сообщения геообработки
Этот инструмент предоставляет целый ряд сообщений, содержащих информацию о выполнении инструмента. Сообщения имеют несколько разделов.
В разделе Сведения об анализе отображаются свойства входных кубов Пространство-Время, включая методы прогнозирования каждого куба, количество прогнозируемых временных шагов, количество временных шагов, исключенных для проверки, процент местоположений, смоделированных с учетом сезонности, а также информация о прогнозируемых временных шагах. Свойства, отображаемые в этом разделе, зависят от того, как изначально были созданы кубы, поэтому предоставленная информация может варьироваться.
Разделы Сводная информация о прогнозе RMSE и Сводная информация о проверке RMSE отображают суммарную статистику для Прогноза RMSE и Проверки RMSE по всем местоположениям. Для каждого значения отображаются минимальное, максимальное и среднее значения, медиана и стандартное отклонение. Только один из этих двух разделов отображается в сообщениях для каждого запуска инструмента. Если вы выберете оценку с использованием результатов проверки, то будет показана сводная статистика для проверки RMSE. В противном случае отображается сводная статистика для прогноза RMSE.
В разделе Сводная информация о выбранных методах прогноза приводятся сводные данные о том, какие методы прогноза были наиболее часто выбраны для этих местоположений. Для каждого входного куба Пространство-Время в этом разделе отображается количество и процент местоположений, в которых был выбран этот метод. Это позволяет быстро сравнить, насколько хороши различные методы для всех местоположений. Если вы решили не проводить оценку с использованием результатов проверки, то в этом разделе дополнительно отображается количество и процент местоположений, в которых каждый метод был не менее точен, чем выбранный метод. Метод, выбранный в местоположении, считается эквивалентно точным выбранному методу в местоположении (сам по себе), поэтому он включается в подсчет и проценты.
Примечание:
Сообщения геообработки отображаются в нижней части панели Геообработка в процессе выполнения инструмента. Вы можете получить доступ к сообщениям, переместив курсор мыши на индикатор выполнения, щелкнув на всплывшую кнопку или развернув раздел сообщений на панели Геообработка. Вы можете получить доступ к сообщениям для выполненного ранее инструмента, используя историю геообработки.
Поля в выходных объектах
В дополнение к Object ID, полям геометрии и полю, содержащему всплывающие диаграммы, Выходные объекты имеют следующие поля:
- Location ID (LOCATION) – Идентификатор местоположения соответствующего местоположения в кубе Пространство-Время.
- Прогноз для (Переменная анализа) в (Временной шаг) (FCAST_1, FCAST_2 и т.д) – прогнозируемое значение выбранного метода прогноза на каждом последующем временном шаге. Псевдоним поля отображает имя Переменной анализа и дату прогноза. Поле данного типа создается для каждого прогнозируемого временного шага.
- Высокий интервал для (Переменная анализа) в (Временной шаг) (HIGH_1, HIGH_2 и так далее) – верхняя граница 90-процентного доверительного интервала для прогнозируемого значения выбранного метода прогноза на каждом последующем временном шаге. Псевдоним поля отображает имя Переменной анализа и дату прогноза. Поле этого типа создается для каждого прогнозируемого временного шага. Если выбранный метод прогноза в местоположении не обеспечивает доверительных интервалов, то значение в этом поле равно нулю. Если ни один из методов не предоставляет доверительных интервалов, то это поле не создается.
- Низкий интервал для (Переменная анализа) в (Временной шаг) (LOW_1, LOW_2 и так далее) – нижняя граница 90-процентного доверительного интервала для прогнозируемого значения выбранного метода прогноза на каждом последующем временном шаге. Псевдоним поля отображает имя Переменной анализа и дату прогноза. Поле этого типа создается для каждого прогнозируемого временного шага. Если выбранный метод прогноза в местоположении не обеспечивает доверительных интервалов, то значение в этом поле равно нулю. Если ни один из методов не предоставляет доверительных интервалов, то это поле не создается.
- Среднеквадратичная ошибка лучшего прогноза (F_RMSE) – прогноз RMSE выбранного метода в местоположении.
- Среднеквадратичная ошибка лучшей проверки (V_RMSE) – проверка RMSE выбранного метода в местоположении. Если параметр Оценить с помощью результатов проверки не установлен, это поле не создается.
- Длительность сезона (SEASON) – количество временных шагов, соответствующих одному сезону для местоположения. Если выбранный метод прогноза в местоположении не поддерживает сезонность, то значение в этом поле равно -1.
- Временное окно (TIMEWINDOW) – окно временного шага, используемое в данном местоположении. Если выбранный метод прогноза в местоположении не поддерживает временное окно, то значение в этом поле равно -1.
- Является сезонным (IS_SEASON) – булева переменная, указывающая, была ли сезонность определена спектральной плотностью. Значение 1 указывает на то, что сезонность была обнаружена по спектральной плотности, а значение 0 указывает на то, что сезонность не использовалась или что выбранный метод прогнозирования не поддерживает сезонность.
- Метод прогноза (METHOD) – метод прогноза, который был выбран в данном местоположении.
- (Имя метода) Прогноз RMSE (F_RMSE_1, F_RMSE_2 и так далее) – прогноз RMSE каждого метода прогноза в данном местоположении. В псевдониме поля отображается имя метода. Поле этого типа создается для каждого куба Пространство-Время, заданного в параметре Входные кубы Пространство-Время прогноза. Если параметр Оценить с помощью результатов проверки установлен, это поле не создается.
- (Имя метода) Проверка RMSE (V_RMSE_1, V_RMSE_2 и так далее) – проверка RMSE каждого метода прогноза в данном местоположении. Псевдоним поля отображает имя входного куба Пространство-Время. Поле этого типа создается для каждого куба Пространство-Время, заданного в параметре Входные кубы Пространство-Время прогноза. Если параметр Оценить с помощью результатов проверки не установлен, это поле не создается.
- Эквивалентно точные методы подгонки (EQUAL_MTHD) – текстовое поле, содержащее список методов прогноза, которые были не менее точны, чем выбранный метод в данном местоположении. Если более одного метода не было значительно менее точным, то каждый метод разделяется вертикальной линией |. Если в списке указано несколько методов одного типа (например, два метода на основе леса, использующие разные параметры леса), то имя метода будет содержать индексный номер для их отличия друг от друга. Если параметр Оценить с помощью результатов проверки установлен, это поле не создается.
- Является оптимальным методом: (Имя метода) (OPT_(Method)) – логическая переменная, указывающая, был ли метод прогноза значительно менее точным, чем выбранный метод в данном местоположении. Имя метода прогноза отображается в имени и псевдониме поля. Значение 1 указывает на то, что метод был не намного менее точен, чем выбранный метод. Поле этого типа создается для каждого метода прогноза, и метод, выбранный в местоположении, всегда содержит значение 1. Если параметр Оценить с помощью результатов проверки установлен, эти поля не создаются.
Выходной куб Пространство-Время
Если задан Выходной куб Пространство-Время, то выходной куб содержит все исходные значения входных кубов Пространство-Время с добавлением прогнозных значений выбранного метода прогнозирования. Этот новый куб пространство-время можно визуализировать с использованием инструментов Визуализировать куб пространство-время в 2D или Визуализировать куб пространство-время в 3D или использовать в качестве входного в инструментах набора Углубленный анализ пространственно-временных закономерностей, например, Анализ возникновения горячих точек или Кластеризация временных рядов.
Сводные диаграммы тестов DM и HLN
Если вы решите не проводить оценку с использованием результатов проверки, сняв отметку с параметра Оценить с помощью результатов проверки, выходные объекты будут содержать две диаграммы, суммирующие результаты тестов DM и HLN.
Диаграмма Методов прогноза и методов подгонки с эквивалентной точностью позволяет увидеть, какие методы прогноза выбирались наиболее часто и, если был выбран другой метод, как часто каждый метод был эквивалентно точен выбранному методу. На диаграмме отображаются боковые гистограммы для трех наиболее часто выбранных методов (если были предоставлены только два куба Пространство-Время, то отображаются только две боковые гистограммы). Для каждого из трех методов диаграмма отображает столбчатую диаграмму только для тех местоположений, где был выбран этот метод. Среди этих местоположений столбчатая диаграмма показывает количество тех, где каждый метод является эквивалентно точным (определяется тестами DM или HLN). Самый высокий столбик всегда соответствует выбранному методу, и это позволяет сравнить относительную шкалу. Имена методов прогноза на оси x обычно усекаются на диаграмме, поэтому вы можете навести курсор мыши на любой из столбиков, чтобы увидеть имена методов.
Диаграмма Распределения комбинаций методов прогноза с эквивалентной точностью отображает гистограмму для различных комбинаций методов прогноза, которые были эквивалентно точными. Это позволяет увидеть, какие методы часто представляли эти местоположения одинаково хорошо. Каждый столбик соответствует определенной комбинации методов прогнозирования, а высота столбика указывает на количество местоположений, где эти методы были эквивалентно точными. Имена комбинаций на оси x обычно усекаются на диаграмме, поэтому вы можете навести курсор мыши на любой из столбиков,чтобы увидеть названия методов прогноза в комбинации.
Дополнительные ресурсы
Для получения дополнительной информации о тестах DM и HLN см. следующие ресурсы:
- Harvey, D., Leybourne, S., and Newbold, P. (1998). "Tests for Forecast Encompassing." Journal of Business and Economic Statistics, 16:254-259.
- Diebold, F and Mariano, R. (1995). "Comparing Predictive Accuracy." Journal of Business and Economic Statistics, 13: 253-63.