Как работает инструмент Прогноз на основе леса

Инструмент Прогноз на основе леса использует регрессию на основе леса для прогнозирования будущих временных срезов в кубе пространства-времени. Основным результатом является карта с итоговым временным шагом прогноза, а также информативные сообщения и всплывающие диаграммы. Другие независимые переменые могут быть указаны для повышения точности прогноза переменной анализа, а вы можете оценить и визуализировать отложенный (задержанный) эффект между независимой переменной и переменной анализа. Вы также можете выбрать, нужно ли строить модели на основе леса для каждой локации независимо, строить одну модель, обученную на основе всех локаций, либо строить отдельные модели в рамках каждого кластера временных рядов. Кроме того, у вас есть возможность обнаружить выбросы в каждом временном ряду, чтобы определить местоположения и времена, которые значительно отклоняются от закономерностей и тенденций остальных временных рядов.

Этот инструмент использует тот же внутренний алгоритм, что и инструмент Классификация на основе леса и регрессия и Регрессия с бустингом, когда он используется для целей регрессии. Обучающие данные, использованные для построения модели регрессии леса, создаются путем использования временных окон для каждой переменной в кубе пространства-времени.

Более подробно о Классификации на основе леса и регрессии, а также регрессии с бустингом

Возможное применение

Модели регрессии на основе леса используют всего несколько предположений относительно данных, поэтому они применяются во многих областях. Они особенно эффективны по сравнению с другими методами прогнозирования, когда данные содержат сложные тренды или являются сезонными, или изменяются способами, отличными от стандартных математических функций, таких как полиномы, экспоненциальные кривые или синусоидальные волны.

Например, вы можете использовать этот инструмент в следующих областях:

  • Район с несколькими школами может использовать данный инструмент для прогноза числа студентов, которые будут отсутствовать каждый день следующей недели в каждой школе в этом районе.
  • Губернатор может спрогнозировать количество госпитализаций в связи с инфекционным заболеванием на две недели в будущем. Этот прогноз может включать количество положительных результатов тестов в качестве независимой переменной, а инструмент будет моделировать эффект отсроченного периода между положительными тестами и госпитализациями.
  • Менеджеры, работающие в государственных коммунальных услугах, могут использовать этот инструмент для прогноза необходимых потребностей в водных и электрических ресурсах в течение следующего месяца в близлежащих административных делениях.
  • Торговая сеть магазинов может использовать этот инструмент для прогноза отдельных товаров, которые закончатся в первую очередь, что поможет улучшить управление ресурсами склада.
  • Городские планировщики могут использовать этот инструмент для прогнозирования будущего населения и оценки влияния на жилую застройку, энергетику, питание и инфраструктуру. Города со сходными размерами и трендами в населении можно сгруппировать вместе в кластеры, а модели на основе леса могут быть встроены в каждую группу.

Прогнозирование и проверка

Инструмент создает две модели во время прогнозирования каждого из временных рядов. Первая - это модель прогноза, которая используется для прогнозирования значений следующих временных шагов. Вторая модель - это модель проверки, которая используется для проверки спрогнозированных значений.

Примечание:

Этот раздел описывает опцию Отдельное местоположение для параметра Масштаб модели. Аналогичным образом работают опции Куб целиком и Кластер временных рядов. Подробнее см. Расширение масштаба модели .

Модель прогнозирования

Модель прогноза создается путем построения леса со значениями временных рядов в каждом местоположении куба Пространство-время. Этот лес затем используется для предсказания следующего временного среза. Спрогнозированные значения на новом временном шаге включаются в модель леса, и затем происходит прогноз следующего временного шага. Этот рекурсивный процесс продолжается через все будущие временные шаги. Совпадение леса в каждом временном ряду измеряется с помощью среднеквадратичной ошибки прогноза (RMSE), которая равна квадратному корню из средней квадратной разницы между моделью леса и значениями временных рядов.

Прогнозное значение ошибки RMSE
, где T означает количество временных шагов, ct - значение модели леса, и rt - необработанное значение временных рядов в момент времени t.

На следующем изображении приведены сырые значения временных рядов и модель леса, подходящая ко временных рядам вместе с прогнозами для двух временных шагов. Ошибка RMSE прогноза измеряет, насколько подходящие значения леса отличаются от сырых значений временных рядов.

Модель прогноза для Прогноза на основе леса

Прогнозное значение ошибки RMSE измеряет, насколько хорошо модель леса соответствует сырым значениям временных рядов. Он не измеряет, насколько хорошо модель прогноза реально прогнозирует будущие значения. Часто случается, что модель леса хорошо вписывается во временные ряды, но не дает точного прогноза при экстраполировании. Эта проблема решается с помощью модели проверки.

Модель проверки

Модель проверки используется для определения, насколько хорошо модель прогноза может предсказывать будущие значения для каждого временного ряда. Она создается путем исключения некоторых из последних временных шагов в каждом из временных рядов и подгонки модели леса к данным, которые не были исключены. Модель леса затем используется для прогнозирования значений данных, которые были исключены, и значения прогноза сравниваются с сырыми значениями, которые были скрыты. По умолчанию, 10 процентов временных шагов удерживаются для проверки, но это число можно изменить, используя параметр Число временных шагов, исключаемых для проверки. Число исключаемых временных шагов не может превышать 25 процентов от общего числа временных шагов, и проверка не выполняется, если указано значение 0. Точность прогнозов измеряется путем вычисления статистики Проверяемое значение ошибки RMSE, которая равна квадратному корню из средней квадратной разницы между прогнозом и сырыми значениям для исключенных временных шагов.

Проверяемое значение ошибки RMSE
, где T равно числу временных шагов, m - число временных шагов, удержанных для проверки, ct - значение, прогнозируемое из первых T-m временных шагов, а rt - это необработанное значение во временных рядах, удержанных для проверки в момент времени t.

На следующем изображении показана модель леса, подогнанная для первой половины временных рядов и затем использованная для предсказания второй половины временных рядов. Проверяемое значение ошибки RMSE измеряет, насколько прогнозируемые значения отличаются от сырых значений для удержанных временных шагов.

Модель проверки для Прогноза на основе леса

Модель проверки особенно важна, поскольку она может напрямую сравнивать прогнозируемые значения с сырыми значениями и измерять, насколько хорошо выполнен прогноз леса. Хотя она и не используется непосредственно для прогноза, она используется для обоснования модель прогноза.

Примечание:

Проверка в прогнозе временных рядов похожа, но не идентична общему методу, называемому перекрестной проверкой. Разница заключается в том, что проверка прогноза всегда исключает итоговые временные шаги для проверки, а перекрестная проверка либо исключает случайных поднабор данных, или исключает каждое последовательное значение.

Интерпретация

Существует несколько важных моментов при интерпретации прогнозных значений ошибки RMSE и проверяемых значений ошибки RMSE.

  • Значения RMSE нельзя сравнивать друг с другом напрямую, поскольку они измеряют разные величины. Прогнозное значение ошибки RMSE измеряет, насколько хорошо модель леса соответствует исходным сырым значениям временных рядов, а проверяемое значение ошибки RMSE измеряет, насколько хорошо модель леса может прогнозировать будущие значения. Поскольку прогнозное значение ошибки RMSE использует больше данных и не может быть экстраполировано, оно обычно меньше, чем проверяемое значение ошибки RMSE.
  • Оба значения ошибок RMSE используют единицы измерения данных. Например, если ваши данные представляют собой измерения температуры в градусах Цельсия, RMSE Проверки – 50 очень высокая, поскольку это означает, что прогнозируемые значения в среднем отличались от истинных значений примерно на 50 градусов. Однако если ваши данные представляют ежедневный доход крупного сетевого магазина в долларах, то же проверяемое значение ошибки RMSE, равное 50, является весьма небольшим, поскольку означает, что прогнозируемый ежедневный доход отличается от истинных значений в среднем на $50 в день.

Создание и обучение модели на основе леса

Для прогноза будущих значений, модель леса необходимо обучить путем связывания независимых переменных с зависимыми для каждого местоположения. Модель леса требует повторения обучающих данных, но для каждого местоположения существует только один временный ряд. Чтобы создать множество наборов независимых и зависимых переменных внутри одного временного ряда, создаются временные окна, в которых каждые временные шаги внутри каждого временного окна используются в качестве независимых переменных, и каждый временной шаг после временного окна является зависимой переменной. Например, если в местоположении имеется 20 временных шагов, и временное окно содержит 4 временных шагов, существует 16 наборов независимых и зависимых переменных, используемых для обучения леса в этом местоположении. Первый набор содержит временные шаги 1, 2, 3 и 4 в качестве независимых переменных, и временный шаг 5 в качестве зависимой переменной. Второй набор содержит временные шаги 2, 3, 4 и 5 в качестве независимых переменных, и временный шаг 6 в качестве зависимой переменной. Последний набор содержит временные шаги 16, 17, 18 и 19 в качестве независимых переменных, и временный шаг 20 в качестве зависимой переменной. Число временных шагов внутри каждого временного окна может быть указано с помощью параметра Окно временного шага. Временное окно может содержать всего 1 шаг (то есть используется только один временной шаг внутри каждого временного окна), но не может превышать одну треть общего числа временных шагов в местоположении.

Обучение леса с временными окнами
Модель прогнозирования леса обучается с использованием временных окон.

Используя обученную модель леса, итоговые временные шаги в местоположении используются в качестве независимых переменных для леса в первом будущем временном шаге. Второй будущий временной шаг затем прогнозируется с использованием предыдущих временных шагов во временном окне, и один из этих временных шагов является первым спрогнозированным значением. Третий прогнозируемый временной шаг таким же образом использует предыдущие временные шаги в окне, два из которых являются ранее спрогнозированными временными шагами. Этот процесс продолжается через все будущие временные шаги.

На следующем изображении показаны наборы независимых и зависимых переменных, использованных для обучения модели леса и прогнозирования первых семи будущих временных шагов:

Прогнозирование с использованием временных окон
Прогнозы создаются с использованием временных окон.

Расширение масштаба модели

В дополнение к построению отдельных моделей леса в каждом местоположении вы можете группировать местоположения вместе и строить единую модель прогноза, которая используется всеми локациями в группе. Группирование местоположений позволяет выполнять анализ в разных масштабах, например, моделировать городское население, сгруппированное по общему размеру населения. Вы также можете построить глобальную модель со всеми местоположениями в той же группе.

При совместном группировании общая модель прогноза использует временные окна в каждом местоположении в группе в качестве обучающих данных, таким образом у нее гораздо больше данных для получения закономерностей и трендов на основе временных рядов, чем у отдельного местоположения. Это особенно важно для коротких временных рядов, где ограничен объем доступных обучающих данных в пределах каждого временного ряда. Когда у всех временных рядов в группе сходные значения и закономерности, эти дополнительные обучающие данные позволяют более точно давать прогноз в каждом местоположении в группе путем встраивания этих закономерностей в другие местоположения. Однако если временные ряды местоположений в группе имеют значения и закономерности, которые отличаются значительно, то встраивание этих закономерностей уменьшит точность прогнозов, поэтому важно группировать только сходные временные ряды.

Вы можете задать масштаб анализа с помощью параметра Масштаб модели. Опция по умолчанию Отдельное местоположение строит независимые модели в каждой локации для анализа на локальном уровне. Опция Весь куб строит одну модель на основе всех местоположений для глобального анализа. Опция Кластер временных рядов строит модель для каждого кластера результата кластеризации временных рядов для анализа в масштабе кластеров (если кластеры формируют регионы, это будет анализ на региональном уровне). Переменная, содержащая результаты кластеризации временных рядов, содержится в параметре Переменная кластеризации.

Масштабы модели
Для построения прогнозных моделей могут использоваться три масштаба.

На следующем рисунке показан пример построения одной модели для всего куда с семью локациями:

Масштаб модели всего куба
Строится единая модель на основе всех местоположений в качестве обучающих данных.

На следующем рисунке показан пример построения отдельных моделей для каждого из двух кластеров временных рядов:

Масштаб модели кластера временных рядов
Для каждого кластера временных рядов строится отдельная модель.

Добавление других переменных и эффекта лага

Хотя модели регрессии на основе леса могут эффективно выявлять сложные закономерности и тренды временных рядов, вы можете их улучшить, добавив дополнительную информацию из других связанных переменных. Например, знание уровней загрязнения может помочь спрогнозировать количество обращений в отделение неотложной помощи из-за астмы, поскольку загрязнение является известным триггером приступов астмы.

Вы можете включить связанные переменные, которые хранятся в том же кубе пространства-времени с помощью параметра Другие переменные, чтобы спрогнозировать переменную анализа на основе многовариантного прогноза на базе леса. Чтобы обучить многовариантную модель регрессии на основе леса, каждая следующая переменная включается в рамки каждого временного окна и используется для прогнозирования следующего после временного окна значения, аналогично тому, как временные окна используются для переменной анализа, как это описано в разделе Создание и обучение модели на основе леса.

Многовариантная прогнозная модель
Прогнозная модель леса обучается с использованием нескольких переменных.

При прогнозировании на новые временные шаги каждая связанная переменная прогнозируется с использованием одномерного прогноза на основе леса, и эти прогнозируемые значения используются в качестве независимых переменных при прогнозировании будущих значений переменной анализа. Результаты всех прогнозов (переменной анализа и всех независимых переменных) хранятся в выходном кубе пространство-время.

Многовариантное прогнозирование с использованием временных окон

Многовариантные прогнозы создаются с использованием временных окон.

Вы также можете использовать Прогноз на основе леса для оценки и визуализации эффектов лагов между переменной анализа и другими переменными. Эффект лага возникает, когда существует задержка между изменением другой переменной и изменением переменной анализа, и он присутствует во многих ситуациях, связанных с временными рядами нескольких переменных. Например, расходы на рекламу часто оказывают запаздывающий эффект на доход от продаж, потому что людям нужно время, чтобы увидеть рекламу, прежде чем принять решение о покупке. В предыдущем примере обращений в отделения неотложной помощи по поводу астмы и изменения уровня загрязнения также может быть задержка между повышением уровня загрязнения и увеличением числа обращений, поскольку нужно некоторое время, чтобы негативные последствия для здоровья накопились достаточно сильно, чтобы потребовать неотложной помощи.

На следующем изображении показан эффект лага, когда изменения значения синего временного ряда отстают на четыре дня от оранжевой линии:

Эффект лага между двумя переменными

Когда существует лаг между любыми независимыми переменными и переменной анализа, вы можете получить больше информации о переменной анализа, посмотрев назад во времени по длине лага. Например, если существует двухнедельный лаг между расходами на рекламу и доходом от продаж, при прогнозировании дохода от продаж на любой конкретный день более информативным будет посмотреть на расходы на рекламу за две недели до этого по сравнению с суммой, потраченной за последние несколько дней.

Модель на основе леса может обнаруживать и использовать эффект лага между переменными, потому что скользящее временное окно всегда прогнозирует временной шаг сразу после него. Последнее значение во временном окне всегда представляет один временной шаг до прогноза; предпоследний временной шаг во временном окне всегда оказывается на два временных шага до прогноза; и так далее. Поскольку временное окно сдвигается, каждая независимая переменная представлена как отдельный фактор для каждого временного шага в пределах временного окна, что позволяет сравнивать различные объясняющие переменные с разными лагами и определять, какие из них наиболее важны для прогнозирования. Подробнее см. Как работает Классификация на основе леса и регрессия, а также Регрессия с бустингом.

Например, на приведенной ниже диаграмме показаны важные переменные с лагом по времени по отдельным странам для прогнозирования новых ежедневных смертей от коронавирусной болезни 2019 (COVID-19) в начале 2021 года. Модель учитывает количество людей, получающих вакцину каждый день, в качестве независимой переменной. Значения оси x относятся к каждому временному шагу в пределах временного окна, и это изображение имеет 14 значений, потому что оно использовало временное окно в 14 дней. Значения оси x представляют количество временных шагов до прогноза, поэтому они возвращаются во времени при перемещении слева направо по диаграмме. Крайнее левое значение 1 означает, что событие произошло за один день до прогноза, что соответствует последнему временному шагу во временном окне. Точно так же крайнее правое значение 14 представляет 14 дней до прогноза, что соответствует первому временному шагу 14-дневного временного окна. Для каждого временного шага светло- и темно-синие столбцы представляют количество мест, в которых этот фактор был определен как один из наиболее важных факторов при прогнозировании новых ежедневных смертей от COVID-19, поэтому чем больше количество, тем важнее общий фактор между местоположениями. Темно-синие столбцы представляют переменную анализа, новые случаи смерти от COVID-19, а столбцы являются самыми высокими в первые три-четыре временных лага, что указывает на то, что количество смертей за предыдущие три-четыре дня является наиболее предсказуемым для смертей в следующие день. Хотя эти данные и не демонстрируют этого, переменная может запаздывать сама по себе, например, с циклическими переменными, такими как температура, где просмотр на 24 часа назад более предсказуем, чем просмотр на 2 часа назад из-за дневных и ночных циклов. Голубые столбцы представляют количество новых вакцин, введенных в день, а самые высокие светло-голубые столбцы появляются через 10–14 дней назад во временном окне (крайние правые столбцы), указывая на то, что увеличение или уменьшение количества вакцин влияет на количество смертей от 10 до 14 дней в будущем. Это отставание от 10 до 14 дней соответствует времени, необходимому для развития пикового иммунитета после вакцинации.

Диаграмма важности временного лага
Отображены факторы, важные для прогнозирования новых ежедневных смертей от COVID-19. Смертность за последние три-четыре дня является наиболее вероятным показателем новых смертей. Количество новых вакцин, введенных за 10–14 дней в прошлом, является наиболее вероятным показателем новых смертей.

Диаграмма важности лага включена в выходную таблицу, созданную дополнительным параметром Выходная таблица значимости.

Для масштаба модели Отдельное местоположение в таблице содержатся строки для каждой важной переменной в каждой локации. Количество факторов, значимых для каждого местоположения, зависит от значения параметра Порог значимости. Например, если используется значение 15, верхние 15 процентов факторов в каждом местоположении будут включены в таблицу и диаграмму. Значением по умолчанию является 10. Чтобы создать таблицу и диаграмму, вы должны включить хотя бы одну другую переменную в параметр Другие переменные. Число временных лагов в таблице и диаграмме равно значению параметра Окно временного шага, поэтому временное окно должно быть шире любого отложенного эффекта, который вы хотите захватить. Например, временное окно в одну неделю не сможет уловить эффект лага для вакцин на количество смертей от COVID-19.

Для масштаба модели Весь куб для создания таблицы или диаграммы не обязательно указывать другие переменные, а y-ось диаграммы представляет собой сырой процент важность (а не число местоположений, превышающее порог), поскольку для всех локаций используется одинаковая модель прогноза. На следующем рисунке показана диаграмма Важность временного лага для анализа всего куба с двенадцатью временными лагами и тремя переменными:

Диаграмма важности временного лага для всего куба

Для масштаба модели Кластер временных рядов диаграмма создается только, если другие переменные не указаны, а диаграмма будет показывать сетку графиков, разделенных кластером. На следующем изображении показана Важность временного лага для трех кластеров временных рядов:

Диаграмма важности временного лага кластера временных рядов

Корректировки для низкой вариабельности

Если какие-нибудь переменные, используемые для анализа в местоположении не имеют выраженной вариабельности, модель на основе леса не может быть обучена и оценена в местоположении. Если переменная анализа постоянна в каждом временном шаге в местоположении, местоположение исключается из обучения; постоянное значение прогнозируется в каждом будущем временном шаге и доверительный интервал не включен в прогнозирование.

Если в местоположении есть, как минимум, два уникальных значения во временных рядах, для переменной анализа и для остальных переменных выполняются две дополнительных проверки. Сначала для всех временных шагов во временных рядах определяется доля содержания постоянного значения. Затем, только для тех временных рядов, которые не исключены из проверки, определяется доля содержания постоянного значения. Если какая-либо из этих долей превышает две трети, к значениям добавляется небольшое количество случайного шума, чтобы создать вариабельность во временных рядах, и модели прогнозирования и проверки вычисляются с использованием новых значений. Шум, добавленный к каждому временному шагу - случайное однородное число от 0 до 0.000001 (1e-6). Если диапазон значений временного ряда меньше 0.001, шум будет однородным значением между 0 и величиной диапазона, умноженной на 1e-6.

Даже при добавлении случайного шума модель на основе леса все равно может не выполнить вычисления после 30 попыток. Это обычное явление для очень коротких временных рядов.

Учет сезонности и выбор временного окна

Число временных шагов внутри каждого окна временного шага является важным параметром модели леса. Основным моментом является то, учитывают ли временные ряды сезонность, когда природные цикличные закономерности повторяются через определенное количество временных шагов. Например, температура отображает годовые сезонные циклы в зависимости от сезонов года. Поскольку временное окно используется для построения связанных зависимых и независимых переменных, оно работает наиболее эффективным образом, когда эти переменные все поступают из одного сезонного цикла, при этом достигается наименьшая из возможных сезонных корреляций между независимыми переменными. В качестве длины окна временного шага рекомендуется использовать число временных шагов природного сезона. Если ваши данные отображают несколько сезонов, рекомендуется использовать длину самого длинного сезона.

Если вам известно количество временных шагов, которые соответствуют одному сезону для ваших данных, вы можете указать это количество в параметре Окно временного шага, и это значение будет использоваться для каждого местоположения в кубе пространства-времени. Если вы не знаете продолжительность сезона, или если эта продолжительность отличается для разных местоположений, значение параметра можно оставить пустым, и оптимальная продолжительность будет определена с помощью функции спектральной плотности для каждого местоположения. Подробную информацию об этой функции см. в разделе Дополнительные ресурсы.

Для отдельного местоположения, если оптимальная продолжительность сезона, определенная с помощью спектрального анализа, больше 1 и не менее, чем одна треть от общего числа временных шагов в местоположении, то окно временного шага будет задано равным этому оптимальному значению. В противном случае, местоположение использует 25 процентов (округленные в меньшую сторону) от числа временных шагов в местоположении для окна временного шага. Это гарантирует, что в окне будет содержаться как минимум один временной шаг, и что как минимум три полных сезонных цикла используются в качестве независимых переменных. Значение временного шага сохраняется в поле Time Window выходных объектов. Поле Is Seasonal выходных объектов будет содержать значение 1, если окно временного шага было определено с помощью спектрального анализа, и будет содержать значение 0 в противном случае. Этот рабочий процесс представлен на следующем рисунке:

Параметр Определение окна временного шага
Окно временного шага можно задать или оценить для каждого местоположения путем определения сезонности.

Для масштабов модели Весь куб и Кластер временных рядов временное окно по умолчанию составляет 25 процентов (округлено в меньшую сторону) от числа временных шагов. Это связано с тем, что у разных локаций, как правило, разное сезонное поведение (например, в одних локациях зима начинается раньше, чем в других), так что невозможно выявить единый сезонный тренд для всех локаций в группе.

Подходы к прогнозированию

Существует четыре способа, с помощью которых вы можете представить значения зависимых и независимых переменных, которые будут использоваться для обучения леса. Эти опции задаются при помощи параметра Подход к прогнозу.

Первой опцией является Построение модели по значению. Эта опция использует необработанные значения в бинах куба пространства-времени для зависимых и независимых переменных. Если выбрана эта опция, прогнозируемые значения будут содержаться внутри диапазона зависимых переменных. Не следует использовать эту опцию, если ваши данные имеют закономерности по продолжению увеличения или уменьшения при дальнейшем прогнозировании в будущем. Изображение ниже показывает наборы переменных, используемых для обучения модели с одним местоположением, и каждая строка отображает набор независимых переменных и связанную с ними зависимую переменную. T - это число временных шагов в кубе пространства-времени, W - число временных шагов в каждом окне временного шага, а Xt - необработанное значение временного ряда в момент времени t.

Примечание:

Для масштабов модели Весь куб и Кластер временных рядов единственным доступным подходом к прогнозированию является Построить модель по значению.

Матрица для построения модели по значению

Второй опцией является Построение модели по значению после удаления тренда. Это опция по умолчанию для данного инструмента. Эта опция выполняет удаление тренда первого порядка (линейного) для целых временных рядов в каждом местоположении, и эти значения без тренда используются в качестве независимых и зависимых переменных. Использование этой опции позволяет прогнозам следовать этому тренду в будущем, чтобы прогнозированные значения могли быть определены вне диапазона зависимых значений. Изображение ниже показывает наборы переменных, используемых для обучения модели с одним местоположением, и каждая строка отображает набор независимых переменных и связанную с ними зависимую переменную. T - это число временных шагов в кубе пространства-времени, W - число временных шагов в каждом окне временного шага, а Dt - значение с удаленным трендом временного ряда в момент времени t.

Матрица для построения модели по значению после удаления тренда

Третьей опцией является Построение модели по остатку. Эта опция создает модель регрессии методом наименьших квадратов (OLS) для определения зависимых переменных на основе независимых переменных внутри каждого временного окна. Остаток в этой модели регрессии (разница между прогнозом OLS и необработанным значением зависимой переменной) используется для представления зависимой переменной при обучении леса. Изображение ниже показывает наборы переменных, используемых для обучения модели с одним местоположением, и каждая строка отображает набор независимых переменных и связанную с ними зависимую переменную. T - это число временных шагов в кубе пространства-времени, W - число временных шагов в каждом окне временного шага, Xt - значение временного ряда в момент времени t, а X^t (Xt-hat) - значение, определенное с помощью OLS в момент времени t.

Матрица для построения модели по остатку

Последней опцией является Построение модели по остатку после удаления тренда. Эта опция выполняет удаление тренда первого порядка (линейного) для полных временных рядов в местоположении. Затем создается модель регрессии OLS для определения зависимых переменных с удаленным трендом на основе независимых переменных с удаленным трендом внутри каждого временного окна. Остаток в этой модели регрессии (разница между прогнозом OLS и значением с удаленным трендом зависимой переменной) используется для представления зависимой переменной при обучении леса. Изображение ниже показывает наборы переменных, используемых для обучения модели с одним местоположением, и каждая строка отображает набор независимых переменных и связанную с ними зависимую переменную. T - это число временных шагов в кубе пространства-времени, W - число временных шагов в каждом окне временного шага, Xt - значение с удаленным трендом временного ряда в момент времени t, а X^t (Xt-hat) - значение, определенное с помощью OLS в момент времени t.

Матрица для построения модели по остатку после удаления тренда

Построение доверительных интервалов

Если хотя бы два временных шага исключены из проверки, то инструмент создает 90 процентные доверительные интервалы для каждого прогнозируемого временного шага, представленного в виде полей выходных объектов и отображаемого во всплывающих диаграммах, подробная информация о которых приведена в разделе Выходные данные инструмента. Инструмент строит доверительные интервалы путем оценки стандартной ошибки для каждого прогнозируемого значения и создания доверительных границ в размере 1,645 стандартной ошибки выше и ниже прогнозируемого значения.

Инструмент выполняет следующие вычисления для оценки стандартных ошибок:

  1. Вычислите RMSE проверки для прогнозов на один шаг вперед с помощью временных окон размера T для прогнозирования временных рядов, исключенных для проверки. RMSE проверки на один шаг вперед можно вычислить только с помощью временных окон, которые не использовались для обучения прогнозной модели и у которых есть хотя бы один временной шаг после окна, которое нужно спрогнозировать. Первое временное окно - это финальные временные шаги T перед исключенными временными шагам, оно прогнозирует первый исключенный временной шаг. Второе временное окно - это финальные временные шаги (T-1) и первый исключенный временной шаг (это значение возвращается, чтобы его можно было использовать для вычисления RMSE), оно прогнозирует второй исключенный временной шаг. Последнее временное окно предсказывает финальные исключенные временные шаги с помощью предыдущего временного шага T (возвращенного в набор данных). Для отдельного масштаба модели местоположения прогноз на один шаг вперед вычисляет RMSE с помощью значений M для временных шагов M, удержанных для проверки. Для всего куба или масштабов модели кластера временных рядов каждое местоположение в группе содержит значения M для вычисления RMSE на один шаг вперед.
  2. Вычисление прогнозов RMSE проверки на два шага вперед также использует временные окна в пределах исключенных временных шагов. Каждое окно использует прогнозируемое значение из шага 1, как финальный временной шаг для прогнозирования следующего исключенного временного шага. Для прогнозов на два шага вперед у каждого местоположения есть значения (M-1) для вычисления RMSE на два шага вперед.
  3. Вычислите RMSE проверки для прогнозов на K-шагов вперед, вплоть до K=M. Каждое местоположение использует спрогнозированные значения из вычислений RMSE(K-1)-шагов вперед и содержит значения (M-K+1) в вычислении RMSE. Финальное вычисление RMSE M-шагов вперед использует по одному значению на местоположение.
  4. Подгоните регрессионную модель, прогнозирующую среднюю RMSE K-шагов вперед для местоположений в группе (или отдельного местоположения), используя log(K) в качестве независимой переменной. Используйте эту модель для оценки стандартных ошибок для всех будущих временных шагов (всех значений K), включая первые прогнозированные значения M.

На следующем рисунке показан процесс для анализа куба целиком с тремя временными шагами (M=3), удержанными для проверки, и временного окна для четырех временных шагов (T=4).

Доверительные интервалы
Доверительные интервалы оцениваются для прогнозов всего куба.

Примечание:

В некоторых случаях расчетный наклон или точка пересечения регрессионной модели, предсказывающей стандартные ошибки, могут быть отрицательными. Если предполагаемое пересечение отрицательное, модель подходит без пересечения. Если наклон отрицательный, в качестве RMSE всех прогнозируемых значений используется максимальное среднеквадратичное отклонение среди удерживаемых временных шагов (отдельного местоположения, кластера временных рядов или всего куба).

Идентификация выбросов временных рядов

Выбросы в данных временных рядов - это значения, которые существенно отличаются от закономерностей и тенденций других значений во временных рядах. Например, большое количество покупок в интернете во время праздников или большое количество дорожно-транспортных происшествий во время сильных ливней, скорее всего, будут обнаружены как выбросы в их временных рядах. Простые ошибки ввода данных, такие как пропуск десятичной части числа, являются еще одним распространенным источником выбросов. Выявление выбросов в прогнозе временных рядов важно, поскольку выбросы влияют на прогнозную модель, которая используется для прогнозирования будущих значений, и даже небольшое количество выбросов во временных рядах местоположения может значительно снизить точность и надежность прогнозов. Местоположения с выбросами, особенно в начале или в конце временного ряда, могут давать неверные прогнозы, и идентификация этих местоположений помогает определить, насколько вы должны быть уверены в прогнозируемых значениях в каждом местоположении.

Выбросы определяются не просто их исходными значениями, а тем, насколько их значения отличаются от установленных значений прогнозной модели. Это означает, что определение того, является ли значение выбросом, является контекстуальным и зависит как от его места, так и от времени. Прогнозная модель определяет, какое значение ожидается на основе всего временного ряда, а выбросы – это значения, которые сильно отклоняются от этого базового уровня. Например, рассмотрим временной ряд среднегодовой температуры. Поскольку средние температуры увеличились за последние несколько десятилетий, подходящая прогнозная модель температуры также будет увеличиваться с течением времени, чтобы отразить это увеличение. Это означает, что значение температуры, которое будет считаться типичным, а не выбросом в 1950 году, скорее всего, будет считаться выбросом, если такая же температура произойдет в 2020 году. Другими словами, типичная температура 1950 года будет считаться очень низкой по стандартам 2020 года.

Вы можете выбрать обнаружение выбросов временных рядов в каждом местоположении с помощью параметра Идентифицировать выбросы. Если указано, то для каждого местоположения выполняется обобщенный тест экстремальных отклонений (ESD) для проверки выбросов временных рядов. Уровень достоверности теста можно задать с помощью параметра Уровень достоверности, и по умолчанию используется 90 - процентная достоверность. Обобщенный тест ESD итеративно проверяет наличие одного выброса, двух выбросов, трех выбросов и т. д. в каждом местоположении вплоть до значения параметра Максимального числа выбросов (по умолчанию 5 процентов от числа временных шагов, округленных вниз), и возвращается наибольшее статистически значимое число выбросов. Количество выбросов в каждом местоположении можно увидеть в таблице атрибутов выходных объектов, а отдельные выбросы – во всплывающих диаграммах временных рядов, которые рассматриваются в следующем разделе.

Узнайте больше о выбросах в анализе временных рядов, обобщенном тесте ESD и о том, как интерпретировать полученные результаты

Выходные данные инструмента

Основным результатом этого инструмента является класс 2D-объектов, отображающий каждое местоположение во Входном кубе пространства-времени, использующий символы из последнего спрогнозированного временного шага с помощью прогнозов всех остальных временных шагов, использованных в качестве полей. Несмотря на то, что каждая локация предсказывается независимо от других, а пространственные отношения во внимание не берутся, карта все равно может показывать пространственные закономерности для областей со сходными временными рядами.

Всплывающие диаграммы

При нажатии любого объекта на карте с помощью инструмента навигации Исследовать будет показана диаграмма на панели Всплывающее окно, на которой отображаются значения куба пространства-времени вместе с подходящей моделью леса и значениями прогноза, а также 90 процентные доверительные интервалы для каждого прогноза. Значения куба пространства-времени отображаются синим цветом и соединяются синей линией. Подходящие значения отображаются оранжевым цветом и соединяются пунктирной оранжевой линией. Спрогнозированные значения отображаются оранжевым цветом и соединяются сплошной оранжевой линией, представляющей прогноз модели леса. Допустимые границы отображаются вокруг каждого прогнозируемого значения с использованием светло-красного цвета. Вы можете задержать курсор над любой точкой диаграммы, чтобы просмотреть дату и значение в этой точке. Кроме того, если вы выбрали обнаружение выбросов во временных рядах, любые выбросы отображаются в виде больших фиолетовых точек.

Диаграмма во всплывающем окне Прогноза на основе леса
Всплывающая диаграмма отображает исходные значения, подходящие значения, прогнозируемые значения и доверительные интервалы.

Примечание:

Всплывающие диаграммы не создаются, когда выходные объекты сохраняются в виде шейп-файла. (.shp). Дополнительно, если доверительные интервалы простираются за пределы диаграммы, над диаграммой появится кнопка Показать полный диапазон данных, которая позволяет вам расширить диаграмму и увидеть весь доверительный интервал.

Сообщения геообработки

Этот инструмент предоставляет целый ряд сообщений, содержащих информацию о выполнении инструмента. Сообщения содержат три основных раздела.

Раздел Информация о входном кубе пространства-времени отображает свойства входного куба пространства-времени, а также информацию о временных шагах, количестве местоположений и число пространственно-временных бинов. Свойства, отображаемые в этом первом разделе, зависят от первоначального метода создания куба, поэтому информация может отличаться от куба к кубу.

В разделе Детали анализа показаны свойства результатов прогноза, включая количество предсказанных временных шагов, количество временных шагов, исключенных для проверки, процент локаций, для которых была выявлена сезонность по спектральному анализу и информация о предсказанных временных шагах. Если для параметра Окно временного шага не было задано значение, отображается суммарная статистика определенного окна временного шага, включая минимум, максимум, среднее значение, медиану и среднеквадратичное отклонение.

Раздел Обзор точности среди Местоположений отображает суммарную статистику для Прогнозного значения ошибки RMSE и Проверяемого значения ошибки RMSE среди всех местоположений Для каждого значения отображаются минимум, максимум, среднее, медиана и среднеквадратичное отклонение.

Раздел Сводка выбросов временных рядов появляется, если вы решите обнаружить выбросы временных рядов с помощью опции Параметр выбросов. В этом разделе отображается информация, включая количество и процент местоположений, содержащих выбросы, временной шаг, содержащий наибольшее количество выбросов, а также сводная статистика по количеству выбросов по местоположению и временному шагу.

Примечание:

Сообщения геообработки отображаются в нижней части панели Геообработка в процессе выполнения инструмента. Вы можете получить доступ к сообщениям, переместив курсор мыши на индикатор выполнения, щелкнув на всплывшую кнопку Всплывающее окно или развернув раздел сообщений на панели Геообработка. Вы можете получить доступ к сообщениям для выполненного ранее инструмента, используя историю геообработки.

Поля в выходных объектах

Дополнительно к полю Object ID, полям геометрии и полю, содержащему всплывающие диаграммы, Выходные объекты будут иметь следующие поля:

  • Location ID (LOCATION) - идентификатор (Location ID) соответствующего местоположения в кубе пространства-времени.
  • Прогноз для (Переменная анализа) в (Временной шаг) (FCAST_1, FCAST_2 и т.п.)—предсказанное значение в каждом будущем временном шаге. Псевдоним поля отображает имя Переменной анализа и дату прогноза. Поле данного типа создается для каждого прогнозируемого временного шага.
  • Верхняя граница для (Переменной анализа) для (Временного шага) (HIGH_1, HIGH_2 и т.д.) – верхняя граница 90-процентного доверительного интервала для прогнозируемой величины каждого будущего временного шага. Псевдоним поля отображает имя Переменной анализа и дату прогноза. Поле данного типа создается для каждого прогнозируемого временного шага.
  • Низкий интервал для (Переменной анализа) в (Временном шаге) (LOW_1, LOW_2 и т.д.) - нижняя граница в 90-процентном доверительном интервале для прогнозируемого значения в каждом будущем временном шаге. Псевдоним поля отображает имя Переменной анализа и дату прогноза. Поле данного типа создается для каждого прогнозируемого временного шага.
  • Среднеквадратичная ошибка прогноза (F_RMSE) - значение RMSE прогноза.
  • Среднеквадратическая ошибка проверки (V_RMSE) — RMSE проверки. Если для проверки не были исключены никакие временные шаги, это поле не создается.
  • Временное окно (TIMEWINDOW) - окно временного шага, используемое в данном местоположении.
  • Сезонный (IS_SEASON) - Булева переменная, показывающая, будет ли окно временного шага в местоположении определяться спектральной плотностью. Значение, равное 1, показывает, что сезонность была определена с помощью спектральной плотности, а значение 0 показывает, что сезонность не была определена. Если для параметра Временное окно задано значение, то у всех местоположений в этом поле будет содержаться значение 0.
  • Метод прогноза (METHOD) - текстовое поле, показывающее параметры модели леса, включая случайные местоположения, число деревьев, размер выборки, подход при прогнозировании, было ли окно временного шага указано пользователем или определено инструментом, а также любые другие переменные и информацию о масштабе модели и вариативности кластеров (если применимо). Это поле может использоваться для повторения результатов, и позволяет вам узнать, какие модели были использованы в инструменте Оценить прогнозы по местоположению.
  • Число выбросов подгонки модели (N_OUTLIERS) – количество выбросов, обнаруженных во временном ряду местоположения. Это поле создается только в том случае, если вы выбрали обнаружение выбросов с помощью опции Параметр выбросов.

Выходной куб пространство-время

Если указан Выходной куб пространство-время он будет содержать значения исходного куба пространство-время и добавленные прогнозированные значения. Этот новый куб пространство-время можно визуализировать с использованием инструментов Визуализировать куб пространство-время в 2D или Визуализировать куб пространство-время в 3D или использовать в качестве входного в инструментах набора Углубленный анализ пространственно-временных закономерностей, например, Анализ возникновения горячих точек или Кластеризация временных рядов.

Несколько прогнозируемых кубов пространство-время можно сравнить и объединить с помощью инструмента Оценить прогнозы по местоположению. Это позволит создавать несколько прогнозных кубов с использованием различных инструментов и параметров прогнозирования, а инструмент будет определять наилучший прогноз для каждого местоположения с помощью RMSE прогноза или RMSE проверки.

Лучшие практики и ограничения

При определении, подойдет ли этот инструмент для вашего типа данных, и какие параметры использовать, оцените следующее:

  • По сравнению с другими инструментами прогнозирования в группе инструментов Прогнозирование временных рядов, этот инструмент является более сложным, но использует меньшее число предположений о данных. Рекомендуется использовать этот инструмент для временных рядов со сложной формой и трендами, которые сложно смоделировать с помощью простых математических функций или функций сглаживания. Он также рекомендуется, когда предположения других методов не удовлетворяются.
  • Этот инструмент можно использовать для изучения разных масштабов модели и взаимодействия между разными переменными временных рядов. Рекомендуется запустить инструмент несколько раз для разных масштабов и других переменных, а также использовать инструмент Оценка прогнозов по местоположению, чтобы найти наилучшие прогнозы для каждого местоположения.
  • Важно принять решение о значении параметра Количество временных шагов для исключения для проверки. Чем больше временных шагов исключается, тем меньше остается времени для оценки модели проверки. Однако, если исключено слишком мало временных шагов, проверочное значение ошибки RMSE будет оцениваться с помощью меньшего количества данных и может быть обманчивым. Рекомендуется исключить как можно больше временных шагов, сохраняя при этом достаточное число временных шагов для оценки модели проверки. Еще одной рекомендация состоит в том, что следует удержать для проверки как минимум столько же временных шагов, сколько вы собираетесь прогнозировать, если ваш куб пространства-времени содержит достаточное для этого число временных шагов.

    Кроме того, построение доверительных интервалов для прогнозируемых значений требует подгонки функции регрессии под временные шаги, удержанные для проверки. Поскольку для уточнения этой функции требуется как минимум два значения, нужно удержать хотя бы два временных шага для создания доверительных интервалов прогнозов. Однако функция регрессии будет более точной (что приведет к более точным доверительным интервалам) для большего количества удерживаемых временных шагов. Для наиболее точных доверительных интервалов рекомендуется не использовать для проверки как минимум значение по умолчанию, равное 10 процентам временных шагов.

  • Этот инструмент может выдать нестабильные и недостоверные результаты прогноза, если одно и то же значение слишком часто повторяется во временных рядах. Основным источником повторяющихся одинаковых значений является инфляция нуля, при которой ваши данные отображают количественные данные и множество из временных шагов содержат значение 0.
  • Если вы решите идентифицировать выбросы, рекомендуется указать значение параметра Окно временного шага, а не оставлять его пустым и оценивать другое окно временного шага в каждом местоположении. Для каждого местоположения модель леса использует временные шаги в окне первого временного шага для обучения модели прогноза, а выбросы обнаруживаются только для оставшихся временных шагов. Если разные местоположения исключают разное количество временных шагов для обучения, итоговая статистика, такая как среднее, минимальное и максимальное количество выбросов для каждого временного шага или для каждого местоположения, может вводить в заблуждение. Эти статистические данные рассчитываются только для временных шагов, которые были включены в каждое местоположение.

Дополнительные ресурсы

Более подробно о моделях на основе леса смотрите в следующих материалах:

  • Breiman, Leo. (2001). "Random Forests." Машинное обучение 45 (1): 5-32. https://doi.org/10.1023/A:1010933404324.
  • Breiman, L., J.H. Friedman, R.A. Olshen, and C.J. Stone. (2017). Деревья классификации и регрессии. New York: Academic. Chapter 4.

С дополнительными ресурсами и сведениями о моделях леса можно ознакомиться в Как работает Классификация на основе леса и регрессия, а так же Регрессия с бустингом.

Более подробную информацию о функции спектральной плотности, используемой для получения средней длины временных окон можно получить в разделе функции findfrequency в следующих источниках:

  • Hyndman R, Athanasopoulos G, Bergmeir C, Caceres G, Chhay L, O'Hara-Wild M, Petropoulos F, Razbash S, Wang E, and Yasmeen F (2019). "Forecasting functions for time series and linear models." R package version 8.7,https://pkg.robjhyndman.com/forecast.
  • Hyndman RJ and Khandakar Y (2008). "Automatic time series forecasting: the forecast package for R." Journal of Statistical Software, 26(3), pp. 1-22. https://www.jstatsoft.org/article/view/v027i03.

Подробнее о включении независимых переменных и эффекте лага см. в материалах:

  • Zheng, H., and Kusiak, A. (2009). "Prediction of Wind Farm Power Ramp Rates: A Data-Mining Approach."ASME. J. Sol. Energy Eng, 131(3): 031011. https://doi.org/10.1115/1.3142727.

Связанные разделы