Инструмент Прогноз на основе леса использует регрессию на основе леса для прогнозирования будущих временных срезов в кубе пространства-времени. Основным результатом является карта с итоговым временным шагом прогноза, а также информативные сообщения и всплывающие диаграммы. Другие независимые переменые могут быть указаны для повышения точности прогноза переменной анализа, а вы можете оценить и визуализировать отложенный (задержанный) эффект между независимой переменной и переменной анализа. Кроме того, у вас есть возможность обнаружить выбросы в каждом временном ряду, чтобы определить местоположения и времена, которые значительно отклоняются от закономерностей и тенденций остальных временных рядов.
Этот инструмент использует тот же внутренний алгоритм, что и инструмент Классификация на основе леса и регрессия, когда он используется для целей регрессии. Обучающие данные, использованные для построения модели регрессии леса, создаются путем использования временных окон в каждом местоположении в кубе пространства-времени.
Более подробно о Классификации на основе леса и регрессии
Возможное применение
Модели регрессии на основе леса используют всего несколько предположений относительно данных, поэтому они применяются во многих областях. Они особенно эффективны по сравнению с другими методами прогнозирования, когда данные содержат сложные тренды или являются сезонными, или изменяются способами, отличными от стандартных математических функций, таких как полиномы, экспоненциальные кривые или синусоидальные волны.
Например, вы можете использовать этот инструмент в следующих областях:
- Район с несколькими школами может использовать данный инструмент для прогноза числа студентов, которые будут отсутствовать каждый день следующей недели в каждой школе в этом районе.
- Губернатор может спрогнозировать количество госпитализаций в связи с инфекционным заболеванием на две недели в будущем. Этот прогноз может включать количество положительных результатов тестов в качестве независимой переменной, а инструмент будет моделировать эффект отсроченного периода между положительными тестами и госпитализациями.
- Менеджеры, работающие в государственных коммунальных услугах, могут использовать этот инструмент для прогноза необходимых потребностей в водных и электрических ресурсах в течение следующего месяца в близлежащих административных делениях.
- Торговая сеть магазинов может использовать этот инструмент для прогноза отдельных товаров, которые закончатся в первую очередь, что поможет улучшить управление ресурсами склада.
Прогнозирование и проверка
Инструмент создает две модели во время прогнозирования каждого из временных рядов. Первая - это модель прогноза, которая используется для прогнозирования значений следующих временных шагов. Вторая модель - это модель проверки, которая используется для проверки спрогнозированных значений.
Модель прогнозирования
Модель прогноза создается путем построения леса со значениями временных рядов в каждом местоположении куба Пространство-время. Этот лес затем используется для предсказания следующего временного среза. Спрогнозированные значения на новом временном шаге включаются в модель леса, и затем происходит прогноз следующего временного шага. Этот рекурсивный процесс продолжается через все будущие временные шаги. Совпадение леса в каждом временном ряду измеряется с помощью среднеквадратичной ошибки прогноза (RMSE), которая равна квадратному корню из средней квадратной разницы между моделью леса и значениями временных рядов.
, где T означает количество временных шагов, ct - значение модели леса, и rt - необработанное значение временных рядов в момент времени t.
На следующем изображении приведены сырые значения временных рядов и модель леса, подходящая ко временных рядам вместе с прогнозами для двух временных шагов. Ошибка RMSE прогноза измеряет, насколько подходящие значения леса отличаются от сырых значений временных рядов.
Прогнозное значение ошибки RMSE измеряет, насколько хорошо модель леса соответствует сырым значениям временных рядов. Он не измеряет, насколько хорошо модель прогноза реально прогнозирует будущие значения. Часто случается, что модель леса хорошо вписывается во временные ряды, но не дает точного прогноза при экстраполировании. Эта проблема решается с помощью модели проверки.
Модель проверки
Модель проверки используется для определения, насколько хорошо модель прогноза может предсказывать будущие значения для каждого временного ряда. Она создается путем исключения некоторых из последних временных шагов в каждом из временных рядов и подгонки модели леса к данным, которые не были исключены. Модель леса затем используется для прогнозирования значений данных, которые были исключены, и значения прогноза сравниваются с сырыми значениями, которые были скрыты. По умолчанию, 10 процентов временных шагов удерживаются для проверки, но это число можно изменить, используя параметр Число временных шагов, исключаемых для проверки. Число исключаемых временных шагов не может превышать 25 процентов от общего числа временных шагов, и проверка не выполняется, если указано значение 0. Точность прогнозов измеряется путем вычисления статистики Проверяемое значение ошибки RMSE, которая равна квадратному корню из средней квадратной разницы между прогнозом и сырыми значениям для исключенных временных шагов.
, где T равно числу временных шагов, m - число временных шагов, удержанных для проверки, ct - значение, прогнозируемое из первых T-m временных шагов, а rt - это необработанное значение во временных рядах, удержанных для проверки в момент времени t.
На следующем изображении показана модель леса, подогнанная для первой половины временных рядов и затем использованная для предсказания второй половины временных рядов. Проверяемое значение ошибки RMSE измеряет, насколько прогнозируемые значения отличаются от сырых значений для удержанных временных шагов.
Модель проверки особенно важна, поскольку она может напрямую сравнивать прогнозируемые значения с сырыми значениями и измерять, насколько хорошо выполнен прогноз леса. Хотя она и не используется непосредственно для прогноза, она используется для обоснования модель прогноза.
Примечание:
Проверка в прогнозе временных рядов похожа, но не идентична общему методу, называемому перекрестной проверкой. Разница заключается в том, что проверка прогноза всегда исключает итоговые временные шаги для проверки, а перекрестная проверка либо исключает случайных поднабор данных, или исключает каждое последовательное значение.
Интерпретация
Существует несколько важных моментов при интерпретации прогнозных значений ошибки RMSE и проверяемых значений ошибки RMSE.
- Значения RMSE нельзя сравнивать друг с другом напрямую, поскольку они измеряют разные величины. Прогнозное значение ошибки RMSE измеряет, насколько хорошо модель леса соответствует исходным сырым значениям временных рядов, а проверяемое значение ошибки RMSE измеряет, насколько хорошо модель леса может прогнозировать будущие значения. Поскольку прогнозное значение ошибки RMSE использует больше данных и не может быть экстраполировано, оно обычно меньше, чем проверяемое значение ошибки RMSE.
- Оба значения ошибок RMSE используют единицы измерения данных. Например, если ваши данные представляют собой измерения температуры в градусах Цельсия, RMSE Проверки – 50 очень высокая, поскольку это означает, что прогнозируемые значения в среднем отличались от истинных значений примерно на 50 градусов. Однако если ваши данные представляют ежедневный доход крупного сетевого магазина в долларах, то же проверяемое значение ошибки RMSE, равное 50, является весьма небольшим, поскольку означает, что прогнозируемый ежедневный доход отличается от истинных значений в среднем на $50 в день.
Построение и обучение модели леса
Для прогноза будущих значений, модель леса необходимо обучить путем связывания независимых переменных с зависимыми для каждого местоположения. Модель леса требует повторения обучающих данных, но для каждого местоположения существует только один временный ряд. Чтобы создать множество наборов независимых и зависимых переменных внутри одного временного ряда, создаются временные окна, в которых каждые временные шаги внутри каждого временного окна используются в качестве независимых переменных, и каждый временной шаг после временного окна является зависимой переменной. Например, если в местоположении имеется 20 временных шагов, и временное окно содержит 5 временных шагов, существует 15 наборов независимых и зависимых переменных, используемых для обучения леса в этом местоположении. Первый набор содержит временные шаги 1, 2, 3, 4 и 5 в качестве независимых переменных, и временный шаг 6 в качестве зависимой переменной. Второй набор содержит временные шаги 2, 3, 4, 5 и 6 в качестве независимых переменных, и временный шаг 7 в качестве зависимой переменной. Последний набор содержит временные шаги 15, 16, 17, 18 и 19 в качестве независимых переменных, и временный шаг 20 в качестве зависимой переменной. Число временных шагов внутри каждого временного окна может быть указано с помощью параметра Окно временного шага. Временное окно может содержать всего 1 шаг (то есть используется только один временной шаг внутри каждого временного окна), но не может превышать одну треть общего числа временных шагов в местоположении.
Используя обученную модель леса, итоговые временные шаги в местоположении используются в качестве независимых переменных для леса в первом будущем временном шаге. Второй будущий временной шаг затем прогнозируется с использованием предыдущих временных шагов во временном окне, и один из этих временных шагов является первым спрогнозированным значением. Третий прогнозируемый временной шаг таким же образом использует предыдущие временные шаги в окне, два из которых являются ранее спрогнозированными временными шагами. Этот процесс продолжается через все будущие временные шаги.
На следующем изображении показаны наборы независимых и зависимых переменных, использованных для обучения модели леса и прогнозирования первых семи будущих временных шагов:
Независимые переменные и эффект лага
Хотя модели регрессии на основе леса могут эффективно выявлять сложные закономерности и тренды временных рядов, их всегда можно улучшить, включив дополнительную информацию. Например, знание уровней загрязнения может помочь спрогнозировать количество обращений в отделение неотложной помощи из-за астмы, поскольку загрязнение является известным триггером приступов астмы.
Вы можете включить независимые переменные, которые хранятся в том же кубе пространства-времени с помощью параметра Другие переменные, чтобы спрогнозировать переменную анализа на основе многовариантного прогноза на базе леса. Чтобы обучить многовариантную модель регрессии на основе леса, каждая независимая переменная включается в рамки каждого временного окна и используется для предсказания следующего после временого окна значения, аналогично тому, как временные окна используются для переменной анализа, как это описано в разделе Создание и обучение модели на основе леса. При прогнозировании на новые временные шаги каждая независимая переменная прогнозируется с использованием одномерного прогноза на основе леса, и эти прогнозируемые значения используются в качестве независимых переменных при прогнозировании будущих значений переменной анализа. Результаты всех прогнозов (переменной анализа и всех независимых переменных) хранятся в выходном кубе пространство-время.
Помимо того, что этот инструмент используется для улучшения прогноза переменной анализа, он также оценивает и визуализирует эффекты лагов между переменной анализа и независимыми переменными. Эффект лага возникает, когда существует задержка между изменением независимой переменной и изменением переменной анализа, и он присутствует во многих ситуациях, связанных с временными рядами нескольких переменных. Например, расходы на рекламу часто оказывают запаздывающий эффект на доход от продаж, потому что людям нужно время, чтобы увидеть рекламу, прежде чем принять решение о покупке. В предыдущем примере обращений в отделения неотложной помощи по поводу астмы и изменения уровня загрязнения также может быть задержка между повышением уровня загрязнения и увеличением числа обращений, поскольку нужно некоторое время, чтобы негативные последствия для здоровья накопились достаточно сильно, чтобы потребовать неотложной помощи. .
На следующем изображении показан эффект лага, когда изменения значения синего временного ряда отстают на четыре дня от оранжевой линии.
Когда существует лаг между любыми независимыми переменными и переменной анализа, вы можете получить больше информации о переменной анализа, посмотрев назад во времени по длине лага. Например, если существует двухнедельный лаг между расходами на рекламу и доходом от продаж, при прогнозировании дохода от продаж на любой конкретный день более информативным будет посмотреть на расходы на рекламу за две недели до этого по сравнению с суммой, потраченной за последние несколько дней.
Модель на основе леса может обнаруживать и использовать эффект лага между переменными, потому что скользящее временное окно всегда прогнозирует временной шаг сразу после него. Последнее значение во временном окне всегда представляет один временной шаг до прогноза; предпоследний временной шаг во временном окне всегда оказывается на два временных шага до прогноза; и так далее. Поскольку временное окно сдвигается, каждая независимая переменная представлена как отдельный фактор для каждого временного шага в пределах временного окна, что позволяет сравнивать различные объясняющие переменные с разными лагами и определять, какие из них наиболее важны для прогнозирования. Подробнее см. Как работает Классификация на основе леса и регрессия.
Например, на приведенной ниже диаграмме показаны важные переменные с лагом по времени для прогнозирования новых ежедневных смертей от коронавирусной болезни 2019 (COVID-19) с использованием количества людей, получающих вакцину каждый день, в качестве независимой переменной. Значения оси x относятся к каждому временному шагу в пределах временного окна, и это изображение имеет 14 значений, потому что оно использовало временное окно в 14 дней. Значения оси x представляют количество временных шагов до прогноза, поэтому они возвращаются во времени при перемещении слева направо по диаграмме. Крайнее левое значение 1 означает, что событие произошло за один день до прогноза, что соответствует последнему временному шагу во временном окне. Точно так же крайнее правое значение 14 представляет 14 дней до прогноза, что соответствует первому временному шагу 14-дневного временного окна. Для каждого временного шага светло- и темно-синие столбцы представляют количество мест, в которых этот фактор был определен как один из наиболее важных факторов при прогнозировании новых ежедневных смертей от COVID-19, поэтому чем больше количество, тем важнее общий фактор между местоположениями. Темно-синие столбцы представляют переменную анализа, новые случаи смерти от COVID-19, а столбцы являются самыми высокими в первые три-четыре временных лага, что указывает на то, что количество смертей за предыдущие три-четыре дня является наиболее предсказуемым для смертей в следующие день. Хотя эти данные и не демонстрируют этого, переменная может запаздывать сама по себе, например, с циклическими переменными, такими как температура, где просмотр на 24 часа назад более предсказуем, чем просмотр на 2 часа назад из-за дневных и ночных циклов. Голубые столбцы представляют количество новых вакцин, введенных в день, а самые высокие светло-голубые столбцы появляются через 10–14 дней назад во временном окне (крайние правые столбцы), указывая на то, что увеличение или уменьшение количества вакцин влияет на количество смертей от 10 до 14 дней в будущем. Это отставание от 10 до 14 дней соответствует времени, необходимому для развития пикового иммунитета после вакцинации.
Диаграмма важности лага включена в выходную таблицу, созданную дополнительным параметром Выходная таблица значимости. Таблица содержит строку для каждого местоположения в кубе пространство-время и показывает наиболее важные факторы для них. Количество факторов, значимых для каждого местоположения, зависит от параметра Порог значимости. Например, если используется значение 15, верхние 15 процентов факторов в каждом местоположении будут включены в таблицу и диаграмму. Значением по умолчанию является 10.
Чтобы создать таблицу и диаграмму, вы должны включить хотя бы одну независимую переменную в параметр Другие переменные. Число временных лагов в таблице и диаграмме равно значению параметра Окно временного шага, поэтому временное окно должно быть шире любого отложенного эффекта, который вы хотите захватить. Например, временное окно в одну неделю не сможет уловить эффект лага для вакцин на количество смертей от COVID-19.
Учет сезонности и выбор временного окна
Число временных шагов внутри каждого окна временного шага является важным параметром модели леса. Основным моментом является то, учитывают ли временные ряды сезонность, когда природные цикличные закономерности повторяются через определенное количество временных шагов. Например, температура отображает годовые сезонные циклы в зависимости от сезонов года. Поскольку временное окно используется для построения связанных зависимых и независимых переменных, оно работает наиболее эффективным образом, когда эти переменные все поступают из одного сезонного цикла, при этом достигается наименьшая из возможных сезонных корреляций между независимыми переменными. В качестве длины окна временного шага рекомендуется использовать число временных шагов природного сезона. Если ваши данные отображают несколько сезонов, рекомендуется использовать длину самого длинного сезона.
Если вам известно количество временных шагов, которые соответствуют одному сезону для ваших данных, вы можете указать это количество в параметре Окно временного шага, и это значение будет использоваться для каждого местоположения в кубе пространства-времени. Если вы не знаете продолжительность сезона, или если эта продолжительность отличается для разных местоположений, значение параметра можно оставить пустым, и оптимальная продолжительность будет определена с помощью функции спектральной плотности для каждого местоположения. Подробную информацию об этой функции см. в разделе Дополнительные ресурсы.
Для отдельного местоположения, если оптимальная продолжительность сезона, определенная с помощью спектрального анализа, больше 1 и не менее, чем одна треть от общего числа временных шагов в местоположении, то окно временного шага будет задано равным этому оптимальному значению. В противном случае, местоположение использует 25 процентов (округленные в меньшую сторону) от числа временных шагов в местоположении для окна временного шага. Это гарантирует, что в окне будет содержаться как минимум один временной шаг, и что как минимум три полных сезонных цикла используются в качестве независимых переменных. Значение временного шага сохраняется в поле Time Window выходных объектов. Поле Is Seasonal выходных объектов будет содержать значение 1, если окно временного шага было определено с помощью спектрального анализа, и будет содержать значение 0 в противном случае. Этот рабочий процесс представлен на следующем рисунке:
Подходы к прогнозированию
Существует четыре способа, с помощью которых вы можете представить значения зависимых и независимых переменных, которые будут использоваться для обучения леса. Эти опции задаются при помощи параметра Подход к прогнозу.
Первой опцией является Построение модели по значению. Эта опция использует необработанные значения в бинах куба пространства-времени для зависимых и независимых переменных. Если выбрана эта опция, прогнозируемые значения будут содержаться внутри диапазона зависимых переменных. Не следует использовать эту опцию, если ваши данные имеют закономерности по продолжению увеличения или уменьшения при дальнейшем прогнозировании в будущем. Изображение ниже показывает наборы переменных, используемых для обучения модели с одним местоположением, и каждая строка отображает набор независимых переменных и связанную с ними зависимую переменную. T - это число временных шагов в кубе пространства-времени, W - число временных шагов в каждом окне временного шага, а Xt - необработанное значение временного ряда в момент времени t.
Второй опцией является Построение модели по значению после удаления тренда. Это опция по умолчанию для данного инструмента. Эта опция выполняет удаление тренда первого порядка (линейного) для целых временных рядов в каждом местоположении, и эти значения без тренда используются в качестве независимых и зависимых переменных. Использование этой опции позволяет прогнозам следовать этому тренду в будущем, чтобы прогнозированные значения могли быть определены вне диапазона зависимых значений. Изображение ниже показывает наборы переменных, используемых для обучения модели с одним местоположением, и каждая строка отображает набор независимых переменных и связанную с ними зависимую переменную. T - это число временных шагов в кубе пространства-времени, W - число временных шагов в каждом окне временного шага, а Dt - значение с удаленным трендом временного ряда в момент времени t.
Третьей опцией является Построение модели по остатку. Эта опция создает модель регрессии методом наименьших квадратов (OLS) для определения зависимых переменных на основе независимых переменных внутри каждого временного окна. Остаток в этой модели регрессии (разница между прогнозом OLS и необработанным значением зависимой переменной) используется для представления зависимой переменной при обучении леса. Изображение ниже показывает наборы переменных, используемых для обучения модели с одним местоположением, и каждая строка отображает набор независимых переменных и связанную с ними зависимую переменную. T - это число временных шагов в кубе пространства-времени, W - число временных шагов в каждом окне временного шага, Xt - значение временного ряда в момент времени t, а X^t (Xt-hat) - значение, определенное с помощью OLS в момент времени t.
Последней опцией является Построение модели по остатку после удаления тренда. Эта опция выполняет удаление тренда первого порядка (линейного) для полных временных рядов в местоположении. Затем создается модель регрессии OLS для определения зависимых переменных с удаленным трендом на основе независимых переменных с удаленным трендом внутри каждого временного окна. Остаток в этой модели регрессии (разница между прогнозом OLS и значением с удаленным трендом зависимой переменной) используется для представления зависимой переменной при обучении леса. Изображение ниже показывает наборы переменных, используемых для обучения модели с одним местоположением, и каждая строка отображает набор независимых переменных и связанную с ними зависимую переменную. T - это число временных шагов в кубе пространства-времени, W - число временных шагов в каждом окне временного шага, Xt - значение с удаленным трендом временного ряда в момент времени t, а X^t (Xt-hat) - значение, определенное с помощью OLS в момент времени t.
Построение доверительных интервалов
Этот инструмент создает 90 процентные доверительные интервалы для каждого прогнозируемого временного шага, которые представлены в виде полей Выходных объектов и отображаются во всплывающих диаграммах, подробная информация о которых приведена в следующем разделе. Верхние и нижние границы доверительного интервала для первого прогнозируемого временного шага вычисляются с использованием квантильной случайной регрессии леса. Чтобы спрогнозировать значение для будущего времени, наблюдения для каждого листа дерева усредняются вместе. Однако в квантильной регрессии используется каждое наблюдение для каждого листа, что приводит к распределению прогнозируемых значений для первого временного шага. 90 процентный доверительный интервал создается с использованием пятого и девяносто пятого квантилей этого распределения.
Доверительный интервал для второго прогноза вычисляется похожим образом, но корректируются с учетом доверительного интервала для первого прогноза. Квантильная регрессия снова используется для создания распределения для второго прогнозируемого временного шага, используя первый спрогнозированный временной шаг в качестве одного значения, и вычисляются пятый и девяносто пятый квартили распределения. Реальный доверительный интервал для второго прогноза вычисляется путем сложения длин границ доверительного интервала двух прогнозов. Верхняя граница второго прогноза равна длине верхней границе первого прогноза, сложенной с длиной верхней доверительной границы второго прогноза (вычисленной при допущении, что первый прогноз является отдельным значением, а не распределением). Нижняя граница вычисляется похожим образом, путем сложения длин нижних границ доверительных интервалов. Доверительный интервал для третьего прогнозируемого временного шага вычисляется путем повторного выполнения квантильной регрессии и добавления длин границ ошибок для всех трех прогнозов. Этот процесс будет повторяться, пока не будут спрогнозированы все временные шаги. Добавление этих границ ошибок подобным образом гарантирует, что ошибка передается дальше через все проекции, и что длина доверительных каналов увеличивается при перемещении вперед во времени.
Примечание:
Доверительные каналы для второго временного шага и далее вычисляются консервативно, путем добавления ошибок предыдущих прогнозов. Реальный доверительный уровень этих интервалов равен минимум 90 процентам, но на самом деле доверительный уровень может быть даже выше.
Идентификация выбросов временных рядов
Выбросы в данных временных рядов - это значения, которые существенно отличаются от закономерностей и тенденций других значений во временных рядах. Например, большое количество покупок в интернете во время праздников или большое количество дорожно-транспортных происшествий во время сильных ливней, скорее всего, будут обнаружены как выбросы в их временных рядах. Простые ошибки ввода данных, такие как пропуск десятичной части числа, являются еще одним распространенным источником выбросов. Выявление выбросов в прогнозе временных рядов важно, поскольку выбросы влияют на прогнозную модель, которая используется для прогнозирования будущих значений, и даже небольшое количество выбросов во временных рядах местоположения может значительно снизить точность и надежность прогнозов. Местоположения с выбросами, особенно в начале или в конце временного ряда, могут давать неверные прогнозы, и идентификация этих местоположений помогает определить, насколько вы должны быть уверены в прогнозируемых значениях в каждом местоположении.
Выбросы определяются не просто их исходными значениями, а тем, насколько их значения отличаются от установленных значений прогнозной модели. Это означает, что определение того, является ли значение выбросом, является контекстуальным и зависит как от его места, так и от времени. Прогнозная модель определяет, какое значение ожидается на основе всего временного ряда, а выбросы – это значения, которые сильно отклоняются от этого базового уровня. Например, рассмотрим временной ряд среднегодовой температуры. Поскольку средние температуры увеличились за последние несколько десятилетий, подходящая прогнозная модель температуры также будет увеличиваться с течением времени, чтобы отразить это увеличение. Это означает, что значение температуры, которое будет считаться типичным, а не выбросом в 1950 году, скорее всего, будет считаться выбросом, если такая же температура произойдет в 2020 году. Другими словами, типичная температура 1950 года будет считаться очень низкой по стандартам 2020 года.
Вы можете выбрать обнаружение выбросов временных рядов в каждом местоположении с помощью параметра Идентифицировать выбросы. Если указано, то для каждого местоположения выполняется обобщенный тест экстремальных отклонений (ESD) для проверки выбросов временных рядов. Уровень достоверности теста можно задать с помощью параметра Уровень достоверности, и по умолчанию используется 90 - процентная достоверность. Обобщенный тест ESD итеративно проверяет наличие одного выброса, двух выбросов, трех выбросов и т. д. в каждом местоположении вплоть до значения параметра Максимального числа выбросов (по умолчанию 5 процентов от числа временных шагов, округленных вниз), и возвращается наибольшее статистически значимое число выбросов. Количество выбросов в каждом местоположении можно увидеть в таблице атрибутов выходных объектов, а отдельные выбросы – во всплывающих диаграммах временных рядов, которые рассматриваются в следующем разделе.
Выходные данные инструмента
Основным результатом этого инструмента является класс 2D-объектов, отображающий каждое местоположение во Входном кубе пространства-времени, использующий символы из последнего спрогнозированного временного шага с помощью прогнозов всех остальных временных шагов, использованных в качестве полей. Несмотря на то, что каждая локация предсказывается независимо от других, а пространственные отношения во внимание не берутся, карта все равно может показывать пространственные закономерности для областей со сходными временными рядами.
Всплывающие диаграммы
При нажатии любого объекта на карте с помощью инструмента навигации Исследовать будет показана диаграмма на панели Всплывающее окно, на которой отображаются значения куба пространства-времени вместе с подходящей моделью леса и значениями прогноза, а также 90 процентные доверительные интервалы для каждого прогноза. Значения куба пространства-времени отображаются синим цветом и соединяются синей линией. Подходящие значения отображаются оранжевым цветом и соединяются пунктирной оранжевой линией. Спрогнозированные значения отображаются оранжевым цветом и соединяются сплошной оранжевой линией, представляющей прогноз модели леса. Допустимые границы отображаются вокруг каждого прогнозируемого значения с использованием светло-красного цвета. Вы можете задержать курсор над любой точкой диаграммы, чтобы просмотреть дату и значение в этой точке. Кроме того, если вы выбрали обнаружение выбросов во временных рядах, любые выбросы отображаются в виде больших фиолетовых точек.
Примечание:
Всплывающие диаграммы не создаются, когда выходные объекты сохраняются в виде шейп-файла. (.shp). Дополнительно, если доверительные интервалы простираются за пределы диаграммы, над диаграммой появится кнопка Показать полный диапазон данных, которая позволяет вам расширить диаграмму и увидеть весь доверительный интервал.
Сообщения геообработки
Этот инструмент предоставляет целый ряд сообщений, содержащих информацию о выполнении инструмента. Сообщения содержат три основных раздела.
Раздел Информация о входном кубе пространства-времени отображает свойства входного куба пространства-времени, а также информацию о временных шагах, количестве местоположений и число пространственно-временных бинов. Свойства, отображаемые в этом первом разделе, зависят от первоначального метода создания куба, поэтому информация может отличаться от куба к кубу.
В разделе Детали анализа показаны свойства результатов прогноза, включая количество предсказанных временных шагов, количество временных шагов, исключенных для проверки, процент локаций, для которых была выявлена сезонность по спектральному анализу и информация о предсказанных временных шагах. Если для параметра Окно временного шага не было задано значение, отображается суммарная статистика определенного окна временного шага, включая минимум, максимум, среднее значение, медиану и среднеквадратичное отклонение.
Раздел Обзор точности среди Местоположений отображает суммарную статистику для Прогнозного значения ошибки RMSE и Проверяемого значения ошибки RMSE среди всех местоположений Для каждого значения отображаются минимум, максимум, среднее, медиана и среднеквадратичное отклонение.
Раздел Сводка выбросов временных рядов появляется, если вы решите обнаружить выбросы временных рядов с помощью опции Параметр выбросов. В этом разделе отображается информация, включая количество и процент местоположений, содержащих выбросы, временной шаг, содержащий наибольшее количество выбросов, а также сводная статистика по количеству выбросов по местоположению и временному шагу.
Примечание:
Сообщения геообработки отображаются в нижней части панели Геообработка в процессе выполнения инструмента. Вы можете получить доступ к сообщениям, переместив курсор мыши на индикатор выполнения, щелкнув на всплывшую кнопку или развернув раздел сообщений на панели Геообработка. Вы можете получить доступ к сообщениям для выполненного ранее инструмента, используя историю геообработки.
Поля в выходных объектах
Дополнительно к полю Object ID, полям геометрии и полю, содержащему всплывающие диаграммы, Выходные объекты будут иметь следующие поля:
- Location ID (LOCATION) - идентификатор (Location ID) соответствующего местоположения в кубе пространства-времени.
- Прогноз для (Переменная анализа) в (Временной шаг) (FCAST_1, FCAST_2 и т.п.)—предсказанное значение в каждом будущем временном шаге. Псевдоним поля отображает имя Переменной анализа и дату прогноза. Поле данного типа создается для каждого прогнозируемого временного шага.
- Верхняя граница для (Переменной анализа) для (Временного шага) (HIGH_1, HIGH_2 и т.д.) – верхняя граница 90-процентного доверительного интервала для прогнозируемой величины каждого будущего временного шага. Псевдоним поля отображает имя Переменной анализа и дату прогноза. Поле данного типа создается для каждого прогнозируемого временного шага.
- Низкий интервал для (Переменной анализа) в (Временном шаге) (LOW_1, LOW_2 и т.д.) - нижняя граница в 90-процентном доверительном интервале для прогнозируемого значения в каждом будущем временном шаге. Псевдоним поля отображает имя Переменной анализа и дату прогноза. Поле данного типа создается для каждого прогнозируемого временного шага.
- Среднеквадратичная ошибка прогноза (F_RMSE) - значение RMSE прогноза.
- Среднеквадратическая ошибка проверки (V_RMSE)—RMSE проверки. Если для проверки не были исключены никакие временные шаги, это поле не создается.
- Временное окно (TIMEWINDOW) - окно временного шага, используемое в данном местоположении.
- Сезонный (IS_SEASON) - Булева переменная, показывающая, будет ли окно временного шага в местоположении определяться спектральной плотностью. Значение, равное 1, показывает, что сезонность была определена с помощью спектральной плотности, а значение 0 показывает, что сезонность не была определена. Если для параметра Временное окно задано значение, то у всех местоположений в этом поле будет содержаться значение 0.
- Метод прогноза (METHOD) - текстовое поле, показывающее параметры модели леса, включая случайные местоположения, число деревьев, размер выборки, подход при прогнозировании, а также, было ли окно временного шага указано пользователем или определено инструментом. Это поле может использоваться для повторения результатов, и позволяет вам узнать, какие модели были использованы в инструменте Оценить прогнозы по местоположению.
- Число выбросов подгонки модели (N_OUTLIERS) – количество выбросов, обнаруженных во временном ряду местоположения. Это поле создается только в том случае, если вы выбрали обнаружение выбросов с помощью опции Параметр выбросов.
Выходной куб пространство-время
Если указан Выходной куб пространство-время он будет содержать значения исходного куба пространство-время и добавленные прогнозированные значения. Этот новый куб пространство-время можно визуализировать с использованием инструментов Визуализировать куб пространство-время в 2D или Визуализировать куб пространство-время в 3D или использовать в качестве входного в инструментах набора Углубленный анализ пространственно-временных закономерностей, например, Анализ возникновения горячих точек или Кластеризация временных рядов.
Несколько прогнозируемых кубов пространство-время можно сравнить и объединить с помощью инструмента Оценить прогнозы по местоположению. Это позволит создавать несколько прогнозных кубов с использованием различных инструментов и параметров прогнозирования, а инструмент будет определять наилучший прогноз для каждого местоположения с помощью RMSE прогноза или RMSE проверки.
Лучшие практики и ограничения
Необходимо учитывать некоторые моменты при принятии решения, насколько данный инструмент подходит для ваших данных, и какие параметры следует выбрать.
- По сравнению с другими инструментами прогнозирования в группе инструментов Прогнозирование временных рядов, этот инструмент является более сложным, но использует меньшее число предположений о данных. Рекомендуется использовать этот инструмент для временных рядов со сложной формой и трендами, которые сложно смоделировать с помощью простых математических функций или функций сглаживания. Он также рекомендуется, когда предположения других методов не удовлетворяются.
- Важным моментом является принятие решения о том, сколько временных шагов следует исключить при проверке. Чем больше временных шагов исключается, тем меньше остается времени для оценки модели проверки. Однако, если исключено слишком мало временных шагов, проверочное значение ошибки RMSE будет оцениваться с помощью меньшего количества данных и может быть обманчивым. Рекомендуется исключить как можно больше временных шагов, сохраняя при этом достаточное число временных шагов для оценки модели проверки. Еще одной рекомендация состоит в том, что следует удержать для проверки как минимум столько же временных шагов, сколько вы собираетесь прогнозировать, если ваш куб пространства-времени содержит достаточное для этого число временных шагов.
- Этот инструмент может выдать нестабильные и недостоверные результаты прогноза, если одно и то же значение слишком часто повторяется во временных рядах. Основным источником повторяющихся одинаковых значений является инфляция нуля, при которой ваши данные отображают количественные данные и множество из временных шагов содержат значение 0.
- Если вы решите идентифицировать выбросы, рекомендуется указать значение параметра Окно временного шага, а не оставлять его пустым и оценивать другое окно временного шага в каждом местоположении. Для каждого местоположения модель леса использует временные шаги в окне первого временного шага для обучения модели прогноза, а выбросы обнаруживаются только для оставшихся временных шагов. Если разные местоположения исключают разное количество временных шагов для обучения, итоговая статистика, такая как среднее, минимальное и максимальное количество выбросов для каждого временного шага или для каждого местоположения, может вводить в заблуждение. Эти статистические данные рассчитываются только для временных шагов, которые были включены в каждое местоположение.
Дополнительные ресурсы
Более подробно о моделях на основе леса смотрите в следующих материалах:
- Breiman, Leo. (2001). "Random Forests." Machine Learning 45 (1): 5-32. https://doi.org/10.1023/A:1010933404324.
- Breiman, L., J.H. Friedman, R.A. Olshen, and C.J. Stone. (2017). Classification and regression trees. New York: Academic. Chapter 4.
С дополнительными ресурсами и сведениями о моделях леса можно ознакомиться в Как работает Классификация на основе леса и регрессия.
Более подробную информацию о функции спектральной плотности, используемой для получения средней длины временных окон можно получить в разделе функции findfrequency в следующих источниках:
- Hyndman R, Athanasopoulos G, Bergmeir C, Caceres G, Chhay L, O'Hara-Wild M, Petropoulos F, Razbash S, Wang E, and Yasmeen F (2019). "Forecasting functions for time series and linear models." R package version 8.7,https://pkg.robjhyndman.com/forecast.
- Hyndman RJ and Khandakar Y (2008). "Automatic time series forecasting: the forecast package for R." Journal of Statistical Software, 26(3), pp. 1-22. https://www.jstatsoft.org/article/view/v027i03.
Подробнее о включении независимых переменных и эффекте лага см. в материалах:
- Zheng, H., and Kusiak, A. (2009). "Prediction of Wind Farm Power Ramp Rates: A Data-Mining Approach."ASME. J. Sol. Energy Eng, 131(3): 031011. https://doi.org/10.1115/1.3142727.
Более подробно о построении доверительных интервалов из регрессионных моделей на основе леса смотрите в следующих материалах:
- Meinshausen, Nicolai. "Quantile regression forests." Journal of Machine Learning Research 7. Jun (2006): 983-999.