Инструмент Прогноз на основе леса использует регрессию на основе леса для прогнозирования будущих временных срезов в кубе пространства-времени. Основным результатом является карта с итоговым временным шагом прогноза, а также информативные сообщения и всплывающие диаграммы. Вы также можете создать новый куб пространства-времени, содержащий данные из оригинального куба, с присоединенными значениями прогноза. Кроме того, у вас есть возможность обнаружить выбросы в каждом временном ряду, чтобы определить местоположения и времена, которые значительно отклоняются от закономерностей и тенденций остальных временных рядов.
Этот инструмент использует тот же внутренний алгоритм, что и инструмент Классификация на основе леса и регрессия, когда он используется для целей регрессии. Обучающие данные, использованные для построения модели регрессии леса, создаются путем использования временных окон в каждом местоположении в кубе пространства-времени.
Более подробно о Классификации на основе леса и регрессии
Возможное применение
Модели регрессии на основе леса используют всего несколько предположений относительно данных, поэтому они применяются во многих областях. Они особенно эффективны по сравнению с другими методами прогнозирования, когда данные содержат сложные тренды или являются сезонными, или изменяются способами, отличными от стандартных математических функций, таких как полиномы, экспоненциальные кривые или синусоидальные волны.
Например, вы можете использовать этот инструмент в следующих областях:
- Район с несколькими школами может использовать данный инструмент для прогноза числа студентов, которые будут отсутствовать каждый день следующей недели в каждой школе в этом районе.
- Менеджеры, работающие в государственных коммунальных услугах, могут использовать этот инструмент для прогноза необходимых потребностей в водных и электрических ресурсах в течение следующего месяца в близлежащих административных делениях.
- Торговая сеть магазинов может использовать этот инструмент для прогноза отдельных товаров, которые закончатся в первую очередь, что поможет улучшить управление ресурсами склада.
Прогнозирование и проверка
Инструмент создает две модели во время прогнозирования каждого из временных рядов. Первая - это модель прогноза, которая используется для прогнозирования значений следующих временных шагов. Вторая модель - это модель проверки, которая используется для проверки спрогнозированных значений.
Модель прогнозирования
Модель прогноза создается путем построения леса со значениями временных рядов в каждом местоположении куба Пространство-время. Этот лес затем используется для предсказания следующего временного среза. Спрогнозированные значения на новом временном шаге включаются в модель леса, и затем происходит прогноз следующего временного шага. Этот рекурсивный процесс продолжается через все будущие временные шаги. Совпадение леса в каждом временном ряду измеряется с помощью среднеквадратичной ошибки прогноза (RMSE), которая равна квадратному корню из средней квадратной разницы между моделью леса и значениями временных рядов.
, где T означает количество временных шагов, ct - значение модели леса, и rt - необработанное значение временных рядов в момент времени t.
На следующем изображении приведены сырые значения временных рядов и модель леса, подходящая ко временных рядам вместе с прогнозами для двух временных шагов. Ошибка RMSE прогноза измеряет, насколько подходящие значения леса отличаются от сырых значений временных рядов.
Прогнозное значение ошибки RMSE измеряет, насколько хорошо модель леса соответствует сырым значениям временных рядов. Он не измеряет, насколько хорошо модель прогноза реально прогнозирует будущие значения. Часто случается, что модель леса хорошо вписывается во временные ряды, но не дает точного прогноза при экстраполировании. Эта проблема решается с помощью модели проверки.
Модель проверки
Модель проверки используется для определения, насколько хорошо модель прогноза может предсказывать будущие значения для каждого временного ряда. Она создается путем исключения некоторых из последних временных шагов в каждом из временных рядов и подгонки модели леса к данным, которые не были исключены. Модель леса затем используется для прогнозирования значений данных, которые были исключены, и значения прогноза сравниваются с сырыми значениями, которые были скрыты. По умолчанию, 10 процентов временных шагов удерживаются для проверки, но это число можно изменить, используя параметр Число временных шагов, исключаемых для проверки. Число исключаемых временных шагов не может превышать 25 процентов от общего числа временных шагов, и проверка не выполняется, если указано значение 0. Точность прогнозов измеряется путем вычисления статистики Проверяемое значение ошибки RMSE, которая равна квадратному корню из средней квадратной разницы между прогнозом и сырыми значениям для исключенных временных шагов.
, где T равно числу временных шагов, m - число временных шагов, удержанных для проверки, ct - значение, прогнозируемое из первых T-m временных шагов, а rt - это необработанное значение во временных рядах, удержанных для проверки в момент времени t.
На следующем изображении показана модель леса, подогнанная для первой половины временных рядов и затем использованная для предсказания второй половины временных рядов. Проверяемое значение ошибки RMSE измеряет, насколько прогнозируемые значения отличаются от сырых значений для удержанных временных шагов.
Модель проверки особенно важна, поскольку она может напрямую сравнивать прогнозируемые значения с сырыми значениями и измерять, насколько хорошо выполнен прогноз леса. Хотя она и не используется непосредственно для прогноза, она используется для обоснования модель прогноза.
Примечание:
Проверка в прогнозе временных рядов похожа, но не идентична общему методу, называемому перекрестной проверкой. Разница заключается в том, что проверка прогноза всегда исключает итоговые временные шаги для проверки, а перекрестная проверка либо исключает случайных поднабор данных, или исключает каждое последовательное значение.
Интерпретация
Существует несколько важных моментов при интерпретации прогнозных значений ошибки RMSE и проверяемых значений ошибки RMSE.
- Значения RMSE нельзя сравнивать друг с другом напрямую, поскольку они измеряют разные величины. Прогнозное значение ошибки RMSE измеряет, насколько хорошо модель леса соответствует исходным сырым значениям временных рядов, а проверяемое значение ошибки RMSE измеряет, насколько хорошо модель леса может прогнозировать будущие значения. Поскольку прогнозное значение ошибки RMSE использует больше данных и не может быть экстраполировано, оно обычно меньше, чем проверяемое значение ошибки RMSE.
- Оба значения ошибок RMSE используют единицы измерения данных. Например, если ваши данные представляют собой измерения температуры в градусах Цельсия, RMSE Проверки – 50 очень высокая, поскольку это означает, что прогнозируемые значения в среднем отличались от истинных значений примерно на 50 градусов. Однако если ваши данные представляют ежедневный доход крупного сетевого магазина в долларах, то же проверяемое значение ошибки RMSE, равное 50, является весьма небольшим, поскольку означает, что прогнозируемый ежедневный доход отличается от истинных значений в среднем на $50 в день.
Построение и обучение модели леса
Для прогноза будущих значений, модель леса необходимо обучить путем связывания независимых переменных с зависимыми для каждого местоположения. Модель леса требует повторения обучающих данных, но для каждого местоположения существует только один временный ряд. Чтобы создать множество наборов независимых и зависимых переменных внутри одного временного ряда, создаются временные окна, в которых каждые временные шаги внутри каждого временного окна используются в качестве независимых переменных, и каждый временной шаг после временного окна является зависимой переменной. Например, если в местоположении имеется 20 временных шагов, и временное окно содержит 5 временных шагов, существует 15 наборов независимых и зависимых переменных, используемых для обучения леса в этом местоположении. Первый набор содержит временные шаги 1, 2, 3, 4 и 5 в качестве независимых переменных, и временный шаг 6 в качестве зависимой переменной. Второй набор содержит временные шаги 2, 3, 4, 5 и 6 в качестве независимых переменных, и временный шаг 7 в качестве зависимой переменной. Последний набор содержит временные шаги 15, 16, 17, 18 и 19 в качестве независимых переменных, и временный шаг 20 в качестве зависимой переменной. Число временных шагов внутри каждого временного окна может быть указано с помощью параметра Окно временного шага. Временное окно может содержать всего 1 шаг (то есть используется только один временной шаг внутри каждого временного окна), но не может превышать одну треть общего числа временных шагов в местоположении.
Используя обученную модель леса, итоговые временные шаги в местоположении используются в качестве независимых переменных для леса в первом будущем временном шаге. Второй будущий временной шаг затем прогнозируется с использованием предыдущих временных шагов во временном окне, и один из этих временных шагов является первым спрогнозированным значением. Третий прогнозируемый временной шаг таким же образом использует предыдущие временные шаги в окне, два из которых являются ранее спрогнозированными временными шагами. Этот процесс продолжается через все будущие временные шаги.
На следующем изображении показаны наборы независимых и зависимых переменных, использованных для обучения модели леса и прогнозирования первых семи будущих временных шагов:
Учет сезонности и выбор временного окна
Число временных шагов внутри каждого окна временного шага является важным параметром модели леса. Основным моментом является то, учитывают ли временные ряды сезонность, когда природные цикличные закономерности повторяются через определенное количество временных шагов. Например, температура отображает годовые сезонные циклы в зависимости от сезонов года. Поскольку временное окно используется для построения связанных зависимых и независимых переменных, оно работает наиболее эффективным образом, когда эти переменные все поступают из одного сезонного цикла, при этом достигается наименьшая из возможных сезонных корреляций между независимыми переменными. В качестве длины окна временного шага рекомендуется использовать число временных шагов природного сезона. Если ваши данные отображают несколько сезонов, рекомендуется использовать длину самого длинного сезона.
Если вам известно количество временных шагов, которые соответствуют одному сезону для ваших данных, вы можете указать это количество в параметре Окно временного шага, и это значение будет использоваться для каждого местоположения в кубе пространства-времени. Если вы не знаете продолжительность сезона, или если эта продолжительность отличается для разных местоположений, значение параметра можно оставить пустым, и оптимальная продолжительность будет определена с помощью функции спектральной плотности для каждого местоположения. Подробную информацию об этой функции см. в разделе Дополнительные ресурсы.
Для отдельного местоположения, если оптимальная продолжительность сезона, определенная с помощью спектрального анализа, больше 1 и не менее, чем одна треть от общего числа временных шагов в местоположении, то окно временного шага будет задано равным этому оптимальному значению. В противном случае, местоположение использует 25 процентов (округленные в меньшую сторону) от числа временных шагов в местоположении для окна временного шага. Это гарантирует, что в окне будет содержаться как минимум один временной шаг, и что как минимум три полных сезонных цикла используются в качестве независимых переменных. Значение временного шага сохраняется в поле Time Window выходных объектов. Поле Is Seasonal выходных объектов будет содержать значение 1, если окно временного шага было определено с помощью спектрального анализа, и будет содержать значение 0 в противном случае. Этот рабочий процесс представлен на следующем рисунке:
Подходы к прогнозированию
Существует четыре способа, с помощью которых вы можете представить значения зависимых и независимых переменных, которые будут использоваться для обучения леса. Эти опции задаются при помощи параметра Подход к прогнозу.
Первой опцией является Построение модели по значению. Эта опция использует необработанные значения в бинах куба пространства-времени для зависимых и независимых переменных. Если выбрана эта опция, прогнозируемые значения будут содержаться внутри диапазона зависимых переменных. Не следует использовать эту опцию, если ваши данные имеют закономерности по продолжению увеличения или уменьшения при дальнейшем прогнозировании в будущем. Изображение ниже показывает наборы переменных, используемых для обучения модели с одним местоположением, и каждая строка отображает набор независимых переменных и связанную с ними зависимую переменную. T - это число временных шагов в кубе пространства-времени, W - число временных шагов в каждом окне временного шага, а Xt - необработанное значение временного ряда в момент времени t.
Второй опцией является Построение модели по значению после удаления тренда. Это опция по умолчанию для данного инструмента. Эта опция выполняет удаление тренда первого порядка (линейного) для целых временных рядов в каждом местоположении, и эти значения без тренда используются в качестве независимых и зависимых переменных. Использование этой опции позволяет прогнозам следовать этому тренду в будущем, чтобы прогнозированные значения могли быть определены вне диапазона зависимых значений. Изображение ниже показывает наборы переменных, используемых для обучения модели с одним местоположением, и каждая строка отображает набор независимых переменных и связанную с ними зависимую переменную. T - это число временных шагов в кубе пространства-времени, W - число временных шагов в каждом окне временного шага, а Dt - значение с удаленным трендом временного ряда в момент времени t.
Третьей опцией является Построение модели по остатку. Эта опция создает модель регрессии методом наименьших квадратов (OLS) для определения зависимых переменных на основе независимых переменных внутри каждого временного окна. Остаток в этой модели регрессии (разница между прогнозом OLS и необработанным значением зависимой переменной) используется для представления зависимой переменной при обучении леса. Изображение ниже показывает наборы переменных, используемых для обучения модели с одним местоположением, и каждая строка отображает набор независимых переменных и связанную с ними зависимую переменную. T - это число временных шагов в кубе пространства-времени, W - число временных шагов в каждом окне временного шага, Xt - значение временного ряда в момент времени t, а X^t (Xt-hat) - значение, определенное с помощью OLS в момент времени t.
Последней опцией является Построение модели по остатку после удаления тренда. Эта опция выполняет удаление тренда первого порядка (линейного) для полных временных рядов в местоположении. Затем создается модель регрессии OLS для определения зависимых переменных с удаленным трендом на основе независимых переменных с удаленным трендом внутри каждого временного окна. Остаток в этой модели регрессии (разница между прогнозом OLS и значением с удаленным трендом зависимой переменной) используется для представления зависимой переменной при обучении леса. Изображение ниже показывает наборы переменных, используемых для обучения модели с одним местоположением, и каждая строка отображает набор независимых переменных и связанную с ними зависимую переменную. T - это число временных шагов в кубе пространства-времени, W - число временных шагов в каждом окне временного шага, Xt - значение с удаленным трендом временного ряда в момент времени t, а X^t (Xt-hat) - значение, определенное с помощью OLS в момент времени t.
Построение доверительных интервалов
Этот инструмент создает 90 процентные доверительные интервалы для каждого прогнозируемого временного шага, которые представлены в виде полей Выходных объектов и отображаются во всплывающих диаграммах, подробная информация о которых приведена в следующем разделе. Верхние и нижние границы доверительного интервала для первого прогнозируемого временного шага вычисляются с использованием квантильной случайной регрессии леса. Чтобы спрогнозировать значение для будущего времени, наблюдения для каждого листа дерева усредняются вместе. Однако в квантильной регрессии используется каждое наблюдение для каждого листа, что приводит к распределению прогнозируемых значений для первого временного шага. 90 процентный доверительный интервал создается с использованием пятого и девяносто пятого квантилей этого распределения.
Доверительный интервал для второго прогноза вычисляется похожим образом, но корректируются с учетом доверительного интервала для первого прогноза. Квантильная регрессия снова используется для создания распределения для второго прогнозируемого временного шага, используя первый спрогнозированный временной шаг в качестве одного значения, и вычисляются пятый и девяносто пятый квартили распределения. Реальный доверительный интервал для второго прогноза вычисляется путем сложения длин границ доверительного интервала двух прогнозов. Верхняя граница второго прогноза равна длине верхней границе первого прогноза, сложенной с длиной верхней доверительной границы второго прогноза (вычисленной при допущении, что первый прогноз является отдельным значением, а не распределением). Нижняя граница вычисляется похожим образом, путем сложения длин нижних границ доверительных интервалов. Доверительный интервал для третьего прогнозируемого временного шага вычисляется путем повторного выполнения квантильной регрессии и добавления длин границ ошибок для всех трех прогнозов. Этот процесс будет повторяться, пока не будут спрогнозированы все временные шаги. Добавление этих границ ошибок подобным образом гарантирует, что ошибка передается дальше через все проекции, и что длина доверительных каналов увеличивается при перемещении вперед во времени.
Примечание:
Доверительные каналы для второго временного шага и далее вычисляются консервативно, путем добавления ошибок предыдущих прогнозов. Реальный доверительный уровень этих интервалов равен минимум 90 процентам, но на самом деле доверительный уровень может быть даже выше.
Идентификация выбросов временных рядов
Выбросы в данных временных рядов - это значения, которые существенно отличаются от закономерностей и тенденций других значений во временных рядах. Например, большое количество покупок в интернете во время праздников или большое количество дорожно-транспортных происшествий во время сильных ливней, скорее всего, будут обнаружены как выбросы в их временных рядах. Простые ошибки ввода данных, такие как пропуск десятичной части числа, являются еще одним распространенным источником выбросов. Выявление выбросов в прогнозе временных рядов важно, поскольку выбросы влияют на прогнозную модель, которая используется для прогнозирования будущих значений, и даже небольшое количество выбросов во временных рядах местоположения может значительно снизить точность и надежность прогнозов. Местоположения с выбросами, особенно в начале или в конце временного ряда, могут давать неверные прогнозы, и идентификация этих местоположений помогает определить, насколько вы должны быть уверены в прогнозируемых значениях в каждом местоположении.
Выбросы определяются не просто их исходными значениями, а тем, насколько их значения отличаются от установленных значений прогнозной модели. Это означает, что определение того, является ли значение выбросом, является контекстуальным и зависит как от его места, так и от времени. Прогнозная модель определяет, какое значение ожидается на основе всего временного ряда, а выбросы – это значения, которые сильно отклоняются от этого базового уровня. Например, рассмотрим временной ряд среднегодовой температуры. Поскольку средние температуры увеличились за последние несколько десятилетий, подходящая прогнозная модель температуры также будет увеличиваться с течением времени, чтобы отразить это увеличение. Это означает, что значение температуры, которое будет считаться типичным, а не выбросом в 1950 году, скорее всего, будет считаться выбросом, если такая же температура произойдет в 2020 году. Другими словами, типичная температура 1950 года будет считаться очень низкой по стандартам 2020 года.
Вы можете выбрать обнаружение выбросов временных рядов в каждом местоположении с помощью параметра Идентифицировать выбросы. Если указано, то для каждого местоположения выполняется обобщенный тест экстремальных отклонений (ESD) для проверки выбросов временных рядов. Уровень достоверности теста можно задать с помощью параметра Уровень достоверности, и по умолчанию используется 90 - процентная достоверность. Обобщенный тест ESD итеративно проверяет наличие одного выброса, двух выбросов, трех выбросов и т. д. в каждом местоположении вплоть до значения параметра Максимального числа выбросов (по умолчанию 5 процентов от числа временных шагов, округленных вниз), и возвращается наибольшее статистически значимое число выбросов. Количество выбросов в каждом местоположении можно увидеть в таблице атрибутов выходных объектов, а отдельные выбросы – во всплывающих диаграммах временных рядов, которые рассматриваются в следующем разделе.
Выходные данные инструмента
Основным результатом этого инструмента является класс 2D-объектов, отображающий каждое местоположение во Входном кубе пространства-времени, использующий символы из последнего спрогнозированного временного шага с помощью прогнозов всех остальных временных шагов, использованных в качестве полей. Хотя каждое местоположение прогнозируется независимо, и пространственные отношения не принимаются во внимание, карта может отображать пространственные закономерности для областей с похожими временными рядами.
Всплывающие диаграммы
При нажатии любого объекта на карте с помощью инструмента навигации Исследовать будет показана диаграмма на панели Всплывающее окно, на которой отображаются значения куба пространства-времени вместе с подходящей моделью леса и значениями прогноза, а также 90 процентные доверительные интервалы для каждого прогноза. Значения куба пространства-времени отображаются синим цветом и соединяются синей линией. Подходящие значения отображаются оранжевым цветом и соединяются пунктирной оранжевой линией. Спрогнозированные значения отображаются оранжевым цветом и соединяются сплошной оранжевой линией, представляющей прогноз модели леса. Допустимые границы отображаются вокруг каждого прогнозируемого значения с использованием светло-красного цвета. Вы можете задержать курсор над любой точкой диаграммы, чтобы просмотреть дату и значение в этой точке. Кроме того, если вы выбрали обнаружение выбросов во временных рядах, любые выбросы отображаются в виде больших фиолетовых точек.
Примечание:
Всплывающие диаграммы не создаются, когда выходные объекты сохраняются в виде шейп-файла (.shp). Дополнительно, если доверительные интервалы простираются за пределы диаграммы, над диаграммой появится кнопка Показать полный диапазон данных, которая позволяет вам расширить диаграмму и увидеть весь доверительный интервал.
Сообщения геообработки
Этот инструмент предоставляет целый ряд сообщений, содержащих информацию о выполнении инструмента. Сообщения содержат три основных раздела.
Раздел Информация о входном кубе пространства-времени отображает свойства входного куба пространства-времени, а также информацию о временных шагах, количестве местоположений и число пространственно-временных бинов. Свойства, отображаемые в этом первом разделе, зависят от первоначального метода создания куба, поэтому информация может отличаться от куба к кубу.
Раздел Информация об анализе отображает свойства результатов прогноза, включая число спрогнозированных временных шагов, число шагов, исключенных при проверке, процент местоположений, где сезонность была определена с помощью спектрального анализа, и информацию о спрогнозированных временных шагах. Если для параметра Окно временного шага не было задано значение, отображается суммарная статистика определенного окна временного шага, включая минимум, максимум, среднее значение, медиану и среднеквадратичное отклонение.
Раздел Обзор точности среди Местоположений отображает суммарную статистику для Прогнозного значения ошибки RMSE и Проверяемого значения ошибки RMSE среди всех местоположений Для каждого значения отображаются минимум, максимум, среднее, медиана и среднеквадратичное отклонение.
Раздел Сводка выбросов временных рядов появляется, если вы решите обнаружить выбросы временных рядов с помощью опции Параметр выбросов. В этом разделе отображается информация, включая количество и процент местоположений, содержащих выбросы, временной шаг, содержащий наибольшее количество выбросов, а также сводная статистика по количеству выбросов по местоположению и временному шагу.
Примечание:
Сообщения геообработки отображаются в нижней части панели Геообработка в процессе выполнения инструмента. Вы можете получить доступ к сообщениям, переместив курсор мыши на индикатор выполнения, щелкнув на всплывшую кнопку или развернув раздел сообщений на панели Геообработка. Вы можете получить доступ к сообщениям для выполненного ранее инструмента, используя историю геообработки.
Поля в выходных объектах
Дополнительно к полю Object ID, полям геометрии и полю, содержащему всплывающие диаграммы, Выходные объекты будут иметь следующие поля:
- Location ID (LOCATION) - идентификатор (Location ID) соответствующего местоположения в кубе пространства-времени.
- Прогноз для (Переменная анализа) в (Временном шаге) (FCAST_1, FCAST_2 и т.д.) - прогнозируемое значение для каждого будущего временного шага. Псевдоним поля отображает имя Переменной анализа и дату прогноза. Поле данного типа создается для каждого прогнозируемого временного шага.
- Частый интервал для (Переменной анализа) в (Временном шаге) (HIGH_1, HIGH_2 и т.д.) - верхняя граница в 90-процентном доверительном интервале для прогнозируемого значения в каждом будущем временном шаге. Псевдоним поля отображает имя Переменной анализа и дату прогноза. Поле данного типа создается для каждого прогнозируемого временного шага.
- Низкий интервал для (Переменной анализа) в (Временном шаге) (LOW_1, LOW_2 и т.д.) - нижняя граница в 90-процентном доверительном интервале для прогнозируемого значения в каждом будущем временном шаге. Псевдоним поля отображает имя Переменной анализа и дату прогноза. Поле данного типа создается для каждого прогнозируемого временного шага.
- Среднеквадратичная ошибка прогноза (F_RMSE) - значение RMSE прогноза.
- Среднеквадратичная ошибка проверки (V_RMSE) - значение RMSE проверки. Если для проверки не были исключены никакие временные шаги, это поле не создается.
- Временное окно (TIMEWINDOW) - окно временного шага, используемое в данном местоположении.
- Сезонный (IS_SEASON) - Булева переменная, показывающая, будет ли окно временного шага в местоположении определяться спектральной плотностью. Значение, равное 1, показывает, что сезонность была определена с помощью спектральной плотности, а значение 0 показывает, что сезонность не была определена. Если для параметра Временное окно задано значение, то у всех местоположений в этом поле будет содержаться значение 0.
- Метод прогноза (METHOD) - текстовое поле, показывающее параметры модели леса, включая случайные местоположения, число деревьев, размер выборки, подход при прогнозировании, а также, было ли окно временного шага указано пользователем или определено инструментом. Это поле может использоваться для повторения результатов, и позволяет вам узнать, какие модели были использованы в инструменте Оценить прогнозы по местоположению.
- Число выбросов подгонки модели (N_OUTLIERS) – количество выбросов, обнаруженных во временном ряду местоположения. Это поле создается только в том случае, если вы выбрали обнаружение выбросов с помощью опции Параметр выбросов.
Выходной куб пространство-время
Если указан Выходной куб пространство-время он будет содержать значения исходного куба пространство-время и добавленные прогнозированные значения. Этот новый куб пространство-время можно визуализировать с использованием инструментов Визуализировать куб пространство-время в 2D или Визуализировать куб пространство-время в 3D или использовать в качестве входного в инструментах набора Углубленный анализ пространственно-временных закономерностей, например, Анализ возникновения горячих точек или Кластеризация временных рядов.
Несколько прогнозируемых кубов пространство-время можно сравнить и объединить с помощью инструмента Оценить прогнозы по местоположению. Это позволит создавать несколько прогнозных кубов с использованием различных инструментов и параметров прогнозирования, а инструмент будет определять наилучший прогноз для каждого местоположения с помощью RMSE прогноза или RMSE проверки.
Лучшие практики и ограничения
Необходимо учитывать некоторые моменты при принятии решения, насколько данный инструмент подходит для ваших данных, и какие параметры следует выбрать.
- По сравнению с другими инструментами прогнозирования в группе инструментов Прогнозирование временных рядов, этот инструмент является более сложным, но использует меньшее число предположений о данных. Рекомендуется использовать этот инструмент для временных рядов со сложной формой и трендами, которые сложно смоделировать с помощью простых математических функций или функций сглаживания. Он также рекомендуется, когда предположения других методов не удовлетворяются.
- Важным моментом является принятие решения о том, сколько временных шагов следует исключить при проверке. Чем больше временных шагов исключается, тем меньше временных шагов остается для определения модели проверки. Однако, если исключено слишком мало временных шагов, проверочное значение ошибки RMSE будет оцениваться с помощью меньшего количества данных и может быть обманчивым. Рекомендуется исключить максимальное число временных шагов, но при этом оставить достаточное количество временных шагов для оценки модели проверки. Еще одной рекомендация состоит в том, что следует удержать для проверки как минимум столько же временных шагов, сколько вы собираетесь прогнозировать, если ваш куб пространства-времени содержит достаточное для этого число временных шагов.
- Этот инструмент может выдать нестабильные и недостоверные результаты прогноза, если одно и то же значение слишком часто повторяется во временных рядах. Основным источником повторяющихся одинаковых значений является инфляция нуля, при которой ваши данные отображают количественные данные и множество из временных шагов содержат значение 0.
- Если вы решите идентифицировать выбросы, рекомендуется указать значение параметра Окно временного шага, а не оставлять его пустым и оценивать другое окно временного шага в каждом местоположении. Для каждого местоположения модель леса использует временные шаги в окне первого временного шага для обучения прогнозной модели, а выбросы обнаруживаются только для оставшихся временных шагов. Если различные местоположения исключают различное количество временных шагов для обучения, сводные статистические данные, такие как среднее, минимальное и максимальное число выбросов на временной шаг или на местоположение, могут вводить в заблуждение. Эти статистические данные рассчитываются только для временных шагов, которые были включены в каждое местоположение.
Дополнительные ресурсы
Более подробно о моделях на основе леса смотрите в следующих материалах:
- Breiman, Leo. (2001). "Random Forests." Machine Learning 45 (1): 5-32. https://doi.org/10.1023/A:1010933404324.
- Breiman, L., J.H. Friedman, R.A. Olshen, and C.J. Stone. (2017). Classification and regression trees. New York: Academic. Chapter 4.
С дополнительными ресурсами и сведениями о моделях леса можно ознакомиться в Как работает Классификация на основе леса и регрессия.
Более подробную информацию о функции спектральной плотности, используемой для получения средней длины временных окон можно получить в разделе функции findfrequency в следующих источниках:
- Hyndman R, Athanasopoulos G, Bergmeir C, Caceres G, Chhay L, O'Hara-Wild M, Petropoulos F, Razbash S, Wang E, and Yasmeen F (2019). "Forecasting functions for time series and linear models." Пакет R версии 8.7, https://pkg.robjhyndman.com/forecast.
- Hyndman RJ and Khandakar Y (2008). "Automatic time series forecasting: the forecast package for R." Journal of Statistical Software, 26(3), pp. 1-22. https://www.jstatsoft.org/article/view/v027i03.
Более подробно о построении доверительных интервалов из регрессионных моделей на основе леса смотрите в следующих материалах:
- Meinshausen, Nicolai. "Quantile regression forests." Journal of Machine Learning Research 7. Jun (2006): 983-999.