Выбросы в данных временных рядов - это значения, которые значительно отличаются от закономерностей и трендов других значений временного ряда. Например, большое количество онлайн-покупок в праздничные дни или большое количество дорожно-транспортных происшествий во время сильных ливней могут быть обнаружены как выбросы в своих временных рядах. Простые ошибки ввода данных, такие как пропуск десятичной дроби в числе, являются еще одним распространенным источником выбросов. Выявление выбросов при прогнозировании временных рядов важно, поскольку выбросы влияют на прогнозную модель, которая используется для прогнозирования будущих значений. Даже небольшое количество выбросов во временном ряду местоположения может снизить точность и надежность прогнозов. Местоположения с выбросами, особенно в начале или в конце временного ряда, могут приводить к неверным прогнозам. Идентификация этих местоположений помогает определить, насколько можно доверять прогнозируемым значениям для каждого местоположения.
Вы можете идентифицировать выбросы в каждом местоположении куба пространство-время с помощью инструментов Прогноз подгонки кривой, Прогноз экспоненциального сглаживания и Прогноз на основе леса, указав опцию Идентифицировать выбросы параметра Опция выброса.
Визуализируйте и исследуйте выбросы
После запуска одного из инструментов прогнозирования, использующего возможность выявления выбросов, вам предоставляется информация об обнаруженных выбросах с помощью символов выходных объектов, диаграмм временных рядов, 2D или 3D-визуализации выходного куба пространство-время и сообщений геообработки.
Всплывающие диаграммы
Если щелкнуть выходной объект на карте, на панели Всплывающие окна появится всплывающая диаграмма, на которой отображаются временные ряды и прогнозная модель с выявленными выбросами, отображаемыми в виде больших точек. На следующем изображении показан временной ряд объекта, в котором был обнаружен один выброс:
Визуализация куба пространство-время
Выбросы в кубе пространство-время можно визуализировать и исследовать в 2D и 3D с помощью инструментов Визуализировать куб пространство-время в 2D и Визуализировать куб пространство-время в 3D с помощью опции Результаты выбросов временных рядов параметра Тема отображения.
Выходные 2D-объекты отображаются по количеству выбросов в каждом местоположении и содержат одинаковые всплывающие диаграммы, отображающие временные ряды и выявленные выбросы.
Выходные 3D-объекты отображают местоположения и время выявленных выбросов в 3D-сцене. Любой бин пространство-время, значение которого определяется как выброс временного ряда, помечается как Выше подобранного значения или Ниже подобранного значения, в зависимости от того, находится ли значение выше или ниже подобранных значений прогнозной модели. Выбросы выше подобранного значения отображаются фиолетовым цветом, а выбросы ниже подобранного значения - зеленым. Бины пространство-время, не идентифицированные как выбросы, помечаются как Не выброс и отображаются светло-серым цветом.
3D-объекты также включают две диаграммы. Диаграмма Визуализировать в 3D временном ряду отображает линейный график среднего значения временного ряда по временным шагам куба пространство-время. Эта диаграмма также создается с помощью опции Результаты прогноза параметра Темы отображения и не содержит информацию, связанную с обнаружением выбросов.
Вторая диаграмма - это диаграмма Количество выбросов выше или ниже подобранных значений с течением времени. Эта диаграмма представляет собой стековую линейчатую диаграмму, отображающую общее количество выбросов выше и ниже подобранного значения на каждом временном шаге куба пространство-время. Это позволяет идентифицировать важные даты, когда произошло много выбросов, и вы можете увидеть, были ли значения в эти даты необычно высокими или низкими.
Сообщения геообработки
Сообщения геообработки включают раздел Краткая информация о выбросах временных рядов. Первая часть этого раздела показывает количество и процент местоположений, содержащих хотя бы один выброс. Это позволяет быстро понять, насколько хорошо прогнозная модель соответствует временному ряду в целом. Вторая часть отображает сводную статистику количества выбросов (минимальное, среднее и максимальное значения) для каждого местоположения и для каждого временного шага. Это позволяет изучить, как часто возникают выбросы в отдельных местоположениях и на отдельных временных шагах. В этом разделе также отображается временной шаг, содержащий наибольшее количество выбросов. Вы можете использовать это, чтобы определить важные даты, когда произошло много выбросов.
Контекстные и глобальные выбросы
С помощью инструмента можно выявить несколько типов выбросов временных рядов. Несмотря на то, что все типы выявляются одинаковым путем, понимание типов помогает прояснить, почему некоторые временные ряды были выявлены как выбросы, а остальные - нет.
Самый простой тип - это глобальные выбросы, необработанные значения которых значительно больше или меньше остальных значений. Эти выбросы часто соответствуют аномалиям или особым событиям, таким как праздники. На диаграмме ниже показан глобальный выброс. Выброс был выявлен, так как имеет значительно более высокое значение, чем остальные данные временного ряда.
Однако значения не обязательно должны быть одними из самых больших или самых маленьких во временном ряду, чтобы их можно было определить, как выбросы. Некоторые выбросы идентифицируются на основе контекста, имея значительно более высокое или более низкое значение, чем ожидается, исходя из закономерностей и трендов временного ряда. Прогнозная модель включает в себя эти закономерности и тренды и это служит основанием для выявления контекстных выбросов. Например, рассмотрим временной ряд средней годовой температуры. Поскольку средние температуры увеличились за последние несколько десятилетий, подобранная прогнозная модель температуры также увеличивается со временем, чтобы отразить это повышение. Это означает, что значение температуры, которое будет считаться типичным, а не выбросом в 1950 году, скорее всего, будет считаться выбросом в 2020 году. Другими словами, типичная температура 1950 года будет считаться низкой по стандартам 2020 года.
На диаграмме ниже показан временной ряд как с контекстным выбросом, так и с глобальным выбросом. Значение контекстного выброса не является наименьшим во временном ряду, но оно было идентифицировано как выброс с низким значением, поскольку находится ниже всего относительно оранжевой прогнозной модели.
Идентификация значений как выбросов также зависит от того, насколько хорошо прогнозная модель соответствует временному ряду. Если прогнозная модель в целом соответствует данным временных рядов, значения, которые даже незначительно отклоняются от прогнозной модели, все равно могут быть идентифицированы как выбросы. Точно так же, если прогнозная модель не соответствует данным временного ряда, даже большие отклонения от прогнозной модели могут быть не идентифицированы как выбросы.
На диаграмме ниже показано несколько значений, определенных как выбросы. Эти значения не сильно отличаются от оранжевой прогнозной модели, но их отклонение намного больше, чем у остальных значений временного ряда.
Тест Обобщенное ESD для выбросов временных рядов
Тест Обобщенное экстремальное стьюдентизированное отклонение (Generalized Extreme Studentized Deviate - ESD) используется для проверки наличия выбросов в каждом местоположении куба пространство-время. Этот тест не является единичным тестом, это последовательность тестов (каждый из которых называется тестом Граббса), каждый из которых проверяет определенное количество выбросов с заданным уровнем достоверности. Первый тест проверяет наличие ровно одного выброса в наборе данных. Второй проверяет ровно два выброса. Третий тест - ровно три. Это продолжается до достижения значения параметра Максимальное количество выбросов (по умолчанию 5 процентов от количества временных шагов, округленных в меньшую сторону). Затем инструмент возвращает выбросы, связанные с наибольшим статистически значимым количеством выбросов. Например, при использовании максимум трех выбросов, если тест для одного выброса является статистически значимым, тест для двух выбросов не значимый, а тест для трех выбросов является значимым, инструмент возвращает три выброса. Точно так же, если один выброс является значимым, два выброса - значимы, а три выброса не являются значимыми, инструмент возвращает два выброса.
Для временного ряда с T подобранными временными шагами тест проводится таким образом, что i находится в диапазоне от 1 до максимального количества выбросов:
- Вычислите невязки каждого временного шага t, вычтя значение прогнозной модели из исходного значения:
- Вычислите среднее значение и стандартное отклонение невязок.
- Рассчитайте статистику теста, разделив максимальное абсолютное отклонение от среднего значения на стандартное отклонение:
- Сравните статистику теста со следующим критическим значением: , где t α,T-i-1 - двустороннее критическое значение t-распределения с T-i + 1 степенями свободы на уровне достоверности (1 - α / (2 (T-i + 1))), а α - уровень значимости (определяется уровнем достоверности).
- Если статистика теста превышает критическое значение, тест ровно на i выбросов является статистически значимым.
- Удалите значение, связанное с максимальной абсолютной невязкой, и повторите шаги со 2 по 5 на всех временных шагах, которые не были удалены ранее, также увеличивая i на единицу. Среднее и стандартное отклонение невязок изменяются за счет удаления значения при каждом повторении. Такой пересчет среднего и стандартного отклонения корректирует влияние выбросов на прогнозную модель.
- Возвратите выбросы, связанные с наибольшим количеством статистически значимых выбросов.
Поскольку этот тест выполняется независимо в каждом местоположении куба пространство-время, разные местоположения могут идентифицировать разное количество выбросов. Количество выбросов в каждом местоположении можно увидеть в поле выходных объектов Number of Model Fit Outliers.
Рекомендации и ограничения
При выявлении выбросов временных рядов необходимо учитывать несколько важных факторов и ограничений:
- Если вы используете инструмент Прогноз на основе леса, рекомендуется указать значение для параметра Окно временного шага, а не оставлять параметр пустым и оценивать различное окно временного шага в каждом местоположении. Для каждого местоположения модель леса использует значения в окне первого временного шага для обучения прогнозной модели, а выбросы обнаруживаются только для оставшихся временных шагов. Если разные местоположения исключают разное количество временных шагов для обучения леса, итоговая статистика, такая как среднее, минимальное и максимальное количество выбросов для каждого временного шага или для каждого местоположения, может вводить в заблуждение.
- Тест Обобщенное ESD использует приблизительную точность для оценки критического значения. Эта приблизительность наиболее точна для временных рядов с не менее чем 25 временными шагами.
- Использование разных прогнозных моделей и инструментов прогнозирования может выявлять разные временные шаги как выбросы. Рекомендуется выявлять выбросы только для той прогнозной модели, которая наилучшим образом соответствует значениям временного ряда.
Дополнительные ресурсы
Для получения дополнительной информации о тесте Обобщенное ESD и тесте Граббса см. следующие ресурсы:
- Grubbs, F. (1950). "Sample Criteria for Testing Outlying Observations." Annals of Mathematical Statistics 21(1):27–58. https://doi.org/10.1214/aoms/1177729885
- Rosner, B. (1983). "Percentage Points for a Generalized ESD Many-Outlier Procedure." Technometrics 25(2):165-172.
Связанные разделы
- Обзор набора инструментов Углубленный анализ пространственно-временных закономерностей
- Обзор группы инструментов Временные ряды прогнозирования
- Прогнозирование подгонки кривой
- Прогноз экспоненциального сглаживания
- Оценка прогнозов по местоположению
- Прогноз на основе леса
- Как работает инструмент Прогнозирование подгонки кривой
- Как работает Прогноз экспоненциального сглаживания
- Как работает инструмент Прогноз на основе леса
- Классификация на основе леса и регрессия, регрессия с бустингом
- Как работает Классификация на основе леса и регрессия, регрессия с бустингом