Как работает Взаимная корреляция временных рядов

Инструмент Взаимная корреляция временных рядов сравнивает два временных ряда (называемых первичная и вторичная переменные анализа) в каждом местоположении куба пространство-время, вычисляя коэффициент корреляции Пирсона между соответствующими значениями в каждом временном шаге. Кроме того, вторичная переменная анализа имеет временную задержку (сдвинута во времени) относительно первичной переменной анализа, и новые корреляции рассчитываются для различных временных задержек. Это позволяет оценить отложенные эффекты между первичными и вторичными переменными анализа, такие как задержка между проведением маркетинговой кампанией и увеличением дохода от продаж. Например, если маркетинг и продажи наиболее сильно коррелируют, когда выручка от продаж смещается назад во времени на одну неделю, это означает, что существует недельная задержка между усилением маркетинга и увеличением доходов от продаж.

Этот инструмент можно использовать как описательный и исследовательский метод расчета непреобразованной корреляции между временными рядами. Его также можно использовать в качестве метода объяснения и получения выводов, удаляя тренды и фильтруя автокорреляцию, чтобы изолировать статистическую зависимость между двумя переменными. Вы также можете включить в расчеты соседей, чтобы учесть сходство временных рядов соседних местоположений и учесть пространственные факторы и взаимодействия.

Возможное применение

Ниже примеры использования инструмента:

  • В мегаполисе сравните почасовую температуру с потреблением электроэнергии, чтобы подготовиться к пиковому спросу на электроэнергию в самые жаркие часы каждого дня.
  • Оцените задержку между увеличением количества осадков и увеличением объема воды в водохранилище. Через какое время после пика ливня уровень воды в водохранилище повышается быстрее всего? Различна ли продолжительность задержки для мест с разными почвенными условиями?
  • Сравните эффективность различных маркетинговых кампаний, чтобы определить, расходы какой кампании наиболее положительно коррелируют с доходом от продаж. Кроме того, вы можете оценить задержку между расходами на маркетинг и покупками клиентов. Действительно ли некоторым кампаниям требуется больше времени на увеличение продаж, но в конечном итоге они наиболее эффективны в получении долгосрочного дохода?

Взаимная корреляция

Значения взаимной корреляции измеряют силу линейного отношения между двумя временными рядами: когда один временной ряд увеличивается, другой имеет тенденцию увеличиваться, уменьшаться или не изменяться? Взаимная корреляция, близкая к единице, означает, что два временных ряда движутся в одних и тех же направлениях и в одинаковых пропорциях. Например, количество авиапассажиров и цены на авиабилеты тесно связаны между собой: чем больше людей путешествует, тем выше цены на авиабилеты. Аналогичным образом, отрицательная взаимная корреляция означает, что два временных ряда движутся в противоположных направлениях, например, количество незанятых парковочных мест и уровень уличного движения (движение увеличивается, а мест для парковки становится меньше). Если два временных ряда не связаны между собой и не имеют тенденции к изменению в одинаковом или разном направлении, взаимная корреляция будет близка к нулю.

Временные задержки

Поскольку между двумя временными рядами часто наблюдается эффект отсрочки (например, задержка между увеличением количества хищников в экосистеме и изменением популяции жертв), значения взаимной корреляции всегда рассчитываются с учетом временной задержки. Временная задержка представляет собой сдвиг вторичной переменной относительно первой, и новое значение взаимной корреляции рассчитывается для новых соответствующих пар значений между двумя временными рядами.

На изображении ниже верхний график показывает первичные и вторичные переменные анализа. Средний график показывает вторичную переменную, сдвинутую во времени на два шага вперед (временная задержка 2), а нижний график показывает вторичную переменную, сдвинутую на два шага назад во времени (временная задержка -2). Поскольку вторичная переменная увеличивается или уменьшается после увеличения или уменьшения первичной переменной, сдвиг вторичной переменной назад во времени (отрицательные временные задержки) увеличивает взаимную корреляцию между переменными. Также обратите внимание, что после сдвига некоторые временные шаги на концах временного ряда первичной переменной больше не имеют парного значения во вторичной переменной.

Вторичная переменная смещается относительно первичной переменной.

Если временная задержка с самой сильной корреляцией положительная, изменения вторичной переменной анализа происходят раньше, чем изменения первичной переменной анализа. Аналогично, если временная задержка с самой сильной корреляцией отрицательная, изменения первичной переменной анализа происходят раньше, чем изменения вторичной переменной анализа.

Инструмент рассчитает взаимные корреляции для всех временных задержек между нулем и значением параметра Максимальная временная задержка. Кроме того, параметр Направление задержки вторичной переменной можно использовать для указания направления сдвига (другими словами, указать знак временной задержки). Вы можете сдвинуть вторичную переменную анализа в обоих направлениях: назад во времени (отрицательная задержка) или вперед во времени (положительная задержка). Например, если использовать максимальную временную задержку, равную 10, и сделать сдвиг в обоих направлениях, будут рассчитаны взаимные корреляции для всех временных задержек между -10 и 10. Аналогичным образом, используя максимальную временную задержку, равную 5, и сдвигая ее только назад во времени, можно рассчитать взаимные корреляции для всех временных задержек между -5 и 0.

Примечание:

Если для параметра Максимальная временная задержка не указано значение, максимальная задержка времени будет равна 10*log10(T/2) для T временных шагов в каждом временном ряду (округляется в меньшую сторону). Значение не может быть больше (T-5). Если указать нулевое значение, будет рассчитана только непреобразованная взаимная корреляция двух временных рядов без смещений временных задержек.

Включить пространственных соседей

Вы можете использовать параметр Включить пространственных соседей в расчеты, чтобы определить окрестности вокруг каждого местоположения и улучшить оценку взаимной корреляции. Если соседи включены, взаимная корреляция каждого местоположения для заданной временной задержки представляет собой (возможно, взвешенное) среднее значение временных корреляций между первичной переменной анализа фокального местоположения и вторичной переменной анализа с задержкой по времени каждого пространственного соседа (и самого себя).

Например, на изображении ниже красным показано фокальное местоположение и восемь его соседей. Оранжевый временной ряд — это основная переменная анализа фокального местоположения, а фиолетовый временной ряд — это вторичные переменные анализа для фокального местоположения и для каждого соседа. В этом случае взаимная корреляция в фокальном местоположении будет представлять собой среднее из девяти взаимных корреляций: взаимная корреляция фокального объекта с самим собой, взаимная корреляция фокального местоположения с первым соседом, взаимная корреляция фокального местоположения с вторым соседом и так далее. При каждом сравнении первичная переменная анализа фокального местоположения сравнивается со вторичной переменной соседа (или самого себя). Усредняя корреляции, значение лучше характеризует взаимную корреляцию области, а не отдельного местоположения. Это усреднение повторяется для всех временных задержек и всех местоположений.

Взаимная корреляция с использованием соседей

По умолчанию при вычислении среднего каждая корреляция имеет одинаковый вес, но если вы используете диапазон расстояний или окрестности k-ближайших соседей, вы можете использовать параметр Метод взвешивания пространственного соседа, чтобы предоставить больший вес соседям, которые находятся ближе к фокальному местоположению. Для определения весов можно использовать биквадратное или гауссово ядро.

Примечание:

Для окрестностей по диапазону расстояний ширина полосы каждого ядра равна диапазону расстояний. Посмотрите, Как работает инструмент Плотность ядер, чтобы узнать, как рассчитывается диапазон расстояний по умолчанию. Для окрестностей с k ближайшими соседями ширина полосы равна расстоянию до (k+1) соседа. Это гарантирует, что все k соседей находятся ближе, чем ширина полосы, и имеют ненулевые веса. Для местоположений полигонов при определении соседей и весов используются расстояния между центроидами.

Отфильтровать и удалить тренды

Для определенной временной задержки взаимная корреляция между двумя временными рядами определяет, имеют ли эти два временных ряда тенденцию одновременно увеличиваться и уменьшаться. Это можно рассматривать как описательный анализ, который описывает и оценивает степень соответствия значений. Однако необработанная взаимная корреляция состоит из различных факторов, включая тренды, сезонность, автокорреляцию и статистическую зависимость переменных. Необработанные значения двух временных рядов могут сильно коррелировать просто из-за общих трендов и автокорреляции; например, продажи мороженого и солнцезащитного крема сильно коррелируют, но если убрать сезонные и экономические тренды, корреляция станет очень незначительной. Вы можете удалить тренды, сезонность и автокорреляцию (часто называемые предварительным отбеливанием и фильтрацией), отметив параметр Отфильтровать и удалить тренды.

Когда целью является оценка оптимальной временной задержки между переменными, особенно важно фильтровать и удалять тренды. Например, согласно эпидемиологическим данным, между ростом числа заболеваний и увеличением числа госпитализаций существует временная задержка. Однако использование необработанных значений часто показывает отсутствие временной задержки между заболеванием и госпитализацией из-за сильных трендов и автокорреляции (другими словами, нулевая временная задержка имеет самую сильную корреляцию). Но когда удаляются тренды и фильтруется автокорреляция, истинный временной интервал между заболеванием и госпитализацией (например, 10 дней) часто достигает самой сильной корреляции.

Поскольку тренды, сезонность и автокорреляция увеличивают частоту ошибок 1-го типа статистических тестов, значения p и 95-процентные доверительные интервалы для перекрестных корреляций рассчитываются только в том случае, если вы фильтруете и удаляете тренды из двух временных рядов. Кроме того, значения p и доверительные интервалы можно рассчитать только для попарных сравнений двух временных рядов. Другими словами, если вы включаете в расчеты пространственных соседей, значения p и доверительные интервалы не рассчитываются для средневзвешенного значения взаимных корреляций. Однако вы можете использовать параметр Выходная таблица парных корреляций, чтобы создать таблицу, содержащую значения p и доверительные интервалы между каждым местоположением и отдельными соседями при всех временных задержках.

Примечание:

Значения p и доверительные интервалы рассчитываются в предположении нормального распределения взаимной корреляции со стандартным отклонением, равным квадратному корню из количества временных шагов. Это асимптотический результат, наиболее точный для временных рядов, содержащих не менее 30 временных шагов. Для более коротких временных рядов будет возвращено предупреждение.

Тесты статистической значимости выполняются независимо для каждой временной задержки каждого местоположения, и поправка на проверку нескольких гипотез не производится. Будьте осторожны при интерпретации значения любого значения p или доверительного интервала. Все значения p рассчитываются с использованием двусторонних тестов гипотез.

См. раздел Подгонка модели фильтрации и удаления трендов ниже, чтобы получить информацию о том, как выполняется фильтрация и удаление трендов.

Выходные данные инструмента

Основным результатом работы инструмента является класс объектов, содержащий поля результатов взаимной корреляции. На карту класс объектов добавляется как составной слой, содержащий шесть слоев, в каждом из которых выходные данные отображаются по разному полю. Каждый слой включает в себя возможность быстрого переключения между ними вместо необходимости включать и отключать каждый слой по отдельности.

Три слоя отображают карты самых сильных корреляций: самая сильная положительная корреляция, самая сильная отрицательная корреляция и самая сильная абсолютная корреляция. Каждое местоположение окрашено в соответствии с наибольшей положительной корреляцией, наибольшей отрицательной корреляцией или корреляцией, наибольшей по абсолютному значению.

Слой самой сильной абсолютный корреляции

Последние три слоя показывают временные задержки, связанные со слоями трех самых сильных корреляций. Например, слой Lag of Strongest Absolute Correlation отображает временные задержки, которые привели к наиболее сильным абсолютным корреляциям.

Временная задержка слоя самой сильной абсолютной корреляции

Используя эти шесть слоев вместе, вы можете исследовать, насколько сильно коррелирует первичная переменная анализа с вторичной переменной анализа в каждом местоположении, и определить, какие временные задержки привели к этим корреляциям. В этих результатах вы можете заметить пространственные закономерности; например, некоторые регионы могут иметь меньшие временные задержки или более сильную корреляцию, чем другие. Вы также можете обнаружить, что одно и то же местоположение может иметь как сильно положительную, так и сильно отрицательную взаимную корреляцию, в зависимости от временной задержки. Например, два временных ряда циклических отношений хищник-жертва могут иметь положительную или отрицательную корреляции путем сдвига циклов двух временных рядов в сторону выравнивания или рассогласования.

В дополнение к шести полям, используемым в составном слое, выходные объекты будут иметь следующие поля:

  • Поля идентификатора объекта и местоположения.
  • Поля взаимной корреляции для каждой временной задержки. Для каждой временной задержки создается отдельное поле.
  • Количество соседей местоположения. Это поле создается только в том случае, если вы включаете в расчеты пространственных соседей.

Если вы фильтруете и удаляете тренды и не включаете в расчеты пространственных соседей, для каждой наиболее сильной корреляции (положительной, отрицательной и абсолютной) будут созданы следующие поля:

  • Поле p-значений, проверяющее статистическую значимость взаимной корреляции.
  • Поля верхней и нижней границ 95-процентного доверительного интервала для взаимной корреляции.
  • Двоичное поле (0 или 1), указывающее, является ли взаимная корреляция статистически значимой (значение поля 1) или несущественной (значение поля 0) при уровне достоверности 95 процентов.

Примечание:

Если все значения взаимной корреляции в определенном месте положительны, поле самой сильной отрицательной корреляции и временная задержка поля самой сильной отрицательной корреляции будут содержать значение null для этого местоположения. Аналогичным образом, все отрицательные корреляции в каком-либо местоположении будут давать значения null в полях с самой сильной положительной корреляцией.

Входной куб пространство-время будет обновлен с учетом результатов анализа, и вы можете использовать инструмент Визуализировать куб пространство-время в 2D с опцией темы отображения Результаты взаимной корреляции временных рядов, чтобы заново создать выходной класс объектов и составной слой. Переменная анализа с результатами взаимной корреляции будет представлять собой имена первичной и вторичной переменных анализа, разделенные подчеркиванием. Например, если входные переменные имеют имена MARKETING и SALES, переменная анализа с результатами будет называться MARKETING_SALES.

Всплывающие диаграммы

Вы можете создавать интерактивные всплывающие диаграммы для выходных объектов, включив параметр Включить всплывающие окна временных рядов. Если они созданы, вы можете использовать инструмент Исследовать, чтобы щелкнуть объект и просмотреть гистограмму взаимных корреляций для каждой временной задержки, а также линейную диаграмму, показывающую первичные и вторичные переменные анализа.

Всплывающая диаграмма корреляции временной задержки

Вы можете навести указатель мыши на любой столбец гистограммы, и временной ряд ниже сместится на соответствующую временную задержку. Это позволяет вам увидеть, как выравниваются два временных ряда после различных временных задержек.

Анимированная гистограмма временных рядов

Если вы фильтруете и удаляете тренды и не включаете пространственных соседей, на всплывающей диаграмме будут отображаться 95-процентные доверительные интервалы (голубая заливка) вокруг взаимных корреляций каждой временной задержки. Вы также можете использовать отметку Показать отфильтрованные временные ряды с исключенным трендом, чтобы отобразить необработанные значения временных рядов или отобразить временные ряды после фильтрации и удаления тренда.

Всплывающая диаграмма корреляции временной задержки с доверительными интервалами и отфильтрованными временными рядами

Примечание:

Если вы включаете в расчеты пространственных соседей, будет отображаться только гистограмма с задержкой во времени. Это сделано для предотвращения отрисовки слишком большого количества временных рядов на каждой всплывающей диаграмме.

Всплывающие диаграммы не создаются, когда выходные объекты сохраняются в виде шейп-файла. (.shp).

Таблицы корреляции выходных данных

При необходимости вы можете использовать параметр Выходная таблица корреляций задержек, чтобы сохранить результаты взаимной корреляции в виде таблицы. В таблице каждая строка содержит взаимную корреляцию для одного местоположения и одной временной задержки. Количество строк в таблице будет равно количеству местоположений, умноженному на количество временных задержек. Кроме того, если вы фильтруете и удаляете тренды и не включаете в расчеты пространственных соседей, таблица будет содержать поля значения p, а также верхнюю и нижнюю границы 95-процентного доверительного интервала. Сохранение информации построчно в виде таблицы (а не полей выходных объектов) часто более удобно для экспорта и анализа результатов взаимной корреляции. Для дальнейшего анализа также можно соединить таблицу с местоположениями.

Если вы включаете в расчеты пространственных соседей, вы также можете использовать параметр Выходная таблица парных корреляций, чтобы создать таблицу, содержащую сравнения между каждым фокальным местоположением и отдельными соседями для каждой временной задержки. Например, если есть 10 местоположений, 5 временных задержек и 7 соседей на каждое местоположение, в выходной таблице будет 10*5*(7+1)=400 строк (1 добавляется для включения сравнений фокусного местоположения с самим собой). Для каждой комбинации соответствующая взаимная корреляция сохраняется в виде поля. Если вы отфильтруете и удалите тренды, таблица также будет содержать поля значения p и верхнюю и нижнюю границы 95-процентного доверительного интервала.

Сообщения геообработки

Инструмент предоставляет ряд сообщений с информацией о результатах его работы. Сообщения состоят из двух разделов.

В разделе Информация о входном кубе пространства-времени отображаются свойства входного куба пространства-времени, а также информация о количестве и интервале временных шагов, количестве местоположений и количестве пространственно-временных бинов. Свойства, отображаемые в этом первом разделе, зависят от первоначального метода создания куба, поэтому информация может отличаться от куба к кубу.

В разделе Сводка корреляций по временной задержке отображается таблица сводной статистики взаимных корреляций во всех местоположениях для каждой временной задержки. Для каждой временной задержки в таблице отображаются минимальное, максимальное, среднее, стандартное отклонение и количество взаимных корреляций всех местоположений. Если вы фильтруете и удаляете тренды и не включаете пространственных соседей, таблица также будет содержать количество местоположений со статистически значимой взаимной корреляцией для каждой временной задержки. Эта сводная статистика позволяет быстро выявить отдельные временные задержки, которые сильно коррелируют между многими местоположениями, возможно, выявляя закономерности, которые могут быть не замечены при изучении результатов отдельных местоположений.

Диаграммы

Каждый из трех слоев, отображающих временные задержки самых сильных корреляций (положительных, отрицательных и абсолютных), включает гистограмму, на которой отображается количество местоположений, которые имели самую сильную корреляцию для каждой временной задержки. Например, на изображении ниже большинство местоположений достигли самой сильной абсолютной корреляции с временной задержкой 0, что означает, что в большинстве местоположений между двумя временными рядами нет предполагаемой задержки.

Гистограмма количества местоположений с самой сильной корреляцией по временной задержке

Формула взаимной корреляции

Для заданной временной задержки формула взаимной корреляции между двумя временными рядами выглядит следующим образом:

Формула взаимной корреляции
  • k – временная задержка.
  • t — временной шаг.
  • T — количество временных шагов в каждом временном ряду.
  • X(t) — значение первичной переменной анализа на временном шаге t.
  • Y(t) — значение вторичной переменной анализа на временном шаге t.
  • — среднее значение первичной переменной анализа (с использованием всех временных шагов).
  • Ȳ — среднее значение вторичной переменной анализа (с использованием всех временных шагов).

Числитель и знаменатель делятся на количество участников в суммах, чтобы исправить погрешность в отношении больших временных задержек.

Подгонка модели фильтрации и удаления трендов

Если вы фильтруете и удаляете тренды из временного ряда, следующие этапы предварительной обработки выполняются для первичных и вторичных переменных анализа перед применением временной задержки и расчетом взаимных корреляций:

  1. Обычная регрессионная модель метода наименьших квадратов (МНК) создается для прогнозирования следующего значения первичной переменной анализа на основе предыдущего значения. В модели каждый временной шаг используется как объясняющая переменная для прогнозирования значения следующего временного шага.
  2. Создается вторая модель МНК, которая прогнозирует следующее значение первичной переменной анализа на основе двух предыдущих значений. Например, первые два временных шага используются для прогнозирования третьего; второй и третий временные шаги используются для прогнозирования четвертого; и так далее.
  3. Еще три модели МНК создаются с использованием трех, четырех и пяти предыдущих значений соответственно для прогнозирования следующего значения первичной переменной анализа.
  4. Быстрое преобразование Фурье (FFT) используется для оценки сезонности основной переменной, а шестая модель МНК использует это количество временных шагов для прогнозирования следующего значения.
  5. Значения AICc рассчитываются для каждой из шести моделей МНК, и в качестве модели фильтрации и удаления тренда выбирается модель с наименьшим значением.
  6. Используя коэффициенты выбранной модели, для первичной переменной анализа рассчитываются невязки, и эти невязки становятся новой первичной переменной. Этот шаг часто называют предварительным отбеливанием первичной переменной, поскольку ожидается, что невязки будут отображать случайный белый шум.
  7. Невязки рассчитываются для вторичной переменной анализа путем применения коэффициентов к значениям вторичной переменной, и эти невязки становятся новой вторичной переменной. Этот шаг часто называют фильтрацией вторичной переменной. Поскольку коэффициенты оценивались по первичной переменной, ожидается, что невязки вторичной переменной будут содержать некоторые тренды и автокорреляцию (а не случайный белый шум).
  8. Этот процесс повторяется независимо для каждого местоположения. Если используются пространственные соседи, процесс выполняется над первичной переменной фокусного местоположения и вторичной переменной каждого соседа (и самого себя).

Примечание:

Процесс фильтрации и удаления тренда уменьшит длину каждого временного ряда на количество временных шагов, используемых в качестве объясняющих переменных в модели МНК, выбранной на шаге 5. Например, если для прогнозирования следующего значения используются три временных шага, невязки не могут быть рассчитаны для первых трех временных шагов каждого временного ряда.

Список литературы

Брокуэлл П.Дж. и Дэвис Р.А. (2002). Введение во временные ряды и прогнозирование. Нью-Йорк, штат Нью-Йорк: Springer New York. https://doi.org/10.1007/978-3-319-29854-2.

Чан, К.С. и Крайер, Джей Ди (2008). Анализ временных рядов с применением в R. Нью-Йорк, штат Нью-Йорк: Springer New York. https://doi.org/10.1007/978-0-387-75959-3.

Связанные разделы