时间序列互相关的工作原理

时间序列互相关工具通过计算每个时间步长对应值之间的皮尔逊相关系数,比较时空立方体每个位置的两个时间序列(称为主要分析变量和次要分析变量)。 此外,次要分析变量相对于主要分析变量存在时间滞后(时间上的偏移),并且针对各种时间滞后计算新的相关性。 借此可以估计主要和次要分析变量之间的延迟影响,例如营销活动和销售收入增加之间的延迟。 例如,如果当销售收入向后移动一周时,营销和销售的相关性最高,那就意味着营销的增加和销售收入的增加之间存在一周的延迟。

该工具可用作描述性和探索性方法来计算时间序列之间的原始相关性。 可以用作解释和推断方法,通过消除趋势和过滤自相关来隔离两个变量之间的统计依赖性。 还可以在计算中包含相邻要素,合并相邻位置的时间序列之间的相似性并捕获空间效应和交互。

可能的应用

以下是该工具的示例应用:

  • 在大都市区,将每小时的气温与用电量进行比较,为每天最热时段的高峰用电需求做好准备。
  • 估计降水量增加和水库水量增加之间的延迟。 暴雨高峰过后多久水库水位上升最快? 不同土壤条件的地点延迟时间是否不同?
  • 比较不同营销活动的有效性,确定哪个活动的支出与销售收入最正相关。 此外,还可以估计营销支出和客户购买之间的延迟。 有些营销活动可能需要更长时间才能产生销售结果,但最终能够最有效地生成长期收入。

互相关

互相关值衡量两个时间序列之间线性关系的强度:当一个时间序列增加时,另一个时间序列是否会增加、减少或不变? 互相关值接近 1 意味着两个时间序列以相同的方向和相同的比例移动。 例如,航空公司乘客数量和航空公司价格呈强正相关:当出行的人越多,航空公司价格就越高。 同样,负互相关意味着两个时间序列朝相反方向移动,例如空闲停车位的数量和街道交通水平(当停车位较少时,交通量会增加)。 如果两个时间序列不相关并且不倾向于沿相似或不同方向变化,则互相关性将接近于零。

时间滞后

由于两个时间序列之间通常存在延迟效应(例如,生态系统中捕食者数量的增加与猎物数量变化之间的延迟),因此互相关值始终根据时间滞后进行计算。 时间滞后是指次要变量相对于首要变量的偏移,针对两个时间序列之间的新对应值,计算出新的互相关值。

在下图中,顶部图表显示了主要和次要分析变量。 中间的图显示了次要变量在时间上向前移动了两个时间步长(时间滞后 2),底部的图显示了次要变量在时间上向后移动了两个时间步长(时间滞后 -2)。 由于次要变量会在主要变量增加或减少之后随之增加或减少,因此将次要变量在时间上向后移动(负时间滞后)会增加变量之间的互相关性。 还要注意,在进行滞后操作后,主要变量时间序列的一些时间步长在次要变量中将不再具有配对值。

次要变量相对于主要变量发生偏移。

如果相关性最强的时间滞后为正,则意味着次要分析变量值的变化发生在主要分析变量的变化之前。 同理而言,如果相关性最强的时间滞后为负,则意味着主要分析变量的变化发生在次要分析变量的变化之前。

该工具将计算零与最大时间滞后参数值之间的所有时间滞后的互相关。 此外,次要变量滞后方向参数可用于指定偏移的方向(换句话说,指定时间滞后的符号)。 可以在两个方向上移动次要分析变量:时间向后(负时间滞后)或时间向前(正时间滞后)。 例如,使用最大时间滞后 10 并在两个方向上移动,计算 -10 到 10 之间所有时间滞后的互相关。 同样,使用最大时间滞后 5 并仅在时间上向后移动,计算 -5 到 0 之间所有时间滞后的互相关。

注:

如果没有为最大时间滞后参数提供值,则每个时间序列中 T 个时间步长的最大时间滞后将为 10*log10(T/2)(向下舍入)。 该值不能大于 (T-5)。 提供零值将仅计算两个时间序列的原始互相关,而没有时间滞后变化。

包括空间相邻要素

可以使用在计算中包括空间相邻要素参数来定义每个位置周围的相邻要素,改进互相关的估算值。 如果包括相邻要素在内,对于给定的时间滞后,每个位置的交叉相关性是指焦点位置的主要分析变量与每个空间相邻要素(包括自身)的时间滞后的次要分析变量之间的互相关性的(可能加权的)平均值。

例如,在下图中,焦点位置显示为红色,周围有八个相邻要素。 橙色时间序列是焦点位置的主要分析变量,紫色时间序列是焦点位置和每个相邻要素的次要分析变量。 在这种情况下,焦点位置处的互相关将是九个互相关的平均值:焦点要素与其自身的互相关、焦点位置与第一相邻要素的互相关、焦点位置与第二相邻要素的互相关,依此类推。 在每次比较中,将焦点位置的主要分析变量与相邻要素(或其自身)的次要变量进行比较。 对相关性取平均值,该值可以更好地表征该区域而不是单个位置的互相关性。 对所有时间滞后和所有位置重复取平均值。

使用相邻要素进行互相关分析

默认情况下,每个相关性在平均值中均等加权,但如果使用距离带或 k 最近邻邻域,则可以使用空间邻域加权方法参数为距离焦点位置较近的邻域提供更大的权重。 可以使用双方核或高斯核来定义权重。

注:

对于距离带邻域,每个核的带宽等于距离带。 请参阅核密度的工作原理以了解如何计算默认距离范围。 对于 k 个最近邻邻域,带宽等于到第 (k+1) 个相邻要素的距离。 这确保了所有 k 个相邻要素都比带宽更近并且具有非零权重。 对于多边形位置,质心到质心的距离用于确定相邻要素和权重。

过滤并移除趋势

对于给定的时间滞后,两个时间序列之间的互相关性可衡量两个时间序列是否倾向于一起增加和减少。 可以将其视为描述性分析,描述并估计值对应的强度。 然而,原始互相关由多种因素组成,包括趋势、季节性、自相关和变量的统计依赖性。 两个时间序列的原始值可能仅仅由于共同的趋势和自相关性而高度相关;例如,冰淇淋和防晒霜的销量高度相关,但如果去除季节性和经济趋势,相关性就会变得很小。 可以通过选中过滤并移除趋势参数来删除趋势、季节性和自相关性(通常称为预白化和过滤)。

特别是当目标是估计变量之间的最佳时间滞后时,过滤并移除趋势操作非常重要。 例如,在流行病学数据中,疾病计数的增加和住院人数的增加之间存在时间滞后。 然而,由于强烈的趋势和自相关性,使用计数的原始值经常显示疾病和住院之间没有时间滞后(换句话说,时间滞后零具有最强的相关性)。 相反,当去除趋势并过滤自相关时,疾病和住院之间的真实时间间隔(例如 10 天)通常会达到最强的相关性。

由于趋势、季节性和自相关性都会夸大统计检验的 1 类错误率,因此仅当从两个时间序列中过滤并移除趋势时,才会计算互相关的 p 值和 95% 置信区间。 此外,只能为成对比较的两个时间序列计算 p 值和置信区间。 换句话说,如果在计算中包括空间相邻要素,则不会针对互相关的加权平均值计算 p 值和置信区间。 但是,可以使用输出成对相关表参数创建一个表,其中包含所有时间滞后下每个位置与各个相邻要素之间的 p 值和置信区间。

注:

p 值和置信区间的计算依据是,假设互相关呈正态分布且标准差等于时间步数的平方根。 对于至少具有 30 个时间步长的时间序列来说,这是最准确的渐近结果。 对于较短的时间序列将返回警告。

统计显着性检验是对每个位置的每个时间滞后独立进行的,并且没有对多重假设检验进行校正。 在解释任何特定 p 值或置信区间的显着性时要小心。 所有 p 值均使用两侧假设检验计算。

有关如何执行过滤和趋势删除的信息,请参阅下方的拟合过滤和趋势删除模型部分。

工具输出

该工具的主要输出是包含互相关结果字段的要素类。 在地图中,要素类作为包含六个图层的图层组添加,每个图层可视化输出要素的不同字段。 每个图层都包含一个快速切换选项,不必单独启用和禁用每个图层。

其中三个图层显示最强相关性的地图:最强正相关性、最强负相关性和最强绝对相关性。 每个位置都按最大正相关、最大负相关或绝对值最大的相关进行着色。

最强绝对相关性图层

最后三个图层显示与三个最强相关性图层相关联的时间滞后。 例如,最强绝对相关性滞后图层显示导致最强绝对相关性的时间滞后。

最强绝对相关性图层的时间滞后

将这六个图层结合使用,可以调查每个位置的主要分析变量与次要分析变量的相关性强度,并确定哪些时间滞后导致了这些相关性。 您可能会注意到这些结果中的空间模式;例如,某些区域可能比其他区域具有更小的时间滞后或更强的相关性。 您还可能会发现,同一位置可能同时具有强正互相关和强负互相关,具体取决于时间滞后。 例如,对于一个周期性的捕食者和猎物关系的两个时间序列,通过将两个时间序列的周期向前或向后调整,使它们之间呈现正相关或负相关。

除了图层组中使用的六个字段之外,输出要素还将具有以下字段:

  • 对象和位置 ID 字段。
  • 每个时间滞后的互相关字段。 为每个时间滞后创建一个单独的字段。
  • 该位置的相邻要素数量。 仅当在计算中包含空间相邻要素时才会创建此字段。

如果过滤并移除趋势并且在计算中不包括空间相邻要素,将为每个最强相关性(正、负和绝对)创建以下字段:

  • 测试互相关的统计显着性的 p 值字段。
  • 互相关的 95% 置信区间的上限和下限字段。
  • 二进制字段(0 或 1),指示互相关在 95% 置信水平下是否具有统计显着性(字段值 1)或不显着(字段值 0)。

注:

如果某个位置处的所有互相关值为正,则最强负相关字段和最强负相关字段的时间滞后将包含该位置的空值。 类似地,某个位置处的所有负相关都会在最强的正相关字段中产生空值。

输入时空立方体将使用分析结果进行更新,可以通过二维可视化时空立方体工具和时间序列互相关结果显示主题选项,来重新创建输出要素类和图层组。 具有互相关结果的分析变量将是主要和次要分析变量的名称,中间有下划线。 例如,如果输入变量命名为 MARKETINGSALES,则具有结果的分析变量将命名为 MARKETING_SALES

弹出图表

选中启用时间序列弹出窗口参数,在输出要素上创建交互式弹出图表。 如果创建,可以使用浏览工具单击某个要素并查看每个时间滞后互相关性的条形图,以及显示主要和次要分析变量的折线图。

时间滞后相关性弹出图表

可以将鼠标悬停在条形图中的任何条形上,下面的时间序列将按关联的时间滞后进行移动。 从而显示两个时间序列在应用不同时间滞后时如何对齐。

动画时间序列条形图

如果过滤并移除趋势并且不包括空间相邻要素,弹出图表将显示每个时间滞后互相关周围的 95% 置信区间(浅蓝色阴影)。 还可以使用显示去趋势和过滤的时间序列复选框来显示原始时间序列值或显示过滤和趋势移除后的时间序列。

带有置信区间和过滤时间序列的时间滞后相关性弹出图表

注:

如果计算中包含空间相邻要素,则仅显示时间滞后条形图。 这是为了防止在每个弹出图表上绘制太多的时间序列。

将输出要素另存为 shapefile (.shp) 时,将不会创建弹出图表。

输出相关性表

或者,可以使用输出滞后相关性表参数将互相关结果保存为表。 在表中,每行包含单个位置和单个时间滞后的互相关。 表中的行数将等于位置数乘以时间滞后数。 此外,如果在计算中过滤并移除趋势并且不包括空间相邻要素,则该表将包含 p 值字段和 95% 置信区间的上限和下限的字段。 将信息按行保存为表格(而不是作为输出要素的字段)通常更方便导出和分析互相关结果。 该表还可以连接回位置以进行进一步分析。

如果在计算中包括空间相邻要素,还可以使用输出配对相关性表参数来创建一个表,其中包含每个焦点位置与每个时间滞后的各个相邻要素之间的比较。 例如,如果有 10 个位置、5 个时间滞后、每个位置有 7 个相邻要素,则输出表中将有 10*5*(7+1)= 400 行(加 1 为了包括与自身焦点位置的比较)。 对于每个组合,将关联的互相关性存储为字段。 如果进行过滤并移除趋势操作,该表还将包含 p 值字段以及 95% 置信区间的上限和下限字段。

地理处理消息

此工具将提供许多消息,其中包含有关工具结果的信息。 消息分为两个部分。

输入时空立方体详细信息部分将显示输入时空立方体的属性以及有关时间步长间隔、时间步长数、位置数和时空图格数的信息。 在第一部分中显示的属性取决于创建立方体的方式,因此该信息因立方体的不同而有所不同。

按时间滞后的相关性摘要部分,显示了每个时间滞后所有位置的互相关性的摘要统计表。 对于每个时间滞后,该表显示所有位置的最小值、最大值、平均值、标准差和互相关计数。 如果过滤并移除趋势并且不包括空间相邻要素,则该表还将包含每个时间滞后具有统计显着互相关性的位置计数。 通过这些汇总统计数据,能够快速识别许多位置之间密切相关的各个时间滞后,有可能会揭示出通过探索单个位置的结果无法察觉到的模式。

图表

显示最强相关性(正、负和绝对)的时间滞后的三个图层各自包含一个条形图,其中显示每个时间滞后具有最强相关性的位置计数。 例如,在下图中,大多数位置的绝对相关性最强,时滞为 0,这意味着大多数位置的两个时间序列之间没有估计的延迟。

按时间滞后绘制最强相关性的位置的条形图

互相关公式

对于给定的时间滞后,两个时间序列之间的互相关公式如下:

互相关公式
  • k 是时间滞后。
  • t 是时间步长。
  • T 是每个时间序列中的时间步数。
  • X(t) 是在时间步长 t 上主要分析变量的值。
  • Y(t) 是在时间步长 t 上次要分析变量的值。
  • 是主要分析变量的平均值(使用所有时间步长)。
  • Ȳ 是次要分析变量的平均值(使用所有时间步长)。

分子和分母除以总和中的项数,纠正较大时间滞后的偏差。

拟合过滤和趋势移除模型

如果从时间序列中过滤并移除,则在时间滞后和计算互相关之前,将对主要和次要分析变量执行以下预处理步骤:

  1. 创建普通最小二乘 (OLS) 回归模型,根据先前值预测主要分析变量的下一个值。 在模型中,每个时间步长都用作解释变量,预测下一个时间步长的值。
  2. 创建第二个 OLS 模型,根据前两个值预测主要分析变量的下一个值。 例如,前两个时间步长用于预测第三个;第二个和第三个时间步用于预测第四个等等。
  3. 分别使用三个、四个和五个先前值创建另外三个 OLS 模型,以预测主要分析变量的下一个值。
  4. 快速傅立叶变换 (FFT) 用于估计主要变量的季节性,第六个 OLS 模型使用此时间步数来预测下一个值。
  5. 为六个 OLS 模型中的每一个计算 AICc 值,并选择具有最低值的模型作为过滤和趋势移除模型。
  6. 使用所选模型的系数,计算主要分析变量的残差,这些残差成为新的主要变量。 此步骤通常称为对主要变量进行预白化,因为残差预计会显示随机白噪声。
  7. 通过将系数应用于次要变量的值来计算次要分析变量的残差,这些残差成为新的次要变量。 此步骤通常称为过滤次要变量。 由于系数是根据主要变量估计的,因此次要变量的残差仍预计包含一些趋势和自相关(而不是随机白噪声)。
  8. 每个位置都会独立重复此过程。 如果使用空间相邻要素,则对焦点位置的主要变量和每个相邻要素(及其自身)的次要变量执行该过程。

注:

通过过滤和趋势移除过程,将减少每个时间序列的长度,减少的长度为在第 5 步中选择的 OLS 模型中作为解释变量的时间步长数量。 例如,如果使用三个时间步长来预测下一个值,则无法计算每个时间序列的前三个时间步长的残差。

参考资料

Brockwell, P. J., and Davis, R. A. (2002). Introduction to Time Series and Forecasting. New York, NY: Springer New York. https://doi.org/10.1007/978-3-319-29854-2.

Chan, K.S. and Cryer, J.D. (2008). Time Series Analysis With Applications in R. New York, NY: Springer New York. https://doi.org/10.1007/978-0-387-75959-3.

相关主题