时间序列平滑工作原理

时间序列平滑工具可使用居中、前移和后移平均值以及基于局部线性回归的自适应方法对一个或多个时间序列的数字变量进行平滑处理。

时间序列平滑技术广泛用于经济、气象、生态以及其他处理随时间收集的数据的领域。 对时态数据进行平滑处理通常会在揭示长期趋势或周期的同时,对噪声和短期波动进行平滑处理。

可能的应用

时间序列平滑适用于一切已知包含噪声或短期波动的时间序列数据。 例如,您可以在以下应用程序中使用此工具:

  • 每日流感病例通常可在流行病学研究和规划中使用。 但是,在周末发现的流感病例通常得等到星期一才报告,这使得星期一的病例计数要多于实际计数,而周末的病例计数则要少于实际计数。 为了解决这个问题,您可以使用时间窗为 6 天的后移平均值。 使用 6 天将平均当前日期与一星期中前 6 天的值。
  • 您拥有每小时测量一次的长期温度数据。 当您按时间序列绘制数据时,该数据将具有过多噪声且过于庞大,导致您无法看到清晰的模式和趋势。 您可以使用自适应带宽局部线性回归来捕获数据的总体趋势,以实现更清晰的可视化和分析效果。 自适应带宽方法将在时间序列的某些部分中使用比其他部分更宽的时间窗,具体取决于对每个部分进行有效平滑处理所需的数据量。

平滑方法

该工具可使用四种平滑方法。

平滑方法

可以使用四种方法对时间序列进行平滑处理。

后移平均值方法(也称为简单移动平均值)是一种被广泛使用的简单平滑方法,该方法可通过获取时间窗内的值和所有先前值的平均值来对每个值进行平滑处理。 这种方法的优点是可以立即对流数据执行此操作;当记录新值时,该方法可立即使用时间序列中的先前数据对其进行平滑处理。 但是,此方法的缺点是需要平滑处理的值不在时间窗的中心,因此所有信息仅来自值的一侧。 如果数据的趋势在需要平滑处理的值的每一侧都不相同,则可能产生意外的结果。

前移平均值方法与后移平均值类似,但平滑值将是该值与时间窗内所有后续值的平均值。 该方法的缺点与后者也很类似,即用于平滑处理的所有信息都来自值的一侧。

居中移动平均值方法可通过在时间窗内求平均值来对每个值进行平滑处理;在该时间窗内,要进行平滑处理的值将位于时间窗的中心。 对于此方法,时间窗将被分割,以便在对值进行平滑处理的时间之前使用一半的时间窗,并在对值进行平滑处理的时间之后使用一半的时间窗。 该方法的优点是可在对值进行平滑处理的时间之前和之后使用信息,因此该方法通常更稳定且偏差更小。

自适应带宽局部线性回归方法(也称为 Friedman 的超级平滑器)可使用居中的时间窗对值进行平滑处理,并将线性回归(直线)模型拟合到多个时间窗中的数据。 时间窗的长度可以针对每个值而变化,因此时间序列中的某些部分将使用更宽的时间窗以在模型中包含更多信息。 该方法的优点在于不需要提供时间窗,且时间窗可由工具进行估计。 该方法也是最适合对具有复杂趋势的数据进行建模的方法。 如果工具中提供了时间窗值,则可使用单个时间窗来对所有记录进行平滑处理,且该方法等同于局部线性回归。 有关该方法的完整描述,请参阅自适应带宽局部线性回归部分末尾的论文。

自适应带宽局部线性回归

在开始和结束位置应用较短的时间窗参数可用于控制时间序列在开始和结束位置的时间窗。 如果未应用较短的时间窗,则时间窗在时间序列开始前或结束后延长的任何记录的平滑值都将为空。 如果缩短了时间窗,则时间窗将在开始和结束位置截断,并将使用该时间窗中的值进行平滑处理。 例如,如果您拥有每日数据并将后移平均值与两天时间窗结合使用,则如果不缩短时间窗,则前两天的平滑值将为空(请注意,第二天仅为时间序列开始一天之后)。 在第三天(时间序列开始两天后),两天时间窗将不会在开始前延长,因此第三天的平滑值将是前三天的平均值。

工具输出

该工具的主要输出是要素类或表,其中包含原始值、平滑值以及用于对位置进行平滑处理的相邻要素数目。 平滑值字段的别名可显示平滑方法和分析的时间窗(如果使用自适应带宽,则不显示时间窗)。 如果要追加到输入数据,则这些字段将追加到输入要素或表。 对于自适应带宽局部线性回归,相邻要素的数目可能不是整数。 此内容将在下方的自适应带宽局部线性回归部分中进一步讨论。

时间序列图表

您可以使用启用时间序列弹出窗口参数为每个输出记录创建弹出图表。 对于要素输出,单击地图上的要素以显示该要素的时间序列的原始值和平滑值。 要访问表输出的弹出窗口,请右键单击属性表中的记录。

时间序列弹出窗口图表

输出要素或表还包括折线图,其中显示每个时间序列的平滑值。

时间序列折线图

注:

如果输入数据具有大量时间序列,则您在查看图表时可能会遇到性能问题。

地理处理消息

地理处理消息包括平滑摘要部分,其中包含每个时间序列平滑结果的相关信息。 信息包括 R2 值和时间邻域数的汇总统计数据(最小值、最大值、平均值、中位数和标准差)。

自适应带宽局部线性回归

自适应带宽局部线性回归将使用时间邻域值在每个时间步长构建局部线性模型,其中每个时间步长的邻域数是变化的。 在每个时间步长中,将使用不同的邻域数执行多次线性回归,并对模型进行平滑和混合以提供对数据的最佳拟合,同时仍然有效地进行平滑。

下图显示了一个具有 200 个时间步长的时间序列。 灰色点是原始噪声时间序列值,红线和蓝线分别代表具有固定邻域数的平滑结果。 红线使用 20 个邻域,不能有效平滑数据中的短期波动,这在图形右侧尤其明显,其中红线呈锯齿状且不平滑。 蓝线使用 80 个邻域且过于平滑,无法得到时间序列前半部分的数据峰值和谷值。 绿线代表红线和蓝线的最佳混合,在整个时间序列中保持适当的平滑程度。 绿线在红线呈锯齿状的时间序列部分使用更多的邻域,而在蓝线过于平滑的部分使用更少的邻域。

三个固定带宽的平滑结果

在时间序列的某些部分,绿线与红线更加接近,在其他部分中,绿线与蓝线更加接近,具体取决于在该时间步长中哪条线与时间序列拟合更好。 下图显示了在时间步长 134 附近放大的时间序列。 红线比蓝线更接近点云的中间,所以相比蓝线,绿线更接近于红线。

时间步长 134 的平滑结果

时间步长中使用的邻域数通过红线和蓝线邻域数之间的线性插值来定义,并通过提供较好拟合的线进行加权。 下图显示,约在时间步长 150 之前,红线对于大多数时间步长拟合最好,而在时间步长 150 之后,蓝线对于大多数时间步长拟合最好。 时间步长 134 的最佳邻域数为 26.4,比 80 个邻域更接近 20 个邻域。

最佳邻域数

有关自适应带宽局部线性回归的完整描述,请参阅以下参考: