什么是 EBK 回归预测?

需要 Geostatistical Analyst 许可。

简介

EBK 回归预测是一种地统计插值方法,将经验贝叶斯克里金法 (EBK) 和已知的解释变量栅格结合使用,以影响插值的数据值。这种方法将克里金法与回归分析相结合,做出的预测比单独使用回归分析或克里金法做出的预测更准确。

了解有关经验贝叶斯克里金法的详细信息

了解有关回归分析基础知识的详细信息

回归克里金模型的基础知识

顾名思义,回归克里金模型是普通最小二乘法回归和简单克里金的混合体。这些回归和克里金模型通过将估算平均值和误差项分离来预测因变量:

Dependent variable = (mean) + (error)

普通最小二乘法 (OLS) 的工作方式为:将平均值构建为解释变量的加权总和(称为回归方程),并将误差项假定为不相关的随机噪声。简单克里金的工作方式为:使用半变异函数/协方差模型对误差项进行建模,并将平均值假定为常量值。从这个意义上讲,OLS 对平均值进行了大量分析,克里金对误差项进行了大量分析。但是,回归克里金模型可以在为平均值估测回归模型的同时,为误差项估测半变异函数/协方差模型。通过同时运行两个组件,回归克里金模型做出的预测比单独使用回归分析或克里金法做出的预测更准确。实际上,OLS 回归和简单克里金都是回归克里金的特殊情况。

在选择应用作解释变量栅格的变量时应多加注意。应对每个解释变量有所了解,从而能够影响因变量的值。建议按照为普通最小二乘法选择解释变量的类似方式选择解释变量。但是,如果解释变量相互关联,则不需要选中这些选项。在以下部分中将对此进行解释。

主成分分析

在构建回归克里金模型之前,解释变量栅格会变换到其主成分中,并且这些主成分将在回归模型中用作解释变量。主成分是解释变量的线性组合(加权总和),并且已经过计算,因此每个主成分与任一其他主成分都不具有相关性。由于他们互不相关,因此可以使用主成分解决回归模型中的多重共线性(解释变量与其他解释变量相关)问题。

每个主成分可以捕获解释变量的整个变异性的特定比例。在许多情况下,可以将所有解释变量中包含的大多数信息仅捕获到少数主成分中。因此,放弃最不实用的主成分,可使模型计算在不明显损失精度的情况下更稳定且更高效。可以使用最小累积方差百分比参数控制主成分必须消除的差异程度。

为什么解释变量必须是栅格

在此工具中,所有解释变量必须以栅格的形式提供,并通过提取落入每个输入点的解释变量栅格中的值构建回归克里金模型。您可能会好奇为什么解释变量不可以是存储因变量的点要素类中的字段。要在新位置上进行预测,必须在新位置测量解释变量,以便计算回归克里金模型中的预测。如果解释变量是输入因变量要素中的字段,您只能在输入点位置进行预测。要实际进行插值(预测新位置的值),必须在要执行插值操作的位置测量解释变量。指定每个预测位置的解释变量所采用的最自然的方式是将解释变量存储为栅格。

如果您的解释变量不是栅格格式,而是以字段形式存储在输入因变量要素中,则应使用一种可用的插值方法将每个解释变量转换为栅格。但是,需要注意的是,EBK 回归预测假设解释变量是测量值(而不是插值后预测),因此,不会在后续计算中正确消除内插解释变量值时引入的误差。在实践中,这意味着预测可能出现偏差,并且可能低估标准误差。

创建和评估本地模型

与其他回归克里金模型相比,EBK 回归预测的最大优势在于模型可进行本地计算。这允许模型在不同区域对自身进行更改,并消除本地影响。例如,解释变量与因变量之间的关系可能会在不同区域内发生变化,EBK 回归预测可以精确地模拟这些区域变化。

EBK 回归预测可在建模之前,通过将输入数据划分为给定大小的子集来消除这些本地影响。每个本地子集的点数由每个本地模型中的最大点数参数控制。为每个本地子集单独计算回归克里金模型,并将这些本地模型混合以生成最终的预测图。或者,可以通过使用子集面要素参数来定义本地子集。如果针对此参数提供面要素,则每个面要素将定义单个子集,并且单个面要素内包含的所有点将作为子集进行处理。在这种情况下,每个面必须包含至少 20 个点,并且不超过 1,000 个点。

输出诊断要素类参数可用于为每个本地模型生成模型诊断。使用此参数将创建面要素类,其中每个面包含构成该本地模型的所有点。例如,如果有五个子集,将会创建五个面,每个面都会显示每个子集的区域。面要素类还将包含显示诊断信息的各类字段,这些诊断信息是关于本地模型与子集拟合程度的相关内容。如果可提供子集面要素,则输出诊断要素类将与子集面具有相同的几何。

变换和半变异函数模型

多种变换和半变异函数模型可用于 EBK 回归预测。

可用的变换选项如下:

  • 无 - 没有可应用于因变量的变换。
  • 经验 - 非参数内核混合可应用于因变量。因变量不呈正态分布时,建议使用此选项。
  • 对数经验 - 在应用经验变换之前,可将对数变换应用于因变量。此选项将确保每个预测均大于零,因此,当因变量不能为负值时(例如降雨量测量值),建议使用此选项。

可用的半变异函数模型如下:

  • 指数 - 此半变异函数模型假设与其他选项相比,误差项的空间自相关减少速度相对比较快。这是默认设置。
  • 块金 - 此半变异函数模型假设误差项在空间上独立。使用此选项相当于使用普通最小二乘法回归,因此该选项在实际插值中用途不大。相反,此选项可用作基线,以查看相较于使用普通最小二乘法回归,使用回归克里金可得到多少改进。
  • 消减函数 - 此半变异函数模型假设与其他选项相比,误差项的空间自相关减少速度相对比较慢。
  • 克里金贝塞尔 - 此半变异函数模型允许误差项的空间自相关以较慢、较快或其间的任意速度减少。由于该模型比较灵活,因此它几乎始终会提供最准确的预测,但需要对附加参数进行估算,因此需要较长的时间进行计算。如果不确定使用哪个半变异函数,并且愿意等待较长的时间以获取最准确的结果,建议使用此选项。

参考资料

  • Chilès, J-P., and P. Delfiner (1999). Chapter 4 of Geostatistics: Modeling Spatial Uncertainty. New York: John Wiley & Sons, Inc。
  • Krivoruchko K. (2012). "Empirical Bayesian Kriging," ArcUser Fall 2012.
  • Krivoruchko K. (2012). "Modeling Contamination Using Empirical Bayesian Kriging," ArcUser Fall 2012.
  • Krivoruchko K. and Gribov A. (2014). "Pragmatic Bayesian kriging for non-stationary and moderately non-Gaussian data," Mathematics of Planet Earth. Proceedings of the 15th Annual Conference of the International Association for Mathematical Geosciences, Springer 2014, pp. 61-64.
  • Krivoruchko K. and Gribov A. (2019). "Evaluation of empirical Bayesian kriging," Spatial Statistics Volume 32. https://doi.org/10.1016/j.spasta.2019.100368.
  • Pilz, J., and G. Spöck (2007). "Why Do We Need and How Should We Implement Bayesian Kriging Methods," Stochastic Environmental Research and Risk Assessment 22 (5):621–632.

相关主题