回归分析可能是最常用的社会科学统计。回归用于评估两个或更多要素属性之间的关系。识别和衡量关系可使您更好地了解某地正在发生的事情、预测某地可能发生某事或者调查事情发生在事发地的原因。
普通最小二乘法 (OLS) 是所有回归方法中最著名的方法。而且,它也是所有空间回归分析的起点。它可为您尝试了解或预测的变量或过程提供全局模型;还可创建表示该过程的单回归方程。
有多种资源可帮助您了解有关 OLS 回归和地理加权回归的详细信息。请从回归分析基础知识开始。然后,通读回归分析教程。本主题将向您介绍分析结果,帮助您理解 OLS 的输出和诊断。
输入
要运行 OLS 工具,需提供一个带有唯一 ID 字段的输入要素类、建模、解释或预测时使用的因变量以及一组解释变量。您还需提供输出要素类的路径,同时也可选择提供输出报表文件、系数输出表和诊断输出表的路径。
解释 OLS 结果
从 OLS 工具生成的输出包括使用 OLS 残差、统计结果和消息窗口中的诊断进行了符号化的输出要素类以及多个可选输出(如 PDF 报表文件、解释变量系数表和回归诊断表)。下文将引用一系列运行 OLS 回归和解释 OLS 结果时的检查对上述的每项输出进行说明。
在 OLS 运行后,请检查 OLS 汇总报表,当您提供输出报表文件参数的路径时,该报表将在工具执行期间以消息形式提供到报表文件中。
按照下面所述的带编号的步骤检查汇总报表。
评估统计报表
- 评估模型性能。多重可决系数 (Multiple R-Squared) 和校正可决系数 (Adjusted R-Squared) 的值都可用于测量模型的性能。值的可能范围从 0.0 到 1.0。由于“校正可决系数”的值与数据本身相关因而更能准确地衡量模型的性能,从而反映模型的复杂性(变量数),因此“校正可决系数”值通常要比“多重可决系数”值略小。向模型中添加一个解释变量很大程度上会增大“多重可决系数”的值,但会减小“校正可决系数”的值。假设正在创建一个入室盗窃数据(即每个人口普查区块的入室盗窃数量为因变量,y)的回归模型。如果“校正可决系数”的值为 0.39,则表示您的模型(解释变量使用线性回归建模)可解释因变量中大约 39% 的变化。换句话说,该模型表达了大约 39% 的入室盗窃案件。
- 评估模型中的每一个解释变量:系数、概率或稳健概率和方差膨胀因子 (VIF)。每个解释变量的系数既反映它与因变量之间的关系强度,也反映它与因变量之间的关系类型。当与系数关联的符号为负时,该系数与因变量为负向关系。例如,与城镇中心的距离越大,入室盗窃的数量就越少。当与系数关联的符号为正时,该系数与因变量为正向关系。例如,人口越多,入室盗窃的数量就越多。系数的单位与其关联的解释变量的单位相同。例如,与某一表示人口数的解释变量关联的系数为 0.005,则该系数可解释为 0.005 个人。系数反映了所有其他解释变量保持不变时,关联的解释变量的每单位变化导致其因变量发生的预期变化量。例如,保持其他解释变量不变的情况下,人口普查区块每增加1人,入室盗窃系数就会增加 0.005。T 检验用来评估某个解释变量是否具有统计显著性。零假设是指所有的意图和目的的系数值为零,因此零假设对于模型没有帮助。当概率或稳健概率(p 值)很小时,系数实际为零的几率也会很小。如果 Koenker 检验(见下图)具有统计显著性,则应使用稳健概率来评估解释变量的统计显著性。对于具有统计显著性的概率,其旁边会带有一个星号 (*)。如果理论或常识已表明某解释变量(与统计学上显著的系数相关联)与因变量之间具有有效关系,关系模型主要为线性模型,而且该变量对模型中所有其他解释变量而言不是冗余变量,则该变量对回归模型而言是很重要的。VIF 用于测量解释变量中的冗余。通常,与大于 7.5 的 VIF 值关联的解释变量应逐一从回归模型中移除。例如,如果某回归模型中同时含有人口变量(人数)和就业变量(就业人数),那么,您会发现,这些变量很可能与较大的 VIF 值关联,从而表明这些变量讲述的是同一个故事,因此,您应将人口变量或就业变量从该模型中移除。
- 评估模型是否具有显著性。联合 F 统计量和联合卡方统计量均用于检验整个模型的统计显著性。只有在 Koenker (BP) 统计量(见下图)不具有统计显著性时,“联合 F 统计量”才可信。如果 Koenker (BP) 统计量具有显著性,应参考“联合卡方统计量”来确定整个模型的显著性。这两种检验的零假设均为模型中的解释变量不起作用。对于大小为 95% 的置信度,p 值(概率)小于 0.05 表示模型具有统计显著性。
- 评估稳态。Koenker (BP) 统计量(Koenker 的标准化 Breusch-Pagan 统计量)是一种检验方法,用于确定模型的解释变量是否在地理空间和数据空间中都与因变量具有一致的关系。如果模型在地理空间中一致,由解释变量表示的空间进程在研究区(进程稳态)各位置处的行为也将一致。如果模型在数据空间中一致,则预测值与每个解释变量之间关系的变化不会随解释变量值的变化而变化(模型不存在异方差性)。假设要对犯罪情况进行预测,其中一个解释变量为收入。如果对收入的中位数较小的位置的预测比对收入的中位数较大的位置的预测更准确,则说明模型的异方差性就会出现问题。该检验的零假设为所检验的模型是稳态的。对于大小为 95% 的置信度,p 值(概率)小于 0.05 表示模型具有统计学上的显著异方差性和/或非稳态。如果该检验的结果具有统计显著性,则需参考稳健系数标准差和概率来评估每个解释变量的效果。具有统计显著性非稳态的回归模型通常很适合进行地理加权回归 (GWR) 分析。
- 评估模型偏差。Jarque-Bera 统计量用于指示残差(已观测或已知的因变量值减去预测或估计值)是否呈正态分布。该检验的零假设为残差呈正态分布,因此,如果为这些残差建立直方图,这些残差的分布将与典型钟形曲线或高斯分布相似。当该检验的 p 值(概率)较小(例如,对于大小为 95% 的置信度,其值小于 0.05)时,回归不会呈正态分布,并指示您的模型有偏差。如果残差还存在统计学上显著的空间自相关(请参阅下文),则偏差可能是模型指定错误(该模型的某个关键变量缺失)的结果。从错误指定的 OLS 模型得到的结果是不可信的。如果尝试构建非线性关系模型、数据的某些异常值存在影响或者存在很强的异方差性(请参阅上文),也可进行统计学上显著的 Jarque-Bera 检验。
- 评估残差空间自相关。始终对回归残差运行空间自相关(Moran's I) 工具可确保回归残差在空间上随机分布。高残差和低残差(模型偏高预计值和偏低预计值)的统计显著性聚集表明模型(指定错误)中的某个关键变量缺失了。当模型错误设定时,OLS 结果不可信。
- 查看回归分析基础知识中的回归模型如何失效部分,以确认您的 OLS 回归模型已进行了正确的指定。如果查找正确指定的回归模型很困难,则可借助探索性回归工具。OLS 汇总报表结尾部分的解释注意事项,可帮助您记住每个统计检验的作用,而且当您的模型未通过一个或多个诊断检验时,它将引导您找到一个解释。
如果为可选输出报表文件提供了路径,则会创建一个 PDF,其中包含摘要报表中的所有信息以及附加图表,可帮助您对模型进行评估。此报表的第一页提供与每个解释变量相关的信息。与汇总报表的第一部分(查看上述编号 2)相似,您可使用该页中的信息来确定每个解释变量的系数是否具有统计显著性并带有预期符号 (+/-)。如果 Koenker 检验具有统计显著性(请参阅上述编号 4),则仅可采用稳健概率来确定变量是否对您的模型有帮助。对于具有统计显著性的系数,其概率和稳健概率列的 p 值旁将带有星号。您也可以从此报表该页上的信息了解是否存在任何冗余的解释变量(表示有问题的多重共线性)。除非理论另有说明,否则应逐个删除具有较高方差膨胀因子 (VIF) 值的解释变量,直到剩下的所有解释变量的 VIF 值均小于 7.5。
“输出报表文件”中的下一部分列出 OLS 诊断的检查结果。该页还包括说明每项检查的重要性原因的“解释注意事项”。如果您的模型未通过其中一项诊断,可参考概述每个问题严重性并提供可能补救方法的常见回归问题表。此报表其他页上的图表还可以帮助您识别和修复模型存在的问题。
“输出报表文件”的第 3 部分包含显示模型中每个变量的分布直方图以及显示因变量与每个解释变量之间关系的散点图。如果模型存在偏差(通过具有统计显著性的 Jarque-Bera p 值指示),可查找直方图之间的偏分布,并尝试变换这些变量,以查看这是否可以消除偏差并改善模型性能。散点图将显示哪些变量是最好的预测因子。这些散点图还可用于检查变量之间的非线性关系。在某些情况下,变换一个或多个变量将更正非线性关系并消除模型偏差。数据中的异常值也可导致模型偏差。可查看直方图和散点图了解这些数据值和数据关系。尝试运行具有和不具有异常值的模型,了解它对结果的影响程度。您可能会发现异常值为无效数据(错误输入或记录的数据)并可从您的数据集中删除相关要素。如果异常值反映的是有效数据并在很大程度上影响您的分析结果,则您可以决定报告具有异常值的结果以及不具有异常值的结果。
当您具有正确指定的模型时,偏高预计值和偏低预计值将反映随机噪声。如果您要创建随机噪声的直方图,此图将呈正态分布(如钟形曲线)。“输出报表文件”的第 4 部分显示模型偏高和偏低预计值的直方图。直方图的条块显示实际分布,如果您的残差实际上呈正态分布,则叠加在直方图顶部的蓝色线将显示直方图呈现的形状。完美是不太可能的,因此您应该检查 Jarque-Bera 检验以确定正态分布的偏差是否具有统计显著性。
Koenker 诊断会告诉您正在建模的关系在整个研究区域内是否发生变化(不稳定性)或者是否随您正尝试预测的变量值而变化(异方差性)。地理加权回归将解决不稳定性问题;“输出报表文件”的第 5 部分的图表将向您显示异方差性是否存在问题。此散点图(如下所示)描述了模型残差与预测值之间的关系。假设您正在对犯罪率进行建模。如果图表呈圆锥形,其尖端位于左侧且最远会离散到图表右侧,则表示您的模型可以很好地预测犯罪率较低的地点,但不能很好地预测犯罪率较高的地点。
报表的最后一页记录创建报表时使用的所有参数设置。
检查输出要素类中找到的模型残差。正确指定的回归模型的偏高预计值和偏低预计值将会随机分布。偏高预计值和偏低预计值的聚类表明至少丢失了一个关键解释变量。检查模型残差的分布格局可了解是否可从这些分布格局中确定可能丢失的那些变量。有时,对回归残差执行热点分析可帮助您确定分布更广的格局。您尚不知晓的回归分析内容中概括介绍了处理指定错误的模型的附加策略。
查看系数和诊断表。创建系数和诊断表为可选操作。当您正寻找有效模型时,可能会选择不创建这些表格。模型构建过程会循环进行,在确定一些较好的模型之前,您可能会尝试构建众多不同的模型(不同的解释变量)。您可以使用 OLS 统计报告中的修正的 Akaike 信息准则 (AICc) 来比较不同的模型。AICc 值越小,模型就越好(换句话说,考虑到模型的复杂程度,AICc 值越小的模型会更符合已观测的数据)。
为最终 OLS 模型创建系数和诊断表,可以获得该 OLS 报表的重要元素。系数表中包含模型所用的一系列解释变量以及这些变量的系数、标准化系数、标准误差和概率。通过系数可以估算关联的解释变量每变化一单位时因变量的变化量。系数单位与解释变量相匹配。例如,如果是总人口数的解释变量,则该变量的系数单位是人口个数;如果另一解释变量是离火车站的距离(米),则系数单位是米。如果将系数转换为标准差,则将它们称为标准化系数。可以使用标准化系数比较不同解释变量对因变量的影响。移除 +/- 号(取绝对值)后标准化系数最大的解释变量对因变量的影响最大。但是,只能根据标准误差来解释系数。标准误差表示可以对数据重新采样并无数次重新校准模型时得到相同系数的可能性。如果系数的标准误差较大,则重采样过程会产生多个可能系数值;如果标准误差较小,则表示系数相当一致。
诊断表中包含每个诊断检验的结果以及如何解释这些结果的准则。
其他资源
您可以通过许多资源来了解空间统计资源页面上的 OLS 回归的相关详细信息。请从回归分析基础知识开始或请通读回归分析教程。将回归分析应用于您自己的数据,请参考常见问题表以及您尚不知晓的回归分析内容主题以了解有关其他策略的信息。如果查找正确指定的模型很困难,则可借助探索性回归工具。
以下同样是有用的资源:
- Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.
- Wooldridge, J. M. Introductory Econometrics: A Modern Approach. South-Western, Mason, Ohio, 2003.
- Hamilton, Lawrence C. Regression with Graphics. Brooks/Cole,1992。