解释“探索性回归”结果

当您运行探索性回归工具时,主要输出结果为报表。报告在工具执行期间以消息形式写入,并且还可通过项目地理处理历史进行访问。也可以创建表格,以便进一步调查检验过的模型。报表的一个目的在于帮助您判断正考虑的备选解释变量是否可生成任何正确指定的 OLS 模型。但是,在不存在通过模型(满足启动探索性回归工具时指定的所有条件的模型)的情况下,输出也将显示哪些变量始终为预测因子并帮助确定哪些诊断存在问题。回归分析基础知识文档(请参阅常见回归问题、后果和解决方案)以及回归分析补充内容中给出了处理各诊断相关问题的策略。关于如何确定是否具有正确指定的 OLS 模型的详细信息,请参阅回归分析基础知识解释 OLS 结果

报表

探索性回归报表包含五个不同的节。各节的相关说明如下。

报表节

1. 基于解释变量数量的最佳模型

探索性回归报表第 1 节

输出报表中的第一组汇总根据已检验模型中解释变量的数量进行分组。如果将解释变量的最小数量参数指定为 1,解释变量的最大数量参数指定为 5,则将包含 5 个汇总节。每节列出 R2 校正值最高的三个模型以及所有通过模型。每个汇总节还包含各列出模型的诊断值:经过修正的 Akaike 信息准则 - AICc、Jarque-Bera p 值 - JB、Koenker 的标准化 Breusch-Pagan p 值 - K(BP)、最大方差膨胀因子 - VIF 和残差空间自相关的测量(Global Moran’s I p 值)- SA。这些汇总便于您了解模型预测的精确度(校正 R2),以及模型是否通过指定的所有诊断条件。如果您接受所有默认搜索条件(可接受的最小校正 R 平方最大 p 值系数边界最大 VIF 值边界可接受的最小 Jarque Bera p 值可接受的最小空间自相关 p 值参数),则通过模型列表中包含的所有模型都将成为正确指定的 OLS 模型。

如果不包含通过模型,此输出报表的其他部分仍可提供大量与变量关系相关的有用信息,可帮助您决定如何继续。

2. 探索性回归全局汇总

探索性回归报表第 2 节

最好从探索性回归全局汇总节开始,尤其是在未找到任何通过模型的情况下,因为该汇总将显示无模型通过的原因。该节列出五项诊断检验以及通过这些检验的模型的百分比。如果不包含任何通过模型,此汇总将有助于找出存在问题的诊断。

通常空间自相关 (SA) 的 Global Moran’s I 检验将诊断出问题。当所有已检验的模型具有空间自相关回归残差时,通常表示有关键解释变量丢失。查找丢失的解释变量的最好的方法之一是在普通最小二乘法 (OLS) 工具中检查残差的输出地图。为所有其他条件选择一个执行良好的探索性回归模型(使用 R 平方最高校正值列表或从可选输出表中选择一个模型),并使用该模型运行 OLS。普通最小二乘法 (OLS)工具的输出为模型残差的地图。应检查此残差以查看其是否提供了可能丢失的内容的任何线索。尽可能多地考虑备选空间变量(例如,与主要的高速公路、医院或其他关键地理要素之间的距离)。考虑尝试空间组织变量:例如,如果所有偏低预计值均位于农村区域,则创建哑元变量以查看其是否可以改善探索性回归结果。

存在问题的常见诊断还包括正态分布的残差的 Jarque-Bera 检验。若所有模型均未通过 Jarque-Bera (JB) 检验,说明存在模型偏差问题。模型偏差的常见来源包括:

  • 非线性关系
  • 数据异常值

查看与因变量相关的备选解释变量的散点图矩阵,以了解是否存在这些问题。附加策略在回归分析基础知识中进行了概述。如果模型未通过空间自相关检验 (SA),应首先解决上述问题。偏差可能是由关键解释变量丢失造成的。

3. 变量显著性的汇总

探索性回归报表第 3 节

变量显著性的汇总节提供变量关系的相关信息,并说明这些关系的一致性的情况。各备选解释变量与其统计显著性的次数比例一同列出。列表开头几个变量 % 显著性列的值最大。也可以通过检查 % 负数% 正数列查看变量关系的稳定性。较强的预测因子始终具有显著性(% 显著),且变量关系稳定(主要为负数或主要为正数)。

报表的此部分还可帮助提高工作效率。如果您使用了大量备选解释变量(超过 50 个)并希望使用 5 个或更多预测因子预测模型时,此部分尤为重要。当您具有大量解释变量并对多种组合进行检验时,计算可能需要花费很长时间。实际上,在某些情况下,工具可能会由于内存错误而无法完成该过程。开逐渐增加要检验的模型的数量是一个不错的方法:始时,将解释变量的最小数量解释变量的最大数量都设置为 2、然后设置为 3、4,依此类推。每次运行时,移除检验模型中基本不具有统计显著性的变量。此变量显著性的汇总节有助于查找始终为强预测因子的变量。即使从列表中移除一个备选解释变量也可大大缩短探索性回归工具完成所花费的时间。

4. 多重共线性的汇总

探索性回归报表第 4 节

报表的多重共线性的汇总节可与变量显著性的汇总节结合使用,以便了解为改善性能可将哪些备选解释变量从分析中移除。多重共线性的汇总节说明了具备较高多重共线性的模型中各解释变量出现的次数,以及同时包含在这些模型中的其他解释变量。若两个(或更多)解释变量经常同时出现在多重共线性较高的模型中,则表示这些变量的作用可能相同。由于您只希望包含解释因变量某一方面的变量,可仅选择一个冗余变量以供后续分析使用。其中一个方法是使用基于变量显著性的汇总的冗余变量中的最强变量。

5. 其他诊断的汇总

探索性回归报表第 5 节

最终的诊断汇总显示最高 Jarque-Bera p 值(残差正态的汇总)和最高 Global Moran’s I p 值(残差自相关的汇总)。要通过这些诊断检验,需查找更大的 p 值。

如果模型通过 Jarque-Bera 和空间自相关 (Global Moran’s I) 检验,上述汇总不是特别有用,因为如果您的统计显著性条件为 0.1,则值大于 0.1 的所有模型也同样通过检验。但是,当无通过模型且希望了解与正态分布的残差、或与具有统计显著性的空间自相关无关的残差之间的差距时,上述汇总有用。例如,如果 Jarque-Bera 汇总的所有 p 值为 0.000000,则很明显不具有正态分布残差。同样,如果 p 值均 0.092,则表明接近具有正态分布残差(实际上,根据您选择的显著性的级别,p 值为 0.092 时有可能通过)。上述汇总旨在说明问题的严重性,以及当模型均未通过时模型相关的哪些变量至少接近通过值。

表格

探索性回归表

如果提供了输出结果表的值,则将创建包含符合最大 p 值系数边界最大 VIF 值边界条件的所有模型的表格。即使没有通过模型,输出表中也可能包含一些模型。表中各行表示符合系数和 VIF 值条件的模型。表中各列提供模型诊断和解释变量。列出的诊断为校正 R 平方 (R2)、修正的 Akaike 信息准则 (AICc)、Jarque-Bera p 值 (JB)、Koenker 的标准化 Breusch-Pagan p 值 (BP)、方差膨胀因子 (VIF) 和 Global Moran’s I p 值 (SA)。可通过 AICc 值对模型进行分类。AICc 值越低,模型运行状况越好。可通过双击 AICc 列对 ArcMap 中的 AICc 值进行分类。选择用于 OLS 分析的模型(以检查残差)时,请尽可能为更多的其他诊断选择较低 AICc 值和通过值较低的模型。例如,如果已查看输出报表且了解 Jarque-Bera 诊断存在问题,可查找使用符合除 Jarque-Bera 之外的所有条件、且 AICc 值最低的模型。

其他资源

如果您还不太熟悉如何在 ArcGIS 中使用回归分析,我们强烈建议您观看 Esri 虚拟校园免费培训课程 - 回归,然后在使用探索性回归前浏览“回归分析”教程

另请参阅: