当您运行探索性回归工具时,主要输出结果为报表。 该报告在工具运行时以地理处理消息的形式写入,也可以从工程地理处理历史记录中访问。 您还可以输出一个表格来帮助您进一步调查已测试的模型。 该报表的目的之一是帮助您确定候选解释变量是否产生任何正确指定的 OLS 模型。 如果没有模型满足您在启动探索性回归工具时指定的所有标准,输出仍会显示哪些变量是一致的预测变量,并帮助您确定哪些诊断给您带来了问题。 有关解决与每个诊断相关的问题的策略,请查看您所不了解的回归分析内容和回归分析基础知识(参阅常见的回归问题、后果和解决方案)。 关于如何确定是否具有正确指定的 OLS 模型的详细信息,请参阅回归分析基础知识。
报告详情
探索性回归工具报告有五个部分。 每个部分如下所述。
基于解释变量数量的最佳模型
输出报告中的第一组摘要按测试模型中解释变量的数量进行分组。 如果将解释变量的最小数量参数指定为 1,解释变量的最大数量参数指定为 5,则将包含 5 个汇总节。 每节列出 R2 校正值最高的三个模型以及所有通过模型。 每个汇总节还包含各列出模型的诊断值:经过修正的 Akaike 信息准则 - AICc、Jarque-Bera p 值 - JB、Koenker 的标准化 Breusch-Pagan p 值 - K(BP)、最大方差膨胀因子 - VIF 和残差空间自相关的测量(Global Moran’s I p 值)- SA。 这些汇总便于您了解模型预测的精确度(校正 R2),以及模型是否通过指定的所有诊断条件。 如果您接受所有默认搜索条件(可接受的最小校正 R 平方、最大 p 值系数边界、最大 VIF 值边界、可接受的最小 Jarque Bera p 值和可接受的最小空间自相关 p 值参数),则通过模型列表中包含的所有模型都将成为正确指定的 OLS 模型。
如果没有任何通过模型,输出报告的其余部分仍会提供有关变量关系的有用信息,并可以帮助您决定如何前进。
探索性回归全局汇总
最好从探索性回归全局汇总节开始,尤其是在未找到任何通过模型的情况下,因为该汇总将显示无模型通过的原因。 本节列出了五项诊断测试以及通过每项测试的模型百分比。 如果您没有任何通过的模型,此摘要可以帮助您确定导致问题的诊断测试。
通常导致问题的诊断是针对空间自相关 (SA) 的 Global Moran’s I 检验。 当所有测试模型都具有空间自相关回归残差时,通常表明您缺少关键的解释变量。 查找丢失的解释变量的最好的方法之一是在普通最小二乘法 (OLS) 工具中检查残差的输出地图。 选择一个对所有其他标准都表现良好的探索性回归模型(使用最高调整 R 平方值的列表,或从可选输出表中选择一个模型),并使用该模型运行 OLS 回归。 普通最小二乘法 (OLS) 工具的输出为模型残差的地图。 您应该检查残差以查看它们是否提供有关可能缺失的内容的任何线索。 尽可能多地考虑候选空间变量(例如,到主要公路、医院或其他关键地理要素的距离)。 考虑尝试空间组织变量:例如,如果所有偏低预计值均位于农村区域,则创建占位符变量以查看其是否可以改善探索性回归结果。
另一个通常有问题的诊断是对正态分布残差的 Jarque-Bera 检验。 如果您的模型均未通过 Jarque-Bera (JB) 测试,则存在模型偏差问题。 模型偏差的常见来源包括:
- 非线性关系
- 数据异常值
查看与您的因变量相关的候选解释变量的散点图矩阵,可帮助您了解是否遇到这些问题中的任何一个。 附加策略在回归分析基础知识中进行了概述。 如果您的模型未通过 SA 测试,请先解决这些问题。 偏差可能是缺少关键解释变量的结果。
变量显著性的汇总
变量显著性的汇总节提供变量关系的相关信息,并说明这些关系的一致性的情况。 每个候选解释变量都列出了它具有统计显著性的次数百分比。 列表开头几个变量 % 显著性列的值最大。 也可以通过检查 % 负数和 % 正数列查看变量关系的稳定性。 较强的预测因子始终具有显著性(% 显著),且变量关系稳定(主要为负数或主要为正数)。
报告的这一部分还可以帮助您提高效率。 当您处理大量候选解释变量(超过 50 个)并且想要尝试具有五个或更多预测变量的模型时,这一点尤其重要。 当您有大量解释变量并测试许多组合时,计算可能需要很长时间。 在某些情况下,由于内存错误,该工具根本无法完成。 最好的做法是逐渐增加测试的模型数量:首先将解释变量的最小数量和解释变量的最大数量参数都设置为 2,然后设置为 3,然后设置为 4,以此类推。 每次运行时,删除在测试模型中很少具有统计显著性的变量。 此变量显著性的汇总节有助于查找始终为强预测因子的变量。 即使从您的列表中删除一个候选解释变量也可以显着减少探索性回归工具完成所需的时间。
多重共线性的汇总
您可以将报告的多重共线性摘要部分与变量重要性摘要部分结合使用,以了解可以从分析中删除哪些候选解释变量以提高性能。 多重共线性的汇总节说明了具备较高多重共线性的模型中各解释变量出现的次数,以及同时包含在这些模型中的其他解释变量。 当两个(或更多)解释变量经常一起出现在具有高多重共线性的模型中时,这表明这些变量可能提供相同的结果。 由于您只想包括解释因变量的独特方面的变量,请考虑仅选择一个冗余变量以包括在进一步分析中。 其中一个方法是使用基于变量显著性的汇总结果的冗余变量中的最强变量。
其他诊断的汇总
最终的诊断汇总显示最高 Jarque-Bera p 值(残差正态的汇总)和最高 Global Moran’s I p 值(残差自相关的汇总)。 要通过这些诊断测试,您需要大的 p 值。
当您的模型通过 Jarque-Bera 和空间自相关 (Global Moran's I) 测试时,这些摘要不是特别有用,因为如果您的统计显著性标准为 0.1,则所有值大于 0.1 的模型都是通过模型。 但是,当您没有任何通过模型并且想要了解您距离正态分布残差或没有统计显著空间自相关的残差有多远时,这些摘要很有用。 例如,如果 Jarque-Bera 汇总的所有 p 值均为 0.000000,则很明显残差与正态分布相去甚远。 或者,如果 p 值为 0.092,则表示残差将接近正态分布(事实上,根据您选择的显著性水平,0.092 的 p 值可能会通过)。 这些摘要表明了问题的严重性,并且当您的模型均未通过时,它们会指示哪些变量与接近通过的模型相关联。
表格详细信息
如果提供了输出结果表参数的值,则将创建包含符合最大 p 值系数边界和最大 VIF 值边界条件的所有模型的表格。 即使您没有任何通过的模型,输出表中也可能会有一些模型。 表中的每一行代表一个满足您的系数和 VIF 值标准的模型。 表中的列提供了模型诊断和解释变量。 列出的诊断值包括:调整后的 R 平方 (R2)、校正后的 Akaike 信息标准 (AICc)、Jarque-Bera p 值 (JB)、Koenker’s studentized Breusch-Pagan p 值 (BP)、方差膨胀因子 (VIF) 和 Global Moran’s I p 值 (SA)。 您可能希望按模型的 AICc 值对模型进行排序。 AICc 值越低,模型运行状况越好。 您可以通过双击 AICc 列对 ArcMap 中的 AICc 值进行排序。 如果您选择要在 OLS 分析中使用的模型(以检查残差),请务必选择 AICc 值较低且传递值尽可能多的其他诊断的模型。 例如,如果您查看了输出报告并且知道 Jarque-Bera 是导致问题的诊断,请查找具有最低 AICc 值且满足除 Jarque-Bera 之外的所有标准的模型。
其他资源
如果您不熟悉 ArcGIS 中的回归分析,建议您观看回归分析:使用 ArcGIS Pro 构建回归模型,然后完成回归分析教程。
您还可以查看以下资源:
- 了解有关“探索性回归”工作原理的详细信息
- 您所不了解的回归分析内容
- 回归分析基础知识
Burnham, K.P., and D.R. Anderson. 2002. Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, 2nd Edition. New York: Springer. Section 1.5.