回归分析主要用于理解、建模、预测和解释各种复杂现象。它可帮助您回答诸如“为什么美国有些地方的测试分数始终高于全国平均分数?”或“为什么城市某些区域的入室盗窃率如此之高?”之类的问题。例如,您可使用回归分析解释儿童肥胖现象的分布,例如,可通过收入、教育和食用健康食品等一组相关的变量。
通常回归分析可帮助您回答这些问题,以便您提早采取相应措施。例如,如果您发现午餐供应新鲜水果和蔬菜的学校里的儿童肥胖率较低,您就可以利用该信息对政策进行引导并做出有关学校午餐计划的决策。同样,了解有助于解释高犯罪率的变量,您就可以对将来的犯罪率做出预测,从而更高效地配置各种预防资源。
这些是您所不了解的回归分析的内容。
您所不了解的回归分析内容包括:想找到一组允许您回答自己问题的解释变量或解释您尝试建模的复杂现象并不总是那么轻松。儿童肥胖、犯罪、测试分数以及几乎所有您想使用回归分析进行建模的内容都是非常复杂的问题,很少会有简单的答案。如果您曾尝试构建自己的回归模型,那么这个模型可能对您毫无新意。
幸运的是,当您运行广义线性回归 (GLR) 工具时,我们会为您提供一组诊断,帮助您了解自己是否拥有一个正确指定的模型;正确指定的模型往往是一个您可以信任的模型。本文档介绍并解释了您为确认模型的正确性而需要执行的多项检查。这些诊断以及您用于解决部分最常见的回归分析问题的各项技术可以让您的工作更加轻松。
提示:
一旦您理解了下文所提供的信息,您就可能决定使用探索性回归工具,来帮助您找到一个可满足 GLR 方法的所有要求的模型。
入门
选择要理解、预测或建模的变量是您的第一项任务。此变量称为因变量。儿童肥胖、犯罪和测试分数是上文所介绍的示例中要被建模的因变量。
接下来您必须决定哪些因子可能会有助于对您的因变量进行解释。这些变量称为解释变量。在儿童肥胖示例中,解释变量可能是诸如收入、教育和健康食品摄入等因素。您需要在此处开展研究以识别所有重要的解释变量;参考理论和现有的文献、和专家进行讨论并始终依赖您的常识。您事先进行的初步研究将提高您查找一个合格模型的机会。
选定了因变量和候选解释变量之后,您就做好了运行分析的准备。建议采用广义线性回归 (GLR) 或探索性回归开始您的回归分析,这是因为这些工具可以执行各种重要的诊断测试,使您了解到自己是否已经找到一个有用的模型,还是仍有一些工作要做。
GLR 工具将生成几项输出,其中包括回归残差图、图表和一个汇总报告。回归残差图将显示模型的偏低预计值和偏高预计值,而且分析回归残差图是查找到合适模型的一个重要步骤。汇总报告主要由数字构成,包括您将在通过下面的六项检查时使用的所有诊断。
六项诊断检查
检查 1:这些解释变量是否对我的模型有所帮助?
参考相关理论和现有研究之后,您将确定一组候选解释变量。您可能有充分的理由将所有解释变量都包含在模型中。但运行模型之后,您将发现有些解释变量具有统计显著性,而有些则没有。
您如何了解哪些解释变量具有显著性? GLR 工具将针对模型中的每个解释变量计算一个系数,并执行一项统计测试以确定该变量是否对您的模型有所帮助。统计检验将计算系数实际为零的概率。如果系数为零(或非常接近零),相关解释变量将不会对您的模型有所帮助。但是,如果统计检验针对某一特定解释变量返回一个小概率值(p 值),则表示系数不太可能(概率很小)为零。如果概率小于 0.05,GLR 汇总报告上概率旁边的一个星号表示相关解释变量对您的模型非常重要(换句话说,其系数在 95% 置信度上具有统计显著性)。因此您要寻找和统计显著性概率相关联的解释变量(寻找带星号的解释变量)。
GLR 工具将针对每个解释变量计算概率和稳健概率。利用空间数据,您正在建模的关系在研究区域内存在差异是非常常见的。这些关系的特征就在于非稳态。当关系为非稳态关系时,您只能相信稳健概率能使您了解一个解释变量是否具有统计显著性。
您如何了解自己模型中的关系是不是非静态关系? GLR 汇总报告中所包括的另一项统计检验是用于不稳定性的 Koenker(Koenker 的标准化 Breusch-Pagan)统计量。Koenker p 值旁边的一个星号表示您正在建模的关系表现出统计显著性方面的不稳定性,因此请确保参阅稳健概率。
通常您将从自己的模型中移除不具有统计显著性的解释变量。但从理论上讲,如果一个变量非常重要,或如果一个特定变量是您的分析重点,那么即使这个变量不具有统计显著性,您也可以选择保留它。
注:
在寻找正确指定的 GLR 模型的过程中,您可能尝试各种解释变量。请注意,根据您的模型中所引入的变量组合的不同,解释变量系数(和它们的统计显著性)可能会彻底改变。
检查 2:这是我所期望的关系吗?
不仅确定一个解释变量是否对您的模型有实际帮助很重要,而且您还想检查与每个系数相关联的符号 (+/-),以确保该关系是您所期望的关系。解释变量系数的符号表示关系是正还是负。例如,假设您正在对犯罪率进行建模,模型的其中一个解释变量是平均邻近地区收入。如果收入变量的系数是负数,它表示犯罪率往往随着邻近地区收入的增加而减少(一个负关系)。如果您正在对儿童肥胖率进行建模并且模型中摄入快餐数变量有一个正的系数,则表示儿童肥胖率往往随着食用快餐量的增加而增大(一个正关系)。
当您创建自己的候选解释变量列表时,应为每个变量包括您所期望的关系(正或负)。您将很难信任一个所报告出的关系不符合理论或常识的模型。假设您正在构建一个用于预测森林火灾频率的模型并且您的回归模型针对降雨量变量返回一个正系数。您可能不希望看到在降雨充沛的地区反而出现森林火灾发生频率增加的情况。
意外系数符号通常表示随着您继续执行其他诊断检查而导致其他模型问题的出现。如果模型通过了所有这些检查,那么您只能信任这个符号和解释变量系数的强度。如果您发现不管出现什么样的意外系数符号,一个模型都能通过所有检查,则您可能会从中发现某些新的情况。也许森林火灾频率和降雨量之间存在正关系就是因为在您所研究的区域内森林火灾的主要原因是闪电。获得您所研究的区域内闪电的相关数据以查看其是否能改进模型性能,这可能是值得尝试的行为。
检查 3:任何解释变量都是冗余变量吗?
选择要在您的分析中包括的解释变量时,请寻找可探索您尝试建模的不同方面的变量;避免引入多个提供类似信息的变量。例如,如果您正在尝试对家庭值进行建模,可能不会同时引入表示家庭建筑面积和卧室数量的变量。这两个变量都与家庭面积有关,同时引入它们会导致您的模型不稳定。总之,引入了冗余变量的模型是不足以信任的。
您如何了解两个或多个变量是否冗余? 幸运的是,只要您有两个以上的解释变量,GLR 工具就会针对每个变量计算方差膨胀因子 (VIF)。VIF 值是对变量冗余度的一种度量,可帮助您决定在不削弱模型解释能力的情况下可从中移除哪些变量。通常,VIF 值超过 7.5 就有问题。如果有两个或更多的 VIF 值超过了 7.5,您应一次移除其中一个变量并重新运行 OLS,直到冗余消失。请记住,您不想移除具有高 VIF 值的全部变量。在对家庭值进行建模的示例中,建筑面积和卧室数量可能都具有膨胀的 VIF 值。不过只要您移除这两个变量中的任意一个,冗余就会被消除。包括反映家庭面积的变量很重要;您只是不想对家庭值的那一方面以冗余方式建模。
检查 4:我的模型是否出现了偏差?
这看起来像是一个困难的问题,但实际上答案非常简单。当您正确指定 GLR 模型时,模型残差(偏高预计值和偏低预计值)会正常分布,平均值为零(如钟形曲线)。但当您的模型出现偏差时,残差的分布并不均衡,如下所示。当模型出现偏差时,您无法完全信任所预测的结果。有几项策略可帮助您纠正此问题。
一个具有统计显著性的 Jarque-Bera 诊断(寻找星号)表示您的模型出现偏差。有时您的模型预测低值时表现良好,但预测高值时却表现不佳(或预测高值时表现良好,但预测低值时却表现不佳)。以儿童肥胖为例,这意味着在儿童肥胖率较低的地点,模型表现良好,但在儿童肥胖率较高的地区预测就不灵了。模型偏差也可能是影响模型估计的异常值的结果。
为了帮您解决模型偏差,请为您的所有模型变量创建一个散点图矩阵。您的因变量和一个解释变量之间存在非线性关系,这是出现模型偏差的常见原因。这些关系在散点图矩阵中看起来像一条曲线。线性关系看起来像对角线。
如果您看到自己的因变量和一个解释变量存在非线性关系,则需要采取一些措施。GLR 是一种线性回归方法,假设您正在建模的关系是线性关系。如果不是,可尝试变换您的变量,以查看这样做是否可创建出线性更明显的关系。常见变换包括对数变换和指数变换。如果某些解释变量严重偏斜,也可通过变换这些严重偏斜的解释变量来移除模型偏差。
散点图矩阵还将显示数据异常值。要了解一个异常值是否正在影响您的模型,请尝试在含有和不含有异常值的情况下分别运行广义线性回归 (GLR),从而了解异常值对模型性能的更改程度,以及移除异常值是否会校正模型偏差。在一些情况下(特别是如果您认为异常值代表错误的数据),您可从分析中删除异常值。
检查 5:我是否找到了所有关键解释变量?
通常您会在分析中假设哪些变量将成为重要的预测因素。可能您会认为 5 个特定变量会生成一个合格模型,或可能您有一个自认为相关的 10 个变量组成的列表。尽管利用假设处理回归分析很重要,但帮助您深入调查的创造力和洞察力也同样重要。坚持将您限制到自己的最初变量列表的倾向,并尝试考虑可能影响您的建模内容的所有可能的变量。创建每个候选解释变量的主题地图,并将这些地图和您的因变量地图进行对比。查看相关文献。利用您的直觉在映射的数据中寻找关系。一定要尽可能多地尝试处理候选空间变量,如距城区中心的距离、与主要高速公路的邻近性或对大型水体的利用程度。这些种类的变量对您认为会影响数据中关系的地理过程的分析至关重要。实际上,在您找到可有效捕捉您的因变量中空间结构的解释变量之前,您的模型会丢失关键的解释变量,并且您将无法通过此处介绍的所有诊断检查出这一遗漏。
您的模型残差中存在统计显著性空间自相关现象,这是您丢失一个或多个关键解释变量的证据。在回归分析中,具有空间自相关残差的问题通常具有聚类的现象:偏高预计值聚集在一起,偏低预计值聚集在一起。您如何了解自己的模型残差中存在统计显著性空间自相关? 在您的回归残差上运行空间自相关工具,系统将提示您的模型是否有空间自相关性。一个统计显著性 z 得分表示您的模型丢失了关键解释变量。
找到那些丢失的解释变量通常既是艺术又是科学。尝试这些策略,了解它们是否有用:
检查 GLR 残差地图
广义线性回归 (GLR) 工具的标准输出是一幅模型残差图。深紫色区域表示实际值(您的因变量)大于您的模型的预测值的部分。较深的蓝绿色区域显示实际值低于预测值的部分。有时只看残差地图就能帮助您了解所丢失的内容。例如,如果您注意到自己一直在过度预测城市化地区,您可能想要考虑添加一个变量来反映到城区中心的距离。如果这个变量看起来好像是与山峰顶部或峡谷底部相关联的偏高预计值,也许您需要一个高程变量。您能否看到区域群集,或您能否识别数据中的趋势? 因此创建一个哑元变量捕捉这些地区差异可能会非常有效。哑元变量的一个典型示例就是一种能够区分城区和乡村要素的哑元变量。通过为所有乡村要素分配值 1,为所有其他要素分配值 0,就能够在地表中捕捉对您的模型非常重要的空间关系。有时创建一张模型残差热点图将帮助您显示广泛的地区模式。
了解丢失的空间变量不仅有可能改进您的模型,而且此过程还能帮助您更好地理解您应用富有革新性的新方式建模的现象。
检查非稳态
您也可尝试运行地理加权回归并且为每个解释变量或局部 R2 值创建系数表面。选择执行状况良好的 GLR 模型(一个带有较高校正 R2 值的 OLS 模型,该模型通过了所有检查或大部分其他诊断检查)。因为 GWR 为您所研究的区域中的每个要素都创建了一个回归方程,系数表面说明因变量和每个解释变量之间的关系如何以地理方式波动;局部 R2 值的地图显示模型解释能力的变化。有时看到这些地理变化将引发有些变量可能丢失的想法:主要高速路附近的解释能力的下降,距海岸距离的减少,工业区附近系数符号的变化,或强大的由东到西的趋势或边界,所有这些都是可能改进您的模型的空间变量的相关信息。
当您在检查系数表面时,请寻找带有系数的解释变量,该系数的符号从正号变为负号。这一点很重要,因为 GLR 可能削弱这些极不稳定的变量的预测潜力。例如,考虑儿童肥胖率和食用健康食品选项之间的关系。在车辆很少到达的低收入地区,远离超市可能是选择健康食品的一个真实障碍。但在车辆更容易到达的高收入地区,实际上可能并不需要具有通过步行就能到达的超市;到超市的距离也许根本不是购买健康食品的障碍。尽管 GWR 能够对这些复杂关系进行建模,但 GLR 则不能。GLR 是一个全局模型,希望整个研究区域的变量关系一致(稳态)。在系数更改符号时,它们相互抵消。将这一过程视为 (+1) + (-1) = 0。如果您发现了系数发生显著更改的变量,特别是如果这些变量更改了符号,即使这些变量没有统计显著性,您也应将它们保持在模型中。在您转向 GWR 时,这些变量类型将是有效的类型。
尝试让 GLR 适合更小的子集研究区域
GWR 在处理不稳定性时非常有用,而且它倾向于直接移动到 GWR,而不是先查找正确指定的 GLR 模型。遗憾的是,GWR 没有能帮您了解自己的解释变量是否具有统计显著性,您的残差是否被正常分布,或总之您是否拥有一个合格模型所需的所有诊断。除非您能确保自己的 GLR 模型无法通过六项检查的唯一原因是不稳定性的直接结果,否则 GWR 不会修复不当指定的模型。不稳定性的证据是发现解释变量在部分研究区域拥有强大的正关系,在其他部分拥有强大的负关系。有时问题不在于单独的解释变量,而是模型中使用的一组解释变量。有可能一组变量为研究区域的一部分提供了出色的模型,但另一组不同的变量在其他任何位置都有良好表现。要查看情况是否如此,可选择几个更小的子集研究区域,并尝试让 GLR 模型适合这些区域中的每一个。根据您认为可能与模型有关的过程选择您的子集区域(高收入对应低收入地区,旧住宅对应新住宅)。也可根据局部 R2 值的 GWR 地图选择区域;使用另一组解释变量,可更好地为模型性能不佳的位置建模。
提示:
空间约束多元聚类工具对确定范围更广的研究区域中的子地区大有帮助。
如果您在几个小的研究区域找到了正确指定的 GLR 模型,您就会总结出不稳定性是主要病因,并使用您从所有子集区域模型中找到的完整解释变量组移动到 GWR。如果您没有在更小的子集区域中找到正确指定的模型,这可能是由于您正在尝试对太复杂的项目建模,无法将其缩小到简单的连续数字测量和线性关系。在这种情况下,您可能需要探索备用的分析方法。
这一切都颇费工夫,但这也是在探索性数据分析中的重要练习,它将帮助您更好地理解您的数据以及查找要使用的新变量。它甚至可以生成出色的模型。
检查 6:我如何解释自己的因变量?
接下来对模型性能进行评估。校正 R2 值是对您的解释变量对因变量建模优劣的一项重要度量。R2 值也属于大多数人所了解到的第一批回归分析相关事项。那么,为什么要将这个重要的检查留到最后呢? 您可能不知道的是您不能信任 R2 值,除非您通过了上面列出的全部其他检查。如果您的模型出现偏差,则在某些区域或您的因变量值的特定范围内可以正常执行,但在其他情况下根本无法正常执行。R2 值不反映这一情况。同样,如果您的残差存在空间自相关情况,则不能信任来自模型的系数关系。借助冗余解释变量,您可获得极高的 R2 值,但您的模型将不稳定;它不反映您正在尝试建模的真正关系,甚至通过添加一个单独的观测也可产生完全不同的结果。
一旦您通过了其他检查并确定已经满足了全部必需的条件,接下来就可通过评估校正 R2 值来了解您的模型解释您的因变量值的情况。R2 值的范围介于 0 和 1 之间,以百分比形式表示。假设您正在为犯罪率建模,并找到一个通过之前所有五项检查的模型,其校正 R2 值为 0.65。这说明,模型中的解释变量正在解释犯罪率因变量中 65% 的变化量。在判断校正 R2 值的时候,必须带有一点主观色彩。在有些科学领域,能够解释复杂现象的 23% 就会让人兴奋不已。在其他领域,一个 R2 值可能需要更靠近 80% 或 90% 才能引起别人的注意。不管采用哪一种方式,校正 R2 值都将帮您判断自己模型的表现。
另一项帮您评估模型性能的重要诊断是修正的 Akaike 信息准则 (AICc)。AICc 值是用于比较多模型的一项有用度量。例如,您可能希望尝试用几组不同的解释变量为学生测试分数建模。在一个模型中您可能仅使用人口统计变量,而在另一个模型中您可能选择有关学校和教室的变量,如每位学生的支出和师生比。只要所有进行比较的模型的因变量(在本示例中为学生测试分数)相同,您就可以使用来自每个模型的 AICc 值确定哪一个的表现更好。模型的 AICc 值越小,越适合观测的数据。
切记...
请记住,随着您执行这些构建正确指定的回归模型的步骤,您的分析目标最终是理解您的数据并利用该理解解决问题和回答问题。事实是您可以尝试许多模型(带有和不带已变换变量)、探索几个小的研究区域以及分析您的系数表面 ...而且仍没有找到正确指定的 GLR 模型。但您仍将对自己为之建模的现象的知识内容做出贡献,并且这一点很重要。如果您假设的模型成为根本不显著的精确预测因素,您就会发现这将是非常有用的信息。如果您考虑的变量之一很强大,在某些领域拥有一个正关系,在其他领域拥有一个负关系,了解这一点无疑会提高您对问题的理解。您在此处要做的就是尝试使用 GLR 找到合格的模型,然后应用 GWR 探索在您的模型的变量中的区域变化,这始终都是很有价值的事情。
有关回归分析以及实践教程的详细信息,请参见 https://www.esriurl.com/spatialstats。