概化线性回归的工作原理

回归分析可能是最常用的社会科学统计。回归用于评估两个或更多要素属性之间的关系。识别和衡量关系可使您更好地了解某地正在发生的事情、预测某地可能发生某事或者调查事情发生在事发地的原因。概化线性回归可以创建您所尝试理解或预测的变量或过程的模型,并将其用于检查和量化要素之间的关系。

注:

此工具是 ArcGIS Pro 2.3 中的新功能,其中包括普通最小二乘法 (OLS) 的功能。该工具包括计数(泊松)和二进制(逻辑)的附加模型,这些模型允许该工具应用于更广泛的问题。

潜在的应用

概化线性回归可用于各种应用,包括以下内容:

  • 哪些人口特征导致了较高的公共交通工具使用率?
  • 财产破坏的行为数与盗窃数之间是否存在明确的关系?
  • 哪些变量可有效预测 911 呼叫数? 鉴于对未来的预测,对应急资源的预期需求有哪些?
  • 哪些变量会影响低出生率?

输入

要运行概化线性回归工具,请在输入要素中提供一个表示因变量的字段以及一个或多个表示解释变量距离要素的字段。这些字段必须为数字且具有值范围。将从分析中排除因变量或解释变量中包含缺失值的要素;但是,在运行概化线性回归工具之前,您可以使用填充缺失值工具完成数据集。接下来,您必须基于要分析的数据选择模型类型。为数据使用适当的模型非常重要。模型类型的描述以及为数据确定适当类型的操作方法如下。

模型类型

概化线性回归可提供三种类型的回归模型:连续、二进制和计数。在统计文献中,这些回归类型分别被称为高斯、逻辑和泊松。应基于因变量的测量和汇总方式及其包含的值范围,为您的分析选择模型类型

连续(高斯)

如果因变量可以采用温度或总销售额等大范围的值,则请使用连续(高斯)模型类型。理想情况下,因变量将是正态分布的。您可以针对因变量创建直方图,以验证它是否为正态分布的。如果直方图是对称的钟形曲线,则请使用高斯模型类型。大多数值将聚类在均值附近,很少有值与均值完全脱离。均值左边的值应该与右边的值一样多,所以分布的均值和中值相同。如果因变量似乎不是正态分布的,则请考虑将其重新分类为二进制变量。例如,如果您的因变量是平均家庭收入,您可以将其重新编码为二进制变量,其中 1 表示高于国家收入中位数,0 表示低于国家收入中位数。使用计算字段工具中的重分类帮助程序函数可以将连续字段重分类为二进制字段。

二进制(逻辑)

如果因变量可以采用两个可能值中的一个(如成功和失败,或者存在和不存在),则请使用二进制(逻辑)模型类型。包含因变量的字段必须为数字且仅包含 1 和 0。如果您将感兴趣的事件(例如成功或动物存在)编码为 1,则回归将模拟 1 的概率,因此结果将更容易解释。数据中的 1 和 0 必须存在变化。如果针对因变量创建直方图,则它应该仅显示 1 和 0。

计数(泊松)

如果因变量是离散的,并且表示事件的出现次数(如犯罪数量),则应考虑使用计数(泊松)模型类型。如果因变量表示一个比率,并且该比率的分母是固定值(如每月销售额或每 10,000 人口中患癌症的人数),则也可以使用计数模型。计数(泊松)模型假设因变量的均值和方差相等,并且因变量的值不能为负数或包含小数。

距离要素

虽然概化线性回归不是固有空间方法,但仍可使用距离要素,达到在分析中利用空间能力的目的。例如,如果您正在对一系列零售店的业绩进行建模,要生成精确预测,表示距高速公路入口匝道的距离或距最近竞争对手的距离的变量可能至关重要。同样,如果对空气质量进行建模,则表示距主要污染源的距离或距主要道路的距离的解释变量将至关重要。通过计算从给定要素到输入要素的距离,可使用距离要素自动创建解释变量。将计算每个输入解释距离要素与最近的输入要素的距离。如果输入解释距离要素为面要素或线要素,则距离属性将计算为要素对的最近线段之间的距离。但是,面要素和线要素的距离计算方式不同。有关详细信息,请参阅邻近分析工具计算距离的方法

预测

您可以使用已创建的回归模型对其他要素(点或面)进行预测。要创建这些预测,每个预测位置都应包含每个所提供的解释变量以及感兴趣区域内的解释距离要素的对应值。如果输入要素预测位置参数中的字段名称不匹配,则将提供变量匹配参数。当匹配解释变量时,输入要素预测位置参数中的字段必须属于同一类型(例如,双精度字段必须与双精度字段匹配)。任何解释距离要素也必须匹配。

输出

概化线性回归工具会生成各种不同的输出。在工具执行期间,GLR 模型的汇总和统计汇总可作为地理处理窗格底部的消息使用。要访问消息,请将鼠标指针悬停在进度条上、单击弹出按钮或展开地理处理窗格中的消息部分。您还可以通过地理处理历史访问之前运行概化线性回归工具的消息。此工具还将生成输出要素、图表和可选的输出预测要素输出要素和关联图表将自动添加到内容窗格中,并会对模型残差应用热/冷渲染方案。生成的诊断和图表取决于输入要素模型类型,如下所述。

连续(高斯)

解释消息和诊断

  • AICc - 可用于检验模型性能并比较回归模型。考虑到模型复杂性,具有较低 AICc 值的模型将更好地拟合观测数据。AICc 不是拟合度的绝对度量,但对于比较适用于同一因变量且具有不同解释变量的模型非常有用。如果两个模型的 AICc 值相差大于 3,具有较低 AICc 值的模型将被视为更佳的模型。将 GWR AICc 值与 GLR AICc 值进行比较是评估从全局模型 (GLR) 移动到局部回归模型 (GWR) 的优势的一种方法。
  • R2 - R 平方可用于检验拟合度。其值在 0.0 到 1.0 范围内变化,值越大越好。此值可解释为回归模型所涵盖的因变量方差的比例。R2 计算的分母为因变量值平方和。向模型中再添加一个解释变量不会更改分母但会更改分子;这将出现改善模型拟合的情况(但可能为假象)。请参阅下文中的“校正的 R2”。
  • 校正的 R2 - 由于上述 R2 值问题,校正的 R 平方值的计算将按分子和分母的自由度对它们进行正规化。这具有对模型中变量数进行补偿的效果,因此校正的 R2 值通常小于 R2 值。但是,执行此校正时,无法将该值的解释作为所解释方差的比例。在 GWR 中,自由度的有效值是所使用邻域的函数,因此与全局模型(如 GLR)相比,校正程度可能非常明显。因此,AICc 是对模型进行比较的首选方式。
  • “联合 F 统计量”和“联合卡方统计量”-“联合 F 统计量”和“联合卡方统计量”均用于检验整个模型的统计显著性。只有在 Koenker (BP) 统计量(见下图)不具有统计显著性时,“联合 F 统计量”才可信。如果 Koenker (BP) 统计量具有显著性,则请参考“联合卡方统计量”来确定整个模型的显著性。这两种检验的零假设均为模型中的解释变量不起作用。对于大小为 95% 的置信度,p 值(概率)小于 0.05 表示模型具有统计显著性。
  • Koenker (BP) 统计量(Koenker 的标准化 Breusch-Pagan 统计量) - 此为一种检验方法,用于确定模型的解释变量是否在地理空间和数据空间中都与因变量具有一致的关系。如果模型在地理空间中一致,由解释变量表示的空间进程在研究区(进程稳态)各位置处的行为也将一致。如果模型在数据空间中一致,则预测值与每个解释变量之间关系的变化不会随解释变量值的变化而变化(模型不存在异方差性)。假设要对犯罪情况进行预测,其中一个解释变量为收入。如果对收入的中位数较小的位置的预测比对收入的中位数较大的位置的预测更准确,则说明模型的异方差性就会出现问题。该检验的零假设为所检验的模型是稳态的。对于大小为 95% 的置信度,p 值(概率)小于 0.05 表示模型具有统计学上的显著异方差性或非稳态。如果该检验的结果具有统计显著性,则需参考稳健系数标准差和概率来评估每个解释变量的效果。具有统计显著性非稳态的回归模型通常很适合进行 (GWR) 分析。
  • Jarque-Bera - 用于指示残差(已观测或已知的因变量值减去预测或估计值)是否呈正态分布。该检验的零假设为残差呈正态分布,因此,如果为这些残差建立直方图,这些残差的分布将与典型钟形曲线或高斯分布相似。当该检验的 p 值(概率)较小(例如,对于大小为 95% 的置信度,其值小于 0.05)时,回归不会呈正态分布,并指示您的模型有偏差。如果残差还存在统计学上显著的空间自相关(请参阅下文),则偏差可能是模型指定错误(该模型的某个关键变量缺失)的结果。从错误指定的 OLS 模型得到的结果是不可信的。如果要构建非线性关系模型、数据的某些异常值存在影响或者存在很强的异方差性(请参阅上文),也可进行统计学上显著的 Jarque-Bera 检验。

输出图表

使用此工具为连续模型类型创建的图表包含模型中所用变量的散点图矩阵、模型残差的直方图以及残差和预测图。

二进制(逻辑)

解释消息和诊断

  • AICc - 可用于检验模型性能并比较回归模型。考虑到模型复杂性,具有较低 AICc 值的模型将更好地拟合观测数据。AICc 不是拟合度的绝对度量,但对于比较适用于同一因变量且具有不同解释变量的模型非常有用。如果两个模型的 AICc 值相差大于 3,具有较低 AICc 值的模型将被视为更佳的模型。将 GWR AICc 值与 GLR AICc 值进行比较是评估从全局模型 (GLR) 移动到局部回归模型 (GWR) 的优势的一种方法。
  • 已解释 % 偏差 - 因变量方差的比例可由解释变量解释。
  • 联合卡方统计量 - 联合卡方统计量用于检验整个模型的统计显著性。此检验的零假设为模型中的解释变量不起作用。对于大小为 95% 的置信度,p 值(概率)小于 0.05 表示模型具有统计显著性。

输出图表

使用此工具为二元模型类型创建的图表包含模型中所用变量的散点图矩阵、显示解释变量分布的箱型图、模型残差的直方图以及预测性能表。

计数(泊松)

解释消息和诊断

  • AICc - 可用于检验模型性能并比较回归模型。考虑到模型复杂性,具有较低 AICc 值的模型将更好地拟合观测数据。AICc 不是拟合度的绝对度量,但对于比较适用于同一因变量且具有不同解释变量的模型非常有用。如果两个模型的 AICc 值相差大于 3,具有较低 AICc 值的模型将被视为更佳的模型。将 GWR AICc 值与 GLR AICc 值进行比较是评估从全局模型 (GLR) 移动到局部回归模型 (GWR) 的优势的一种方法。
  • 已解释 % 偏差 - 因变量方差的比例可由解释变量解释。
  • 联合卡方统计量 - 联合卡方统计量用于检验整个模型的统计显著性。此检验的零假设为模型中的解释变量不起作用。对于大小为 95% 的置信度,p 值(概率)小于 0.05 表示模型具有统计显著性。

输出图表

使用此工具为计数模型类型创建的图表包含模型中所用变量的散点图矩阵、模型残差的直方图以及残差和预测图。

其他资源

有多种资源可帮助您了解有关概化线性回归地理加权回归的详细信息。请从回归分析基础知识开始或请通读回归分析教程

以下同样是有用的资源:

Fox, J. (1991). Regression Diagnostics. Sage, Newbury Park, CA.

Menard, S. (2002)。Applied logistic regression analysis (Vol. 106). Sage.

Nelder, J. A. 和 Wedderburn, R. W. M. (1972) Generalized linear models。J. R. Statist. Soc. A, 135, 370 - 384.