地理加权回归工作原理

地理加权回归工具使用地理加权回归 (GWR)是用于地理及其他学科的若干空间回归技术中的一种。 通过对数据集中的各要素拟合回归方程,GWR 可以评估您要尝试了解或预测的变量或过程的局部模型。 GWR 构建这些独立方程的方法是:将落在每个目标要素的邻域内的要素的因变量和解释变量进行合并。 使用地理加权回归工具时,所分析的每个邻域的形状和范围取决于邻域类型邻域选择方法参数。 该工具允许连续(高斯)、二进制(二项式)或计数(泊松)数据作为因变量。 在至少具有数百个要素的数据集上使用 GWR。

注:

多尺度地理加权回归工具可用于对因变量和解释变量之间具有不同关系比例的数据执行 GWR。

可能的应用

地理加权回归工具可用于回答各种问题,包括以下内容:

  • 整个研究区域的教育程度和收入之间的关系是否一致?
  • 特定疾病或传染病的患病几率是否会随着与水体要素的接近而增加?
  • 能够解释森林火灾频繁发生的关键变量是什么?
  • 应对哪些栖息地加以保护以促进濒危物种的再引入?
  • 哪些地区的孩子会取得高测试分数? 似乎与哪些特征联系在一起? 每种特征最重要的地方在哪里?
  • 影响高患癌率的因素是否在研究区域内保持一致?

输入

要运行地理加权回归工具,请在输入要素参数中提供一个表示因变量的字段以及一个或多个表示解释变量的字段。 这些字段必须为数值型且具有值范围。 因变量或解释变量中包含缺失值的要素将从分析中排除;但是,在运行地理加权回归 工具之前,可以使用填充缺失值工具完成数据集。 接下来,您必须基于要分析的数据选择模型类型。 为数据使用适当的模型非常重要。 模型类型的描述以及为数据确定适当类型的操作方法如下。

模型类型

地理加权回归工具提供三种类型的回归模型:连续、二元和计数。 这些类型的回归分别称为普通最小二乘法、逻辑回归和泊松回归。 根据因变量的测量方式或汇总方式及其包含的值范围,确定分析的模型类型参数的值。

连续(高斯)

使用连续(高斯)选项,如果因变量可以采用温度或总销售额等大范围的值,则请选择此类型。 理想情况下,因变量将是正态分布的。 您可以针对因变量创建直方图,验证它是否为正态分布的。 如果直方图是对称的钟形曲线,则请使用高斯模型类型。 大多数值将聚类在均值附近,很少有值与均值完全脱离。 均值左边的值应该与右边的值一样多,所以分布的均值和中值相同。 如果因变量似乎不是正态分布的,则请考虑将其重新分类为二进制变量。 例如,如果因变量是平均家庭收入,可以将其重新编码为二进制变量,其中 1 表示高于国家收入中位数,0(零)表示低于国家收入中位数。 使用计算字段工具中的重分类帮助程序函数,可以将连续字段重分类为二进制字段。

二进制(逻辑)

使用二进制(逻辑)选项,如果因变量可以采用两个可能值中的一个(如成功和失败,或者存在和不存在),则请使用此类型。 包含因变量的字段必须为数字且仅包含 1 和 0。 如果您将感兴趣的事件(例如成功或动物存在)编码为 1,则回归将模拟 1 的概率,因此结果将更容易解释。 全局和本地数据中的 1 和 0 必须存在变化。 可以使用邻域摘要统计工具计算本地邻域的标准差,找到包含所有相同值的区域。

计数(泊松)

如果因变量是离散的,并且表示事件的出现次数(如犯罪数量),则请使用计数(泊松)选项。 如果因变量表示一个比率,并且该比率的分母是固定值(如每月销售额或每 10,000 人口中患癌症的人数),则也可以使用计数模型。 因变量的值不能为负数或包含小数。

邻域类型

邻域是用于每个局部回归方程的距离范围或相邻要素数量,并且因为它可以控制模型的局部估计方式,所以它也是地理加权回归工具要考虑的最重要参数之一。 所分析的每个邻域的形状和范围取决于邻域类型邻域选择方法参数。

您可以选择两种邻域类型之一:固定数量的相邻要素或距离范围。 对于固定数量的相邻要素,每个邻域的面积取决于附近点的密度:要素越密集的邻域越小,要素越稀疏的邻域越大。 当使用距离范围时,则研究区域中的每个要素的邻域大小将保持不变,这将使要素密集位置的邻域包含要素较多,而要素稀疏位置的邻域包含要素较少。

邻域选择方法可指定邻域大小的确定方式(所使用的实际距离或相邻要素数)。 当通过黄金搜索手动间隔选项选择邻域时,将以最小化校正的 Akaike 信息准则 (AICc) 的值为基础。 或者,您可以使用用户定义选项设置特定的邻域距离或相邻要素数。

对于黄金搜索选择方法,工具将使用黄金分割搜索方法确定距离范围或相邻要素数的最佳值。 此方法首先确定最大和最小距离,并在它们之间以不同距离逐步测试 AICc。 最大距离是指每个要素具有一半的输入要素作为相邻要素时的距离,而最小距离则是指每个要素具有数据集中 5% 的要素作为相邻要素时的距离。

最小搜索距离最大搜索距离参数(对于距离范围)以及最小相邻要素数最大相邻要素数参数(对于相邻要素数),可用于缩小黄金搜索的搜索范围。

注:

如果邻域参数导致邻域的相邻要素数超过 1,000 个,则仅使用最近的 1,000 个相邻要素。

局部权重方案

GWR 的强大之处在于,它可以将地理权重应用于每个局部回归方程中所使用的要素。 距离回归点较远的要素的权重较小,因此该要素对目标要素的回归结果影响较小;而距离回归点较近的要素在回归方程中则具有更大的权重。 需使用核来确定权重,该函数可用于确定权重随距离增加而减少的速度。 地理加权回归工具提供了局部权重方案参数中的两个核选项(高斯双平方)。

高斯加权方案将 1 的权重分配给焦点要素,并且随着距焦点要素距离的增加,相邻要素的权重逐渐减小。 例如,如果两个要素相隔 0.25 个带宽,则方程所得的权重将约为 0.88。 如果要素相隔 0.75 个带宽,则所得权重仅约为 0.32。 高斯权重方案永远不会达到零,但对于远离回归要素的要素,其权重可能非常小,并且对回归几乎没有影响。 当使用高斯权重方案时,输入数据中的每个其他要素都是相邻要素,并将被分配一个权重。 但是为了保证计算效率,如果相邻要素数超过 1000,则仅将最相邻的 1000 个要素合并到各局部回归中。 高斯权重方案可确保每个回归要素将具有多个相邻要素,增加了这些相邻要素值中的变化几率。 这可以避免地理加权回归中出现名为局部共线性的一个众所周知的问题。 如果相邻要素的影响变得平滑且逐渐变得不重要,而无论周围要素距离多远这种影响总是存在,则应使用高斯权重方案。

双平方权重方案与高斯类似。 将 1 的权重分配给焦点要素,并且随着距焦点要素距离的增加,相邻要素的权重逐渐减小。 但是,指定邻域之外的所有要素都将被分配零,且不会影响目标要素的局部回归。 将双平方权重方案与具有相同邻域规范的高斯权重方案进行比较时,双平方中的权重将以更快的速度减小。 您可使用双平方权重方案指定一个距离,在该距离之外的要素将对回归结果没有影响。 由于双平方排除了一定距离以外的要素,因此无法保证周围邻域中存在足够的(具有影响的)要素以生成良好的局部回归分析。 如果相邻要素的影响逐渐变得不重要,并且一定距离之外的影响不再存在,则应使用高斯权重方案。 例如,回归通常用于房价建模,而周围房屋的销售价格则是一个常见的解释变量。 这些周围的房屋被称为可比属性。 贷款机构有时会建立规则,要求可比房屋位于最大距离内。 在该示例中,可以在相当于贷款机构指定的最大距离的邻域内使用双平方权重方案。

预测

可以在预测位置参数中提供要素、使用已创建的回归模型对同一研究区域内的其他要素(点或面)进行预测。 预测位置必须具有与输入要素中的每个解释变量相匹配的字段。 如果输入要素和预测位置的字段名称不相同,则必须匹配要匹配的解释变量参数中的相应字段。 匹配时,字段必须是同一类型(例如双精度类型字段不能匹配整型字段)。

系数栅格

与大多数回归模型相比,GWR 的主要优点是,可以让您探索空间变化的关系。 创建系数栅格就是一种可将解释变量和因变量之间关系的跨空间变化可视化的方法。 为系数栅格工作空间参数提供路径名称时,地理权重回归工具将为模型截距和每个解释变量创建系数栅格表面。 栅格的分辨率由像元大小环境来控制。 使用邻域类型和权重方案,在每个栅格像元周围构建邻域。 计算从栅格像元中心到邻域内所有输入要素的权重,这些权重用于计算该栅格像元的唯一回归方程。 系数因栅格像元而异,因为邻域和权重因像元而异。

注:

目前尚未就如何评估 GWR 模型系数的置信度达成共识。 尽管为了将系数的估计值是否显著不同于零的推断作为基础,已经使用了 t 检验,但仍需对此方法的有效性进行积极研究。 有一种可用于非正式评估系数的方法,就是将系数除以为每个要素提供的标准误差,将其作为使用相关标准误差缩放估计幅度的方法,然后将这些结果可视化,寻找与其系数相关的高标准误差的聚类。

输出

地理加权回归工具可生成各种不同的输出。 GWR 模型的摘要和统计摘要作为消息返回。 此工具还将生成输出要素、图表和可选的预测要素和系数栅格表面。 输出要素和关联图表将自动添加到内容窗格中,并会对模型残差应用热/冷渲染方案。 生成的诊断和图表取决于指定的模型类型。

连续(高斯)

高斯模型类型假设因变量的值是连续的。

输出要素

除回归残差之外,输出要素包含表示观测所得和预测的因变量值、条件数、局部 R 平方、解释变量系数和标准误差的字段。 在地图中,将输出要素作为图层添加并由标准化残差进行符号化。 正的标准化残差意味着因变量值大于预测值(低预测),负的标准化残差意味着该值小于预测值(高预测)。

此外,还会报告截距、截距的标准误差、系数、每个解释变量的标准误差、预测、残差、标准残差、影响、Cook 距离、局部 R 方和条件数值。 OLS 回归的工作原理中讨论了其中的许多字段。 影响和 Cook 距离值都衡量了要素对回归系数估计的影响。 您可以使用直方图来确定是否有几个要素比数据集的其余部分更具影响力。 这些要素通常是扰乱系数估计的异常值,可能可以将其删除并重新运行工具以改进模型结果。 局部 R 方值的范围为 0 到 1,表示要素局部模型的相关性强度。 条件数可以衡量估计系数的稳定性。 约 1000 以上的条件数表明模型不稳定;这种情况通常由相互高度相关的解释变量导致。

解释消息和诊断

消息中提供了分析的详细信息,包括分析的要素数目、因变量和解释变量以及指定的相邻要素数。 此外,还将报告各种模型诊断。

连续模型类型的模型诊断
  • R2 - R 方可用于检验拟合度。 其值在 0.0 和 1.0 之间变化,较高的数值更适合。 此值可解释为回归模型所涵盖的因变量方差的比例。 可决系数 (R2) 计算的分母为因变量值平方和。 在模型中增加一个额外的解释变量并不会改变分母,但会改变分子;这可能造成模型拟合度提高的印象,但可能不是真实的。 请参阅下方 AdjR2。
  • AdjR2 - 由于上述 R2 值问题,校正的 R 方值的计算将按分子和分母的自由度对它们进行正规化。 这具有对模型中变量数进行补偿的效果,因此校正的 R2 值通常小于 R2 值。 然而,在进行这种调整时,您失去了该值作为可解释方差比例的解释。 在 GWR 中,自由度的有效值是所使用邻域的函数,因此与全局模型相比,例如广义线性回归工具使用的模型,校正程度可能非常明显。 因此,AICc 是对模型进行比较的首选方式。
  • AICc - 可用于检验模型性能并比较回归模型。 考虑到模型复杂性,具有较低 AICc 值的模型将更好地拟合观测数据。 AICc 不是拟合度的绝对度量,但对于比较适用于同一因变量且具有不同解释变量的模型非常有用。 如果两个模型的 AICc 值相差大于 3,具有较低 AICc 值的模型将被视为更佳的模型。 将 GWR AICc 值与概化线性回归 (GLR) AICc 值进行比较是评估从全局模型 (GLR) 移动到局部回归模型 (GWR) 的优势的一种方法。

    参见 Gollini 等人在用于计算所有模型类型的 AICc 的公式的其他资源部分。

  • Sigma 平方 - 此值为残差方差(标准差的平方)的最小二乘估计值。 该统计数据的较小值更适合。 此值为正规化残差平方和(残差平方和除以残差的有效自由度)。 Sigma 平方用于 AICc 计算。
  • Sigma 平方 MLE - 此值为残差方差(标准差的平方)的最大似然估计值 (MLE)。 该统计数据的较小值更适合。 可通过将残差平方和除以输入要素数量来计算该值。
  • 有效自由度 - 此值反映了拟合值的方差与系数估计值的偏差之间的折衷,与邻域大小的选择有关。 邻域接近无穷大时,每个要素的地理权重都将接近 1,系数估计值与全局 GLR 模型的相应值将非常接近。 对于较大的邻域,系数的有效数量将接近实际数量;局部系数估计值将具有较小的方差,但偏差将非常大。 相反,邻域变小并接近零时,每个要素的地理权重都将接近零(回归点本身除外)。 对于非常小的邻域,系数的有效数量为观测值的数量,局部系数估计值将具有较大方差但偏差较低。 该有效数量用于计算多个其他诊断测量值。
  • 伪 t 统计数据校正关键值 - 这是在 95% 置信度的双侧 t 检验中用于检验系数的统计显著性的校正关键值。 该值对应于 0.05 的显著性级别 (alpha) 除以有效自由度。 此校正可控制解释变量显着性的族错误率 (FWER)。

输出图表

该工具将散点图矩阵和直方图输出到内容窗格。 散点图矩阵包括一个因变量和最多九个解释变量。 直方图显示偏差残差和正态分布曲线。

二进制(逻辑)

二元模型类型假定因变量的值为二元(0 或 1)值。

要素类和添加字段

输出要素包含每个解释变量的截距 (INTERCEPT)、截距 (SE_INTERCEPT) 的标准误差、系数和标准误差字段,报告成为 1 的概率、预测、偏差残差、GInfluence 和局部百分比偏差。

解释消息和诊断

消息中提供了分析的详细信息,包括分析的要素数目、因变量和解释变量以及指定的相邻要素数。 此外,还会报告以下诊断:

  • 由全局模型解释的 % 偏差(非空间)- 用于检验拟合度,并且可以量化全局模型 (GLR) 的性能。 其值在 0.0 和 1.0 之间变化,较高的数值更适合。 此值可解释为回归模型所涵盖的因变量方差的比例。
  • 由局部模型解释的 % 偏差 - 可用于检验拟合度,并且可以量化局部模型 (GWR) 的性能。 其值在 0.0 和 1.0 之间变化,较高的数值更适合。 此值可解释为局部回归模型所涵盖的因变量方差的比例。
  • 由局部模型和全局模型解释的 % 偏差 - 此比例是通过比较局部模型的残差平方和与全局模型的残差平方和来评估从全局模型 (GLR) 移动到局部回归模型 (GWR) 的优势的一种方法。 其值在 0.0 和 1.0 之间变化,值较高时表示局部回归模型与全局模型相比性能更佳。
  • AICc - 可用于检验模型性能并比较回归模型。 考虑到模型复杂性,具有较低 AICc 值的模型将更好地拟合观测数据。 AICc 不是拟合度的绝对度量,但对于比较适用于同一因变量且具有不同解释变量的模型非常有用。 如果两个模型的 AICc 值相差大于 3,具有较低 AICc 值的模型将被视为更佳的模型。 将 GWR AICc 值与普通最小二乘法 (OLS) AICc 值进行比较是评估从全局模型 (OLS) 移动到局部回归模型 (GWR) 的优势的一种方法。
  • Sigma 平方 - 此值为正规化残差平方和(残差平方和除以残差的有效自由度)。 此值为残差方差(标准差的平方)的最小二乘估计值。 该统计数据的较小值更适合。 Sigma 平方用于 AICc 计算。
  • Sigma 平方 MLE - 此值为残差方差(标准差的平方)的 MLE 值。 该统计数据的较小值更适合。 可通过将残差平方和除以输入要素数量来计算该值。
  • 有效自由度 - 此值反映了拟合值的方差与系数估计值的偏差之间的折衷,与邻域大小的选择有关。 邻域接近无穷大时,每个要素的地理权重都将接近 1,系数估计值与全局 GLR 模型的相应值将非常接近。 对于较大的邻域,系数的有效数量将接近实际数量;局部系数估计值将具有较小的方差,但偏差将非常大。 相反,邻域变小并接近零时,每个要素的地理权重都将接近零(回归点本身除外)。 对于非常小的邻域,系数的有效数量为观测值的数量,局部系数估计值将具有较大方差但偏差较低。 该有效数量用于计算多个其他诊断测量值。
  • 伪 t 统计数据校正关键值 - 这是在 95% 置信度的双侧 t 检验中用于检验系数的统计显著性的校正关键值。 该值对应于 0.05 的显著性级别 (alpha) 除以有效自由度。 此校正可控制解释变量显着性的 FWER。

输出图表

提供散点图矩阵、箱形图和偏差残差的直方图。

计数(泊松)

泊松模型类型假设因变量的值是计数。

要素类和添加字段

输出要素包含的字段有:截距 (INTERCEPT)、截距 (SE_INTERCEPT) 的标准误差、每个解释变量的系数和标准误差,以及对数变换前的预测值 (RAW_PRED)、预测、偏差残差、GInfluence、局部百分比偏差和条件数。

解释消息和诊断

消息中提供了分析的详细信息,包括分析的要素数目、因变量和解释变量以及指定的相邻要素数。 此外,还会报告以下诊断:

  • 由全局模型解释的 % 偏差(非空间)- 用于检验拟合度,并且可以量化全局模型 (GLR) 的性能。 其值在 0.0 和 1.0 之间变化,较高的数值更适合。 此值可解释为回归模型所涵盖的因变量方差的比例。
  • 由局部模型解释的 % 偏差 - 可用于检验拟合度,并且可以量化局部模型 (GWR) 的性能。 其值在 0.0 和 1.0 之间变化,较高的数值更适合。 此值可解释为局部回归模型所涵盖的因变量方差的比例。
  • 由局部模型和全局模型解释的 % 偏差 - 此比例是通过比较局部模型的残差平方和与全局模型的残差平方和来评估从全局模型 (GLR) 移动到局部回归模型 (GWR) 的优势的一种方法。 其值在 0.0 和 1.0 之间变化,值较高时表示局部回归模型与全局模型相比性能更佳。
  • AICc - 可用于检验模型性能并比较回归模型。 考虑到模型复杂性,具有较低 AICc 值的模型将更好地拟合观测数据。 AICc 不是拟合度的绝对度量,但对于比较适用于同一因变量且具有不同解释变量的模型非常有用。 如果两个模型的 AICc 值相差大于 3,具有较低 AICc 值的模型将被视为更佳的模型。 将 GWR AICc 值与 OLS AICc 值进行比较是评估从全局模型 (OLS) 移动到局部回归模型 (GWR) 的优势的一种方法。
  • Sigma 平方 - 此值为正规化残差平方和(残差平方和除以残差的有效自由度)。 此值为残差方差(标准差的平方)的最小二乘估计值。 该统计数据的较小值更适合。 Sigma 平方用于 AICc 计算。
  • Sigma 平方 MLE - 此值为残差方差(标准差的平方)的 MLE 值。 该统计数据的较小值更适合。 可通过将残差平方和除以输入要素数量来计算该值。
  • 有效自由度 - 此值反映了拟合值的方差与系数估计值的偏差之间的折衷,与邻域大小的选择有关。 邻域接近无穷大时,每个要素的地理权重都将接近 1,系数估计值与全局 GLR 模型的相应值将非常接近。 对于较大的邻域,系数的有效数量将接近实际数量;局部系数估计值将具有较小的方差,但偏差将非常大。 相反,邻域变小并接近零时,每个要素的地理权重都将接近零(回归点本身除外)。 对于非常小的邻域,系数的有效数量为观测值的数量,局部系数估计值将具有较大方差但偏差较低。 该有效数量用于计算多个其他诊断测量值。
  • 伪 t 统计数据校正关键值 - 这是在 95% 置信度的双侧 t 检验中用于检验系数的统计显著性的校正关键值。 该值对应于 0.05 的显著性级别 (alpha) 除以有效自由度。 此校正可控制解释变量显着性的 FWER。

输出图表

内容窗格中提供散点图矩阵(最多可包括 19 个变量)以及偏差残差的直方图和正态分布线。

其他实现方法注释与提示

在全局回归模型中(如 GLR),当两个或更多变量具有多重共线性时(当存在两个或更多冗余变量或者这些变量共同提供同一信息时),结果并不可靠。 地理加权回归工具为数据集中的各要素构建了一个局部回归方程。 如果用于特定解释变量的值出现空间聚类,则可能存在局部多重共线性问题。 输出要素中的条件数指明结果由于局部多重共线性出现不稳定性的时期。 如果要素的条件数大于 30、等于“空”或者等于 -1.7976931348623158e+308(对于 shapefile 来说),则结果是不可靠的。 需要对条件数进行比例调整,才能校正模型中的解释变量数。 这样可以使用不同数量的解释变量直接比较模型之间的条件数。

模型设计错误通常表示存在全局或局部多重共线性问题。 要确定问题出在哪里,请运行地理加权回归工具并检查每个解释变量的 VIF 值。 如果某些 VIF 值较大(例如,大于 7.5),则全局多重共线性会阻止解决问题。 但是,更有可能是局部多重共线性所导致的问题。 请尝试为各解释变量创建一个专题地图。 如果在地图上出现相同值的空间聚类,考虑将这些变量从模型中移除,或将这些变量与其他解释变量合并以便加大值的变化性。 例如,如果要对房屋价格进行建模且具有卧室和浴室变量,则可以将其合并以加大值的变化性,或将其表示为浴室/卧室的建筑面积。 应避免将空间组织人工变量或二进制变量用于高斯或泊松模型类型,避免将空间聚类名目或名义变量用于逻辑模型类型,并避免在构建 GWR 模型时使用几乎不可能具有值的变量。

局部多重共线性问题也可能阻止工具解析最佳距离范围或相邻要素数。 尝试指定手动间隔或用户定义距离范围或特定相邻要素计数。 然后检查输出要素中的条件数,以查看与局部多重共线性问题相关联的要素(条件数大于 30)。 在您找到最佳距离或相邻要素数后,最好临时移除这些要素。 请注意,与大于 30 的“条件数”相关联的结果不可靠。

其他资源

有许多资源可以帮助您了解有关 GLR 和 GWR 的更多信息。 请从回归分析基础知识开始或请通读回归分析教程

以下同样是有用的资源:

Brunsdon, C., Fotheringham, A. S., & Charlton, M. E. (1996). "Geographically weighted regression: a method for exploring spatial nonstationarity". Geographical analysis, 28(4), 281-298.

Fotheringham, Stewart A., Chris Brunsdon, and Martin Charlton. Geographically Weighted Regression: The analysis of spatially varying relationships. John Wiley & Sons, 2002.

Gollini, I., Lu, B., Charlton, M., Brunsdon, C., & Harris, P. (2015). "GWmodel: An R Package For Exploring Spatial Heterogeneity Using Geographically Weighted Models." Journal of Statistical Software, 63(17), 1–50.https://doi.org/10.18637/jss.v063.i17.

Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.

Nakaya, T., Fotheringham, A. S., Brunsdon, C., & Charlton, M. (2005). "Geographically weighted Poisson regression for disease association mapping". Statistics in medicine, 24(17), 2695-2717.

Páez, A., Farber, S., & Wheeler, D. (2011). "A simulation-based study of geographically weighted regression as a method for investigating spatially varying relationships". Environment and Planning A, 43(12), 2992-3010.