地理加权回归 (GWR) 是用于地理及其他学科的若干空间回归技术中的一种。通过对数据集中的各要素拟合回归方程,GWR 可以评估您要尝试了解或预测的变量或过程的局部模型。GWR 构建这些独立方程的方法是:将落在每个目标要素的邻域内的要素的因变量和解释变量进行合并。所分析的每个邻域的形状和范围取决于邻域类型和邻域选择方法参数。GWR 通常被要求用于处理包含数百个要素的数据集。它不适用于小型数据集,也不能用于处理多点数据。
注:
此工具已针对 ArcGIS Pro 2.3 进行了更新,其中包括其他学术研究,对过去几年开发的方法的改进,并扩展了对其他模型的支持。通过添加计数(泊松)和二进制(逻辑)模型,可将该工具应用于更广泛的问题。
潜在的应用
地理加权回归可用于各种应用,包括以下内容:
- 整个研究区域的教育程度和收入之间的关系是否一致?
- 特定疾病或传染病的患病几率是否会随着与水体要素的接近而增加?
- 有哪些关键可变因素可以解释森林火灾频发的原因?
- 应对哪些栖息地加以保护以促进濒危物种的再引入?
- 哪些地区的孩子会取得高测试分数? 似乎与哪些特征联系在一起? 每个特征分别在哪些地方最为重要?
- 影响高患癌率的因素是否在研究区域内保持一致?
输入
要运行 GWR 工具,请在输入要素参数中提供一个表示因变量的字段以及一个或多个表示解释变量的字段。这些字段必须为数字且具有值范围。将从分析中排除因变量或解释变量中包含缺失值的要素;但是,在运行 GWR 之前,您可以使用填充缺失值工具完成数据集。接下来,您必须基于要分析的数据选择模型类型。为数据使用适当的模型非常重要。模型类型的描述以及为数据确定适当类型的操作方法如下。
模型类型
GWR 可提供三种类型的回归模型:连续、二进制和计数。在统计文献中,这些回归类型分别被称为高斯、逻辑和泊松。应基于因变量的测量和汇总方式及其包含的值范围,为您的分析选择模型类型。
连续(高斯)
如果因变量可以采用温度或总销售额等大范围的值,则请使用连续(高斯)模型类型。理想情况下,因变量将是正态分布的。您可以针对因变量创建直方图,以验证它是否为正态分布的。如果直方图是对称的钟形曲线,则请使用高斯模型类型。大多数值将聚类在均值附近,很少有值与均值完全脱离。均值左边的值应该与右边的值一样多,所以分布的均值和中值相同。如果因变量似乎不是正态分布的,则请考虑将其重新分类为二进制变量。例如,如果您的因变量是平均家庭收入,您可以将其重新编码为二进制变量,其中 1 表示高于国家收入中位数,0(零)表示低于国家收入中位数。使用计算字段工具中的重分类帮助程序函数可以将连续字段重分类为二进制字段。
二进制(逻辑)
如果因变量可以采用两个可能值中的一个(如成功和失败,或者存在和不存在),则请使用二进制(逻辑)模型类型。包含因变量的字段必须为数字且仅包含 1 和 0。如果您将感兴趣的事件(例如成功或动物存在)编码为 1,则回归将模拟 1 的概率,因此结果将更容易解释。全局和本地数据中的 1 和 0 必须存在变化。如果针对因变量创建直方图,则它应该仅显示 1 和 0。可以使用“按圆选择” 工具选择地图上的不同区域并确保每个区域中都存在 1 和 0 的组合,以检查局部变化。
计数(泊松)
如果因变量是离散的,并且表示事件的出现次数(如犯罪数量),则应考虑使用计数(泊松)模型类型。如果因变量表示一个比率,并且该比率的分母是固定值(如每月销售额或每 10,000 人口中患癌症的人数),则也可以使用计数模型。计数(泊松)模型假设因变量的均值和方差相等,并且因变量的值不能为负数或包含小数。
选择邻域(带宽)
邻域(也称为带宽)是用于每个局部回归方程的距离范围或相邻要素数,并且因为它可以控制模型中的平滑程度,它可能是地理加权回归要考虑的最重要的参数。所分析的邻域的形状和范围基于邻域类型和邻域选择方法参数的输入,其中有一处修改:当邻域中的要素数量超过 1000 时,仅在每个局部回归方程中使用最相邻的 1000 个要素。
邻域类型参数可以取决于相邻要素数或距离范围。当使用相邻要素数时,邻域大小是指定相邻要素数的函数,这将使邻域在要素密集位置较小,而在要素稀疏位置较大。当使用距离范围时,则研究区域中的每个要素的邻域大小将保持不变,这将使要素密集位置的邻域包含要素较多,而要素稀疏位置的邻域包含要素较少。
邻域选择方法参数可指定邻域大小的确定方式(所使用的实际距离或相邻要素数)。当通过黄金搜索或手动间隔选项选择邻域时,将始终以最小化 Akaike 信息准则 (AICc) 的值为基础。或者,您可以使用用户定义选项设置特定的邻域距离或相邻要素数。
选择黄金搜索选项时,工具将使用黄金分割搜索方法确定距离范围或相邻要素数参数的最佳值。黄金搜索首先确定最大和最小距离,并在它们之间以不同距离逐步测试 AICc。一旦数据集中的要素超过 1000 个,则最大距离将是任意要素至多有 1000 个相邻要素的距离。最小距离则是每个要素至少有 20 个相邻要素的距离。如果要素少于 1000 个,则最大距离将是每个要素具有 n/2 个相邻要素的距离(一半的要素作为相邻要素),而最小距离则是每个要素具有至少 n 的 5% 个相邻要素(数据集中 5% 的要素作为相邻要素)的距离。黄金搜索可将具有最低 AICc 的相邻要素的距离或数量确定为邻域大小。
通过手动设置黄金搜索的起始和结束距离,可以使用最小搜索距离和最大搜索距离参数(针对距离范围)和最小相邻要素数和最大相邻要素数(针对相邻要素数)来限制搜索范围。
局部权重方案
GWR 的强大之处在于,它可以将地理权重应用于每个局部回归方程中所使用的要素。距离回归点较远的要素的权重较小,因此该要素对目标要素的回归结果影响较小;而距离回归点较近的要素在回归方程中则具有更大的权重。需使用核来确定权重;核是距离衰减函数,可用于确定权重随距离增加而减少的速度。地理加权回归工具提供了局部权重方案参数中的两个核选项(高斯和 双平方。
高斯权重方案可为回归要素(要素 i)分配值为 1 的权重,而随着周围要素(j 要素)与回归要素之间距离的增加,其权重将变得平滑且逐渐缩小。例如,如果要素 i 与 j 相隔 0.25 个单位,则方程所得的权重将约为 0.88。如果要素 i 和 j 相隔 0.75 个单位,则所得权重仅约为 0.32。由于要素 j的距离较远,因此其对回归的影响较小。高斯权重方案永远不会达到零,但对于远离回归要素的要素,其权重可能非常小,并且对回归几乎没有影响。从概念上讲,当使用高斯权重方案时,输入数据中的每个其他要素都是相邻要素,并将被分配一个权重。但是为了保证计算效率,如果相邻要素数超过 1000,则仅将最相邻的 1000 个要素合并到各局部回归中。高斯权重方案可确保每个回归要素将具有多个相邻要素,因此增加了这些相邻要素值中的变化几率。这可以避免地理加权回归中出现名为局部共线性的一个众所周知的问题。如果相邻要素的影响变得平滑且逐渐变得不重要,而无论周围要素距离多远这种影响总是存在,则应使用高斯权重方案。
双平方权重方案与高斯类似。它可为回归要素(要素 i)分配值为 1 的权重,而随着周围要素(j 要素)与回归要素之间距离的增加,其权重将变得平滑且逐渐缩小。但是,指定邻域之外的所有要素都将被分配零,且不会影响目标要素的局部回归。将双平方权重方案与具有相同邻域规范的高斯权重方案进行比较时,双平方中的权重将以更快的速度减小。您可使用双平方权重方案指定一个距离,在该距离之外的要素将对回归结果没有影响。由于双平方排除了一定距离以外的要素,因此无法保证周围邻域中存在足够的(具有影响的)要素以生成良好的局部回归分析。如果相邻要素的影响变得平滑且逐渐变得不重要,并且一定距离之外的影响不再存在,则应使用高斯权重方案。例如,回归通常用于房价建模,而周围房屋的销售价格则是一个常见的解释变量。这些周围的房屋被称为比较或可比属性。贷款机构有时会建立规则,要求可比房屋位于最大距离内。在该示例中,可以在相当于贷款机构指定的最大距离的邻域内使用双平方。
预测
您可以使用已创建的回归模型对同一研究区域内的其他要素(点或面)进行预测。要创建这些预测,每个预测位置都应包含每个所提供的解释变量的对应值。如果输入要素和预测位置参数中的字段名称不匹配,则将提供变量匹配参数。当匹配解释变量时,输入要素和预测位置参数中的字段必须属于同一类型(例如,双精度字段必须与双精度字段匹配)。
系数栅格
GWR 的一个强大之处在于它允许您探索空间变化关系。创建系数栅格就是一种可将解释变量和因变量之间关系的跨空间变化可视化的方法。为系数栅格工作空间参数提供路径名称时,GWR 工具将为模型截距和每个解释变量创建系数栅格表面。栅格的分辨率由像元大小环境来控制。使用邻域类型和局部权重方案参数,在每个栅格像元周围构建邻域(核)。基于距离的权重将根据从栅格像元中心到邻域(带宽)内所有输入要素的距离进行计算。这些权重将用于计算该栅格像元的唯一回归方程。由于基于距离的权重发生变化,并且落在邻域(带宽)内的输入要素可能不同,因此不同栅格像元之间的系数会有所不同。
注:
目前尚未就如何评估 GWR 模型系数的置信度达成共识。尽管为了将系数的估计值是否显著不同于零的推断作为基础,已经使用了 t 检验,但仍需对此方法的有效性进行积极研究。有一种可用于非正式评估系数的方法,就是将系数除以为每个要素提供的标准误差,将其作为使用相关标准误差缩放估计幅度的方法,然后将这些结果可视化,寻找与其系数相关的高标准误差的聚类。
输出
地理加权回归工具会生成各种不同的输出。在工具执行期间,GWR 模型的汇总和统计汇总可作为地理处理窗格底部的消息使用。要访问消息,请将鼠标指针悬停在进度条上、单击弹出按钮或展开地理处理窗格中的消息部分。您还可以通过地理处理历史访问之前运行地理加权回归工具的消息。此工具还将生成输出要素、图表和可选的输出预测要素和系数栅格表面。输出要素和关联图表将自动添加到内容窗格中,并会对模型残差应用热/冷渲染方案。生成的诊断和图表取决于输入要素的模型类型,如下所述。
计算所有模型的全局模型统计数据。
连续(高斯)
要素类和添加字段
除回归残差之外,输出要素参数包含表示观测所得和预测的 y 值、条件数 (COND)、Local R2、解释变量系数和标准误差的字段。
此外,还会报告截距 (SE_INTERCEPT)、截距 (INTERCEPT) 的标准误差、每个解释变量的系数和标准误差、预测、残差、标准残差、影响、Cook 距离和局部 R 平方。
解释消息和诊断
消息中提供了分析的详细信息,包括分析的要素数目、因变量和解释变量以及指定的相邻要素数。此外,还会报告以下屏幕截图中的诊断:
- R2 - R 平方可用于检验拟合度。其值在 0.0 到 1.0 范围内变化,值越大越好。此值可解释为回归模型所涵盖的因变量方差的比例。R2 计算的分母为因变量值平方和。向模型中再添加一个解释变量不会更改分母但会更改分子;这将出现改善模型拟合的情况(但可能为假象)。请参阅下文中的“校正的 R2”。
- AdjR2 - 由于上述 R2 值问题,校正的 R 平方值的计算将按分子和分母的自由度对它们进行正规化。这具有对模型中变量数进行补偿的效果,因此校正的 R2 值通常小于 R2 值。但是,执行此校正时,无法将该值的解释作为所解释方差的比例。在 GWR 中,自由度的有效值是所使用邻域的函数,因此与全局模型(如广义线性回归 (GLR))相比,校正程度可能非常明显。因此,AICc 是对模型进行比较的首选方式。
- AICc - 可用于检验模型性能并比较回归模型。考虑到模型复杂性,具有较低 AICc 值的模型将更好地拟合观测数据。AICc 不是拟合度的绝对度量,但对于比较适用于同一因变量且具有不同解释变量的模型非常有用。如果两个模型的 AICc 值相差大于 3,具有较低 AICc 值的模型将被视为更佳的模型。将 GWR AICc 值与 GLR AICc 值进行比较是评估从全局模型 (GLR) 移动到局部回归模型 (GWR) 的优势的一种方法。
- Sigma 平方 - 此值为残差方差(标准差的平方)的最小二乘估计值。此统计值越小越好。此值为正规化残差平方和(残差平方和除以残差的有效自由度)。Sigma 平方用于 AICc 计算。
- Sigma 平方 MLE - 此值为残差方差(标准差的平方)的最大似然估计值 (MLE)。此统计值越小越好。可通过将残差平方和除以输入要素数量来计算该值。
- 有效自由度 - 此值反映了拟合值的方差与系数估计值的偏差之间的折衷,与邻域大小的选择有关。邻域接近无穷大时,每个要素的地理权重都将接近 1,系数估计值与全局 GLR 模型的相应值将非常接近。对于较大的邻域,系数的有效数量将接近实际数量;局部系数估计值将具有较小的方差,但偏差将非常大。相反,邻域变小并接近零时,每个要素的地理权重都将接近零(回归点本身除外)。对于非常小的邻域,系数的有效数量为观测值的数量,局部系数估计值将具有较大方差但偏差较低。该有效数量用于计算多个其他诊断测量值。
输出图表
在内容窗格中提供散点图矩阵(最多可包括 19 个变量)以及显示正态分布线的偏差残差直方图。
二进制(逻辑)
要素类和添加字段
将报告截距 (INTERCEPT)、截距 (SE_INTERCEPT) 的标准误差、每个解释变量的系数和标准误差、以及成为 1 的概率、预测、偏差残差、GInfluence 和局部百分比偏差。
解释消息和诊断
消息中提供了分析的详细信息,包括分析的要素数目、因变量和解释变量以及指定的相邻要素数。此外,还会报告以下屏幕截图中的诊断:
- 由全局模型解释的 % 偏差(非空间)- 用于检验拟合度,并且可以量化全局模型 (GLR) 的性能。其值在 0.0 到 1.0 范围内变化,值越大越好。此值可解释为回归模型所涵盖的因变量方差的比例。
- 由局部模型解释的 % 偏差 - 可用于检验拟合度,并且可以量化局部模型 (GWR) 的性能。其值在 0.0 到 1.0 范围内变化,值越大越好。此值可解释为局部回归模型所涵盖的因变量方差的比例。
- 由局部模型和全局模型解释的 % 偏差 - 此比例是通过比较局部模型的残差平方和与全局模型的残差平方和来评估从全局模型 (GLR) 移动到局部回归模型 (GWR) 的优势的一种方法。其值在 0.0 和 1.0 之间变化,值较高时表示局部回归模型与全局模型相比性能更佳。
- AICc - 可用于检验模型性能并比较回归模型。考虑到模型复杂性,具有较低 AICc 值的模型将更好地拟合观测数据。AICc 不是拟合度的绝对度量,但对于比较适用于同一因变量且具有不同解释变量的模型非常有用。如果两个模型的 AICc 值相差大于 3,具有较低 AICc 值的模型将被视为更佳的模型。将 GWR AICc 值与 OLS AICc 值进行比较是评估从全局模型 (OLS) 移动到局部回归模型 (GWR) 的优势的一种方法。
- Sigma 平方 - 此值为正规化残差平方和(残差平方和除以残差的有效自由度)。此值为残差方差(标准差的平方)的最小二乘估计值。此统计值越小越好。Sigma 平方用于 AICc 计算。
- Sigma 平方 MLE - 此值为残差方差(标准差的平方)的最大似然估计值 (MLE)。此统计值越小越好。可通过将残差平方和除以输入要素数量来计算该值。
- 有效自由度 - 此值反映了拟合值的方差与系数估计值的偏差之间的折衷,与邻域大小的选择有关。邻域接近无穷大时,每个要素的地理权重都将接近 1,系数估计值与全局 GLR 模型的相应值将非常接近。对于较大的邻域,系数的有效数量将接近实际数量;局部系数估计值将具有较小的方差,但偏差将非常大。相反,邻域变小并接近零时,每个要素的地理权重都将接近零(回归点本身除外)。对于非常小的邻域,系数的有效数量为观测值的数量,局部系数估计值将具有较大方差但偏差较低。该有效数量用于计算多个其他诊断测量值。
输出图表
提供散点图矩阵、箱形图和偏差残差的直方图。
计数(泊松)
解释消息和诊断
消息中提供了分析的详细信息,包括分析的要素数目、因变量和解释变量以及指定的相邻要素数。此外,还会报告以下屏幕截图中的诊断:
- 由全局模型解释的 % 偏差(非空间)- 用于检验拟合度,并且可以量化全局模型 (GLR) 的性能。其值在 0.0 到 1.0 范围内变化,值越大越好。此值可解释为回归模型所涵盖的因变量方差的比例。
- 由局部模型解释的 % 偏差 - 可用于检验拟合度,并且可以量化局部模型 (GWR) 的性能。其值在 0.0 到 1.0 范围内变化,值越大越好。此值可解释为局部回归模型所涵盖的因变量方差的比例。
- 由局部模型和全局模型解释的 % 偏差 - 此比例是通过比较局部模型的残差平方和与全局模型的残差平方和来评估从全局模型 (GLR) 移动到局部回归模型 (GWR) 的优势的一种方法。其值在 0.0 和 1.0 之间变化,值较高时表示局部回归模型与全局模型相比性能更佳。
- AICc - 可用于检验模型性能并比较回归模型。考虑到模型复杂性,具有较低 AICc 值的模型将更好地拟合观测数据。AICc 不是拟合度的绝对度量,但对于比较适用于同一因变量且具有不同解释变量的模型非常有用。如果两个模型的 AICc 值相差大于 3,具有较低 AICc 值的模型将被视为更佳的模型。将 GWR AICc 值与 OLS AICc 值进行比较是评估从全局模型 (OLS) 移动到局部回归模型 (GWR) 的优势的一种方法。
- Sigma 平方 - 此值为正规化残差平方和(残差平方和除以残差的有效自由度)。此值为残差方差(标准差的平方)的最小二乘估计值。此统计值越小越好。Sigma 平方用于 AICc 计算。
- Sigma 平方 MLE - 此值为残差方差(标准差的平方)的最大似然估计值 (MLE)。此统计值越小越好。可通过将残差平方和除以输入要素数量来计算该值。
- 有效自由度 - 此值反映了拟合值的方差与系数估计值的偏差之间的折衷,与邻域大小的选择有关。邻域接近无穷大时,每个要素的地理权重都将接近 1,系数估计值与全局 GLR 模型的相应值将非常接近。对于较大的邻域,系数的有效数量将接近实际数量;局部系数估计值将具有较小的方差,但偏差将非常大。相反,邻域变小并接近零时,每个要素的地理权重都将接近零(回归点本身除外)。对于非常小的邻域,系数的有效数量为观测值的数量,局部系数估计值将具有较大方差但偏差较低。该有效数量用于计算多个其他诊断测量值。
输出图表
在内容窗格中提供散点图矩阵(最多可包括 19 个变量)以及偏差残差的直方图和正态分布线。
其他实现方法注释与提示
在全局回归模型中(如 GLR),当两个或更多变量具有多重共线性时(当存在两个或更多冗余变量或者这些变量共同提供同一信息时),结果并不可靠。地理加权回归工具为数据集中的各要素构建了一个局部回归方程。如果用于特定解释变量的值出现空间聚类,则可能存在局部多重共线性问题。输出要素参数中的条件数指明结果由于局部多重共线性出现不稳定性的时期。一般来说,如果要素的条件数大于 30、等于“空”或者等于 -1.7976931348623158e+308(对于 shapefile 来说),则结果是不可靠的。条件数经过比例调整,以校正模型中解释变量的数量。由此可以使用不同数量的解释变量来直接比较模型之间的条件数。
模型设计错误通常表示存在全局或局部多重共线性问题。要确定出现问题的位置,使用 GLR 运行模型,然后检查每个解释变量的 VIF 值。如果某些 VIF 值较大(例如,大于 7.5),则全局多重共线性会阻止 GWR 解决问题。但是,更有可能是局部多重共线性所导致的问题。请尝试为各解释变量创建一个专题地图。如果在地图上出现相同值的空间聚类,考虑将这些变量从模型中移除,或将这些变量与其他解释变量合并以便加大值的变化性。例如,如果要对房屋价格进行建模且具有卧室和浴室变量,则可能需要将其合并以加大值的变化性,或将其表示为浴室/卧室的建筑面积。应避免将空间组织人工变量或二进制变量用于高斯或泊松模型类型,避免将空间聚类名目或名义变量用于逻辑模型类型,并避免在构建 GWR 模型时使用几乎不可能具有值的变量。
局部多重共线性问题也可能阻止工具解析最佳距离范围或相邻要素数。尝试指定手动间隔或用户定义距离范围或特定相邻要素计数。然后检查输出要素类中的条件数,以查看与局部多重共线性问题相关联的要素(条件数大于 30)。在您找到最佳距离或相邻要素数后,最好临时移除这些问题要素。请注意,与大于 30 的“条件数”相关联的结果不可靠。
使用以下空间加权函数计算 GWR 的参数估计和预测值:exp(-d^2/b^2)。在各种 GWR 软件实现中,此加权函数可能各有不同。因此,GWR 工具的结果与其他 GWR 软件包的结果可能并不完全一致。
其他资源
有多种资源可帮助您了解有关广义线性回归和地理加权回归的详细信息。请从回归分析基础知识开始或请通读回归分析教程。
以下同样是有用的资源:
Brunsdon, C., Fotheringham, A. S., & Charlton, M. E. (1996). "Geographically weighted regression: a method for exploring spatial nonstationarity". Geographical analysis, 28(4), 281-298.
Fotheringham, Stewart A., Chris Brunsdon, and Martin Charlton. Geographically Weighted Regression: the analysis of spatially varying relationships. John Wiley & Sons, 2002.
Gollini, I., Lu, B., Charlton, M., Brunsdon, C., & Harris, P. (2013). GWmodel: an R package for exploring spatial heterogeneity using geographically weighted models. arXiv preprint arXiv:1306.0413.
Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. Esri Press, 2005.
Nakaya, T., Fotheringham, A. S., Brunsdon, C., & Charlton, M. (2005). "Geographically weighted Poisson regression for disease association mapping". Statistics in medicine, 24(17), 2695-2717.
Páez, A.、Farber, S. 和 Wheeler, D. (2011)。"A simulation-based study of geographically weighted regression as a method for investigating spatially varying relationships". Environment and Planning A, 43(12), 2992-3010.