多比例地理加权回归 (MGWR) 的工作原理

多比例地理加权回归 (MGWR) 工具使用地理、城市规划和其他各种学科的高级空间回归技术。 它从地理加权回归 (GWR) 模型演变而来,该模型使用目标要素邻域内的解释变量和因变量来构建用于解释或预测的局部线性回归模型。 在 GWR 模型中,假定每个解释变量的相邻比例相同;在 MGWR 中,则不同。 MGWR 允许分析比例在解释变量之间变化。 MGWR 擅长处理包含数百个要素和数据集的大型数据集,其中因变量表现出空间异质性。 为了在较小的数据集中对空间变化的关系进行建模,其他工具可能更合适。 当前的多比例地理加权回归 (MGWR) 工具仅接受连续因变量。 不要使用二进制或计数数据运行模型。 这可能会导致偏差模型和无意义结果。

本主题的大部分内容将通过与其他回归方法比较来解释 MGWR。 在继续之前,对普通最小二乘 (OLS) 回归有一个基本的了解并熟悉 GWR 的邻域、加权方案和诊断将很有帮助。

了解有关 OLS 回归的详细信息

了解有关 GWR 的详细信息

回归模型选项

OLS、GWR 和 MGWR 都是线性回归模型,但它们在不同的空间比例上运行,并对数据集的空间异质性(研究区域内关系的一致性)做出不同的假设。 OLS 是一种全局模型。 假设数据生成过程在空间上是平稳的,因此单个系数可以解释每个解释变量和因变量之间的关系。 GWR 是一种局部模型,它通过允许系数随空间变化来放宽空间平稳性的假设。 然而,在 GWR 中,通过要求所有解释变量使用相同的邻域,假设所有局部关系在相同的空间比例上运行。 如果一个解释变量使用 20 个相邻要素进行计算,则所有解释变量也必须使用 20 个相邻要素。

然而,MGWR 不仅允许系数随空间变化,而且允许比例随不同解释变量变化。 MGWR 通过为每个解释变量使用单独的邻域,说明每个解释变量和因变量之间关系的不同空间比例以做到这一点。 这样,可以将在相对较大的空间比例上运行的解释变量(例如温度或大气压力)与在较小空间比例上运行的变量(例如人口密度或收入中位数)结合起来。

与 GWR 相比,MGWR 可估计更准确的局部系数并且遇到的多重共线性问题更少。 但是,MGWR 的处理时间比 GWR 长得多,并且随着数据大小的增加而增加,特别是对于大于 10,000 个点的数据集。

在决定将哪种模型应用于您的数据时,请考虑以下问题:

  • 我的模型应该在局部还是全局级别运行?
  • 我的模型中的解释变量是否在不同的空间比例上运行?
    • 如果您怀疑解释变量可能在不同的比例上运行,并且想对这些不同的比例进行识别和建模,请应用 MGWR。
  • 我的数据集有多大? 我要等多久才能得到结果?
    • 如果您的数据集非常大并且运行的是 MGWR 工具,工具执行应该会需要更长的时间。 如果使用 2020 年代初期的通用硬件(16 个逻辑处理器和 32 GB 内存)和典型参数,对于大于大约 10,000 个点的数据集,运行时间可能会是几个小时。 对于 50,000 个点的数据集,运行时间可能是几天。 对于 100,000 或更多点的数据集,可能会发生内存错误。

如果您仍然不确定将哪个本地模型(GWR 或 MGWR)应用于您的数据,请从 MGWR 开始。 当 MGWR 运行时,它也在特定设置下执行 GWR。 在地理处理消息中,您可以找到 GWR 诊断并将其与 MGWR 的诊断进行比较。 或者,您可以运行多个工具(OLS、GWR 和 MGWR)并使用地理处理消息中列出的 AICc 来比较模型并选择最佳模型。 如果您选择运行多个工具,请缩放所有模型或不缩放所有模型以确保输出具有可比性。

可能的应用

MGWR 可以应用于许多多变量分析和问题,例如:

  • 房间数量、建造年份、地块面积等各种要素是如何影响房屋价格的? 不同社区的关系是否有显著差异?
  • PM2.5 的分布与区域家庭收入、每户汽车数量或农业占国内生产总值百分比等经济变量有何关联?
  • 在精准农业中,土壤条件对作物产量在空间比例上的影响是否与温度、湿度和降水等大气变量相同?

性能和基准注意事项

多种因素会影响 MGWR 的运行时间。 运行时最重要的因素是要素数量。 运行时间随着要素数量呈立方增长。 邻域大小和解释变量的数量也会影响 MGWR 的运行时间,因为每个局部模型需要更多的计算。 为了尽快计算结果,MGWR 采用并行处理,并默认使用机器上可用的一半内核(逻辑处理器)。 为了获得更好的性能,可以提升并行处理因子环境的内核数。

工具输入

有几种方法可以提供解释变量的空间比例。

邻域(带宽)选择

MGWR 的一个关键增强是能够改变线性回归方程中每个解释变量的带宽(邻域)。 目标位置的解释变量的邻域包括有助于估计局部线性回归模型中解释变量系数的所有位置。 每个邻域都由一个形状和一个范围定义。

邻域选择方法参数存在以下三个选项,可用于分别估计每个解释变量的最佳空间比例:

  • 黄金搜索 - 使用黄金搜索算法来确定每个解释变量的相邻要素数目或距离范围。 此方法将测试指定的最小值和最大值之间的每个解释变量的多个值组合。 该过程为迭代过程,并且将使用先前值的结果来选择要测试的每个新组合。 所选择的最终值将具有最小的 AICc。 对于相邻要素数目选项,将使用最小相邻要素数最大相邻要素数参数来指定最小值和最大值。 对于距离范围选项,将使用最小搜索距离最大搜索距离参数来指定最小值和最大值。 所有解释变量将共享最小值和最大值,但每个解释变量的估计相邻要素数目或距离范围将有所不同(除非有两个或更多解释变量具有相同的空间比例)。 此选项所花费的计算时间最长,对于大型或高维数据集而言尤其如此。
  • 手动间隔 - 通过从最小值增加相邻要素数目或距离范围来确定每个解释的相邻要素数目或距离范围。 对于相邻要素数目选项,该方法将从最小相邻要素数参数的值开始。 随后,相邻要素的数目会按照相邻要素的数目增量参数的值进行增加。 此增量将重复一定次数,并需要使用增量数参数进行指定。 对于距离范围选项,该方法将使用最小搜索距离搜索距离增量增量数参数。 每个解释变量所使用的相邻要素数目或距离范围都将是一个已测试值,但每个解释变量的值可能不同。 此选项要比黄金搜索的速度更快,并且会经常估计可比较的邻域。
  • 用户定义 - 所有解释变量所使用的相邻要素数目或距离范围。 该值将使用相邻要素的数目距离范围参数进行指定。 如果您清楚最佳值,则此选项可帮助您实现最大程度的控制。

默认情况下,每个邻域选择方法的依存参数适用于所有解释变量。 但是,只能为针对邻域类型和选择方法使用相应覆盖参数的特定解释变量提供自定义邻域选择参数:黄金搜索的相邻要素数目手动间隔的相邻要素数目用户定义的相邻要素数目黄金搜索的搜索距离手动间隔的搜索距离用户定义的搜索距离。 要将自定义邻域用于特定解释变量,请在相应覆盖参数的第一列中提供解释变量,并在其他列中提供邻域的自定义选项。 这些列与它们所覆盖的参数名称相同;例如,如果您要将手动间隔与距离范围搭配使用,则搜索距离增量列将指定搜索距离增量参数的自定义值。 在工具对话框中,自定义邻域参数将位于自定义邻域选项参数类别下拉菜单中。

局部权重方案

MGWR 对每个局部模型的相邻要素应用一个地理权重(核)函数,以便更接近相邻的目标要素,对局部模型的结果产生更大的影响。 多比例地理加权回归工具在局部加权模式参数中提供了两个核选项:高斯双平方。 要了解有关使用核进行地理加权的更多信息,请参阅地理加权回归的工作原理。 在 MGWR 中,加权带宽根据解释变量而异。

高斯核和双平方核选项

缩放的数据和系数

默认情况下,所有解释变量和因变量都被缩放为均值为零,标准差为 1(也称为 Z 分数标准化)。 缩放数据值的估计系数以标准偏差解释;例如,系数 1.2 意味着解释变量增加 1 个标准差,则因变量相应增加 1.2 个标准差。 因为所有系数都使用一个共享单位,所以可以直接比较这些值以查看哪些解释变量对模型的影响最大。 通常建议对变量进行缩放,当变量的取值范围变化很大时,缩放尤其重要。 您可以通过取消选中缩放数据参数来选择不缩放数据。

在 OLS 和 GWR 等大多数线性回归模型中,线性缩放的系数是不变的。 这意味着如果您缩放输入数据、拟合回归模型、将结果重新缩放回原始单位后,结果将与未缩放前的数据相同。 然而,在 MGWR 中,缩放后再取消缩放,将不会产生从原始数据中接收到的相同模型。 这是因为反向拟合是一个迭代过程,其中每一步的结果取决于前一步的结果。 使用不同的起始比例会影响测试值的路径,并导致不同的 MGWR 模型。 缩放的结果通常最准确,因为缩放使变量的方差相等,并且当每个变量对数据的总方差贡献相等的量时,迭代过程通常会更快地收敛并获得更准确的值。 如果解释变量具有不同的方差,则方差较大的变量对迭代估计每一步骤的影响更大。 在大多数情况下,这种影响会对模型的最终带宽和系数产生负面影响。

为了便于解释缩放结果,工具输出的所有系数都将包含缩放值和未缩放到原始数据单位的值。 这些输出包括输出要素上的额外字段(也作为图层添加到输出组图层)和输出系数栅格工作空间参数目录中的额外栅格。 使用预测位置输出预测要素参数预测新位置时,所有预测值都未缩放为原始数据单元。 有关输出的更多信息,请参阅工具输出

工具输出

该工具生成各种不同的输出,包括用于输出要素、消息和图表的各个字段的图层组。 可选输出包括预测新位置值的要素类、邻域表和每个系数的栅格表面。

图层组和符号系统

默认输出符号系统图层使用分类颜色方案可视化局部线性回归模型的标准化残差。 检查残差模式以确定模型是否指定完好。 明确指定的回归模型的残差将处于正态分布,并且在空间上是随机的没有值的聚类。 您可以对回归残差运行空间自相关 (Global Moran's I) 工具来测试是否在空间上随机。 统计上显著性高低残差聚类表明 MGWR 模型不是最优解。

每个解释变量的所有系数的结果都将在图层组的不同图层中可视化。 每个要素图层呈现以零为中心的发散配色方案。 这允许您使用颜色来识别哪些变量与因变量具有正负关系。 每个解释变量系数的显著性也将在要素图层中可视化。 对于点,绿色晕圈表示具有 95% 置信度的统计显著性关系,灰色晕圈表示无显著性关系。 对于面,显著性关系用面中的纹理网格表示。 检查系数图层和显著性图层,以更好地了解解释变量的空间变化。 您可以利用从这种空间变化中获得的洞察力来制定政策。 当变量在全局统计上显著并且显示出很小的区域变化时,全局策略可能会运作良好,当变量在全局不显著但在某些地方表现出正相关关系、在其他地方表现出负相关关系时,局部策略可能会更有效。

消息和诊断

这些消息提供有关 MGWR 模型及其性能的信息。 消息分为几个部分。

系数估计的汇总统计

系数估计的汇总统计部分总结了整个研究区域内系数估计的平均值、标准差、最小值、中值和最大值。 每个系数的平均值反映了解释变量和因变量之间的关联。 标准差表示每个解释变量的空间变化。 较小的标准偏差意味着 OLS 拟合良好。 如果选中缩放数据参数,您可以比较解释变量的值。 如果未勾选缩放数据参数,则无法直接比较解释变量之间的系数值,因为单位可能不同。

模型诊断

模型诊断部分包括一个表格,其中显示了 GWR 和 MGWR 的几个模型诊断,包括 R2、调整后的 R2、AICc、残差方差和有效自由度数。 有关这些模型诊断的更多详细信息,请参阅地理加权回归的工作原理

注:

在某些情况下,用于比较的 GWR 模型可能无法计算。 在这种情况下,仅显示 MGWR 的诊断信息。

您可以使用 R2 和调整后的 R2 诊断来评估模型与数据的拟合优度。 R2 和调整后的 R2 越高,模型对数据的拟合越好。 通过解释变量的数量和有效自由度诊断来评估模型的复杂性。 更简单的模型具有更高的有效自由度和更少的参数。 如果模型的参数太多,则存在过度拟合数据的风险。 AICc 诊断说明了拟合优度和模型的复杂性。 多比例地理加权回归工具选择具有最低 AICc 的模型。

解释变量和相邻要素汇总

解释变量和邻域摘要部分显示每个解释变量的估计邻域和显著性水平。 对于基于相邻要素数量的邻域来说,最佳相邻要素数显示为计数和输入要素总数的百分比。 对于距离范围邻域,最佳距离范围与距离一起显示为输入要素对角线范围的百分比。 要素或范围的百分比对于描述解释变量的空间比例是有用的;例如,如果解释变量使用 75% 的要素作为相邻要素,则局部回归模型比局部模型更接近全局模型。 如果另一个解释变量仅使用 5% 的输入要素作为相邻要素,则它是一个更局部的模型。 对于所有邻域类型,将针对每个解释变量显示在 95% 置信水平上具有统计显著性的局部模型的计数和百分比。

最佳带宽搜索历史

最佳带宽和搜索历史部分显示可能的最佳带宽的搜索历史以及每组测试值的 AICc 值。 该工具开始通过为每个变量分配相同的值来搜索每个解释变量的最佳带宽:GWR 的最佳带宽。 然后,该工具会在每次迭代中调整每个变量的带宽并估计一个新的 AICc 值。 随着迭代的进行,AICc 值会减小,直到其保持稳定或增大时结束迭代。 用户自定义选项通常需要最少的迭代,而黄金搜索选项通常需要最多。

带宽汇总统计数据

带宽统计摘要部分总结了用于测试每个解释变量在每个局部模型中是否具有统计显著性的值。 这些统计数据包括 MGWR 的最佳邻域(相邻要素数或距离范围)、参数的有效数量、调整后的显著性水平 (alpha) 和调整后的伪 t 统计量临界值。 这些值用于为输出要素中的每个解释变量创建与统计显著性相关的字段。 调整后的 alpha 值通过显著性水平 (0.05) 除以参数的有效数量来计算;这控制了解释变量显著性的族错误率 (FWER)。 调整后的 alpha 用作具有有效自由度数的双边 t 检验中的显著性水平。

输出要素

多比例地理加权回归工具输出一个要素类,其中包括每个要素的局部诊断。 这些诊断包括回归残差、标准化残差、因变量的预测值、截距、解释变量系数、系数标准误差、系数伪 t 统计量、系数显着性、影响、Cook 距离、局部 R2 和条件数。 有关这些诊断的更多详细信息,请参阅地理加权回归的工作原理

图表

以下图表已添加到内容窗格中:

  • 变量之间的关系 - 包含多达 19 个变量的散点图矩阵,显示每个解释变量之间的散点图和相关性。 任何对之间的强相关性表明存在多重共线性。
  • 标准化残差分布 - 标准化残差的直方图。 标准化残差应服从均值为零、标准差为 1 的正态分布。
  • 标准化残差 VS 预测值 - 标准化残差与其相应预测值之间的散点图。 该图应该是随机的,并且不显示任何模式或趋势。

可选输出

可以在预测选项附加选项下拉菜单中指定以下可选输出。

  • 输出预测要素参数值是一个要素类,在预测位置参数指定的位置具有因变量的预测值。
  • 输出邻域表参数值保存一个表,其中包含消息的系数估计值汇总统计解释变量和邻域汇总部分的值。
  • 系数栅格工作空间参数指定保存系数栅格的工作空间(目录或地理数据库)。 这些系数栅格表面可以帮助解释系数的空间变化。

多重共线性

当两个或多个解释变量在回归模型中高度相关时,就会出现多重共线性。 这可能发生在 OLSGLRGWRMGWR 模型中。 多重共线性可能会对系数和最优邻域的估计产生负面影响,因为如果这些解释变量是相关的,则它们会相互共享信息,且回归模型无法区分变量的影响。 在中等情况下,估计的系数估计值可能存在偏差并且具有很高的不确定性。 在极端情况下,模型可能无法计算。 以下示例显示了三个相互高度相关的变量的散点图矩阵,使用它们作为解释变量的回归模型可能会遇到多重共线性问题。

冗余变量
每对变量都具有很强的相关性。

MGWR 中多重共线性的识别和预防

在 MGWR 模型中,多重共线性可能出现在多种情况下:

  • 解释变量之一为空间聚类。

    为防止这种情况,请映射每个解释变量并确定可能值很少或相同变量在空间上聚集的变量。 如果您观测到这些类型的变量,请考虑将它们从模型中删除或以增加值范围的方式表示它们。 例如,将可变数量的卧室更好地表示为每平方英尺的卧室。

  • 两个或多个解释变量在全局范围内高度相关。

    使用广义线性回归运行全局模型并检查每个解释变量的方差膨胀因子 (VIF)。 如果 VIF 值很大,例如 7.5 或更高,则全局多重共线性可能会阻止 MGWR 运行。 在这种情况下,变量是多余的,因此请考虑从模型中删除变量之一或将它们与其他解释变量组合以增加值的变化。

  • 定义的邻域太小。

    即使前两种情况没有发生在全局范围内,也可能发生在局部模型中。 要对此进行测试,请检查输出要素类中的局部条件编号。 较高的局部条件数表明由于局部多重共线性,结果不稳定。 如果是这种情况,请使用更多的相邻要素或距离范围重新运行模型。 作为一般规则,对要素的条件数大于 30 或为空的结果持怀疑态度。 对于 shapefile,空值用值 -1.7976931348623158e+308 表示。 条件数经过比例调整以校正模型中解释变量的数量,这使您可以直接比较使用不同数量的解释变量的模型之间的条件数。

检查所有这些条件可能有助于解决多重共线性问题,但也许并不总能解决这些问题。

系数和带宽估计

解释变量的系数和带宽是通过一个被称为反向拟合的流程来估计(Breiman et al. 1985)。 该程序最初是为估计广义加性模型的参数而开发的,可逐个遍历解释变量,并使用平滑函数来校准系数,同时保持所有其他解释变量不变。 此流程将在解释变量上重复,直到系数的值稳定并且在连续迭代后不改变。

当应用于 MGWR (Fotheringham et al. 2017) 时,平滑函数是一个单变量 GWR 模型,将先前的残差调整预测与单个解释变量(将所有其他解释变量视为常数)进行回归。 此 GWR 模型使用相同的邻域选择方法(黄金搜索、手动间隔或用户自定义)来估计解释变量的空间比例。 有关该流程的完整描述,请参阅附加资源部分。

反向拟合算法必须从系数的初始化值开始。 这些初始值由所有解释变量的 GWR 模型估计。 如果此模型由于多重共线性而失败,则改用 OLS。 如果该流程在 25 次迭代后仍未收敛,则使用最后一次迭代的系数值。

其他资源

有关详细信息,请参阅以下资源:

  • Breiman, L., and J. H. Friedman. 1985. "Estimating optimal transformations for multiple regression and correlations (with discussion)." Journal of the American Statistical Association 80, (391): 580–619. https://doi.org/10.2307/2288473. JSTOR 2288473.
  • Brunsdon C.A., S. Fotheringham, and M. E. Charlton. 1996. "Geographically weighted regression: A method for exploring spatial nonstationarity." Geographical Analysis 28: 281–298.
  • Fotheringham, A. S., W. Yang, and W. Kang. 2017. "Multiscale geographically weighted regression (MGWR)." Annals of the American Association of Geographers 107: 1247–265. https://doi.org/10.1080/24694452.2017.1352480
  • Oshan, T. M., Z. Li, W. Kang, L. J. Wolf, and A. S. Fotheringham. 2019. "mgwr: A Python implementation of multiscale geographically weighted regression for investigating process spatial heterogeneity and scale." ISPRS International Journal of Geo-Information 8: 269.
  • Yu, H., A. S. Fotheringham, Z. Li, T. Oshan, W. Kang, and L. J. Wolf. 2020. "Inference in multiscale geographically weighted regression." Geographical Analysis 52: 87–106.

相关主题