了解 Moran 特征向量

“空间统计”工具箱中的许多工具都需要定义邻域(或概念化空间关系),用于确定互为相邻要素的要素并在每对相邻要素之间分配权重。 邻域和权重共同定义空间权重矩阵 (SWM),表示所有要素对之间的空间关系。 对于 N 个要素,SWM 将具有 N 行和 N 列(方形矩阵),其中行表示对中的第一个要素,列表示对中的第二个要素,矩阵中对应的值表示对之间的权重(或关系)。 例如,当使用面邻接邻域时,任何两个相连的面在相应单元格中将具有值 1,而如果其不相连,则其在相应单元格中将具有值 0。

可以根据特征向量和特征值将任何方形对称矩阵分解为 N 个独立(不相关)的分量,每个分量代表原始矩阵的一个独立因子(类似于主成分分析将变量重构为不相关分量的方式)。 这些分量包含原始矩阵的所有信息,但经过重构和分离,以便单独对其进行研究,通常可以揭示隐藏在原始矩阵中的核心结构。 当矩阵为 SWM 时,这些特征向量称为 Moran 特征向量(也称为空间分量),表示要素和 SWM 的核心空间模式。

每个 Moran 特征向量将为每个要素分配一个数值,并且由于通常会对其进行映射和符号化以可视化空间模式,因此其通常称为 Moran 特征向量地图 (MEM)。 前几个 MEM(具有最大特征值和最强模式的 MEM)通常对应于广泛的全局空间模式,例如南北或东西趋势,而后续 MEM(具有较小特征值和较弱模式的 MEM)通常表示更局部的空间模式。 例如,下图显示了使用面邻接性定义 SWM 的六边形镶嵌的各种 MEM。 顶行显示了前 4 个 MEM,这些 MEM 表示更广泛的空间模式;底行显示了 4 个后续 MEM,这些 MEM 的模式更为局部化。

相同要素和 SWM 的 8 个 MEM

值得注意的是,创建 MEM 仅使用 SWM 和要素的位置,但不使用要素的任何字段或变量,因此空间模式可能不会对应于位置处存在的任何变量。 相反,它们表示潜在的空间模式,可以将这些模式进行组合以表示空间变量的各种空间模式。 例如,如果要素场具有广泛的西到东趋势,但也包含低值和高值的聚类,则可以通过组合两个 MEM 来表示变量的空间模式:一个表示西到东趋势,另一个表示聚类。 更复杂的空间变量可能需要许多不同的 MEM,才能充分表示其空间模式。

MEM 也与用于衡量空间变量的空间聚类(自相关)程度的 Moran's I 统计数据密切相关。 第一个 MEM 是产生最大可能 Moran's I 值(最大可能空间自相关性)的要素值集合。 第二个 MEM 是产生最大可能 Moran's I 值的值集合,前提是这些值必须与第一个 MEM 的值不相关。 第三个 MEM 是产生最大 Moran's I 值的值集合,前提是其必须与前两个 MEM 中的每一个都不相关,依此类推。 对于 N 个要素,最多可以创建 N 个 MEM,但通常不到 25% 的 MEM 代表有用的空间模式。

第一个 MEM 的 Moran's I 值表示要素的任意字段的可能最大 Moran's I 值。 换句话说,即使单个要素的单个值发生变化,Moran's I 值也会减小,变量的聚集也会减少。 由此可以更好地理解实际数据的 Moran's I 值。 一个常见的误解是,对于任何数据集和任何 SWM,最大可能 Moran's I 值等于 1,但通常最大可能 Moran's I 值会显著小于 1(通常低至 0.6),具体取决于要素和 SWM。 最大 Moran's I 也有可能大于 1,但这种情况并不常见。 例如,当数据场的 Moran's I 值等于 0.65 时,如果假设最大可能值等于 1,则该值可能看起来并不是很高;但如果第一个 MEM 的 Moran's I 值等于 0.7,则意味着该字段对于 SWM 而言具有几乎最高的可能空间自相关性。 这也有助于为分析选择合适的 SWM,因为某些 SWM 的可能 Moran's I 值将比其他 SWM 大得多。

MEM 在空间分析中的应用

MEM 在空间分析中具有广泛的用途,并且空间组件实用程序(Moran 特征向量)工具集中的工具可以通过多种方式创建和使用 MEM:

  • 分解空间结构(Moran 特征向量)- 为输入要素类和 SWM 创建具有最高 Moran's I 值的 MEM 集合。 输入为一个要素类,并且通过邻域参数来定义 SWM。 您也可以通过指定相对 Moran's I 阈值和最大 MEM 数量来控制将创建的 MEM 数量。 输出为一个要素类,其要素与输入相同,但包含 MEM 作为字段。 可以映射该工具创建的 MEM,以可视化 SWM 的各种空间模式,并评估任何 SWM 要素场的最大 Moran's I 值。

  • 比较邻域概念化 - 建议一个邻域和权重方案,以最精确地表示一个或多个要素类字段的空间模式。 输入为一个要素类以及一个或多个字段,输出为一个 SWM 文件,该文件可用于“空间统计”工具箱中的其他工具,这些工具允许使用自定义 SWM 文件来定义邻域和权重,例如双变量空间关联 (Lee's L)热点分析 (Geti-Ord Gi*) 以及聚类和异常值分析 (Anselin Local Moran's I) 工具。 该工具通过确定哪个 SWM 创建的 MEM 与输入字段的空间模式最相似来确定建议的 SWM。

  • 创建空间组件解释变量 - 创建并选择一组最能代表或解释输入要素类中多个字段的空间模式的 MEM。 当您希望创建一个模型(例如普通最小二乘回归模型)并希望考虑变量的空间模式时,这将非常有用。 可以在工具中提供要素类和所有变量(解释变量和因变量),并且工具将创建可用于表示输入字段空间模式的 MEM。 将这些 MEM 作为解释变量(除了原始解释变量之外)纳入预测模型中通常将改进模型,由此提供对原始解释变量系数的更好估计,并通过考虑变量的空间模式来提高预测的精度。

  • 从字段中过滤空间自相关 - 创建并选择一组 MEM,以最好地移除输入场中的自相关并生成输入场的空间过滤版本。 输入场将被分为空间分量 (MEM) 和非空间成分(输入场的空间过滤版本)。 过滤后的字段将保留字段的核心统计属性,同时去除空间效应,例如趋势和聚类。 然后,可将已过滤的场用于关联工作流或其他分析,其中空间效应是非必要的,并且会向场的底层信号添加噪声。 例如,您可以评估污染和哮喘发病率之间的相关性,同时排除与两个变量相关联的空间效应,以分离两个变量之间的直接相关性或关系。 当输入字段为预测模型中的残差字段时,所选 MEM 可用作预测模型的解释变量(除了原始解释变量之外),以从模型残差项中去除空间自相关。 这将非常有用,因为许多预测模型的假设为残差并非空间自相关。

其他信息

仅当 MEM 具有正空间自相关时,才会创建或选择 MEM,这意味着模式代表空间聚类,而非分散模式。

创建的 MEM 数量将等于输入要素数量的 25%,最多为 100 个。 创建空间分量解释变量从字段中过滤空间自相关工具将从这些 MEM 中进行选择,以便分别最有效地创建解释变量或过滤空间自相关。

除了分解空间结构(Moran 特征向量)工具(使用单个指定邻域和权重方案)之外,这些工具将测试 28 种不同的 SWM,并使用创建最符合该工具用途的 MEM 的 SWM。 将测试以下 SWM:

  • 五个距离字段,每个都具有未加权、高斯和双平方核(总共 15 个)。 最短距离范围是导致每个要素至少具有一个相邻要素的距离。 最长距离范围是输入要素对角线范围的 20%。 将通过在最短距离范围和最长距离范围之间均匀递增来创建其余三个距离范围。 对于面要素,质心之间的距离用于确定距离和相邻要素。
  • 四种不同的相邻要素数量(8、16、32 和 64),每种都具有无加权、高斯和双平方核(总共 12 个)。 对于 K 个相邻要素,带宽将为自适应带宽,并且等于与第 (K+1) 个相邻要素的距离。 如果输入要素数量小于 K,则将跳过大量相邻要素。 例如,如果存在 50 个输入要素,则将跳过使用 64 个最近相邻要素的 3 个 SWM。 对于面要素,质心之间的距离用于确定距离和相邻要素。
  • 对于点要素,最终 SWM 为 Delaunay 三角测量邻域。 对于面要素,最终 SWM 为邻接(边和拐角)邻域。

有关每个邻域和核加权的详细信息,请参阅邻域汇总统计的工作原理空间关系建模。 或者,可以在输入空间权重矩阵文件参数中提供自定义 .swm 文件。 如果已提供,则该 .swm 文件将用于创建和选择 MEM,并且不会测试以上 28 个 SWM。

在计算 MEM 之前,需要调整每个 SWM,使得每行和每列的总和等于 0(称为双重居中)。 当 SWM 不对称时,例如当使用多个相邻要素邻域时,会将 SWM 添加至其转置,以使其在双重居中之前对称。

参考资料

使用了以下资源来实现该工具:

  • Bauman, David, Thomas Drouet, Stéphane Dray, and Jason Vleminckx. 2018. "Disentangling good from bad practices in the selection of spatial or phylogenetic eigenvectors." Ecography 41.10: 1638-1649. https://doi.org/10.1111/ecog.03380.

  • Bauman, David, Thomas Drouet, Marie-Josée Fortin, and Stéphane Dray. 2018. "Optimizing the choice of a spatial weighting matrix in eigenvector-based methods." Ecology 99, no. 10: 2159-2166. https://doi.org/10.1002/ecy.2469.

  • Blanchet, F. Guillaume, Pierre Legendre, and Daniel Borcard. 2008. "Forward selection of explanatory variables." Ecology 89, no. 9: 2623-2632. https://doi.org/10.1890/07-0986.1.

  • Dray, Stéphane, David Bauman, Guillaume Blanchet, Daniel Borcard, Sylvie Clappe, Guillaume Guenard, Thibaut Jombart, Guillaume Larocque, Pierre Legendre, Naima Madi, and Helene H. Wagner. 2022. "adespatial: Multivariate Multiscale Spatial Analysis." R package version 0.3-16. https://CRAN.R-project.org/package=adespatial.

  • Griffith, Daniel A. 2003. "Spatial Autocorrelation and Spatial Filtering." Advances in Spatial Science. Springer. ISBN 978-3-540-24806-4. https://doi.org/10.1007/978-3-540-24806-4.

  • Griffith, Daniel A., and Pedro R. Peres-Neto. 2006. "Spatial modeling in ecology: the flexibility of eigenfunction spatial analyses." Ecology 87, no. 10: 2603-2613. https://doi.org/10.1890/0012-9658(2006)87[2603:SMIETF]2.0.CO;2.

相关主题