空间自相关 (Global Moran's I) 工具将同时基于要素位置和要素值来衡量空间自相关。 在给定一组要素及相关属性的情况下,该工具评估所表达的模式是聚类模式、离散模式还是随机模式。 此工具将计算 Moran's I 指数值以及 z 得分和 p 值以评估该指数的显著性。 P 值是已知分布曲线下面积的数值近似值,受检验统计数据的限制。
计算
Global Moran's I 统计数据背后的计算如上图所示。 该工具将计算进行评估的属性的平均值和方差。 然后,对于每个要素值,它将减去平均值,从而得到与平均值的偏差。 将所有相邻要素(例如指定距离范围内的要素)的偏差值相乘,从而得到叉积。 Global Moran's I 统计数据的分子包含这些已求和的叉积。 假设要素 A 和 B 为相邻要素,所有要素值的平均值为 10。 可能的叉积结果范围如下:
要素值 | 偏差 | 叉积 | |||
---|---|---|---|---|---|
A=50 | B=40 | 40 | 30 | 1200 | |
A=8 | B=6 | -2 | -4 | 8 | |
A=20 | B=2 | 10 | -8 | -80 |
当相邻要素的值均大于平均值或者均小于平均值时,叉积将为正。 当一个值小于平均值,另一个值大于平均值时,叉积将为负。 在所有情况下,与平均值的偏差越大,则叉积结果将越大。 如果数据集中的值倾向于在空间上聚集(高值聚集在其他高值附近;低值聚集在其他低值附近),则 Moran's 指数将为正值。 当高值排斥其他高值,并倾向于接近低值时,该指数将为负。 如果正叉积值平衡负叉积值,则该指数将接近零。 分子将通过方差进行归一化,使得指数值位于 -1.0 和 +1.0 之间(有关例外情况,请参阅以下“附加信息”部分)。
该工具计算索引值后,将计算预期索引值。 然后对预期索引值和观测索引值进行比较。 给定数据集中的要素数量和总体数据值的方差后,该工具将计算 z 得分和 p 值,用于指示此差值在统计学上是否具有显著性。 无法直接解释索引值;只能在零假设的背景下对其进行解释。
解释
该工具是一种推断统计,这意味着始终在分析结果的零假设背景下对其进行解释。 对于 Global Moran's I 统计,零假设表示所分析的属性在研究区域中的要素之间随机分布;促成观测的值模式的空间过程为随机过程。 想象一下,可以为正在分析的属性提取值,并将其放置在要素上,由此使每个值都落在其可能的位置。 此过程(提取和放置值)是随机机会空间过程的示例。
当此工具返回的 p 值在统计学上具有显著性时,可以拒绝零假设。 下表汇总了结果的解释:
p 值不具有统计学上的显著性。 | 无法拒绝零假设。 要素值的空间分布很可能是随机空间过程的结果。 所观测到的要素值的空间模式很可能是完全空间随机性 (CSR) 的众多可能结果之一。 |
p 值具有统计学上的显著性,且 z 得分为正值。 | 可以拒绝零假设。 如果基础空间过程是随机的,则数据集中高值和/或低值的空间分布与预期的空间分布相比在空间上的聚类程度更高。 |
p 值具有统计学上的显著性,且 z 得分为负值。 | 可以拒绝零假设。 如果基础空间过程是随机的,则数据集中高值和低值的空间分布在空间上离散的程度要高于预期。 离散空间模式通常会反映某种类型的竞争过程:具有高值的要素排斥具有高值的其他要素;类似地,具有低值的要素排斥具有低值的其他要素。 |
注:
高/低聚类 (General G) 工具和空间自相关 (Global Moran's I) 工具的零假设都具有完全空间随机性。 但是,高/低聚类 (General G) 工具的 z 得分解释不同。
输出
空间自相关工具返回五个值:Moran's I 指数、预期指数、方差、z 得分及 p 值。 该工具将这些值作为地理处理消息和导出的输出值提供给模型或脚本。 或者,此工具将创建一个报表作为 .html 文件,其中包含结果的图形汇总。 报表路径将随附在汇总工具参数的消息中。 单击此路径将打开报表文件。
最佳做法
当使用此工具时,应考虑以下事项:
- 输入要素类参数值应至少包含 30 个要素。 如果少于 30 个要素,则结果将不可靠。
- 确保指定的空间关系概念化参数值适用。
- 确保指定的距离范围或阈值距离参数值适用。 以下内容应为真:
- 所有要素都应至少具有一个相邻要素。
- 任何要素都不应将其他所有要素作为相邻要素。
- 如果输入字段参数值偏斜,则每个要素都应具有 8 个左右的相邻要素。
- 对于输入面要素,您几乎应该始终进行标准化。
其他信息
热点分析 (Getis-Ord Gi*) 工具的输出结果用于指示统计学上显著的热点。 此工具的结果可能在统计学上不具有显著性。 空间自相关 (Global Moran's I) 工具的全球统计数据用于评估数据的整体模式和趋势。 当研究区域的空间模式保持一致时,它们最为有效。 局部统计量(如热点分析 (Getis-Ord Gi*) 工具)用于在相邻要素的环境下对每个要素进行评估,然后将局部情况与全局情况进行比较。 请考虑以下示例。 当您计算一组值的均值或平均值时,您也在计算一个全局统计数据。 如果所有值都接近 20,则均值也将接近 20,并且该结果可以非常好地表示/概括整个数据集。 但如果一半值接近 1,而另一半值接近 100,则均值将接近 50。 可能不存在任何接近 50 的数据值,因此该均值并不能很好地表示或概括整个数据集。 如果您创建数据值的直方图,您将看到双峰分布。 同样,当所测量的空间过程在整个研究区域内保持一致时,全球空间统计(包括空间自相关 (Global Moran's I) 工具)将最有效。 这样,所得到的结果将能很好地表示和概括总体空间模式。 有关详细信息,请参阅 The Analysis of Spatial Association by Use of Distance Statistics 以及所提出的 SIDS 分析。
此工具的结果与空间自相关 (Global Moran's I) 工具的结果不同。 这两种工具用于测量不同的空间模式。 有关详细信息,请参阅高/低聚类 (Getis-Ord General G) 结果的解释。
不同研究区域的 z 得分或 p 值结果不具有可比性。 然而,如果研究区域固定(例如,所有分析均针对加利福尼亚州各县),则输入字段参数值具有可比性(例如:所有分析均涉及某种类型的人口计数),并且工具参数相同,您可以比较在统计学上具有显著性的 z 得分,以了解空间聚类或空间离散的强度,或更好地了解随时间推移的趋势。 您还可以对一系列递增的距离范围或阈值距离参数值运行分析,以查看促成空间聚类的过程最明显的距离或尺度。
通常,Global Moran's 指数的范围为 -1.0 到 1.0。当对权重进行标准化时,情况总是如此。 如果未对权重进行行标准化,则可能会出现索引值位于 -1.0 到 1.0 范围之外的情况,这表明您的参数设置有问题。 最常见的问题如下:
- 输入字段参数值严重偏斜(请创建数据值的直方图以查看此情况),并且空间关系的概念化或距离范围参数值使得某些要素的相邻要素非常少。 Global Moran's I 统计具有渐进正态性,这意味着对于偏斜数据,您将希望每个要素至少具有 8 个相邻要素。 针对距离范围或阈值距离参数计算的默认值可确保每个要素至少具有 1 个相邻要素,但这可能还不够,尤其当输入字段参数值中的值严重偏斜时更是如此。
- 如果使用空间关系的概念化参数的反距离选项,并且反距离非常小。
- 标准化参数未设置为行选项,但应设置为该选项。 当对数据进行聚合时,除非聚合方案与正在分析的字段直接相关,否则,请指定行选项。
示例应用
以下是该工具的示例应用:
- 通过找到空间自相关最强的距离,为各种空间分析方法确定合适的邻域距离。
- 衡量随时间推移的民族或种族隔离现象的总体趋势:隔离现象是增加还是减少?
- 总结想法、疾病或趋势在空间和时间上的传播:想法、疾病或趋势将保持孤立和集中,还是传播并变得更加分散?
其他资源
以下书籍和期刊文章将提供有关此工具的详细信息:
Getis, Arthur, and J. K. Ord. "The Analysis of Spatial Association by Use of Distance Statistics." Geographical Analysis 24, no. 3. 1992.
Goodchild, Michael F. Spatial Autocorrelation. Catmog 47, Geo Books. 1986.
Griffith, Daniel. Spatial Autocorrelation: A Primer. Resource Publications in Geography, Association of American Geographers. 1987.
The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.