“聚类和异常值分析 (Anselin Local Moran's I)”的工作原理

给定一组要素(输入要素类)和一个分析字段(输入字段),聚类和异常值分析工具可识别具有高值或低值的要素的空间聚类。该工具还可识别空间异常值。为此,该工具计算 local Moran's I 值、z 得分、伪 p 值和表示每个具有统计显著性的要素的聚类类型的编码。z 得分和伪 p 值表示计算出的指数值的统计显著性。

计算

Local Moran's I 数学计算

查看 local Moran's I 统计量的其他数学计算

解释

正值 I 表示要素具有包含同样高或同样低的属性值的邻近要素;该要素是聚类的一部分。负值 I 表示要素具有包含不同值的邻近要素;该要素是异常值。在任何一个实例中,要被视为具有统计显著性的聚类和异常值,要素的 p 值必须足够小。有关确定统计显著性的详细信息,请参阅什么是 z 得分? 什么是 p 值? 请注意,Local Moran's I 指数 (I) 是相对测量,只能在其计算出的 z 得分或 p 值环境中进行说明。在输出要素类中报告的 z 得分和 p 值对于多重测试或空间依赖性来说未经校正

聚类/异常值类型 (COType) 字段可区分具有统计显著性的高值 (HH) 聚类、低值 (LL) 聚类、高值主要由低值围绕的异常值 (HL) 以及低值主要由高值围绕的异常值 (LH)。统计显著性的置信度设置为 95%。如果没有应用任何 FDR 校正,p 值小于 0.05 的要素视为具有统计显著性。FDR 校正将此 p 值阈值从 0.05 降低到某个新值,以便在兼顾多重测试的情况下更好地反映置信度 95%。

输出

该工具可使用输入要素类中各要素的下列属性来创建新的输出要素类:local Moran's I 指数、z 得分、p 值和 COType。

运行此工具时,输出要素类会自动添加到内容列表 (TOC),同时对 COType 字段应用默认渲染。应用的渲染由 <ArcGIS Pro>\Resources\ArcToolBox\Templates\Layers 路径下的图层文件定义。需要时,可使用应用图层的符号设置工具重新应用默认渲染。

置换检验

置换检验用于确定找到您所分析值的实际空间分布的可能性,方法是将您的值与一组随机生成的值进行比较。即便存在完全空间随机性 (CSR),而一定程度的聚类仍可仅通过随机性进行观察。置换检验将会生成许多随机性数据集,并将这些值与原始数据的 Local Moran's I 进行比较。要执行此操作,每次置换均会随机重新排列各要素周围的邻域值,并计算该随机数据的 Local Moran's I 值。通过查看置换所生成的 Local Moran's I 分布,您即可获悉由随机性决定的 Local Moran's I 值的范围。如果数据中存在统计显著性空间模式,您预期从置换中生成的 Local Moran's I 值比原始数据中生成的 Local Moran's I 值所显示的聚类更少。随后,可以通过确定置换中生成的 Local Moran's I 值(其中显示的聚类较原始数据多)的比例计算出伪 p 值。如果该比例(伪 p 值)很小(小于 0.05),则可以推断出您的数据确实具有统计显著性聚类。

选择置换检验次数时需要兼顾精度和所需增加的处理时间。增加置换检验次数将凭借扩大伪 p 值的可能值范围而提高精度。例如,当置换检验次数为 99 时,伪 p 值精度为 0.01,而置换检验次数为 999 时,精度则为 0.001。计算这些值的方法是将 1 除以置换检验次数加 1 的和:1/(1+99) 和 1/(1+999)。最初研究问题时可以使用较少的置换检验次数,但是要使最终结果的可行性达到最高,则增加置换检验次数不失为最佳实践。

最佳做法准则

  • 结果仅在输入要素类至少包含 30 个要素时可靠。
  • 该工具需要输入字段,如计数、速率或其他数值测量。如果正在分析点数据,只要每个点表示一个事件或事件点,您就不必计算特定数值属性(严重性等级、计数或其他测量)。如果想要查找存在许多事件点(热点)和/或存在很少事件点(冷点)的位置,则在分析之前需要聚合事件数据热点分析 (Getis-Ord Gi*) 工具也是查找热点和冷点位置的有效工具。但是,只有聚类和异常值分析 (Anselin Local Moran's I) 工具可以识别具有统计显著性的空间异常值(高值由低值围绕或低值由高值围绕)。
  • 选择适当的空间关系概念化
  • 选择空间时间窗概念化时,可以识别空间-时间聚类和异常值。有关详细信息,请参阅空间-时间聚类分析
  • 选择适当的距离范围或距离阈值
    • 所有要素都应至少具有一个相邻要素。
    • 任何要素都不应将其他所有要素作为相邻要素。
    • 尤其是在输入字段的值偏斜时,每个要素都应具有八个左右的相邻要素。

潜在的应用

聚类和异常值分析 (Anselin Local Moran's I) 工具可识别高值密度、低值密度和空间异常值。还可帮助您解决如下问题:

  • 研究区域中的富裕区和贫困区之间的最清晰边界在哪里?
  • 研究区域中存在可以找到异常消费模式的位置吗?
  • 研究区域中意想不到的糖尿病高发地在哪里?

可在经济学、资源管理、生物地理学、政治地理学和人口统计等许多领域中应用此工具。

其他资源

Anselin, Luc. Local Indicators of Spatial Association—LISA. Geographical Analysis 27(2): 93–115, 1995.

Mitchell, Andy. The Esri Guide to GIS Analysis, Volume 2. Esri Press, 2005.