优化的异常值分析工作原理

优化的异常值分析使用从输入数据特征中派生的参数来执行聚类和异常值分析 (Anselin Local Moran's I) 工具。数码相机的自动设置根据光线以及拍摄主体与背景对比度的读数来确定合适的光圈、快门速度和焦点,与此类似,优化的异常值分析工具对数据进行查询,从而获得产生最佳分析结果的设置。例如,如果输入要素数据集包含事件点数据,则该工具会将事件点聚合到加权要素。通过使用加权要素的分布,此工具可确定适当的分析范围。输出要素中报告的分类类型将使用错误发现率 (FDR) 校正法自动校正多重测试空间依赖性

在工具执行期间,此工具为给您带来最佳结果而做出的每个决策都将以消息形式报告,并在下方记录对这些决策的说明。

照相机具有可用于覆盖自动设置的手动模式,与此类似,聚类和异常值分析 (Anselin Local Moran's I) 工具允许您完全控制所有参数选项。运行优化的异常值分析工具并记录其使用的参数设置有助于优化您提供的用于完全控制聚类和异常值分析 (Anselin Local Moran's I) 工具的参数。

优化的异常值分析工具的工作流包括以下部分。下面将介绍各部分使用的计算和算法。

初始数据评估

此部分将仔细检查输入要素和可选的分析字段限定可能发生事件的区域的边界面以及事件数据聚合方法,以确保要分析的数值具有足够的要素和充足的变差。如果工具遇到几何已损坏或缺少几何的记录,或在已指定分析字段并存在空值的情况下,相关记录将作为错误记录列出,而且不会对其进行分析。

优化的异常值分析工具使用 Anselin Local Moran's I 统计,与许多统计方法类似,当要素数小于 30 时结果不可靠。如果提供面输入要素或点输入要素和一个分析字段,则至少需要拥有 30 个要素才能使用此工具。事件点聚合面的最小数量也为 30。表示限定可能发生事件的区域的边界面要素图层可能包含一个或多个面。

Anselin Local Moran's I 统计还要求值与其分析的每个要素相关联。如果您提供的输入要素表示事件数据(在没有提供分析字段的情况下),此工具将对事件进行聚合,而事件计数将作为要分析的值。聚合过程完成后,仍必须存在至少 30 个要素,对于事件数据,也需要超过 30 个要素才能开始聚合。下表记录了每个事件数据聚合方法的最小要素数:

最小事件数聚合方法聚合后的最小要素数

60

在渔网格网内计数事件在六边形格网内计数事件,未指定定义事件潜在发生位置的边界面

30

30

在渔网格网内计数事件在六边形格网内计数事件,在为定义事件潜在发生位置的边界面参数提供要素类时

30

30

在聚合面内计数事件

30

60

捕捉附近事件以创建加权点

30

Anselin Local Moran's I 统计也可专门用于包含各种不同值的分析字段。例如,此统计不适用于二进制数据。优化的异常值分析工具将检查分析字段以确保这些值至少具有一些变差。

位置异常值是指相比于数据集中的大多数要素,其与邻近要素的距离要远得多的要素。设想这样一种城市环境:中心是人口密集的大型城市,周边是人口密度较低的小型城市。在计算这些城市的平均最近邻距离时您会发现,如果排除周边的位置异常值并且只考虑靠近城区中心的城市,计算结果会比较小。此示例说明了位置异常值是如何对空间统计(如平均最近邻造成巨大影响的。由于优化的异常值分析工具使用平均和中位最近邻计算来进行聚合并确定相应的分析范围,此工具的初始数据评估组件也将识别输入要素事件点聚合面中的任何位置异常值,并将报告其遇到的异常值数。为此,此工具将计算每个要素的平均最近邻距离并评估所有这些距离的分布。将那些与最近的非重合邻近要素距离超过三个标准差距离的要素视为位置异常值。

事件聚合

工作流中的下一部分将聚合事件数据。根据您选择的事件数据聚合方法,有三种可能的方法。下面将介绍每种方法的算法。

  • 在渔网格网内计数事件在六边形格网内计数事件
    1. 折叠重合点时将导致在数据集中的每个唯一位置生成单个点,使用的方法与收集事件工具所采用的方法相同。
    2. 将 N 个输入要素的密度与基于输入要素最小边界面的 N 个随机要素的密度进行比较(使用测地线米数)。计算在给定的最小边界面中 N 个随机点的平均最近邻距离。如果随机要素分布的平均最近邻距离的两倍值比最大研究区域范围除以 100 的值还要低,则认为此数据集比较密集,且所使用的格网像元大小距离为最大范围除以 100。
    3. 如果使用上述方测得的数据集不密集,那么使用的像元大小距离为平均或中位最近邻距离中较大值的两倍。所有唯一位置点(位置异常值除外)的平均最近邻距离 (ANN) 的计算方法是用每个要素与最近邻要素间的距离之和除以要素数量 (N)。中位最近邻距离 (MNN) 的计算方法是将最近邻距离按从小到大进行排序,然后选择位于排序列表中间位置的距离(位置异常值除外)。两者中较大的距离(ANN 或 MNN)乘以 2 就是格网像元大小的距离。
    4. 使用优化后的像元大小构建渔网面或六边形面格网,并使用事件点叠加格网。
    5. 计算每个面像元中的事件点数量。
    6. 如果提供限定可能发生事件的区域的边界面,则边界面中所有的面像元都将得到保留。如果不提供限定可能发生事件的区域的边界面,将移除不含事件的面像元。
    7. 如果聚合过程产生的面像元少于 30 个,或所有面像元的计数都是相同的,您将收到一条消息,提示您所提供的输入要素不适用于所选的事件数据聚合方法;反之,此方法的聚合部分将成功完成。
  • 在聚合面内计数事件:
    1. 事件数据聚合方法需要事件点聚合面要素图层。这些聚合面将叠加事件点。
    2. 对每个面中的事件进行计数。
    3. 确保事件计数中具有足够的变差以进行分析。如果聚合过程导致所有面都具有相同数量的事件,您将收到一条消息,指示您数据不适用于所选的事件数据聚合方法
  • 捕捉附近事件以创建加权点:
    1. 折叠重合点时将导致在数据集中的每个唯一位置生成单个点,使用的方法与收集事件工具所采用的方法相同。对唯一位置 (UL) 要素的数量进行计数。
    2. 计算所有唯一位置点(位置异常值除外)的平均和中位最近邻距离。平均最近邻距离 (ANN) 的计算方法是用每个要素与最近邻要素间的距离之和除以要素数量 (N)。中位最近邻距离 (MNN) 的计算方法是将最近邻距离按从小到大进行排序,然后选择位于排序列表中间位置的距离。
    3. 将初始捕捉距离 (SD) 设置为 ANN 或 MNN 中的较小者。
    4. 调整捕捉距离以容纳重合点。标量 = (UL/N),其中 N 是输入要素图层中的要素数。调整后的捕捉距离变为 SD * 标量。
    5. 通过三次迭代来集成事件点,首先用调整后的捕捉距离乘以 0.10,然后用调整后的捕捉距离乘以 0.25,最后与完全调整的捕捉距离相集成。分三次执行集成步骤可最大程度地减少起始点位置的变形。
    6. 折叠捕捉点将导致在每个位置生成单个点,并使用权重来表示一起捕捉到的事件点数量。聚合过程的这部分使用收集事件方法。
    7. 如果聚合过程产生的加权点少于 30 个,或所有点的计数都是相同的,您将收到一条消息,提示您所提供的输入要素不适用于所选的事件数据聚合方法;反之,此方法的聚合部分将成功完成。

分析范围

优化的异常值分析工作流的下一部分将应用到加权要素,因为您提供了含有分析字段输入要素,或因为事件数据聚合方法已通过事件计数创建权重。下一步是确定合适的分析范围。理想的分析范围是与您所提问题的范围相匹配的距离(例如,如果您正在寻找疾病暴发的聚类和异常值区域,并知晓蚊虫传病媒介的范围是 10 英里,则使用 10 英里的距离最为合适)。如果无法判定用作分析范围的任何特定距离,则可通过一些策略来帮助解决这一问题。优化的异常值分析工具采用了这些策略。

尝试的第一个策略是增量空间自相关。当看到地表上的空间聚类时,您将看到正在进行的基础空间过程。增量空间自相关工具为一系列增大的距离执行 Global Moran's I 统计量,同时测量各距离空间聚类的程度。计算增量空间自相关中使用的开始和增量距离不包括位置异常值。聚类的程度由返回的 z 得分确定。通常情况下,距离的增大(z 得分也增大)表示聚类增强。但是,对于某些特定距离,z 得分通常为峰值。峰值反映促进空间过程聚类最明显的距离。优化的异常值分析工具使用增量空间自相关来寻找峰值距离。如果找到峰值距离,该距离将成为分析范围。如果找到多个峰值距离,将选择第一个峰值距离。

如果没有找到峰值距离,优化的异常值分析将检查要素的空间分布,并计算可为每个要素生成 K 个近邻的平均距离。K 的计算方法为 0.05 * N,其中 N 是输入要素图层中的要素数。将对 K 进行调整,使其永不小于 3 或大于 30。如果可产生 K 个近邻的平均距离超过一个标准距离,分析范围将设置为一个标准距离;否则,分析范围将反映 K 个近邻的平均距离。

对于大型密集数据集,增量空间自相关步骤可能会花费大量的时间。因此,如果遇到带有 500 个或更多相邻要素的要素,将跳过增量分析,而是计算可产生 30 个相邻要素的平均距离并将其用作分析范围。

在工具执行期间,反映分析范围的距离将以消息形式报告,并将用于执行聚类和异常值分析。此距离相当于聚类和异常值分析 (Anselin Local Moran's I) 工具使用的距离范围或距离阈值参数。

若要素在此距离内没有邻域,则距离范围会扩展以包括最近邻域。

聚类和异常值分析

此时优化的异常值分析工作流中的所有检查和参数设置均已完成。下一步是运行 Anselin Local Moran's I 统计。聚类和异常值分析 (Anselin Local Moran's I) 的工作原理中概述了有关此统计数学计算的详细信息。Anselin Local Moran's I 统计结果将使用错误发现率 (FDR) 校正方法多重测试空间依赖性进行自动更正。在应用 FDR 校正后,工具执行期间写入的消息将对标识为具有统计学意义的高或低异常值和高或低聚类的要素数进行汇总。

输出

优化的异常值分析工具的最后一部分是创建输出要素。如果输入要素表示需要聚合的事件数据,则输出要素将反映聚合的加权要素(渔网面或六边形面像元或为事件点聚合面参数提供的聚合面或加权点)。每个要素都包含 local Moran's I 指数值 (LMiIndex)、z 得分、p 值、聚类/异常值类型 (COType) 结果和每个要素在计算中所包括的相邻要素数。

其他资源

Anselin, Luc. "Local Indicators of Spatial Association-LISA," Geographical Analysis 27(2): 93-115, 1995.

空间统计资源页面提供了短片、教程、web 研讨会、文章和多种其他材料,以帮助用户开始使用空间统计。