评估对属性不确定性的敏感性工具用于评估当一个或多个分析变量(属性)的值不确定时,空间统计工具箱中选定工具的分析结果如何变化。 可以使用误差幅度、上限和下限或原始值的指定百分比来指定属性不确定性。 该工具接受以下工具的输出要素:
该工具通过使用原始分析变量及其不确定性度量反复模拟新数据来执行敏感性分析。 然后,将使用模拟数据多次重新运行原始分析工具,并汇总结果。 如果模拟结果与原始结果非常相似,则可以确信原始结果稳健可靠。 但是,如果模拟结果与原始结果存在很大差异,那么您应该对从原始结果得出强有力的结论持更谨慎的态度。

可能的应用
该工具的潜在应用包括以下情景:
- 当地一家慈善组织利用热点分析来确定县内应优先提供减贫服务的区域。 他们计划重点关注分析表明贫困聚集性和强度较高的地区(99% 置信度的热点地区)。 监控热点变化如何导致加强或重新考虑其服务优先级。
- 一家大型零售连锁店开发了一个广义线性回归模型来估计年龄和可支配收入等人口因素如何影响体育用品销售。 通过调查收集到的解释变量包括上限和下限。 通过纳入这些变量的不确定性,零售商可以探索销售量的潜在范围。
属性不确定性
属性不确定性是数据值的变化,源于数据采集和聚合的自然和不可避免的方面,例如采样误差或测量误差。 当从人口的子集采集数据时,将会出现采样误差,从而引发人们对样本如何更好地代表总人口的疑问。 当数据采集仪器(例如温度计或风速计)的记录值与真实值之间出现细微差异时,就会出现测量误差。 数据通常提供对测量真实值的最佳估计(称为点估计)以及对其不确定性水平的某种度量。 虽然这些不确定因素会影响数据的准确性,但它们存在于任何现实世界的数据采集过程中。 认识和探索属性不确定性及其对分析结果的影响有助于使分析更加透明和稳健。
如何量化不确定性
此工具支持三种方式指定属性不确定性:误差幅度、上限和下限以及属性值上下的百分比。
误差幅度
误差幅度表示属性的真实值可能落入的范围。 它与置信度(如 90%)相关,表示您对属性的实际值在估计值定义的范围内(加上或减去误差幅度)的信心程度。 例如,调查可能估计某个县有 2,500 人处于贫困状态,在 90% 的置信度下,误差幅度为 300。 这意味着,贫穷人口的真实数字介于 2,200 和 2,800 之间的置信度为 90%。 使用此方法时,至少一个分析变量需要一个误差幅度字段。 此字段包含数值误差边界,表示真实人口值预计会高于或低于样本估计值的程度。 默认情况下,置信度为 90%,可以使用误差置信度幅度参数进行调整。

注:
误差幅度通常记录为原始变量旁边的字段。 美国人口普查局的美国社区调查 (ACS) 的 ArcGIS Living Atlas of the World 数据中有很多变量都是这种情况。 许多国家统计组织都提供了类似的不确定性衡量指标。
上限和下限
上限和下限通过明确指定估计值的范围来表示属性的不确定性。 与误差幅度不同,上限和下限不需要围绕点估计值对称。

低于和高于的百分比
低于和高于百分比选项通过按指定的百分比调整每个要素的原始属性值来表示属性的不确定性。 这将创建可能包含真实值的估计值范围。 当其他方法(例如误差幅度或者上限和下限)不适用于表示不确定性时,此方法将非常有用。

注:
与误差幅度以及上限和下限选项不同,它们允许为每个要素指定不同的属性不确定性,而低于和高于选项的百分比则对所有要素应用相同的不确定性定义。
使用模拟来解决不确定性
要评估分析结果对不确定性的敏感度,工具根据原始分析变量及其不确定性测量值生成模拟数据集。 理想情况下,每个模拟数据集都代表现实世界中可能存在的数据的合理版本。 此外,对于真实值如何以点估计值为中心或从点估计值扩散,存在不同的假设。 工具使用概率分布来限制模拟数据值,以捕捉数据不同实现的范围和可能性。 支持三种分布:正态分布、三角分布和均匀分布。 当模拟广义线性回归的数据时,将保留解释变量之间的相关性结构。 对于其他工具的分析结果,将独立于每个要素来模拟数据。 为了说明解释变量之间的依赖性,将对其相关性进行全局估计,然后通过基于解释变量之间的全局相关性将具有均值零和协方差矩阵的多元正态分布的随机噪声相加以生成每个要素的模拟值。 由于随机噪声基于多元正态分布,因此广义线性回归的模拟仅支持正态模拟方法。
正态
当存在具有相关置信度的误差幅度时,通常使用模拟方法参数的正态选项。 该选项使用正态(或高斯)概率分布,其平均值等于原始分析变量的值,标准差基于要素的误差幅度值和置信度。

正如概率分布的形状所表明的那样,更接近原始估计的值比更远的值更有可能生成。 但是,这可能会因误差幅度的不同而有很大差异。 误差幅度较大的位置(通常是由于采样大小较小)的分布尾部会较长,这意味着模拟更有可能生成距原始估计值较远的值。
三角形
当原始值代表真实值的可能估计值时,通常使用三角分布。 模拟方法参数的三角选项对于非对称分布特别有用,其中值更有可能聚集在估计值周围,但具有非对称分布。 构建三角分布,用于根据最小数据值、要素的原始值和最大数据值模拟每个要素的数据。 不确定性类型参数值将确定三角分布的最小和最大数据值。

三角概率分布的形状可确保接近原始值的值比分布极端的值更有可能生成。
注:
与正态分布不同,其形状不需要对称。 例如,下限和上限可能不同。
均匀
当每个位置的原始值都是真实值的不佳估计值,并且有关属性不确定性的唯一可用信息是可能值的范围时,可以使用模拟方法参数的均匀选项。 该选项使用具有两个参数的均匀概率分布:不确定性类型设置的范围内的最小值,以及不确定性类型设置的范围内的最大值。 与正态分布和三角分布不同,均匀分布不使用概率分布参数中的原始值;最小值和最大值之间的每个值在模拟中生成的可能性均等。

支持的工具
与大多数接受现有图层作为输入的地理处理工具不同,此工具的输入是来自空间统计工具箱中以下工具之一的结果图层:
“热点分析”、“优化的热点分析”、“聚类和异常值分析”以及“优化的异常值分析”工具
对于热点分析 (Getis-Ord Gi*)、优化的热点分析、聚类和异常值分析 (Anselin Local Moran’s I) 以及优化的异常值分析工具结果,通过确定要素在运行重复分析时更改类别的频率来评估稳定性。 例如,如果要素在原始分析中是 90% 置信度的热点并在使用模拟数据运行中变更为任何其他类别,则将记为一次类别更改。 工具将统计要素类别变更的次数。 如果少于 80% 的模拟结果属于原始类别,则该要素被标记为不稳定。
该工具生成包含不稳定图层和原始分析结果副本的图层组。

此外,图层组还包含一个图表,显示每个原始分析类别和每个主要类别的要素数量。 主要类别是该工具在每个位置重复运行过程中出现最频繁的类别。

该图表可帮助识别分类不稳定模式。 每个原始类别与主要类别完美匹配的完美稳定结果将填满单元格对角线。
注:
当运行优化的热点分析和优化的异常值分析工具时,该工具不支持聚合点数据的分析结果。
广义线性回归工具
在评估广义线性回归分析的不确定性时,广义线性回归工具的主要结果是显示模拟运行中的回归诊断分布的图表,例如 R 平方和解释变量系数。 该工具提供了包含原始分析结果副本的图层组、汇总原始工具重复运行结果的表格,以及三个显示 R 平方、Jarque-Bera 统计显著性和标准化解释变量系数分布的图表。

空间自相关 (Global Moran's I) 工具
对于空间自相关 (Global Moran’s I) 工具结果,该工具的目标是帮助您了解在属性不确定性的情况下,全局空间自相关的原始评估的确定性。 该工具提供了图层组,其中包含原始分析结果的副本、汇总该工具重复运行结果的表格以及显示 Moran 指数值及其 z 得分分布的图表。

通常,大多数 Moran 指数值及其 z 得分都将小于原始值,因为向数据值添加随机不相关的噪声往往会降低数据的空间自相关性。
注:
空间自相关 (Global Moran’s I) 工具不会产生输出要素。 请使用在空间自相关 (Global Moran’s I) 工具分析中使用的原始输入要素作为分析结果要素参数值。
其他考虑因素
以下各小节提供了附加信息。
改变输出中的稳定性阈值
对于热点分析 (Getis-Ord Gi*)、优化的热点分析、聚类和异常值分析 (Anselin Local Moran’s I) 以及优化的异常值分析工具结果,不稳定图层将应用默认稳定性阈值 80%。 这意味着,要将某个要素视为稳定,该要素必须在 80% 以上的模拟中产生与原始分析相同的类别。 增大此阈值会将更多的要素指定为不稳定,而减小此阈值会将更少的要素指定为不稳定。
可以使用图层符号系统设置来配置定义稳定性的阈值。 要更改阈值,您必须首先在输出图层组中查找并选择不稳定图层。 其次,打开符号系统窗格,然后双击 80% 类的上限值单元格并编辑该阈值。

模拟数据限制
您可以设置分析变量的模拟值范围的限制。 当分析变量不应为负数(计数)或应介于 0 和 100 之间(百分比)时,这会很有用。 使用模拟数据限制参数为每个变量的可能值设置范围。 指定模拟数据限制参数值时,工具将丢弃超出指定范围的模拟值并重复模拟。

保存中间模拟结果
工具创建的模拟可以保存为要素类。 使用模拟结果的工作空间参数设置现有工作空间,工具将在其中保存每个模拟结果。
每个文件的命名约定遵循以下格式:分析结果要素名称_模拟 ID_模拟时间戳。 每个模拟结果要素类都包含原始分析结果的方案。

中间模拟结果可能对进一步的分析有用。 例如,您可以检查广义线性回归工具模拟结果的工作空间,以进一步了解模拟中预测值的分布。
地理处理操作元数据
要查找分析工具、输入要素以及分析中使用的附加参数,工具会从分析结果要素参数值中读取元数据。 因此,必须将已产生分析结果要素的分析配置为写入元数据。
此设置默认处于激活状态。 要确认此设置,请打开选项对话框,单击地理处理选项卡,然后在日志记录部分中,验证是否选中将地理处理操作写入数据集元数据选项。

注:
该工具不支持在托管图层上运行空间自相关 (Global Moran’s I) 工具分析,因为无法修改这些数据集的元数据。
其他资源
有关详细信息,请参阅以下资源:
- JingXiong Zhang and Michael Goodchild. 2002. "Uncertainty in Geographical Information." Taylor & Francis. ISBN 0-203-47132-6. https://doi.org/10.1201/b12624.
- Raphaella Diniz, Pedro O.S. Vaz-de-Melo, Renato Assunção. 2024. “Data augmentation for spatial disease mapping.” Spatial Data Science Symposium 2021 Short Paper Proceedings. https://doi.org/10.25436/E2KS35
- Michele Crosetto and Stefano Tarantola. 2001. "Uncertainty and sensitivity analysis: tools for GIS-based model implementation." International Journal of Geographical Information Science. 15:5, 415-437. https://doi.org/10.1080/13658810110053125
- Zhou Dimin. 2010. “Research on Propagation of Attribute Uncertainty in GIS.” 2010 International Conference on Intelligent Computation Technology and Automation.
- Hyeongmo Koo, Takuya Iwanaga, Barry F.W. Croke, Anthony J. Jakeman, Jing Yang, Hsiao-Hsuan Wang, Xifu Sun, Guonian Lü, Xin Li, Tianxiang Yue, Wenping Yuan, Xintao Liu, and Min Chen. 2020. “Position paper: Sensitivity analysis of spatially distributed environmental models- a pragmatic framework for the exploration of uncertainty sources.” Environmental Modelling and Software. https://doi.org/10.1016/j.envsoft.2020.104857
- Hyeongmo Koo , Yongwan Chun, and Daniel A. Griffith. 2018. “Geovisualizing attribute uncertainty of interval and ratio variables: A framework and an implementation for vector data.” Journal of Visual Languages and Computing 44 89-96. https://doi.org/10.1016/j.jvlc.2017.11.007
- Robert Haining, Daniel A. Grifith, and Robert Bennett. 1983. “Simulating Two-dimensional Autocorrelated Surfaces.” Geographical Analysis. https://doi.org/10.1111/j.1538-4632.1983.tb00785.x
- Sirius Fuller and Charles Gamble. 2020. "Calculating Margins of Error the ACS Way." American Community Survey (ACS) Programs and Surveys, U.S. Census Bureau.
- Shuliang Wang, Wenzhong Shi, Hanning Yuan, and Guoqing Chen. 2005. "Attribute Uncertainty in GIS Data". Fuzzy Systems and Knowledge Discvery Conference. 3614, 614-623. https://doi.org/10.1007/11540007_76
- Ningchuan Xiao, Catherine A. Calder, and Marc P. Armstrong. 2007. "Assessing the effect of attribute uncertainty on the robustness of choropleth mapclassification." International Journal of Geographical Information Science. 21:2, 121-144. https://doi.org/10.1080/13658810600894307