使用面插值执行面到面预测

需要 Geostatistical Analyst 许可。

复杂程度: 初级数据要求: 使用自备的数据目标: 本练习的目的在于介绍如何使用面插值执行面到面预测。同时,本练习还将介绍如何预测缺失数据的面的值。

简介

本练习将演示如何使用面插值获取一组面(源面)中收集的数据,并用于预测另一组新面(目标面)的数据值。本练习中的数据涉及洛杉矶地区五年级学生的肥胖率(出于保密原因,原始数据已作更改)。已对每个学区每名五年级学生进行采样,并记录了肥胖和不肥胖学生的数量(请注意,其中 14 个学区未提供数据)。本练习的目的是通过获取学区年级中收集的肥胖率,来预测学区内人口普查区块组的肥胖率。此外,还将预测 14 个缺失数据的学区中的肥胖率。

下图显示了用五年级学生肥胖率进行了符号化的洛杉矶学区。低肥胖率以蓝色显示(表示肥胖率低于 22.5%),高肥胖率以红色显示(表示肥胖率高于 44.7%),而中等肥胖率则以绿色、黄色和橙色显示。黑色的面为缺失数据的学区。右图表示要为其预测五年级学生肥胖率的洛杉矶地区的块组。

洛杉矶的学校区域(左侧)和块组(右侧)
洛杉矶学区(左侧)和块组(右侧)

面插值过程包括两个步骤。首先,从源面创建预测表面,然后将该预测表面平均分配到目标面中。

创建肥胖率预测表面

面插值工作流的第一步是从学区中收集的肥胖率创建预测表面。由于面插值要求模型交互拟合,因此必须在地统计向导 中创建预测表面。

打开地统计向导

  1. 开启 ArcGIS Pro 并验证 ArcGIS Geostatistical Analyst 扩展模块 许可是否有效。
  2. 单击功能区中的分析选项卡,然后单击地统计向导图标。

选择方法并确定输入数据

  1. 地统计方法下,单击面插值
  2. 由于关注的是预测肥胖率(而非人口计数等),因此应选择类型旁边的比率
  3. 选择源数据集旁边的 child_obesity,以指定包含学区肥胖率的面要素类。
  4. 选择计数字段旁边的 5th_obese

    该字段包含五年级学生的肥胖人数。

  5. 选择 population 字段旁边的 5th_total

    该字段包含五年级学生的总人数。

  6. 由于本练习中不会使用二级变量,因此请保留第二数据集的默认值。

    面插值的地统计向导窗格 1
    面插值的地统计向导窗格 1

  7. 单击下一步开始创建面插值模型。

调整变异分析

您正在查看的是变异分析页面。在整个面插值工作流中,该步骤耗费时间最长,对于获取准确预测结果也最为关键。其目的是更改右侧的参数,以便使大部分经验协方差(蓝色十字符号)落入置信区间内(红色条)。如果正确指定模型,预计约有 90% 的经验协方差会落在置信区间内。

通过下图可以发现默认模型并不合适;大部分经验协方差都落在置信区间外。需要执行一些操作来调整模型,使之适当。

地统计向导窗格 2
地统计向导窗格 2
  1. 可以发现经验协方差在约 12,000 米的距离处变为负值。这表示应通过将步长大小更改为 1000 且将步长数保持在 12 来开始执行。(这两个参数的乘积应约等于经验协方差最初变为负值对应的距离。)

    以下协方差曲线看起来效果更好,但模型仍然有待改进。Y 轴上的较大经验协方差还是个问题。

    地统计向导窗格 2
    地统计向导窗格 2

  2. 要改善这种结果,应在模型下将模型类型更改为 K-Bessel

    此模型与数据非常拟合;大部分经验协方差落入置信区间内,其他一些则刚好落在区间边界处。但是,确信此模型合适之前,还需检查交叉验证结果。

    地统计向导窗格 2
    地统计向导窗格 2

  3. 单击下一步查看搜索邻域窗格。

修改搜索邻域

搜索邻域窗格显示了五年级肥胖率的预览表面。单击预览表面上面的任一点便可获得该点的预测肥胖率。例如,在下图中,十字线位置的预测值为 0.333177。这表示模型预测该位置处任意五年级学生都有 33% 的肥胖概率。

地统计向导窗格 3
地统计向导窗格 3
  1. 单击下一步查看交叉验证窗格。

检查交叉验证数据

  1. 单击正态 QQ 图选项卡。

    地统计向导窗格 4
    地统计向导窗格 4

    可以看到标准均方根值为 1.1475。该结果不错,因为该值的理想值应接近 1。正态 QQ 图还表明标准误差接近于正态分布,因为各点落在一对一的线的附近。我们将使用此模型进行预测。

  2. 单击完成,然后在方法报告对话框中单击确定

    地图上将显示肥胖率预测表面。根据分析目的的不同,该肥胖率表面可能就是所需要的结果。这种情况下,工作流可就此结束。然而,您还要预测块组级别的五年级学生的肥胖率,因此需要继续执行该面插值工作流的第二部分。

    洛杉矶五年级学生的肥胖率表面
    洛杉矶五年级学生的肥胖率表面

    注:

    上图中的图层已被裁剪为所关注的区域,并且图层已重命名为 5th grade obesity

预测人口普查区块组中的肥胖率

使用面插值创建适当的预测表面后,可使用面插值图层到面地理处理工具通过该表面预测洛杉矶块组中的五年级肥胖率。

  1. 右键单击 5th grade obesity 图层,然后展开导出图层菜单,随后选择到面打开“面插值图层到面”工具对话框。

    预测到面

    注:

    还可以从 Geostatistical Analyst 工具工具箱的使用地统计图层工具集中访问面插值图层到面工具。

  2. 确认输入面插值地统计图层已设置为 5th grade obesity
  3. 单击输入面要素下拉箭头,然后单击 LA_blocks 指定洛杉矶块组的面要素类。
  4. 单击输出面要素类浏览按钮导航到保存输出的位置,然后输入 LA_blocks_obesity 作为输出面要素类的名称。
  5. 由于要传递所有来自 LA_blocks 要素类的字段,请确认已选中从输入要素追加所有字段

    面插值图层到面地理处理工具对话框
    面插值图层到面地理处理工具对话框

  6. 单击确定以运行工具。

    包含洛杉矶块组中五年级肥胖率预测结果的面要素类即被添加到地图。包含所预测肥胖率的字段将标注为已预测。此外,预测的标准误差存储在标注为 StdError 的字段中。

    洛杉矶块组中五年级学生肥胖率的预测结果
    洛杉矶块组中五年级学生肥胖率的预测结果

    注:

    上图中的符号系统已从学区的肥胖率导入,以便能够相对直观地进行比较。

  7. 也可以通过所预测肥胖率的标准误差对块组进行符号化。标准误差存储在 LA_blocks_obesity 的 StdError 字段中。可利用它为预测的肥胖率创建误差幅度。

    低标准误差以浅红色的阴影进行符号化。较大块组通常具有较小标准误差,因为较大区域具有更多与其的相关信息,因此预测的不确定性更小。

    洛杉矶块组中肥胖率的标准误差
    洛杉矶块组中肥胖率的标准误差

根据在学区中采样得出的肥胖率对洛杉矶块组中的五年级肥胖率进行预测的工作流就此完成。

预测缺失数据的学区中的肥胖率

针对缺失数据的学区,要预测其中的肥胖率,需要再次使用面插值图层到面地理处理工具。

  1. 右键单击 5th grade obesity 图层,然后展开导出图层菜单,随后选择到面打开“面插值图层到面”工具对话框。

    预测到面

  2. 确认输入面插值地统计图层已设置为 5 年级肥胖率
  3. 单击输入面要素下拉箭头,然后单击 Missing_zones 指定缺失数据的学区的面要素类。
  4. 单击输出面要素类浏览按钮导航到保存输出的位置,然后输入 Missing_zones_obesity 作为输出面要素类的名称。
  5. 由于要传递所有来自 Missing_zones 要素类的字段,请确认已选中从输入要素追加所有字段

    面插值图层到面地理处理工具对话框
    面插值图层到面地理处理工具对话框

  6. 单击确定以运行工具。

    包含缺失的洛杉矶学区中五年级肥胖率预测结果的面要素类即被添加到地图。包含所预测肥胖率的字段将标注为已预测。此外,预测的标准误差存储在标注为 StdError 的字段中。

    缺失学区中五年级学生肥胖率的预测结果
    缺失学区中五年级学生肥胖率的预测结果

    注:

    已从学区的肥胖率导入符号系统。

对缺失数据的洛杉矶学区中的五年级肥胖率进行预测的工作流即已完成。

可以关闭 ArcGIS Pro 而不保存结果。

数据参考

  • Rosenshein, L. "The Local Nature of a National Epidemic: Childhood Overweight and the Accessibility of Healthy Food." M.S. dissertation, George Mason University, Department of Geography and GeoInformation Science, Fairfax, Virginia, USA, 2010.

相关主题