填充缺失值的工作原理

填充缺失值工具将使用估计值来替换缺失值(空值),从而使这些空值对后续分析的影响降至最低。 数据丢失的原因有很多。 例如,由于传感器暂时中断、采样站点不可访问,或者数据值被故意加以抑制以保护其机密性,可能会出现数据缺失。 如果要素缺失一个或多个值,则大多数统计方法将默认从分析中删除该要素。 以这种方式删除要素可能会引入偏差或影响结果的适用性,因为分析运行在不完整的数据集上。 可以使用数据集或其他数据集(例如,数据集或更大的聚合单位)中的其他信息来“填充”缺失的数据值,而非删除会影响您的分析或导致地图中生成间隙的有价值的数据。 对于空间数据,可以使用空间中相邻要素的值来估算缺失值。 对于时空数据,也可以使用时间邻域来填充缺失值。 对于非空间数据,可以使用包含缺失值的字段的全局统计数据来填充缺失值。 估算和填充缺失值将保留现有值,并根据所选方法来替换空值。 填充缺失值后,可将数据集作为完整的数据集进行分析。

例如,在一个美国数据集中,其中 50 个州均有 100 年的相关人均收入数据,而加利福尼亚缺少 1 年的数据(空值)。 如果您尝试创建时空立方体,则由于数据集中的单个空值,将从分析中删除加利福尼亚的所有数据。 因为必须包含完整的时间序列,所以加利福尼亚的其他 99 个值都将被排除在分析之外。 填充缺失值工具有助于确保使用缺失值的较好近似值来填充空值,并确保加利福尼亚将纳入后续分析中。

解释结果

该工具将输出一个新字段,其中包含现有值和输入值的完整集合,以及一个指示哪些是估计值的字段。 此工具还会输出消息,该消息可提供有关输入值总记录的百分比、填充缺失值前后的数据分布,以及填充值的总数和百分比的信息。

最佳做法

在确定此工具是否适合您的数据以及应该选择的参数时,应考虑以下几点:

  • 确保您知道哪些值缺失。 指示缺失数据值的占位符可能因数据集而异。 在地理数据库要素类中,缺失值存储为 <Null>,因此可以清楚地进行识别。 但是,shapefile 不能存储空值。 创建 shapefile 的工具或其他过程可能会将空值存储(或解释)为零。 在某些情况下,shapefile 中的空值会表示为非常大的正数或负数。 了解缺失的数据值的一个技巧是将感兴趣的字段从最大值到最小值进行排序,然后再从最小值到最大值进行排序。 看到空值、许多零值或者非常大或非常小的值可以提供用于指示缺失值的占位符线索。 元数据有时将指示缺失数据的占位符。
  • 确定缺失值的数量。 您不希望填充太多的值。 尽管您应该尝试填充的缺失数据值的数量没有绝对范围,但常用指导原则是在数据集中填充不超过 5% 的值。
  • 确定缺失值的位置。 使用缺失的数据来映射属性并浏览空间模式。 确定缺失的数据是聚类,还是位于研究区域的外围或核心。 另外,查看缺失值是否显示在主要高值或低值区域。 以上任意情况都表明存在缺失数据的位置或值的模式;这是指示数据并非随机缺失的指标。 如果数据随机缺失,则填充缺失值最有效。
  • 检查填充值的数量和百分比,以确定是否仍然有值缺失。 如果仍然缺失,请尝试更改用于填充值的方法,例如,增加相邻要素的数量或邻域的大小。 不得使用已经填充的值来填充缺失值。 由于您实际上通过估算值来进行估算,因此这种方法不可取。
  • 通过比较平均值和标准差等描述性统计数据,并检查直方图以检查曲线的偏移、上升或平稳,检查填充缺失值前后的数据分布。 最佳解决方案将产生形状相似的分布。
  • 寻找适用于本地或局部填充值的方法。 您可能会发现,用于填充这些值的方法在某些区域比其他区域的效果更好。 例如,如果使用相邻值的平均值进行填充,并且报告的标准差的范围很宽,则可以尝试改变所使用的方法,例如不同类型的邻域或不同的填充方法。 理想情况下,所有填充值的标准差大致相同,这表示它们与用于填充值的相邻值有类似的变化。
  • 填充值后,请考虑将如何使用数据。 如果简单映射数据以创建没有孔洞的美观可视化效果,则填充值的微小变化可能会被映射方法所掩盖。 例如,分区统计制图通常将数据分为多个类,因此类中的变化将不会显而易见。 如果数据用于生成官方统计数据,则必须仔细检查并清楚地了解填充缺失值的影响。
  • 告知您的受众,您已填充了缺失值。 如果您正在撰写报告,请描述您用于填充缺失值的方法,并说明您在选择填充值的方法时所做的任何假设(例如,确保未高估或低估填充值)。 如果您正在制作地图,请考虑识别已填充值的要素(例如,在单独的地图上)。 制图人员还使用了阴影或点画模式,或者独特的要素轮廓来识别面要素。 使用这些方法时请务必小心,因为它们可能会掩盖面填充或更改填充颜色的显示方式。
  • 对于时间趋势填充方法,待填充空值的位置在时间序列开始处必须至少具有两个包含值的时间段,且在结束处必须至少具有两个包含值的时间段,才能进行填充。 然而,拥有第一个和最后两个时间段值并不总是足够的。 可能在时间序列的中间存在大量缺失值,在这种情况下,插值对于进一步分析可能不可靠,例如时间序列预测工具集中的工具。

选择填充方法

填充缺失值时,您必须确定填充方法,例如使用相邻值的平均值、最小值、最大值或中值。 如果您想低估填充的值,请使用最小值,例如,如果您尝试填充领取免费午餐的学生人数。 同样,如果您不想低估缺失值,请使用最大值,例如填写具有较高教育程度的人数。 如果您怀疑本地存在异常高值或低值(例如房屋价值),请使用中值。 如果值趋向于与其相邻值相似,请使用平均值。

您还必须确定如何定义将用于计算缺失值的相邻值集。 可以基于各种空间关系来定义相邻值,例如固定数量的相邻值、固定距离内的所有相邻值,或邻接的相邻值(即,共享边界或具有接触的角)。

使用哪种填充方法和哪些相邻值取决于最终使用填充数据的方式。 例如,制图者可能希望填充包含缺失数据的面,以创建没有孔洞的美观地图。 在这种情况下,计算许多空间相邻值的平均值是有效方法。 填充房屋价值缺失数据的房地产分析人员将使用固定距离内的相邻值,并计算其中值以避免异常值的影响。

选择邻域类型和填充方法的组合时,请考虑哪些周围要素将合法影响具有缺失值的要素,并且哪种填充方法最不可能对分析结果造成偏差。 例如,设想一位本地公共卫生分析人员具有人口普查区块组级别的儿童铅中毒数据,但是一些区块组缺失数据。 分析人员可能会考虑使用与缺失数据的区块组共享边界的相邻区块组,并使用最大周围值来填充缺失数据。 使用邻接的区块组是合理的,因为其可能包含类似房龄的房屋,而房龄是铅暴露的已知危险因素。 如果使用周围区块组的最大值来填充缺失值,则可能会高估铅中毒的真实水平(在本例中为儿童的健康状况),最好高估而非低估风险。

其他资源

空间统计资源页面中中包含了可帮助您使用“空间统计”和“时空模式挖掘”工具的资源列表,其中包括以下内容:

  • 实践教程
  • 研讨会视频和演示文稿
  • 培训和 web 讲座
  • 书籍、文章和技术文件链接
  • 示例脚本和案例研究