指数是衡量感兴趣主题的数值,通常是难以直接衡量或定义的事物,例如社会脆弱性或业务创新。 计算复合指数工具通过将多个变量组合为单个变量来创建指数。 该工具遵循三步工作流来预处理变量、组合变量和后处理指数。
指数的正确构建依赖于在设计过程中对目的的透彻考虑以及沟通过程的透明性。 计算复合指数工具可指导您完成构建适当指数的过程,并帮助您可视化和理解结果。
了解有关在 ArcGIS 中创建复合指数的最佳做法的详细信息
可能的应用
以下是计算复合指数工具的可能应用:
- 环保部门希望创建空气质量指数,以告知公共政策和公众有关污染的信息。 他们从与标准污染物相对应的监测站收集数据。 分析师可以运行计算复合指数工具,将各个污染物指数组合为单个空气质量指数。
- 公共卫生部门希望创建呼吸健康风险指数,以突出环境不公正现象。 为此,分析师可以多次运行计算复合指数工具以创建具有多个子指数的指数,第一次运行该工具将为不同域创建子指数,最后一次运行该工具将创建最终指数。
- 司法管辖区希望申请基础设施拨款,要获得相应资格,他们需要证明资源将用于服务欠缺的社区。 他们可以创建一个结合基础设施和人口变量的指数,以确定服务最匮乏的地区。
变量的预处理方式
要创建适当的指数,变量必须使用兼容量级。 为实现这一点,工具中提供了预处理选项,可将不同输入变量引入共同的测量量级,以将其适当地组合。 该工具还可以反转变量,以对齐各个变量中的高值含义。
注:
使用变换字段工具变换变量。
预处理变量以反转方向
考虑每个变量中低值和高值的含义,并确保它们彼此一致。 例如,在社会脆弱性指数中,收入中位数较低的地区更为脆弱,但无保险人口百分比较低的地区则脆弱性较低;这些变量的方向与指数目的相悖。
当您将每个变量输入工具时,请考虑变量是否应该反转;在这种情况下,选中反转方向复选框以反转变量的方向。
通过将每个值乘以 -1 并在变量的原始范围之间缩放字段来计算变量的反向。
预处理变量以使用相同比例
使用缩放输入变量方法参数选择通用缩放方法。 所选方法将应用于所有变量,并在输出中提供结果字段。 可用选项如下:
最小值-最大值 - 此方法使用各变量的最小值和最大值在 0 和 1 之间缩放变量。 此无法最为简单,因为它保留了输入变量的分布并将比例缩放到易于解释的 0 到 1 比例。
此方法应用以下公式:
由于此方法保留了变量分布,因此它可能会受到偏态分布和异常值的影响。 例如,如果存在具有极高值的异常值,则该异常值的值为 1,但其余值将相似且更接近于零。 由于预处理变量的变化减少,该变量对结果指数的影响可能较小。
此方法还依赖于输入数据中的最小值和最大值,因此不适合跨多个时间段的指数比较,因为变量的最小值和最大值可能会随每个时间步长发生变化。
最小值-最大值(自定义数据范围) - 此方法使用各变量的可能最小值和可能最大值在 0 和 1 之间缩放变量。 当变量范围内不存在可能的最小值和最大值,或者您希望创建一个在收集额外数据时必须保持可比性的指数时,此方法非常有用。
此方法应用以下公式:
设置可能的最小值和可能的最大值有多个用例:
- 当将跨时间比较指数时,当前数据不代表指数在其他时间段可能具有的值范围。
- 当存在参考统计数据时,例如更广泛的研究区域的最小值和最大值。 例如,研究区域设置在法国的指数可能会使用基于欧洲所有国家的最小值和最大值。
- 当有存在理想基准时,例如人类发展指数中的理想预期寿命。 虽然数据本身可能不具有理想预期寿命,但仍可使用基准来设置指数的上下文。
- 当存在变量的理论最小值和最大值的先验知识时,例如了解地球上的绝对温度范围并使用较小范围的日常记录。
百分比数 - 此方法将变量转换为 0 到 1 之间的百分比数。 当每个变量的等级比其实际值更重要时,此方法非常有用。 它对异常值和偏态分布也很稳健,因为变量将被转换为均匀分布。
百分比数有多种定义。 此方法使用以下公式:
,
其中 R 为序数等级(在并列的情况下使用最小等级值),N 为值的数量,P 为结果百分比数。
百分比数表示一个值相对于变量中其他值的位置。 例如,虽然 50,000 美元和 60,000 美元之间的收入差异可能并不大,但如果有许多值介于两者之间的要素,则百分比数差异可能会很大。
等级 - 此方法将对输入值进行排序,将值 1 分配给变量中的最低值,并为每个值递增 1。 当每个变量的等级比其实际值更重要时,此方法非常有用。 此方法对异常值和偏态分布也很稳健。
该方法使用等级平均法,通过将平均等级值分配给并列的观察值来解决并列问题。
这种方法与百分比数非常相似,但值的范围介于 1 和表中的记录数之间。
Z 得分 - 此方法使用 Z 得分公式对每个变量进行标准化。 当应根据变量均值考虑每个值时,此方法非常有用。 例如,当您希望了解贫困线以下人口的百分比是否高于或低于全国平均水平,以及差异大小时。
此方法使用以下公式:
,
其中 x' 为 z 得分,x 为原始值,x̄ 为均值(平均值),σ 为标准差。
Z 得分以标准差表示,是数据分散度的度量。 值为 2 的 z 得分表示该要素比均值大两个标准差,值为 -1 的 z 得分表示该要素比均值小一个标准差。 与最小值-最大值方法相比,该方法不易受异常值的不利影响。 但是,它会产生负值,因此其与乘法组合方法不兼容。
Z 得分(自定义) - 此方法通过使用具有自定义均值和自定义标准差的 z 得分公式对每个变量进行标准化。 当创建与参考统计数据进行比较或跨时间进行比较的指数时,此方法非常有用。
此方法使用以下公式:
,
其中 x' 为标准化值,x 为原始值,x̄c 为自定义均值,σc 为自定义标准差。
使用自定义标准化参数设置参考均值和标准差。
例如,要使用第一年作为比较点,创建一个将在未来 10 年更新的年度发展指数,需使用 z 得分选项为第一年创建一个指数,该选项将使用每个变量的实际均值和标准差。 然后在后续年份的自定义标准化参数中使用相同的均值和标准差。 这样,使用第一年分布作为比较的所有年份结果都具有可比性。
当将值与可能不等于数据均值的理论均值进行比较时,此方法也非常有用。 例如,如果全国失业率为 8%,但数据中的平均失业率为 13%,可以根据全国平均水平和全国标准差设置 z 得分,数据中的样本将具有反映高于全国平均水平的更多正值。
按阈值标记(二进制)- 此方法将变量转换为二进制值 (0, 1),指示值是高于还是低于指定阈值。 当需要突出显示某些值而值的变化不重要时,此方法非常有用。
此选项激活缩放阈值方法参数,允许在缩放变量的范围内设置阈值。
此方法有多种用例:
- 空气质量领域专家希望针对多个空气质量变量突出显示超过人类健康阈值的位置。 他们将缩放阈值方法参数变量设置为原始并指定阈值。
- 一家政府机构希望突出显示多个领域中高度脆弱的位置。 他们将缩放阈值方法参数设置为百分比数,并将每个变量的阈值设置为大于 0.9,以突出显示最贫困的位置。
- 一家国际组织希望突出显示人类发展指数持续低于平均水平的国家。 他们将缩放阈值方法参数设置为 z 得分,并将阈值设置为小于 0 以识别低于平均值的位置。
当与求和组合选项结合计算位置超过阈值的次数时,此方法最为有用。
该此方法不受输入变量中异常值的影响,但会丢失每个输入变量中的间隔水平信息,因为每个变量将转换为二进制 (0, 1) 形式。
原始值 - 使用变量的原始值。
仅当所有变量都在可比较的范围内时才应使用此方法。 例如,当所有变量都是标准单位(如百分比或百万分率)时。 当在运行该工具之前已经发生变量标准化或转换时,此方法也非常有用。
该工具如何将变量组合到指数中
将变量预处理到共同比例后,即可聚合这些变量以创建一个单一值。 组合缩放变量方法参数具有以下选项:
- 总和
- 平均值
- 乘
- 几何平均数
求和和平均值选项被认为是加法,乘法和几何平均值选项被认为是乘法。
加法
求和和平均值组合方法解释起来相对简单,并且在各种指数中普遍使用。 这些方法几乎相同;它们会生成具有相同形状的不同比例分布,因此生成的指数地图外观相同。 只有值是不同的。
这些方法允许使用一个变量中的高值来补偿另一个变量中的低值。
乘法
使用乘法和几何平均数方法需要更加谨慎,因为生成的指数值可能比使用加法时高得多,并且这些方法在使用负值时效果不佳。
尽管它们存在缺点,但乘法的优势在于它们不允许使用一个变量中的高值来补偿另一个变量中的低值;要使指数值高,必须存在具有高值的多个变量。
注:
用于缩放和组合变量的预设方法参数提供了模板,这些模板可根据创建指数的常用方法设置预处理和组合方法。
加权
可以对变量加权以表示每个因素对指数的贡献的相对重要性。 默认情况下,所有权重都被设置为 1,这意味着每个变量的权重相等。 但是,指出一个变量相对于其他变量的贡献差异可能很重要。 通过将其中一个变量的权重更改为 2 并将其他变量保持为 1,可以表示该变量在对最终指数的贡献中应被视为其他变量的两倍。
您也可以使用加起来为 1 的权重:例如,如果使用了三个变量,并且应该认为其中一个变量的重要性是其他两个变量的两倍,则可以使用权重值 0.5、0.25 和 0.25。
在加法中,通过将每个变量乘以其各自的权重来应用权重。 在乘法中,通过将每个变量提高到其各自权重的幂来应用权重。
权重对生成的指数有重大影响。 无论选择保持相等权重还是改变权重以增加变量贡献值,使用权重可以增加分析的主观性。 此外,由于变量之间的相关性和方差差异,您可能无意中进行了加权。 要详细了解相关性和方差对指数的影响,请参阅创建符合指数的最佳做法文档。
如何对指数进行后处理
对变量进行预处理并将其组合到原始指数中后,进行后处理可以帮助使指数更易于理解。 利用输出设置参数类别中的选项,您可以调整方向、调整比例并对值进行分类。
反转指数
考虑指数目的,并评估高指数值是否符合预期。 使用反转输出指数值参数复选框可选择反转原始指数,将高值变为低值,反之亦然。
注:
应谨慎使用反转乘法指数值方法,因为这些结果与反转输入变量不同。
使用最小值和最大值缩放指数
使用输出指数最小值和最大值参数指定输出指数的范围。 无论选择何种预处理和组合方法,此选项均有助于使用更易于解释的比例。 例如,指定最小值 0 和最大值 100 以将原始指数缩放到此范围。 此选项使用以下公式:
,
其中 x 为原始值,min(x) 为在指数中找到的最小值,max(x) 为在指数中找到的最大值,a 为指定的最小值,b 为指定的最大值,x' 为缩放后的值。
分类指数
除了原始指数输出之外,还可以选择对输出指数进行分类以帮助查询结果。 附加分类输出参数包括四种使用方法:等间隔、分位数、标准差和自定义,每种方法都会在输出中生成一个附加字段。
等间隔方法将指数范围划分为等长的间隔。
分位数方法将对值进行分类,以使每个类具有相同数量的要素或行。 此方法将生成与指数百分比数图层类似的地图,但其使用类,这与连续百分比数分布不同。 可使用此选项创建五分位数(5 个类)、十分位数(10 个类)或基于类数的其他类型的分位数地图。
标准差方法将对指数进行分类,以显示每个值与均值的标准差数。
自定义分类方法使用自定义类边界和自定义标注对连续指数进行分类。 可以添加数值标注或文本标注,例如 Low、Medium 和 High。
解释结果
可视化和调查生成的指数是准备指数以供进一步使用的重要步骤。 该工具会生成各种地图和图表来帮助解释结果。
输出图层
当输出要素或表参数设置为要素类或 shapefile(而不是追加到输入)时,该工具将创建包含在输出图层组中的多个图层:
提示:
使用 Ctrl 和 Shift 快捷键可以快速可视化或折叠图层组内的图层。
指数图层 显示了任何可选缩放或反转后指数值的分布。 该图层提供了可用于评估指数结果的连续分区统计图。 您可以使用地图评估高低指数值,保留指数分布和任何异常值。
指数百分比图层显示了指数值之间的相对位置(排名)。 生成的地图颜色对应于指数值的排名,因此它们不保留分布或任何实际指数差异。 当您希望根据指数排名评估位置之间的相互关系时,请使用此方法。
指数等间隔类图层显示了基于指数值分布的类,但它根据输出指数类数参数设置的相等间隔将值组合到类中。 该图层是指数图层的分类形式。
指数分位数图层将为每个类分配相同数量的要素,是指数百分比数图层的分类形式。 类别数由输出指数类数参数设置。
指数标准差类图层用于可视化高于和低于指数均值的位置。 配色方案有助于强调极高和极低的指数值,这有助于识别可能需要进一步调查的位置。
指数自定义类图层显示了地图上的指定类别,可用于多种用途,例如根据计划干预措施将连续指数拆分到不均匀的类别中。 例如,您可以将类命名为 Low、Medium 和 High。
输出图表
该工具生成的图表可帮助回答有关指数的各种问题。
探索指数分布
图层组输出中的主要指数图层包含指数分布直方图。 其与地图搭配使用,可以帮助您了解结果的分布。
探索输入变量分布
主指数图层包含两个输入变量的箱形图,分别在缩放前后后可视化变量分布。 并排比较这些图表以评估所选缩放方法如何改变输入变量,通常非常有用。 并排比较这些图表有助于评估所选缩放方法是否对变量分布产生预期影响。
您还可以使用箱型图来调查异常值,方法是在输入变量的箱型图上选择异常值并检查它们在地图上的位置。 然后,可以查看预处理变量的箱型图以检查所选预处理方法是否已修复异常值的影响。
探索每个要素的结果
通过打开地图、直方图和两个箱型图,并在两个箱型图上激活选择过滤器,可以在地图或直方图上选择一个要素,以可视化选择的输入变量值的分布。 还可以使用地图和箱型图上的范围过滤器来评估地图不同区域的变量分布。
探索影响指数的变量
指数图层包括一个散点图矩阵,用于显示指数与所用的每个变量之间的相关性。 与指数相关性高的变量通常与对指数贡献最大的变量相对应。 因此,可以认为与指数具有低相关性的任何变量对指数的影响较小。 此外,考虑是否存在具有低内部变化的变量;变化较小的变量不太可能为指数提供有意义的信息。
由此生成的地图和数据可视化有助于进一步调整和完善指数。 要了解有关创建和评估指数时的其他注意事项的详细信息,请参阅最佳做法技术文章。
其他资源
请参阅经济合作与发展组织构建复合指标手册:方法和用户指南。