计算比率工具可计算不同的率。 您可以使用该工具计算百分比、比率、事故率和平滑率。 可以使用全局经验贝叶斯、局部经验贝叶斯、局部加权平均值或局部加权中位数法来计算平滑率。
粗率法可用于计算百分比、比率和事故率。 但是,如果要素的计数或总体数较少,平滑法则更为合适。 平滑法使用要素空间邻域信息或参考比率信息来调整每个要素的粗率。 该工具包含以下平滑方法:
- 全局经验贝叶斯 - 根据全局参考比率调整每个要素的粗率估计值。 调整的程度受要素总体规模的影响。 如果您认为所有要素都持续存在潜在风险,请使用此选项。
- 局部经验贝叶斯 - 根据局部参考比率调整每个要素的粗率估计值。 如果您认为风险存在空间变化,请使用此选项。
- 局部加权平均值 - 通过使用其邻域的加权平均率来决定每个要素的比率。
- 局部加权中位数 - 通过使用其邻域的加权中位数比率来决定每个要素的比率。
可能的应用
在以下情况下计算比率:
- 计算简单的百分比。 例如,劳动力中失业人数的百分比。
- 计算比率。 例如,各县的男女比率。
- 计算事故发生率。 例如,女性食道癌的发病率。 该发病率估计特定时期内群体中每个个体观察到事件的概率。 代表了从该群体中随机选择的个体在该时期内发生事件的概率。 在这种情况下,比率是 0 到 1 之间的数字,计数是总体中个体的子集。
- 测量事件发生相对于参考单位的强度。 例如,2020 年每个人发布的推文的强度。 在这种情况下,该比率可能会超过 1,因为计数不一定是总体的子集。
背景概念
计算比率工具使用以下方法之一计算比率:粗率、全局经验贝叶斯、局部经验贝叶斯、局部加权平均值或局部加权中值。 粗率是最简单的方法,计算特定时期内事件计数与总体之间的比率。
例如,要了解婴儿死亡率,您可以使用粗率法计算简单比率来开始分析。 下图通过将 2020 年婴儿死亡人数除以 2020 年出生儿童总数来描述 728 个空间要素的婴儿死亡率。 这些数据包括一些大城市以及散布着众多小城镇的数据。 不同空间要素的人口规模以及出生儿童数量存在很大差异。
该图表的特点是,当儿童数量较少时,比率变化显着;而当儿童数量较多时,比率变化相对较小。 对于一年内出生人数少于 100 人的地区,比率范围从 0(可能的最低值)到 0.20。 据估计,每 10 个出生的婴儿中有 0.20 人或 2 人的婴儿死亡率即使在世界贫困地区也是罕见的。 相比之下,在出生人数至少为 1,000 人的地区,比率不低于 0.02 或高于 0.08。 这可能表明在人口较少的地区婴儿死亡率较高。 然而,主要原因是小地区的比率差异较大,导致计算出的比率不如人口稠密地区计算的比率可靠。
较大的变异性是由于死亡率对人口规模的极端敏感性,而不是由于各地区死亡概率的实际差异。 这个问题与所谓的小数问题有关。 在计算人口稀少或事件罕见的地理区域的百分比、比率或比例时,就会出现小数问题。 在这些情况下,事件计数的微小随机波动会导致生成的比例值出现大幅波动。 在之前的例子中,有 15 个地区的出生人数低于 30 人,并且没有死亡人数。 如果这些地区发生单例死亡,死亡率将从 0 飙升至 0.05 至 0.42 之间的值(或死亡率为 42%)。
计算比率时,您有兴趣了解事件概率(或本例中的婴儿死亡率)如何随空间变化。 然而,原油价格的部分变化是由与事件的潜在概率无关的波动引起的。 对于总体较少的要素,这种变化更大,使得其比率比为总体较多的要素计算的比率更不可靠。 为了克服粗率法的这一局限性,可以使用计算比率工具中的其他比率计算方法。
局部经验贝叶斯和全局经验贝叶斯方法都通过将每个要素的粗率调整为参考比率来解决小群体要素的粗率的可变性。 调整的程度取决于总体的规模:较大的总体在粗率估计和经验贝叶斯估计之间经历的变化最小,并且较小的总体则经历更明显的调整。
局部加权平均值、局部加权中值和局部经验贝叶斯方法应用空间平滑来计算比率。 每个特征的比率是使用其邻域的比率来计算的。 一旦确定了每个要素的相邻要素和相邻要素权重,就可以使用比率方法参数计算要素比率。 每个要素的比率是以下之一:
- 局部加权平均值 - 其邻域的加权平均率
- 局部加权中值 - 其邻域的加权中值率
工具输入
该工具包括几个用于定义和配置比率的参数。
比率字段
比率字段参数指定用于计算比率的字段。 该参数包括计数字段值和总体字段值,该值指定输入图层中具有事件计数的字段,该值指定输入中具有与所选计数字段对应的总体数据的字段。
您可以计算单个比率或多个比率。 要计算多个比率,请提供多个计数字段和总体字段值。 例如,如果要素类包含 2014 年、2020 年和 2024 年癌症死亡计数字段以及同一年份的总体字段,则您可以计算三种癌症死亡率。 如果您计算多个比率,则将应用指定的比率方法和比率乘数参数值来计算每个比率。
比率方法
比率方法参数指定用于计算比率的方法。
粗率
粗率估计计算如下:
计算粗率的方程,其中 ri 是粗率,ni 是总体,Yi 是第 i 个空间要素中的计数。 计算每个要素的粗率;但是,计数小于零或总体小于或等于零的要素将收到空率。 您可以使用输出要素类或表中包含的 Confidence interval- upper 95%、Confidence interval- lower 95% 和 Reliable 字段来评估每个粗率估计值的可靠性。 如果许多要素具有较大的置信区间或可靠性值,请考虑使用不同的比率方法。
全局经验贝叶斯
全局经验贝叶斯比率方法通过粗率和参考比率的加权平均值来估计比率。 计算方法如下:
其中 i 是空间要素,是全局经验贝叶斯估计值,Ci 是值在 0 到 1 之间的权重,是要素 i 的粗率估计,并且是参考比率。
参考比率是所有要素的平均率。 参考比率的计算方法是将所有要素计数的总和除以所有要素总体的总和,如下所示:
其中是参考比率,Yi 是第 i 个要素的总体,ni 是其计数。 权重 Ci 因要素而异,并受要素总体规模的影响。 如果某个要素具有大量人口,则权重变为非常接近 1,并且要素的全局经验贝叶斯比率估计与其粗率估计几乎相同。 如果人口规模较小,则粗率会向参考比率收缩,因为权重 Ci 将小于 1,并且全局经验贝叶斯比率估计将是粗率和参考比率的加权平均值。
如果比率方法参数设置为全局经验贝叶斯或局部经验贝叶斯,您还必须指定概率分布参数值。 概率分布是假设对观察到的计数值进行建模的分布。 概率分布参数包括两个选项:泊松分布和二项分布。 默认选项是泊松分布,这是一种广泛使用的建模比率分布。 在估计事件发生的强度或概率时可以使用此选项。 二项式概率分布模型假设如下:
- 事件计数(分子)是总体(分母)的子集。
- 每个事件都独立于其他事件。
- 每个事件发生的概率是相同的。
如果不满足任何这些假设,则二项分布不是合适的模型。 建议仅当满足这些假设并且事件的概率并不罕见时才选择二项式分布。
局部经验贝叶斯
要素的局部经验贝叶斯比率估计是焦点要素的粗率与其邻域的加权平均比率的加权平均值。 局部经验贝叶斯比率计算如下:
其中 i 是感兴趣的要素,是局部经验贝叶斯比率估计,Ci 是权重,是要素 i 及其相邻要素的加权平均比率,是焦点要素的粗率。
要素邻域的平均比率()由邻域类型和局部加权方案参数值确定。 邻域类型参数指定用于识别每个要素的邻域的方法。 每个相邻要素都会根据邻域类型或局部权重方案参数值分配一个权重。 然后,该工具计算每个邻域的局部加权平均率,如下所示:
其中 i 是感兴趣的要素,是 i 处的局部加权平均比率,j 是相邻要素,wij 是相邻要素 j 的权重,是相邻要素 j 的粗率估计值。
局部加权平均
局部加权平均比率方法通过计算其邻域的加权平均比率来估计要素的比率。 为了估计局部加权平均率,该工具首先应用邻域类型参数值来识别每个要素的相邻要素。 每个相邻要素都会根据邻域类型或局部权重方案参数值分配一个权重。 然后计算每个要素的局部加权平均比率如下:
其中 i 是感兴趣的要素,是 i 处的局部加权平均比率,j 是相邻要素,wij 是相邻要素 j 的权重,并且是相邻要素 j 的粗率估计值。
局部加权中值
局部加权中值比率方法通过计算其邻域的加权中值比率来估计要素的比率。
局部方法
局部方法使用要素的相邻要素来估计其比率。 将使用指定邻域类型参数值来识别邻域,然后为每个邻域分配一个权重。
邻域权重可以未加权,也可以使用地理加权(核)函数进行计算。 局部加权方案参数支持以下邻域加权选项:未加权、高斯和双平方。 请使用最能反映相邻要素事件计数对焦点要素事件计数影响的加权方案。 如果所有相邻要素均影响焦点要素,请使用未加权选项,不考虑距离。
如果相邻要素的影响取决于距离,则距离焦点要素较远的相邻要素应赋予较低的权重,并且对焦点要素的估计比率的影响较小。 距离焦点要素较近的相邻要素应赋予较高的权重,并且对估计比率的影响较大。 在这种情况下,请使用高斯或双平方选项。 这些选项将核来计算权重,核函数用于确定权重随距离增加而减小的速度。 高斯和双平方核函数都会为焦点要素分配一个权重,并随着与焦点要素距离的增加而逐渐减小权重。 将双平方权重方案与具有相同邻域规范的高斯权重方案进行比较时,双平方中的权重将以更快的速度减小。
如果指定高斯或双平方选项,还必须设置核带宽参数。 基于数据设置合适的核带宽。 如果未提供值,则会估计一个默认值。
比率乘数
每个比率都是 0 到 1 之间的值。 如果总体规模较大或感兴趣的事件很少,则所得的比率将会很小。 比率将包括许多前导零,这可能会导致难以解释比率。 比率乘数参数是一个缩放比率的整数值,因此它们更有意义且更易于解释。 将比率乘数设置为 100 以计算百分比。 一个好的经验法则是使用最小的比率值来确定比率乘数。 例如,如果最小比率有 3 个前导零,则比率乘数值应为 10,000 或更大。 那么,不为 0 的最小比率将大于 1。
设置比率乘数值后,比率将表示为每个比率乘数单位的预期计数。 例如,如果您计算胰腺癌死亡率并将比率乘数值设置为 100,000,那么得出的比率将是每 100,000 人中的预期计数。 如果要素的比率为 144,则意味着每 100,000 人中每年因胰腺癌死亡的人数预计为 144 人。
工具输出
该工具生成输出表或要素类、输出图层组和地理处理消息。
输出要素或表
输出要素类或表包含多个字段。
超额率
该 Excess Rate 字段将要素的比率与所有要素的平均比率进行比较。 超额比率的计算方法是将某个要素的观察比率除以所有要素的平均比率。 超额比率可以是任何大于或等于零的正值。 接近 1 的超额比率值表明估计比率与平均比率相似。 如果超额比率小于 1,则该要素的估计比率小于平均率。 如果超额比率大于 1,则该要素的估计比率大于平均率。 例如,如果某个要素的超额比率为 1.25,则其比率比平均率高 25%。 相反,如果某个要素的超额比率等于 0.75,则其比率比平均率小 25%。
标准比率
Standardized Rate 标准差显示要素属性值与平均值之间的差异。 标准比率计算如下:
其中 z 是标准化比率,是比率估计,是平均比率,是标准偏差。 具有负标准化比率的要素的比率小于平均比率。 具有正标准化比率的要素的比率大于平均比率。 标准比率越负,其偏离平均值的程度就越深。 正标准化率越大,其偏离平均值的程度就越深。 标准化率大于 3 或小于 –3 的要素被视为异常值。
置信区间
如果比率方法参数值设置为粗率,则输出表或要素类将包含 Confidence Interval – Upper 95% 和 Confidence Interval- Lower 95% 字段。 95% 置信区间是使用国家卫生统计中心疾病控制中心 (CDC) 提出的方法计算的。 如果要素的计数大于或等于 100,则高斯近似是合适的,因此,粗率的 95% 置信区间计算如下:
其中 ri 是粗率,Yi 是计数。
如果计数数量小于100,则使用 K 提议的方法计算 95% 置信区间。 Ulm 在计算标准化死亡率 (SMR) 的置信区间的简单方法中提出的方法来计算 95% 置信区间。 在这种情况下,泊松的高斯近似是不合适的,并且使用累积泊松概率和卡方分布之间的恒等式。 令 qgamma(p,x) 表示与形状参数 x 和比率参数 1 的伽玛分布的概率 p 相关的分位数。 然后 95% 置信区间计算如下:
可靠
该 Reliable 字段中的值反映了比率估计的可靠性。 当比率方法参数值设置为粗率时,则该字段将包含在输出要素或表中。 计算遵循疾病控制和预防中心 (CDC) 在其参考手册中描述的方法。 当可靠值较大时,粗率估计不精确,粗率被认为不可靠。 从 1989 年开始,CDC 国家卫生统计中心认为任何基于少于 20 次计数的粗略比率在统计上都是不可靠的。 这相当于大于或等于 22.94 的可靠值。
可靠性通过相对标准误差 (RSE) 来衡量,也称为变异系数。 RSE 是比率标准误差与比率估计乘以 100 之间的比率。 比率方差计算如下:
因此,假设计数非零,RSE 计算如下:
RSE 仅取决于计数 (Yi)。 尽管 RSE 公式并不取决于人口规模,但人口较多往往有较多计数,因此存在间接影响。
非空值的数目相邻要素
该 Number of Non-Null Neighbors 字段列出了不具有空率的相邻要素数量,包括焦点要素。 总体字段或计数字段参数值中具有负值或空值的要素具有空率。空间平滑方法使用要素的邻域来确定该要素的比率。 该 Number of Non-Null Neighbors 字段显示了用于平滑焦点要素比率的相邻要素数量。 如果比率方法参数值为局部加权平均值、局部加权中值或局部经验贝叶斯,则该字段将包含在输出表或要素类中。
填充缺失值
该 Fill Missing Value 字段是一个布尔字段,指示是否已为该要素估算比率。 计数字段参数值中具有负值或空值或者总体字段参数值中具有负值或空值的要素将具有空率。 但是,如果比率方法值是局部加权平均值或局部加权中值,则可以为具有空比率的要素估算比率。 如果要素具有非空相邻要素,则空率将替换为其邻域的局部加权平均值或局部加权中值估计。
图层组和符号系统
该工具将图层组添加到内容窗格,并为每个比率添加一个子图层。 如果计算的比率超过 10 个,则仅将前 10 个比率添加为子图层。
每个子图层都是一个标准差地图。 根据标准差将比率分为不同的箱。 每个箱都标有标准偏差区间,并在括号中标明相应的比率区间。 色带包括三种颜色:绿色、中间白色和棕色。 色带以平均比率为中心。 绿色阴影要素的比率低于平均比率。 棕色阴影要素的比率高于平均比率。 棕色(+3 个标准差)和绿色(-3 个标准差)的最强色调的要素是异常值。
地理处理消息
地理处理消息提供要素和比率的摘要。 这些消息包括计算的每个比率的下拉部分。 每个部分都包含一个比率摘要表。 如果比率方法参数值为局部加权平均值、局部加权中位数或局部经验贝叶斯,则每个部分还将包含邻域计数摘要表。
比率的摘要
如果比率方法参数值不是粗率,则比率摘要表将包括一个总结所选比率方法的列和一个总结粗率的附加列。 使用这些列可将所选比率方法的结果与粗率方法的结果进行比较。 比率汇总表包括比率的最小值、最大值、中值、平均值和标准差值。 如果比率方法参数值为局部加权平均值或局部加权中值,则表将包含具有空比率值的要素和具有填充值的要素行。 具有空率值的要素行列出了具有空率的要素的数量。 具有填充值的要素行列出了具有估算率的要素数量。 这些要素最初具有空率;然而,他们的相邻要素包含非空的比率值,因此他们的比率是估算的。
邻域计数摘要
如果比率方法参数值为局部加权平均值、局部加权中位数或局部经验贝叶斯,则每个部分还将包含一个总结所有邻域的邻域计数摘要表。 该表包括最小值、最大值、中值和平均邻域计数以及无邻域要素的数量值。
其他资源
请参阅以下附加资源:
- Anselin, L., N. Lozano, and J. Koschinsky. 2006."Rate Transformations and Smoothing"
- Brillinger, D. R. 1986. "A biometrics invited paper with discussion: the natural variability of vital rates and associated statistics." Biometrics, 693-734. https://pubmed.ncbi.nlm.nih.gov/3814721/
- Carlin, B.P. and T.A. Louis. 1997. "Bayes and empirical Bayes methods for data analysis." Statistics and Computing, 153- 154. https://doi.org/10.1023/A:1018577817064
- Marshall, R.J. 1991. "Mapping disease and mortality rates using empirical Bayes estimators." Journal of the Royal Society Series C: (Applied Statistics), 283-294. https://doi.org/10.2307/2347593
- Martuzzi, M. and P. Elliott. 1996. "Empirical Bayes estimation of small prevalence of non-rare conditions." Statistics in Medicine, 15(17-18) 1867-1873. https://doi.org/10.1002/(SICI)1097-0258(19960915)15:17<1867::AID-SIM398>3.0.CO;2-2
- National Center for Health Statistics. 2019. Technical appendix from vital statistics of United States 1999 mortality
- Ulm, K. 1990. "Simple method to calculate the confidence interval of a standardized mortality ratio (SMR)." American Journal of Epidemiology, 131(2) 373-375. https://doi.org/10.1093/oxfordjournals.aje.a11507