[率の計算 (Calculate Rates)] ツールは、さまざまな率を計算します。 このツールを使用し、パーセンテージ、比、発生率、平滑化率を計算します。 平滑化率は、グローバル経験ベイズ、ローカル経験ベイズ、ローカル加重平均、またはローカル加重中央値を使用して計算できます。
率法は、パーセンテージ、比、発生率を計算するために使用されます。 しかし、フィーチャの数や母集団が小さい場合は、平滑化法の方が適切です。 平滑化法では、フィーチャの空間近傍または基準率の情報を使用して、各フィーチャの粗率を調整します。 このツールには、次の平滑化法があります。
- [グローバル経験ベイズ] - グローバル基準率に合わせて各フィーチャの粗率の推定値を調整します。 調整の度合いはフィーチャの母集団規模の影響を受けます。 このオプションは、すべてのフィーチャにわたって一定の基礎的なリスクが存在すると考えられる場合に使用します。
- [ローカル経験ベイズ] - ローカル基準率に合わせて各フィーチャの粗率の推定値を調整します。 このオプションは、リスクに空間的なばらつきがあると考えられる場合に使用します。
- [ローカル加重平均] - 近傍の加重平均率を使用し、各フィーチャの率を決定します。
- [ローカル加重中央値] - 近傍の加重中央率を使用し、各フィーチャの率を決定します。
適用例
次の状況で率が計算されます。
- 単純なパーセンテージの計算。 たとえば、労働人口に占める失業者のパーセンテージを計算します。
- 比の計算。 たとえば、各郡における女性対男性の比を計算します。
- 発生率の計算。 たとえば、女性の食道がんの罹患率を計算します。 この率は、一定期間中に母集団内の 1 人あたりの事象観測の確率を推定します。 該当する母集団からランダムに選択された個人に関して、該当する期間中に事象が発生する確率を表します。 この場合、率は 0 ~ 1 の数値であり、個数は母集団内の個人のサブセットになります。
- 基準単位に対して事象発生の強度を計測します。 たとえば、2020 年の 1 人当たりの投稿されたツイートの強度などです。 この場合は、個数が必ずしも母集団のサブセットであるとは限らないので、率が 1 を超えることがあります。
背景となる概念
[率の計算 (Calculate Rates)] ツールは、[粗率]、[グローバル経験ベイズ]、[ローカル経験ベイズ]、[ローカル加重平均]、または [ローカル加重中央値] のいずれかの手法を使用して率を計算します。 最も単純な手法である粗率では、一定期間中の事象数と母集団の率を計算します。
たとえば、乳児死亡率を理解するために、粗率法によって解析を開始し、単純な比を計算します。 次のチャートは、2020 年の乳児死亡数を 2020 年の出生児の総数で除算して求められた 728 の空間フィーチャにおける乳児死亡率を示しています。 このデータには、多数の小規模な町が点在している大都市がいくつか含まれています。 空間フィーチャ全体で、人口の規模 (誕生した子供の数) に大きなばらつきがあります。
このチャートの特徴として、誕生した子供の数が少ない場合は率のばらつきが大きく、誕生した子供の数が多い場合は率のばらつきが比較的少なくなっています。 1 年間の出生数が 100 人を下回っている地域では、0 (考えられる最小値) から 0.20 までが率の範囲になっています。 推定乳児死亡率は 0.20 人 (つまり、出生児 10 人のうちの 2 人) ですが、これは世界の貧困な地域では見られません。 一方で、出生数が 1,000 人以上の地域では、0.02 を下回る率と 0.08 を上回る率は存在しません。 つまり、人口の少ない地域ほど乳児死亡率が高いことを示唆している可能性があります。 ただし、根本的な原因として、小規模な地域では率のばらつきが大きくなるため、人口の多い地域で算出された率よりも、率の信頼性が低くなります。
ばらつきが大きくなる理由は、地域間で死亡確率が実際に異なっているのではなく、人口規模に対する率の感度が極端に高いことです。 この問題は、少数問題と呼ばれるものに関連しています。 少数問題は、母集団がまばらであるか、事象の発生がまれである地理範囲において、パーセンテージ、比、割合、率を計算するときに発生します。 このようなシナリオでは、事象数におけるわずかなランダムな変動が、結果として率の値に大きな変動をもたらすことがあります。 前の例では、15 の地域で出生数が 30 人を下回っていて、死亡者は出ていません。 これらの地域で 1 人が死亡した場合、率は 0 から 0.05 ~ 0.42 (つまり、42 パーセントの死亡確率) に急上昇します。
率を計算する場合は、事象発生確率 (この例では、乳児死亡率) が空間全体でどのように変化するかを把握することに関心があります。 一方で、粗率のばらつきの一部は、事象の基礎となる確率に関連していない変動によってもたらされています。 このばらつきは人口規模が小さいフィーチャの場合に大きくなるため、人口規模が大きいフィーチャで算出された率よりも、率の信頼性が低くなります。 粗率法のこのような限界を打破するために、[率の計算 (Calculate Rates)] ツールで利用可能な他の率の計算方法のいずれかを使用します。
ローカル経験ベイズ率法とグローバル経験ベイズ率法はいずれも、基準率に合わせて各フィーチャの粗率を調整することで、人口規模が小さいフィーチャの粗率のばらつきに対処します。 調整の範囲は人口の規模によって異なります。人口規模が大きい場合は、粗率推定値と経験ベイズ推定値との変化は最小限になりますが、人口規模が小さい場合は、調整の範囲がより顕著になります。
ローカル加重平均率法、ローカル加重中央値率法、ローカル経験ベイズ率法では、空間平滑化を適用して、率を計算します。 各フィーチャの率の計算には、そのフィーチャの近傍の率が使用されます。 各フィーチャの近傍と近傍加重が特定されると、[率法] パラメーターを使用して、そのフィーチャの率が算出されます。 各フィーチャの率は次のいずれかになります。
- [ローカル加重平均] - 近傍の加重平均率。
- [ローカル加重中央値] - 近傍の加重中央値率。
ツールの入力
このツールには、率を定義および構成するパラメーターがいくつか用意されています。
率フィールド
[率フィールド] パラメーターには、率の計算に使用するフィールドを指定します。 このパラメーターには、事象数を含む入力レイヤー内のフィールドを指定する [個数フィールド] 値と、選択した個数フィールドに対応する母集団データを含む入力レイヤー内のフィールドを指定する [母集団フィールド] 値があります。
1 つの率または複数の率を計算できます。 複数の率を計算するには、[個数フィールド] と [母集団フィールド] に複数の値を指定します。 たとえば、フィーチャクラスに 2014 年、2020 年、および 2024 年のがん死亡者数のフィールドと、これらと同じ年の人口フィールドがある場合は、3 つのがん死亡率を計算することができます。 複数の率を計算する場合は、[率法] パラメーターと [率乗数] パラメーターに指定した値が各率の計算に適用されます。
率法
[率法] パラメーターには、率の計算に使用する方法を指定します。
粗率
粗率推定値の計算方法は、次のとおりです。
ここで、ri は粗率、ni は母集団、Yi は i 番目の空間フィーチャでの個数を表します。 粗率はフィーチャごとに計算されますが、個数が 0 より小さいフィーチャまたは母集団が 0 以下のフィーチャは NULL 率になります。 出力フィーチャクラスまたはテーブルに含まれている Confidence interval- upper 95%、Confidence interval- lower 95%、および Reliable フィールドを使用すると、粗率推定値ごとの信頼性を評価できます。 多数のフィーチャに大きい信頼区間または信頼性値が含まれている場合は、別の率法の使用を検討してください。
グローバル経験ベイズ
グローバル経験ベイズ率法では、粗率と基準率の加重平均を取得して、率を推定します。 この率法の計算方法は、次のとおりです。
ここで、i は空間フィーチャ、 はグローバル経験ベイズ率推定値、Ci は値が 0 ~ 1 の加重、 はフィーチャ i の粗率推定値、 は基準率を表します。
基準率は、すべてのフィーチャの平均率です。 基準率は、次に示されているように、すべてのフィーチャ数の合計をすべてのフィーチャの人口の合計で除算して求められます。
ここで、 は基準率、Yi は i 番目のフィーチャの母集団、ni はそのフィーチャの数を表します。 加重 Ci はフィーチャ間で異なり、そのフィーチャの母集団規模の影響を受けます。 フィーチャの母集団規模が大きい場合は、加重が 1 に非常に近くなり、フィーチャのグローバル経験ベイズ率の推定値が粗率推定値とほぼ同じになります。 母集団規模が小さい場合は、加重 Ci が 1 より小さくなり、グローバル経験ベイズ率の推定値が粗率と基準率の加重平均になるため、粗率が基準率に合わせて小さくなります。
[率法] パラメーターが [グローバル経験ベイズ] または [ローカル経験ベイズ] に設定されている場合は、[確率分布] パラメーターの値も指定する必要があります。 確率分布は、個数の観測値をモデル化する場合に仮定される分布です。 [確率分布] パラメーターには、[ポアソン] および [二項] という 2 つのオプションがあります。 デフォルト オプションの [ポアソン] は、率のモデル化に幅広く使用されている分布です。 このオプションは、事象発生の強度または確率を推定する場合に使用できます。 二項確率分布モデルでは、次の内容が仮定されます。
- 事象数 (分子) は人口 (分母) のサブセットである。
- 各事象は、他の事象に依存していない。
- 事象が発生する確率は、すべての事象で同じである。
これらの仮定のいずれかが満たされていない場合、その二項分布は適切なモデルではありません。 これらの仮定が満たされており、事象の確率が希少でない場合にのみ、二項分布を選択することをお勧めします。
ローカル経験ベイズ
フィーチャのローカル経験ベイズ率の推定値は、フォーカル フィーチャの粗率とその近傍の加重平均率の加重平均です。 ローカル経験ベイズ率は、次のように計算されます。
ここで、i は対象となるフィーチャ、 はローカル経験ベイズ率の推定値、Ci は加重、 はフィーチャ i とその近傍の加重平均率、 はフォーカル フィーチャの粗率を表します。
フィーチャの近傍の平均率 は、[近傍タイプ] パラメーターと [ローカル加重方式] パラメーターの値によって決定されます。 [近傍タイプ] パラメーターには、各フィーチャの近傍の特定に使用する方法を指定します。 [近傍タイプ] パラメーターまたは [ローカル加重方式] パラメーターの値に基づいて、各近傍に加重が割り当てられます。 この後、このツールは、次のように各近傍のローカル加重平均率を計算します。
ここで、i は対象となるフィーチャ、 は i のローカル加重平均率、j は近傍、wij は近傍 j の加重、 は近傍 j の粗率の推定値を表します。
ローカル加重平均
ローカル加重平均率法では、近傍の加重平均率を計算して、フィーチャの率を推定します。 ローカル加重平均率を推定するために、このツールはまず、[近傍タイプ] パラメーターの値を適用して、各フィーチャの近傍を特定します。 この後、[近傍タイプ] パラメーターまたは [ローカル加重方式] パラメーターの値に基づいて、各近傍に加重が割り当てられます。 各フィーチャのローカル加重平均率の計算方法は、次のとおりです。
ここで、i は対象となるフィーチャ、 は i のローカル加重平均率、j は近傍、wij は近傍 j の加重、 は近傍 j の粗率推定値を表します。
ローカル加重中央値
ローカル加重中央値率法では、近傍の加重中央値率を計算して、フィーチャの率を推定します。
ローカル法
ローカル法では、フィーチャの近隣フィーチャを使用して率が推定されます。 [近傍タイプ] パラメーターで指定した値を使用して近隣フィーチャが特定された後、各近隣フィーチャに加重が割り当てられます。
近隣フィーチャの加重は、非加重にしたり、地理的加重 (カーネル) 関数を使用して計算することができます。 [ローカル加重方式] パラメーターで利用できる近隣フィーチャ加重オプションは、[加重なし]、[Gaussian]、および [Bisquare] です。 フォーカル フィーチャの事象数に対する近隣フィーチャの事象数が与える影響を最もよく反映する加重方式を使用します。 距離にかかわらずすべての近隣フィーチャがフォーカル フィーチャに影響する場合、[加重なし] オプションを使用します。
近隣フィーチャの影響が距離によって左右される場合、フォーカル フィーチャから遠い距離にある近隣フィーチャには小さい加重を割り当てて、フォーカル フィーチャの推定率への影響が小さくなるようにします。 フォーカル フィーチャから近い距離にある近隣フィーチャには大きい加重を割り当てて、推定率への影響が大きくなるようにします。 この場合、[Gaussian] または [Bisquare] オプションを使用します。 これらのオプションではカーネルを使用して加重が計算されます。カーネルは、距離が遠くなるにつれて加重がどれだけ速く減少するかを求める関数です。 Gaussian カーネル関数と Bisquare カーネル関数ではフォーカル フィーチャに加重 1 が割り当てられ、フォーカル フィーチャからの距離が遠くなるにつれて、加重が徐々に減少していきます。 同じ近傍指定で Bisquare 加重方式と Gaussian 加重方式を比較すると、Bisquare のほうが加重が速く減少します。
[Gaussian] または [Bisquare] オプションを指定した場合、[カーネル バンド幅] パラメーターも設定する必要があります。 データに基づいて適切なカーネル バンド幅を設定します。 値を指定しなかった場合、デフォルト値が推定されます。
率乗数
各率は 0 ~ 1 の値です。 母集団規模が大きい場合または対象となる事象が希少な場合は、結果として生成される率が小さくなります。 これらの率には多数の先行ゼロが付けられるため、解釈が困難な場合があります。 [率乗数] パラメーターは、率をスケール処理する整数値であるため、もっと意味があってわかりやすい率になります。 率乗数を 100 に設定するとパーセンテージが計算されます。 確かな経験則として、率乗数を算出するには、最小率値を使用します。 たとえば、最小率に 3 つの先行ゼロが付いている場合は、[率乗数] の値が 10,000 以上になるはずです。 0 ではない最小率は 1 より大きくなります。
[率乗数] 値を設定すると、率は率乗数単位あたりの予想数で表されます。 たとえば、すい臓がんの死亡率を計算し、[率乗数] の値を 100,000 に設定した場合、結果として得られる率は 100,000 人あたりの予想数になります。 フィーチャの率が 144 である場合、100,000 人の各グループにおいて年間 144 人のすい臓がんの死亡者が予想されることを意味します。
ツールの出力
このツールでは、出力テーブルまたはフィーチャクラス、出力グループ レイヤー、ジオプロセシング メッセージが生成されます。
出力フィーチャまたはテーブル
出力フィーチャクラスまたはテーブルには、複数のフィールドが含まれています。
過剰率
Excess Rate フィールドでは、あるフィーチャの率がすべてのフィーチャの平均率と比較されます。 過剰率は、あるフィーチャの観測済み率をすべてのフィーチャの平均率で除算して求められます。 過剰率は、ゼロ以上の正の値になります。 1 に近い過剰率の値は、推定率が平均率と近似していることを示します。 過剰率が 1 より小さい場合は、そのフィーチャの推定率が平均率を下回っています。 過剰率が 1 より大きい場合は、そのフィーチャの推定率が平均率を上回っています。 たとえば、フィーチャの過剰率が 1.25 の場合、そのフィーチャの率は平均率よりも 25 パーセント大きい値になります。 一方で、フィーチャの過剰率が 0.75 の場合、そのフィーチャの率は平均率よりも 25 パーセント小さい値になります。
標準化率
Standardized Rate フィールドは、あるフィーチャの率が平均率からどれだけ外れているかを示します。 標準化率の計算方法は、次のとおりです。
ここで、z は標準化率、 は率推定値、 は平均率、 は標準偏差を表します。 フィーチャの標準化率が負の値の場合は、そのフィーチャの率が平均率を下回っています。 フィーチャの標準化率が正の値の場合は、そのフィーチャの率が平均率を上回っています。 標準化率が負の方向に小さくなるほど、平均率から下に外れていきます。 標準化率が正の方向に大きくなるほど、平均率から上に外れていきます。 標準化率が 3 より大きいか、–3 より小さいフィーチャは外れ値と見なされます。
信頼区間
[率法] パラメーターの値が [粗率] に設定されている場合は、出力テーブルまたはフィーチャクラスに Confidence Interval – Upper 95% フィールドと Confidence Interval- Lower 95% フィールドが含まれます。 95% 信頼区間は、国立衛生統計センターの米国疾病予防管理センター (CDC) が提示した手法を使用して計算されます。 フィーチャの数が 100 以上の場合は、ガウス近似が適切な手法であるため、粗率の 95% 信頼区間が次のように計算されます。
ここで、ri は粗率、Yi は数を表します。
数が 100 未満の場合は、K. Ulm が Simple method to calculate the confidence interval of a standardized mortality ratio (SMR) で提示した手法を使用して 95% 信頼区間が計算されます。 この場合は、ポアソンのガウス近似が適切な手法でないため、累積ポアソン確率とカイ二乗分布間の同一性が使用されます。 qgamma(p,x) で、形状パラメーター x と率パラメーター 1 のガンマ分布の確率 p に関連付けられた等量分類を表します。 この場合は、95% 信頼区間が次のように計算されます。
信頼性
Reliable フィールドの値には、率推定値の信頼性が反映されます。 [率法] パラメーターの値が [粗率] に設定されている場合は、このフィールドが出力フィーチャまたはテーブルに含まれます。 この計算は、CDC のリファレンス マニュアルに記載されている手法に準拠します。 信頼性の値が大きい場合は、粗率推定値が不正確になり、その粗率が信頼できないと見なされます。 1989 年以降、国立衛生統計センターの CDC は、20 未満の数に基づく粗率を統計的に信頼できないと見なしています。 この値は、22.94 以上の信頼性の値に相当します。
信頼性は、変動係数とも呼ばれている相対標準誤差 (RSE) で計測されます。 RSE は、率の標準誤差と率の推定値自体との比に 100 を乗算して求められます。 率の差異の計算方法は、次のとおりです。
ゼロ以外の数を仮定して、RSE は次のように計算されます。
RSE は数 (Yi) にのみ依存します。 RSE 式は母集団規模に直接依存しませんが、母集団規模が大きいほど数が多くなる傾向があるため、間接的な影響があります。
NULL でない近傍の数
Number of Non-Null Neighbors フィールドには、フォーカル フィーチャを含め、NULL 率がない近傍の数が表示されます。 [母集団フィールド] パラメーターまたは [個数フィールド] パラメーターの値が負の値または NULL 値のフィーチャの率は NULL 率になります。空間円滑化法では、フィーチャの近傍を使用して、そのフィーチャの率を算出します。 Number of Non-Null Neighbors フィールドには、フォーカル フィーチャの率の平滑化に使用された近傍の数が表示されます。 [率法] パラメーターの値が [ローカル加重平均]、[ローカル加重中央値]、または [ローカル経験ベイズ] に設定されている場合は、このフィールドが出力テーブルまたはフィーチャクラスに含まれます。
欠損値の補完
Fill Missing Value フィールドは、フィーチャに率が補定されたかどうかを示すブール型フィールドです。 [個数フィールド] パラメーターの値が負の値または NULL 値のフィーチャと [母集団フィールド] パラメーターの値が負の値または NULL 値のフィーチャの率は NULL 率になります。 ただし、[率法] の値が [ローカル加重平均] または [ローカル加重中央値] に設定されている場合は、NULL 率のフィーチャに率が補定されることがあります。 フィーチャに NULL でない近傍がある場合は、NULL 率がその近傍のローカル加重平均またはローカル加重中央値の推定値に置換されます。
グループ レイヤーとシンボル
このツールは、グループ レイヤーを [コンテンツ] ウィンドウに追加し、率ごとにサブレイヤーを追加します。 10 を超える率が算出された場合は、最初の 10 件の率だけがサブレイヤーとして追加されます。
各サブレイヤーは標準偏差マップです。 これらの率は、標準偏差に基づいてビンに分割されます。 ビンごとに、標準偏差間隔のラベルが表示され、それに対応する率間隔のラベルも括弧で囲んで表示されます。 カラー ランプには、緑色、白色 (中央)、茶色の 3 色が含まれています。 カラー ランプの中心は平均率になっています。 緑色の陰影付きのフィーチャの率は平均率を下回っています。 茶色の陰影付きのフィーチャの率は平均率を上回っています。 茶色の陰影が最も強いフィーチャ (+3 標準偏差) と緑色の陰影が最も強いフィーチャ (-3 標準偏差) は外れ値です。
ジオプロセシング メッセージ
ジオプロセシング メッセージには、フィーチャと率の概要が示されています。 メッセージには、算出された率ごとにドロップダウン セクションがあります。 各セクションに率のサマリー テーブルが含まれています。 [率法] パラメーターの値が [ローカル加重平均]、[ローカル加重中央値]、または [ローカル経験ベイズ] に設定されている場合は、近傍数のサマリー テーブルも各セクションに含まれます。
率のサマリー
[率法] パラメーターの値が [粗率] でない場合は、率のサマリー テーブルに、選択した率法を要約した列と粗率を要約した別の列が含まれます。 これらの列を使用して、選択した率法の結果と粗率法の結果を比較します。 率のサマリー テーブルには、率の [最小]、[最大]、[中央値]、[平均]、および [標準偏差] 値が含まれています。 [率法] パラメーターの値が [ローカル加重平均] または [ローカル加重中央値] に設定されている場合、このテーブルには [NULL 率値を持つフィーチャ] 行と [補完された値を持つフィーチャ] 行が含まれます。 [NULL 率値を持つフィーチャ] 行には、率が NULL 率のフィーチャの数が表示されます。 [補完された値を持つフィーチャ] 行には、率が補定されたフィーチャの数が表示されます。 当初これらのフィーチャの率は NULL 率でしたが、その近傍の率が NULL でない値であったため、これらのフィーチャの率が補定されました。
近傍数のサマリー
[率法] パラメーターの値が [ローカル加重平均]、[ローカル加重中央値]、または [ローカル経験ベイズ] に設定されている場合は、すべての近傍を要約した近傍数のサマリー テーブルも各セクションに含まれます。 このテーブルには、近傍数の [最小]、[最大]、[中央値]、および [平均] と、[近隣のないフィーチャ] の数が含まれています。
参考資料
次のリソースもご参照ください。
- Anselin, L., N. Lozano, and J. Koschinsky. 2006."Rate Transformations and Smoothing"
- Brillinger, D. R. 1986. "A biometrics invited paper with discussion: the natural variability of vital rates and associated statistics." Biometrics, 693-734. https://pubmed.ncbi.nlm.nih.gov/3814721/
- Carlin, B.P. and T.A. Louis. 1997. "Bayes and empirical Bayes methods for data analysis." Statistics and Computing, 153- 154. https://doi.org/10.1023/A:1018577817064
- Marshall, R.J. 1991. "Mapping disease and mortality rates using empirical Bayes estimators." Journal of the Royal Society Series C: (Applied Statistics), 283-294. https://doi.org/10.2307/2347593
- Martuzzi, M. and P. Elliott. 1996 "Empirical Bayes estimation of small prevalence of non-rare conditions." Statistics in Medicine, 15(17-18) 1867-1873. https://doi.org/10.1002/(SICI)1097-0258(19960915)15:17<1867::AID-SIM398>3.0.CO;2-2
- National Center for Health Statistics. 2019. Technical appendix from vital statistics of United States 1999 mortality
- Ulm, K. 1990. "Simple method to calculate the confidence interval of a standardized mortality ratio (SMR)." American Journal of Epidemiology, 131(2) 373-375. https://doi.org/10.1093/oxfordjournals.aje.a11507