ボックス-コックス、アークサイン、対数変換

Geostatistical Analyst のライセンスで利用可能。

Geostatistical Analyst の一部の方法ではデータが正規分布している必要があります。 データが偏っている (分布が不均衡) 場合は、データを変換して、正規化できます。 ヒストグラム チャートを使用して、各種変換がデータセットの分布に与える影響を調べることができます。 構築する内挿モデルでいずれかのクリギング法が使用されており、ステップの 1 つとしてデータを変換することを選択した場合、内挿サーフェスでは推定値が元のスケールに戻されます。

Geostatistical Analyst では、ボックス-コックス変換 (べき乗変換とも呼ぶ)、アークサイン変換、対数変換などのいくつかの変換を使用できます。 Z(s) というデータがあり、Y(s) = t(Z(s)) という変換を適用するとします。 通常は、Y(s) が正規分布になるような変換を実行する必要があります。 この変換によって、分析範囲全体でデータの分散が一定となることがよくあります。

変換とトレンドの詳細

ボックス-コックス変換

ボックス-コックス変換は以下のとおりです。

Y(s) = (Z(s)λ - 1)/λ,

ここで、λ≠ 0 です。

たとえば、データが何らかの現象の数から構成されているとします。 このようなタイプのデータでは、分散が平均値に関連していることがよくあります。 つまり、分析範囲の一部で数が小さい場合、その地域でのばらつきは、数が大きい別の地域でのばらつきより小さくなります。 その場合、平方根変換を使用して分析範囲全体で分散をより一定にすることで、データが正規分布になることがよくあります。 平方根変換は λ = ½ の場合のボックス-コックス変換の特殊なケースです。

対数変換

対数変換は、実際には λ = 0 の場合のボックス-コックス変換の特殊なケースであり、この変換は以下のとおりです。

Y(s) = ln(Z(s)),

ここで、Z(s) > 0、ln は自然対数です。

対数変換は、データの分布が正に偏り (以下に示す)、非常に大きい値がいくつかある場合によく使用されます。 これらの大きな値が分析範囲内にある場合、対数変換は、分散をより一定にし、データを正規化するのに役立ちます。 用語に関しては、対数変換がクリギングで実装されている場合、その推定方法は対数正規クリギングと呼ばれるのに対し、λ の値がそれ以外の場合、関連するクリギング方法はトランスガウス クリギングと呼ばれます。

正に偏った分布

アークサイン変換

アークサイン変換を以下に示します。

Y(s) = sin-1(Z(s)),

ここで、Z(s) は 0 ~ 1 です。

アークサイン変換は比率や割合を表すデータに使用できます。 一般に、比率を表すデータの場合、分散は 0 と 1 付近で最小となり、0.5 付近で最大となります。 アークサイン変換を使用して分析範囲全体で分散をより一定にすることで、データが正規分布になることがよくあります。

関連トピック