データからのトレンド除去について

Geostatistical Analyst のライセンスで利用可能。

データからサーフェス トレンドを除去し、トレンド除去された (残差) データに対してクリギングまたはコクリギングを使用します。 以下に示す加法モデルについて考えます。

Z(s) = µ(s) + ε(s)

ここで、µ(s) は何らかの決定論的サーフェス (トレンド) であり、ε(s) は空間的自己相関誤差です。

概念上、トレンドは固定であり、データを何度も繰り返してシミュレートしても、トレンドが変化することはありません。 ただし、自己相関ランダム誤差により、シミュレートされたサーフェスには変動があります。 通常、トレンドは空間内で徐々に変化するのに対し、ランダム誤差は急速に変化します。 気象学的なトレンドの例として、観測される温度は緯度によって変化することが理論上知られています。 しかし、日々の観測では前線、被覆植物、雲の状態などによる局地的な変動が示され、これらは推定不可能であるため、局地的な変動は自己相関モデルになります。

残念ながら、データをトレンドとランダム誤差に一義的に分解する魔法のような手段はありません。 以下が有効なガイドとして提供されています。

以下のトレンド除去のグラフでは、2 つのモデルからデータがシミュレートされています。 1 つは通常クリギング モデルからシミュレートされており、ここで Z(s) = µ + ε(s) で誤差 e(s) は自己相関しています。 このプロセスは指数セミバリオグラムで平均 µ = 0 を持ちます。 もう 1 つのデータセットは普遍クリギング モデルからシミュレートされており、µ(s) = ß0 + ß1x(s) + ß2x2(s) となりますが (実線で示す)、誤差は平均 0 および分散 1 で独立しています。

トレンド除去のグラフ

両者を見分けるのは困難です (青色の円は通常クリギング モデルからシミュレートされ、赤色の円は独立誤差がある普遍クリギング モデルからシミュレートされています)。 空間的自己相関によって柔軟な推定サーフェスを生成でき、この例は、データのみに基づいていずれかのモデルを選択するのは困難であることを示しています。 一般に、トレンド サーフェスを除去する確固たる理由がない限り、通常クリギングを使用します。 これは、できるだけ単純なモデルにする必要があるためです。 トレンド サーフェスを除去した場合、推定するパラメーターの数が増えます。 2 次元 2 次サーフェスでは切片パラメーターの他に推定する必要があるパラメーターが 5 つ増えます。 推定するパラメーターが増えるにしたがい、モデルの精度は低くなります。

ただし、空間座標がデータ内の既知のトレンドの代わりに機能することがあります。 たとえば、作物生産は緯度によって変化しますが、座標そのものが理由ではなく、温度、湿度、降水量が緯度によって変化することが理由です。 このような場合、トレンド サーフェスを除去するのが理にかなっています。 この場合も、1 次多項式や 2 次多項式など、サーフェスをできるだけ単純なものにします。

トレンドを除去して残差変動がほとんどなくなった場合、推定の不確実性が適切に考慮されず、データが過剰適合される危険があります。 トレンド モデルを使用する場合には、必ず交差検証 (特に検証) によってモデルを確認してください。

変換とトレンドの詳細