交差検証を使用した内挿結果の評価

Geostatistical Analyst のライセンスで利用可能。

意思決定に使用する内挿モデルを決定する前に、そのモデルが新しい位置における値をどの位の精度で推定できるか調査する必要があります。 しかし、測定ポイント間の位置における真値がわからない場合、そのモデルが推定している値が正確で信頼できるかどうかをどのように知ることができるでしょうか? この質問への回答は、サンプル未収集の位置の値を知る必要があるということになってしまいます。 しかしながら、内挿の確度と信頼性を評価するために広く一般に使用されている交差検証という方法があります。

交差検証

交差検証は leave-one-out リサンプリング法であり、最初にすべての入力ポイントを使用して内挿モデルのパラメーター (クリギングのセミバリオグラムや逆距離加重の累乗値など) を推定します。 その後、1 つの入力ポイントを抜き出し、残りのポイントを使用して、隠されたポイントの位置における値を推定し、推定値を測定値と比較します。 隠していたポイントをデータセットに再び追加し、今度は別のポイントを隠してから推定します。 すべての入力ポイントについてこの処理を繰り返します。

以下の図は、1 つのポイントについての交差検証プロセスを示しています。 青色のポイントすべてから内挿モデルを推定した後、赤色のポイントが隠され、残りのポイントを使用して、隠されたポイントの値を推定します。 この後、推定値が測定値と比較されます。 10 個のポイントすべてについてこの処理が繰り返されます。

交差検証のプロセス
赤色のポイントが隠され、残りのポイントから値が推定されます。 すべてのポイントについてこの処理が繰り返されます。

交差検証は新しい未測定位置における値の推定をシミュレートするため、内挿モデルを評価するのに効果的ですが、各位置の値は未測定ではなく隠されているだけなので、推定値を既知の値に照らして検証することができます。 隠されたポイントの値を正確に推定できるモデルは、新しい未測定位置の値も正確に推定できるはずです。 ただし、交差検証の誤差が非常に大きい場合、新しい位置について推定する際も大きな誤差を見込んでおく必要があります。

交差検証は内挿モデルを構築する際に自動的に実行され、地球統計ウィザード の最後のページに結果が表示されます。 [交差検証 (Cross Validation)] ツールを使用して既存の地球統計レイヤーに対して交差検証を実行することもできます。 地球統計レイヤーがマップに含まれている場合、レイヤーを右クリックして [交差検証] を選択するか、地球統計レイヤーの [データ] リボン メニューにある [交差検証] ボタンをクリックすることで、交差検証の統計情報を確認することができます。

ただし、交差検証の欠点として、最初にすべての入力ポイントを使用して内挿モデルのパラメーターが推定された後で、各ポイントが順次隠されます。 すべてのポイントが内挿パラメーターの推定に寄与しているため、交差検証ではポイントが完全には隠されていません。 個々のポイントは一般には内挿パラメーターの推定値に大きく影響しませんが、小さなデータセットや外れ値を含むデータセットの場合、1 つのポイントだけで内挿パラメーターの推定値が大幅に変わることがあります。 ポイントの値を完全に隠し、データの二度使いを回避するには、検証を使用します。

検証

検証は交差検証とよく似ていますが、異なる点として、最初に入力ポイントのサブセット全体をテスト データセットとして抜き出します。 この後、残りのポイントをトレーニング データセットとして使用して内挿モデルの各パラメーターを推定します。 次に、テスト データセットのすべての位置について推定を行い、各テスト ポイントについて検証誤差を計算します。 内挿パラメーターの推定や推定にはテスト データセットが使用されていないため、検証は、新しい位置の未知の値を内挿モデルが推定する際の確度と信頼性を推定する最も厳密な手法です。 ただし、検証の大きな欠点として、内挿モデルの構築にすべてのデータは使用できないため、すべてのデータを使用した場合ほど正確で精度の高いパラメーターの推定値が得られません。 データセットのサイズを削減する必要があるため、データ サンプルが多過ぎる場合を除き、通常は交差検証が推奨されます。

テスト データセットとトレーニング データセットは [サブセット フィーチャ (Subset Features)] ツールを使用して作成できます。 トレーニング データセットを使用して内挿モデル (地球統計レイヤー) を構築した後、[地球統計レイヤー → ポイント (GA Layer To Points)] ツールを使用して検証を実行できます。 トレーニング データセットから作成された地球統計レイヤーを指定し、テスト データセットについて推定し、内挿に使用されたフィールドについて検証します。 検証誤差および検証のその他の統計情報が出力フィーチャクラスに保存されます。

このトピックのこれ以降では、交差検証のみについて説明していますが、検証でも概念はすべて同じです。

交差検証の統計情報

交差検証を実行すると、各ポイントについてさまざまな統計情報が計算されます。 これらの統計情報は、交差検証ダイアログ ボックスの [テーブル] タブで確認したり、[交差検証 (Cross Validation)] ツールを使用してフィーチャクラスに保存したりすることができます。 各ポイントに次のフィールドが作成されます。

  • [測定] - 隠されたポイントの測定値。
  • [推定] - 隠されたポイントの位置における交差検証からの推定値。
  • [エラー] - 推定値と測定値の差 (推定値から測定値を引いた値)。 正の誤差は推定値が測定値より大きかったことを意味し、負の誤差は推定値が測定値より小さかったことを意味します。
  • [標準誤差] - 推定値の標準誤差。 誤差が正規分布している場合、測定値の約 2/3 が推定値を中心とした標準誤差の 1 倍の範囲内に収まり、約 95% が標準誤差の 2 倍の範囲内に収まります。
  • [標準化誤差] - 誤差を標準誤差で割った値。 分位タイプまたは確率タイプの出力を使用するには、標準化誤差の値が標準正規分布している必要があります (平均 = 0、標準偏差 = 1)。

さらに、経験ベイズ クリギング ファミリーのモデルの場合、次に示す交差検証の統計情報を使用できます。

  • [連続的ランク付け確率スコア] - 推定値の確度と精度を表す正の数値。値が小さいほど良好です。 この値を単独で解釈するのは困難ですが、誤差がゼロに近づくにしたがい標準誤差は小さくなり、連続的ランク付け確率スコアも小さくなります。 要するに、この統計情報は測定値と推定分布の間の隔たりを示し、推定と標準誤差の確度を表しています。 測定値を中心とした推定分布が狭くなると (誤差がゼロに近づいて標準誤差が小さくなると) 連続的ランク付け確率スコアはゼロに近づきます。 値の尺度はデータの単位の 2 乗であるため、単位や値の範囲が異なるデータセット間で比較してはなりません。
  • [検証分位] - 推定分布を基準にした測定値の分位。 モデルが正しく構成されている場合、検証分位は 0 ~ 1 の間で一様に分布し、パターンがまったくありません。 正しく構成されていないモデルの検証分位は、一般に、中央に集まるか (ほとんどの値が 0.5 の付近)、端に集まります (ほとんどの値が 0 または 1 の付近)。
  • [90 パーセント内間隔] - 測定値が 90% の推定区間 (信頼区間に相当) に収まるかどうかの指標 (1 または 0)。 モデルが正しく構成されている場合、ポイントの約 90% がこの区間に収まり、この値は 1 になります。
  • [95 パーセント内間隔] - 測定値が 95% の推定区間に収まるかどうかの指標 (1 または 0)。 モデルが正しく構成されている場合、ポイントの約 95% がこの区間に収まり、この値は 1 になります。

注意:

推定標準誤差タイプの出力をサポートしていない内挿方法では、測定値、推定値、誤差のみを計算できます。

交差検証の統計サマリー

個々の隠されたポイントについての交差検証の統計情報からそのモデルの性能について詳しい情報を得ることができますが、多数の入力ポイントがある場合、内挿結果における意味を簡単に解釈するため、情報を集約する必要があります。 交差検証の統計サマリーは交差検証ダイアログ ボックスの [サマリー] タブに表示され、[交差検証 (Cross Validation)] ツールによるメッセージとして出力されます。 統計情報の次のようなサマリーが提供されます。

注意:

すべての式で、n はポイントの数、si は隠されたポイントの位置、z(si) はこの位置における測定値、z-hat(si) は推定値、σ-hat は推定値の標準誤差です。

  • [平均誤差] - 交差検証の誤差の平均。 この値ができるだけ 0 に近くなるようにします。 平均誤差はモデルの偏りを示し、正の平均誤差は値が過大に推定される傾向があることを示し、負の平均誤差は値が過少に推定される傾向があることを示します。 統計情報はデータ値の単位で表示されます。
    • 平均誤差
  • [RMS 誤差] - 平均二乗推定誤差の平方根。 この値ができるだけ小さくなるようにします。 これは推定の確度を示す統計情報であり、測定値からの推定値の平均偏差の近似値です。 この値はデータ値の単位で表示されます。 たとえば、摂氏温度の気温内挿では、RMS 誤差の値が 1.5 の場合、推定値と測定値の差は平均で約 1.5 度であることを意味します。
    • RMS (二乗平均平方根) 誤差
  • [平均標準化誤差] - 標準化誤差の平均 (誤差を標準誤差で割った値)。 この値ができるだけ 0 に近くなるようにします。 これは標準的尺度でモデルの偏りを示す統計情報なので、値や単位が異なる複数のデータセット間で比較することができます。
    • 平均標準化誤差
  • [平均標準誤差] - 標準誤差の 2 次平均 (二乗平均平方根)。 これはモデルの精度を示す統計情報であり、推定値を中心とした狭い範囲への推定分布の集中度合を示します。 この値ができるだけ小さく、ほぼ RMS 誤差と等しくなるようにします。
    • 平均標準誤差
    • 分散には加法性がありますが標準誤差にはないため、交差検証の分散 (標準誤差の二乗) が平均されます。
  • [RMS 標準化誤差] - 標準誤差の二乗平均平方根。 これは、交差検証の誤差の分散を推定標準誤差と比較することによる標準誤差の確度を示す統計情報です。 この値ができるだけ 1 に近くなるようにします。 1 より小さい値は推定標準誤差が大きすぎることを示し、1 より大きい値は推定標準誤差が小さすぎることを示します。 この値は反比として解釈することができます。たとえば、値 3 は平均で標準誤差があるべき値の 1/3 であることを意味します。 同様に、値 0.5 は標準誤差があるべき値の 2 倍であることを意味します。
    • RMS 標準化誤差

さらに、経験ベイズ クリギング ファミリーのモデルの場合、次に示す交差検証のサマリー統計情報も使用できます。

  • [平均 CRPS] - CRPS (連続的ランク付け確率スコア) の値の平均。 この値ができるだけ小さくなるようにします。 モデルの平均 CRPS が小さくなるためには、推定と標準誤差の両方を高い確度と精度で推定する必要があります。
  • [90 パーセント内間隔] - 90% の推定区間に収まる測定値の割合。 この値ができるだけ 90 に近くなるようにします。 これは、標準誤差が推定値と整合しているかどうかを示す統計情報です。 90 より大きい値は、推定値に対して標準誤差が大きすぎることを示しています。 90 より小さい値は、標準誤差が小さすぎることを示しています。
  • [95 パーセント内間隔] - 95% の推定区間に収まる測定値の割合。 この値ができるだけ 95 に近くなるようにします。 これは、標準誤差が推定値と整合しているかどうかを示す統計情報です。

注意:

推定標準誤差タイプの出力をサポートしていない内挿法では、平均誤差と RMS 誤差の統計情報のみを計算できます。

内挿モデルの比較

交差検証は 1 つの地球統計学的モデルの品質を評価するのに使用できますが、この他にも一般に、複数の候補モデルを比較し、解析で使用するモデルを決定するときにも使用できます。 候補モデルが少ない場合、複数の交差検証ダイアログ ボックスを使用してモデルを調査できます。 ダイアログ ボックスを横に並べて配置することで、すべての結果を同時に確認して各モデルの詳細を詳しく調べることができます。

これに対し、候補モデルが多数ある場合やモデルの作成が自動化されている場合、[地球統計レイヤーの比較 (Compare Geostatistical Layers)] ツールを使用して、カスタマイズ可能な基準を使用してモデルを自動的に比較しランク付けすることができます。 単一の基準 (RMS 誤差が最小、平均誤差がゼロに最も近いなど)、複数の基準の加重平均ランク、複数の基準の階層的分類 (各基準による同ランクは階層内の後続の基準によってランク付けされます) に基づいてモデルをランク付けすることができます。 除外基準を使用して、最低品質基準を満たさない内挿結果を比較から除外することもできます。 [探索的内挿 (Exploratory Interpolation)] ツールでもこれらと同じ交差検証の比較を実行できますが、データセットとフィールドから地球統計レイヤーが自動的に生成されます。 このツールを使用することで、内挿法を 1 つずつ実行することなく、自分のデータに最適な内挿法を簡単に特定することができます。

交差検証のチャート

交差検証ポップアップ ダイアログ ボックス内の各種チャートで、交差検証の統計情報を対話的に視覚化して調査することができます。 ダイアログ ボックスのチャート セクションには 5 つのメイン タブがあり、各タブに異なるチャートが表示されます。

[推定] タブには推定値と測定値の散布図が表示され、データに適合された青色の回帰直線が描画されます。 推定値は測定値と等しくなければならないため、回帰直線がこの目標にどれだけ近づいているかを示す参照線が表示されます。 ただし、内挿モデル (特にクリギング) ではデータ値が平滑化され、大きな値は過小推定され、小さな値は過大推定される傾向にあるため、実際には、回帰直線は参照線より傾きが大きくなることが一般的です。

注意:

プロットの下に表示されている [回帰関数] の値は堅牢な回帰手法を使用して計算されています。 この手法では、最初に標準線形回帰直線が散布図に適合されます。 次に、回帰直線から標準偏差の 2 倍の範囲に収まらないポイントがすべて削除され、新しい回帰式が計算されます。 この手法では、少数の外れ値によって傾きと切片の推定値に偏りが生じることがありません。 回帰関数の推定に使用されていないポイントもすべて散布図に表示されます。

推定値と測定値

[エラー] タブと [標準化誤差] タブは推定タブとよく似ていますが、ここには交差検証誤差/標準化誤差と測定値の関係がプロットされます。 これらのプロットでは、回帰直線はフラットになり、ポイントにパターンがあってはなりません。 しかし実際のところは、スムージングによって傾きが負になることがよくあります。

[正規 QQ プロット] タブに表示される散布図には、標準化誤差と対応する標準正規分布の分位の関係がプロットされます。 交差検証誤差が正規分布し、標準誤差が正確に推定されている場合、プロット内のすべてのポイントが参照線の近くにあります。 分位タイプまたは確率タイプの出力では誤差が正規分布している必要があるため、これらのタイプの出力を使用する場合にはこのプロットを確認することが最も重要です。

正規 QQ プロット

[分布] タブには、(カーネル密度を使用して推定された) 交差検証の統計情報の分布が表示されます。 表示される統計情報を変更するには、[フィールド] ドロップダウン メニューを使用します。 (以下の図に示す) 特に便利なオプションとして、測定値と推定値の分布を同じチャート上にオーバーレイしてこれらの値がどれだけ近いかを調べることができます。 この 2 つの分布はできるだけ似ている必要がありますが、スムージングによって推定値の分布は測定値の分布よりも高くて狭いことが一般的です。

測定値と推定値の分布

状況に応じた交差検証の統計情報の解釈

交差検証やその他のモデル検証手法は、モデルがデータを正しく表しているかどうかを判断するための手段であると一般に誤解されています。 実際には、実世界から収集されたデータをモデルが正しく表すことは決してなく、意思決定のための実用的な情報を提供するためにはモデルが必ずしも正しい必要はありません。 この概念は George Box (1978) の有名な格言「すべてのモデルは間違っている、だが中には役立つものもある」に要約されています。 交差検証の統計情報は、モデルが正しいかどうかを判断する際のチェックリストではなく、モデルの有用性を定量化する手段であると考えてください。 多数の統計情報 (個々の値、サマリー統計情報、チャート) が提供されることで、近くを見過ぎて理想的な値やパターンからの逸脱や問題に気が付かない可能性があります。 モデルはデータを決して完璧には表さないので、完璧なモデルは存在しません。

交差検証の結果を確認する際には、分析の目的と分析で求めているものを常に念頭に置くことが重要です。 たとえば、摂氏温度の気温を内挿して、猛暑時の公衆衛生に関する提言を作成するとします。 このシナリオでは、平均誤差の値 0.1 はどのように解釈すべきでしょうか? 文字通りに解釈すれば、このモデルには正バイアスがあり、温度値を過大推定する傾向があります。 ただし、、平均バイアスはわずか 0.1 度であり、これは公衆衛生政策に関わるほどの大きさではありません。 その一方で、RMS 誤差が 10 度である場合、推定値が実際の気温から平均で 10 度ずれていたことを意味します。 10 度も差があると公衆衛生政策の提言はまったく異なるものになるため、このモデルは確度が低すぎて役に立ちません。

さらに、推定値に信頼区間 (誤差マージン) を設けるかどうかについて検討する必要があります。 たとえば、28 度、プラス/マイナス 2 度の温度値を推定したとします。 標準誤差に関連する統計情報は、その主な目的が誤差マージンの確度を判断することなで、誤差マージンを設けない場合はあまり重要ではなくなります。 標準誤差の確度に問題がある場合、場合によっては推定値に問題が生じることがあります。推定は正確でも誤差マージンの推定が不正確になることが内挿モデルではよくあります。

内挿モデルは極値 (データセットの最大値と最小値) のモデル化を最も苦手とします。 内挿モデルは推定位置の近傍にある測定値の加重平均を使用して推定を行います。 データ値を平均することで、推定は近傍ポイントの平均値に近づき、この現象をスムージングと呼びます。 程度の差こそあれ、ほぼすべての内挿モデルにスムージングは存在し、これは交差検証の各種チャートの勾配として確認することができます。 スムージングは最小限に抑える必要がありますが、実際には、データの最大値と最小値付近のエリアでの推定について最も懐疑的であるべきです。

最後に、交差検証の結果に対する期待はデータの品質と量に応じたものでなければなりません。 ポイントの数が少なすぎたりポイント間の距離が大きすぎたりする場合、交差検証の統計情報はそれらのポイントからの限られた情報を反映していると考えられます。 適切に構成されたモデルでも、正確な推定を行うのに十分な情報がデータセットから得られない場合、交差検証の誤差は大きくなります。 同様に、大量の情報を含む代表的なデータがあれば、パラメーターが不正確で構成が不十分なモデルでも、正確で信頼性の高い推定を生成することが可能です。

関連トピック