交差検証による予測を評価の仕組み

[交差検証による予測を評価 (Evaluate Predictions with Cross-validation)] ツールは、K 分割交差検証を実行し、モデルが未知のデータをどの程度予測できるかを複数の検証を通じて評価します。 このツールは、入力データセットをグループに分割し、1 つのグループをテスト セットとして確保し、残りのグループでモデルをトレーニングし、確保されたグループでの予測精度を評価するための評価指標を計算します。 その後、このプロセスを各グループで繰り返します。 未知の地理空間領域でのモデルの予測能力を知りたい場合、グループはランダムに選択 (ランダム K 分割) するか、空間的にクラスタリング (空間 K 分割) することができます。 このツールにはデータ バランス調整オプションもあり、まれなイベントを分類する際に役立ちます。 このツールは、[フォレストベースおよびブースト分類と回帰分析 (Forest-based and Boosted Classification and Regression)][一般化線形回帰分析 (Generalized Linear Regression)][Presence-only 予測 (Presence-only Prediction (MaxEnt))] などの予測ツールと併用されます。 このツールは、予測ツールが提供するものよりも優れた検証方法でモデルのパフォーマンスを評価します。

K 分割交差検証

[交差検証による予測を評価 (Evaluate Predictions with Cross-validation)] ツールは、モデルが未知のデータをどの程度予測できるかを複数の検証を通じて評価します。 K 分割交差検証では、入力解析結果フィーチャは、まず同じかほぼ同じサイズの K 個のグループ (分割) に分けられます。 検証の実行時には、1 つのグループがテスト セットとして確保され、残りのグループでモデルがトレーニングされます。 その後、このモデルはテスト セットの予測に使用され、モデルのパフォーマンスを評価するための統計指標が生成されます。 このツールは、各グループを順番にテスト セットとして使用し、検証を実行します。

K 分割交差検証は、検証プロセスを複数回繰り返し、異なるテスト セットを用いてモデルのパフォーマンスをより包括的に評価します。 単一のトレーニング/テスト分割による単純な検証も有用ではありますが、K 分割交差検証の方がより多くの情報を提供します。 [フォレストベースおよびブースト分類と回帰分析 (Forest-based and Boosted Classification and Regression)][一般化線形回帰分析 (Generalized Linear Regression)] などの予測ツールにも検証ステップはありますが、K 分割交差検証はデータを異なるトレーニング セットとテスト セットに繰り返し分割するため、より優れています。 これにより、モデルの新しいデータに対する予測パフォーマンスをより信頼性の高い推定が可能になり、トレーニング中の過剰適合の防止にも役立ちます。

フィーチャのグループ化

K 分割交差検証は、解析フィーチャをグループに分割します。 [グループ数] パラメーターは、作成されるグループの数 (k) を制御します。 このパラメーターの値は、2 からデータセット内のフィーチャ数までの範囲を指定できます。 [評価タイプ] パラメーターは、グループ内のフィーチャがランダムに選択されるか、空間的にクラスター化されるかを決定します。 カテゴリー変数を扱う場合、すべてのカテゴリー レベルが均等に含まれているとは限りません。 まれなカテゴリーもあれば、よく現れるカテゴリーもあります。

ランダム K 分割

ランダム K 分割交差検証は、解析結果フィーチャをランダムに K 個のグループに分割します。 各グループには、同じ数またはほぼ同じ数のフィーチャが含まれます。

空間 K 分割

空間 K 分割は、各トレーニング グループとテスト グループが互いに空間的に分離されていることを保証します。 空間グループは K 平均クラスタリングを使用して作成されます。 各フィーチャの座標を使用して、空間的に区分された K 個のグループを作成します。 ただし、これらのグループは、各検証セットにおいて同じ数のフィーチャを持つとは限りません。 空間 K 分割交差検証は、新しい地理空間領域の未知のデータに対するモデルの予測能力を把握する上で役立ちます。

leave-one-out (1 個抜き) 交差検証

グループ数が入力フィーチャ数に一致する場合、leave-one-out (1 個抜き) 交差検証 (LOOCV) が実行されます。たとえば、[一般化線形回帰分析 (Generalized Linear Regression)] 解析の出力に 100 個のフィーチャがあり、それが [解析結果フィーチャ (Analysis Result Feature)] で、[グループ数] パラメーターが 100 に設定されている場合です。 モデルは 99 個のフィーチャでトレーニングされ、残りの 1 個のフィーチャで予測と評価が行われます。 このプロセスは 100 回繰り返されます。 LOOCV の利点は、MSE、RMSE、MAPE などの誤差指標を強固で偏りのない形で測定できる点にあります。 ただし、R² のようなグローバル指標を評価するために使用すべきではありません。これらはサンプルサイズが 1 では計算できず、非常に小さいデータセットに対しては信頼性のある指標とはならないからです。

空間 K 分割結果の評価

空間交差検証の評価指標は、選択されたグループ数の影響を受けます。 検証セットとして使用する空間的に隣接するクラスターのサイズが小さいほど、評価指標は leave-one-out (1 個抜き) 交差検証の結果に近づきます。 小さい空間的隣接検証セットは、トレーニング セット内に近い近傍を持つため、空間外挿が少なくなる傾向があります。 一方、ランダム交差検証の評価指標は、選択したグループ数に関係なく安定しており、leave-one-out (1 個抜き) 交差検証の評価指標と同等または類似した値を示す傾向があります。 したがって、空間交差検証で選択するグループ数は、考慮すべき重要なパラメーターです。 たとえば、米国の 50 州のうち 49 州の郡データでモデルをトレーニングし、50 番目の州で予測を行うことを目的とする場合、適切なグループ数は 49 になる可能性があります。 このアプローチにより、各分割が仮想的な州を表すことになり、最終的な評価指標が新しい州で予測を行う際のモデルのパフォーマンスを正確に反映できるようになります。

評価タイプの比較

一般的に、空間交差検証の評価指標は、ランダム交差検証と比較して評価結果が低くなる傾向があります。 たとえば、ランダム交差検証では分割全体で平均精度が 90% に達する一方で、空間交差検証では平均精度が約 70% と低くなる可能性があります。 この差異は、ランダム交差検証が空間的自己相関の影響を受けることによって生じます。 ランダム検証セットでは、特に自己相関が高い場合、対応するトレーニング セット内に類似した空間的近傍を持つフィーチャが多く含まれています。 対照的に、空間検証サブセットにはこの利点がなく、ある程度の空間外挿が生じます。 この場合、予測はモデルがトレーニングされていない新しい空間領域で行われます。 ランダム交差検証を使用してモデルを評価しても、指標がよく見えたとしても、基盤となるモデル自体の性能が向上しているわけではありません。 むしろ、これは新しい領域を使用する実際のシナリオでのモデルのパフォーマンスを過大評価していることになります。

交差検証結果の確認

交差検証やその他のモデル検証手法は、モデルがデータを正しく表しているかどうかを判断するための手段であると一般に誤解されています。 実世界から収集されたデータをモデルが正しく表すことは決してなく、意思決定のための実用的な情報を提供するためにはモデルが必ずしも正しい必要はありません。 交差検証統計は、モデルが正しいかどうかを判断するためのチェックリストではなく、モデルの有用性を定量化する手段です。 多数の統計 (個々の値、サマリー統計、チャート) が提供されることで、近くを見過ぎて理想的な値やパターンからの逸脱や問題に気が付かない可能性があります。 モデルはデータを決して完璧には表さないので、完璧なモデルは存在しません。

交差検証の結果を確認する際には、分析の目的と分析で求めているものを常に念頭に置くことが重要です。 たとえば、摂氏温度の気温を予測して、猛暑時の公衆衛生に関する提言を作成するとします。 このシナリオでは、平均誤差の値 0.1 はどのように解釈すべきでしょうか? 文字通りに解釈すれば、このモデルには正バイアスがあり、温度値を過大予測する傾向があります。 ただし、平均バイアスはわずか 0.1 度であり、これは公衆衛生政策に関わるほどの大きさではありません。 その一方で、RMS 誤差が 10 度である場合、予測値が実際の気温から平均で 10 度ずれていたことを意味します。 10 度も差があると公衆衛生政策の提言はまったく異なるものになるため、このモデルは確度が低すぎて役に立ちません。

出力

このツールはジオプロセシング メッセージと 2 つの出力 (フィーチャクラスとテーブル) を生成します。 フィーチャクラスには、トレーニング データセットとその中に含まれる各フィーチャのトレーニング結果と予測結果が記録されます。 テーブルには、各検証実行の評価指標が記録されます。 このツールは、平均サンプル外診断統計値テーブルを含む、多くの有用なジオプロセシング メッセージも作成します。

ジオプロセシング メッセージ

このメッセージにアクセスするには、[ジオプロセシング] ウィンドウで進行状況バーの上にカーソルを置くか、ポップアウト ボタンをクリックするか、メッセージ セクションを展開します。 ジオプロセシング履歴で、このツールの以前の実行に関するメッセージにアクセスすることもできます。 このメッセージには、平均サンプル外診断統計値テーブルが含まれます。

平均サンプル外診断統計値

解析診断は、平均サンプル外診断統計値テーブルに示されます。

平均サンプル外診断統計値テーブルには次の診断が含まれます:

  • [R2] - 相関係数の二乗は、適合度を計測するための基準です。 回帰モデルによって説明される従属変数の分散の比率と解釈できます。 値は 0.0 ~ 1.0 で変動し、値が大きいほど、より適切なモデルであると言えます。 トレーニング データの相関係数の二乗値とは異なり、サンプル外の相関係数の二乗値は説明変数を追加で含めると減少する可能性があるため、新しい説明変数を含めることが効果的かどうかを判断するうえで有用です。 グループに 3 未満のフィーチャしか含まれていない場合、R2 は計算されません。
  • [補正 R2] - 調整済み相関係数の二乗は、相関係数の二乗に似ていますが、説明変数が少ないモデルをある程度優先させるため、説明変数を追加で含めるとペナルティーを加算します。 調整済み相関係数の二乗の値を算出することで、分子と分母がその自由度によって正規化されます。 この調整を行うことで、値を因子寄与の割合として解釈することができなくなります。 この指標は、一般化線形回帰分析モデルに対してのみ計算されます。 グループに 3 未満のフィーチャしか含まれていない場合、補正 R2 は計算されません。
  • [RMS (二乗平均平方根) 誤差] (RMSE) - RMSE は平均二乗誤差 (MSE) の平方根です。これは、実際の値と予測値の平均二乗差の平方根になります。 MAE (平均絶対誤差) と同様、RMSE も平均モデル予測誤差を対象変数の単位で表しますが、RMSE の方が大きい誤差と外れ値の影響を強く受けます。 この統計は、一般に、予測精度を計測するために使用されます。 RMSE は対象変数の単位で表されるため、異なるモデル間で比較することができません。
  • [平均絶対誤差] (MAE) - MAE は、[対象変数] パラメーターの実際の値と予測値との絶対差の平均です。 値 0 は、モデルですべての観測値が正しく予測されたことを意味します。 MAE は対象変数の単位で表されるため、異なるモデル間で比較することができません。
  • [平均絶対パーセント誤差] (MAPE) - MAPE は MAE によく似ていますが、元の値と予測値の差を表します。 MAE は差を元の単位で表すのに対し、MAPE は差をパーセンテージで表します。 MAPE は相対誤差であるため、異なるモデルを比較する場合に適した診断です。 MAPE の計算方法では、元の値が 0 の場合に MAPE を使用することができません。 元の値が 0 に近い場合、MAPE は無限に大きくなり、テーブルでは Null として表示されます。 MAPE のもう 1 つの制限事項は、縮尺に依存することです。 たとえば、実際の値と予測値の差が同じである 2 つのケースが存在する場合は、実際の値が小さいケースの方が、MAPE への寄与度が大きくなります。

追加出力

このツールでは、テーブルと出力フィーチャクラスも生成されます。

出力テーブル

出力検証テーブルには、ジオプロセシング メッセージに含まれるのと同じ診断 (調整済み相関係数の二乗、相関係数の二乗、二乗平均平方根誤差 (RMSE)、平均絶対パーセント誤差 (MAPE)、平均絶対誤差 (MAE)) が含まれます。 このテーブルは、各 K 分割の統計も示します。

出力フィーチャ

出力フィーチャには、モデルで使用された説明トレーニング変数、予測対象変数、平均トレーニング予測値、平均トレーニング残差、サンプル外予測値、サンプル外残差といったフィールドが含まれます。 平均トレーニング予測値、平均トレーニング残差、サンプル外予測値、サンプル外残差を使用して、フィールドの値がどの程度正しく予測されたかを評価できます。

ベスト プラクティスおよび制限

このツールを使用する際のベスト プラクティスと制限を次に示します:

  • このツールはパラメーター調整やモデル最適化の際に使用してください。 たとえば、フォレストベースおよびブースト分類と回帰分析 (Forest-based and Boosted Classification and Regression) ツールでパラメーター設定を指定し、その出力トレーニング データセットを [交差検証による予測を評価 (Evaluate Predictions with Cross-validation)] ツールに入力してトレーニング済みモデルを評価できます。 交差検証の結果をもとに、[フォレストベースおよびブースト分類と回帰分析 (Forest-based and Boosted Classification and Regression)] ツールに戻って特定のパラメーターを微調整できます。 これら 2 つの手順は、モデルに適した交差検証指標が見つかるまで繰り返すことができます。 完全なトレーニング データセットまたはバランス調整済みデータセットを使用して最終モデルを準備し、新しい未知のデータに対して予測を行うことができます。
  • 特定のユースケースにおいて、どの評価指標が最も重要かを考慮してください。 以下を考えてみます。
    • 分類の場合 - 非常に重要で、まれなイベントを予測する際には、そのカテゴリーの感度を最適化できます。 多くのカテゴリーがあり、すべてのカテゴリーにわたって最も良好に予測するモデルを求める場合、MCC または全体的な F1 指標を検討できます。 正確度が常に最良の指標であるとは限らず、まれなカテゴリーが含まれる場合は特にそうです。 たとえば、データの 99% がカテゴリー A、1% がカテゴリー B である場合、すべてのフィーチャをカテゴリー A と予測するモデルは 99% の正確度になりますが、カテゴリー B に対する感度は 0% になります。
    • 回帰の場合 - モデルのデータに対する全体的な適合に関心がある場合は、相関係数の二乗を最適化することを検討してください。 モデルの個別誤差が気になる場合は、MAPE または MAE を最適化することを検討してください。 モデルの個別誤差および極端な誤差を最小化したい場合は、RMSE を基準に最適化することを検討してください。
  • ランダム分割で最適な指標をもたらすハイパーパラメーターが、空間分割で最良の指標をもたらすとは限りません。 新しい空間エリアに対して予測を行うことが目的である場合は、空間分割を使用して評価してください。 さまざまなモデルやパラメーター選択を試し、それぞれをツールに入力して、空間交差検証で最良の平均指標が得られる組み合わせを判断してください。
  • 検証データセットが 3 未満の場合、相関係数の二乗および調整済み相関係数の二乗は計算されません。 つまり、グループ数がフィーチャ数の 3 分の 1 を超える場合、これらは計算されないことになります。
  • すべての予測出力が同じ値である場合、マシューズ相関係数は計算できません。
  • データのバランス調整は、まれな事象を分類する際にモデルの正確度を向上させるのに役立ちます。

関連トピック