予備回帰分析 (Exploratory Regression) の詳細

特に、モデル化しようとしている変数 (従属変数) の重要な要因と考えられる多くの説明変数の候補が存在する場合は、適切に指定された OLS モデルを見つけるのが困難な場合があります。 このような場合に、[予備回帰分析 (Exploratory Regression)] ツールが役立つことがあります。 このツールは、説明変数のあらゆる組み合わせを試行し、すべての必要な OLS 診断に適合するモデルを確認するデータ マイニング ツールです。 説明変数候補のあらゆる組み合わせを評価することで、問題の解決や質問への回答に最適なモデルが見つかる可能性を大幅に高めることができます。 [予備回帰分析 (Exploratory Regression)] は、多くの統計ソフトウェア パッケージに付属している段階的回帰と似ていますが、[予備回帰分析 (Exploratory Regression)] は高い補正 R2 値を持つモデルをただ検索するのではなく、OLS 法のすべての要件および前提条件を満たすモデルを検索します。

予備回帰分析ツールの使用

[予備回帰分析 (Exploratory Regression)] ツールを実行する際は、各モデルに含まれる説明変数の最小数および最大数とともに、補正 R2p 値係数、VIF (Variance Inflation Factor、分散拡大要因) 値、Jarque-Bera p 値、空間的自動相関 p 値の閾値条件を指定します。 予備回帰分析は、[説明変数の最小数] パラメーター値以上および [説明変数の最大数] パラメーター値以下を含むモデルの [候補となる説明変数] パラメーター値のあらゆる組み合わせに対して OLS を実行します。 試行する各モデルは [検索条件] パラメーター値に対して評価されます。 検索するモデルは次のとおりです。

  • 指定した補正 R2 閾値を超えているモデル
  • すべての説明変数に、指定した値未満の p 値係数が含まれているモデル
  • すべての説明変数に、指定した閾値未満の VIF 値係数が含まれているモデル
  • 指定した値よりも大きい Jarque-Bera p 値を返すモデル

次に、そのモデルの残差に対して [空間的自己相関分析 (Spatial Autocorrelation (Moran’s I))] ツールが実行されます。 空間的自動相関 p 値もツールの検索条件 ([空間的自己相関の最小許容 p 値]) で指定した値より大きい場合、モデルは適合モデルとして表示されます。 [予備回帰分析 (Exploratory Regression)] ツールは、空間的自己相関ツールを使用して 3 つの最高の補正 R2 結果を含むモデルに対して回帰残差もテストします。

適合モデル セクションに表示されたモデルは、指定した検索条件を満たしています。 [最大係数 p 値カットオフ][最大 VIF 値カットオフ][最小許容 Jarque Bera p 値]、および [空間的自己相関の最小許容 p 値] のデフォルト値をそのまま使用した場合、適合モデルは適切に指定された OLS モデルにもなります。 適切に指定された OLS モデルには、次のプロパティが含まれています。

  • すべての係数が統計的に有意である説明変数
  • 各説明変数と従属変数間で想定される、または少なくとも正当性のある関係を反映している係数
  • モデル化しようとしている関係のさまざまな特徴を表す説明変数 (冗長な特徴を含まず、7.5 未満の小さな VIF 値を含む)
  • モデルに偏りがない (Jarque-Bera p 値が統計的に有意ではない) ことを示す、正規分布している残差
  • モデルの残差が正規分布している (空間的自己相関 p 値が統計的に有意ではない) ことを示す、ランダムに分散した上方予測および下方予測

[出力結果テーブル] パラメーター値を指定すると、[最大 VIF 値カットオフ] パラメーター値を満たし、すべての説明変数が [最大係数 p 値カットオフ] を満たすモデルがテーブルに書き込まれます。 このテーブルは、テキスト レポート ファイルに含まれるモデル以外のモデルも調査したい場合に役立ちます。

注意事項

段階的回帰などの手法を使用する場合と同様、[予備回帰分析 (Exploratory Regression)] ツールの使用については議論の余地があります。 大げさかもしれませんが、この議論については基本的に科学的手法の観点とデータ マイニングの観点の 2 つの学派があります。

科学的手法の観点

科学的方法の強力な推進者は、予備回帰分析手法に反対する可能性があります。 彼らは、準備したデータには適合するものの、幅広いプロセスを反映しないモデルを作成しないようにするため、データを探索する前に仮説を定式化すべきだと考えています。 ある特定のデータセットに過剰適合したモデルを構築しても、他のデータセットには役に立たない場合があります。実際、新しい観測データを追加すると、過剰適合したモデルは不安定になります (パフォーマンスが低下するか、説明変数係数の有意性が減少します)。 モデルが新しい観測データに対しても頑健性が低い場合、そのモデルは、モデル化しようとしている関係の主要なプロセスに決してたどり着けません。

また、回帰統計は確率理論に基づいていることを理解してください。このため、数千のモデルを実行すると、帰無仮説を不適切に棄却する可能性が非常に高くなります (第一種の統計的過誤)。 たとえば、95% の信頼度を選択したとすると、データを 100 回リサンプリングした場合に 5 個で偽陽性が生じるというリスクを受け入れていることになります。 p 値は係数ごとに計算されます。帰無仮説とは、係数が実際にはゼロであり、その結果、その係数に関連付けられている説明変数がモデルの役に立っていないことを示しています。 確率論は、結論を誤って支持する観測データを選択しただけの理由で p 値が統計的に有意になることが、100 個のサンプルのうち 5 個で発生することを示しています。 1 つのモデルのみを実行している場合、95% の信頼度は控えめであるように思われます。 試行するモデル数を増やすと、結果から結論を導きにくくなります。 [予備回帰分析 (Exploratory Regression)] ツールでは、わずか数分で数千のモデルを試行できます。 試行されたモデル数は、[出力レポート ファイル] パラメーター値のグローバル サマリー セクションで報告されます。

データ マイニングの観点

一方、データ マイニング学派の研究者は、あらゆる現実世界の結果に寄与するすべての要因を演繹的に知ることは不可能であると考えているようです。 回答しようとしている質問は複雑であることが多く、特定のトピックに関する理論が存在しないか、古くなっている場合があります。 データ マイニング作業者は、予備回帰分析などで得られる帰納的解析を強く推進しています。 彼らは、既成概念にとらわれない考え方と、仮説の構築に予備回帰分析手法を使用することを推奨しています。

推奨

[予備回帰分析 (Exploratory Regression)] ツールは適切に指定された OLS モデルを見つけるのに役立つ貴重なデータ マイニング ツールです。 予備回帰分析変数の候補を選択する際は、常に理論、エキスパートからの助言、および常識に照らし合わせて選択することを推奨します。 データの一部を使用して回帰モデルをキャリブレーションし、残りのデータを使用して整合チェックするか、追加のデータセットに対してモデルを整合チェックします。 結果から推論を導く場合は、ブートストラップなどの感度解析も実行してください。

[予備回帰分析 (Exploratory Regression)] ツールは、補正 R2 値の観点でモデル性能のみを評価する他の探索的手法を使用するよりもメリットがあります。 [予備回帰分析 (Exploratory Regression)] ツールは、上記のすべての OLS 診断に適合するモデルを検索します。