回帰分析は、おそらく社会科学で最もよく使用される統計的手法です。回帰分析は、複数のフィーチャ属性の関係を評価するときに使用されます。関係を特定し計測すると、ある場所で何が起きているのかを把握し、何かが起きる可能性の高い場所を予測し、何かがその場所で起きる原因を調査できます。
最小二乗法 (OLS) は、最もよく知られている回帰分析手法です。これは、すべての空間回帰分析の開始点でもあります。理解または予測しようとしている変数またはプロセスのグローバル モデルを作成し、そのプロセスを表す単一の回帰方程式を作成します。
最小二乗法による回帰分析と地理空間加重回帰分析の両方について学習するのに役立つ資料がいくつかあります。まず、「回帰分析の基礎」をご参照ください。次に、「回帰分析チュートリアル」を学習してください。このトピックでは、OLS の出力と診断を理解するために役立つよう、分析結果について説明します。
入力
OLS ツールを実行するには、[入力フィーチャクラス] に、[一意の ID フィールド]、モデリング、説明、または予測する [従属変数]、[説明変数] のリストを指定する必要があります。また、[出力フィーチャクラス] にパスを指定する必要もあり、オプションで、[出力レポート ファイル]、[係数出力テーブル]、および [診断出力テーブル] にパスを指定することもできます。
最小二乗法 (Ordinary Least Squares) ツールの結果の解析
OLS ツールから生成される出力には、OLS 残差を使用してシンボル表示された出力フィーチャクラスや、統計結果および診断 ([メッセージ] ウィンドウ内) が含まれます。また、PDF レポート ファイル、説明変数の係数のテーブル、回帰診断のテーブルなど、いくつかのオプションの出力もあります。これらの各出力については、以下で、OLS ツールを実行して OLS ツールの結果を解釈するときの一連のチェックとして説明します。
OLS ツールを実行したら、OLS サマリー レポートを確認します。これは、ツールの実行中にメッセージとして入手でき、[出力レポート ファイル] パラメーターのパスを入力すると、レポート ファイルに書き込まれます。
下記の手順に従って、サマリー レポートを調べます。
統計レポートの評価
- モデルのパフォーマンスを評価します。R2] および [補正 R2] の値は、モデルのパフォーマンスを計測するための基準です。有効な値の範囲は 0.0 ~ 1.0 です。[補正 R2] の値は、データと関連付けられているためモデルの複雑さ (変数の数) を反映し、モデルのパフォーマンスを計測するためにはより正確な基準であるため、常に [R2] の値よりも若干低い値になります。モデルに説明変数を追加すると、通常、[R2] の値は高くなりますが、[補正 R2] の値は低くなる場合があります。空き巣の回帰モデルを作成しているとします (各国勢調査区域に関連付けられている空き巣の数を従属変数 y とします)。補正 R2] の値が [0.39] であれば、モデル (線形回帰を使用してモデリングされた説明変数) は従属変数の値変動の約 39% を説明できていることになります。つまり、このモデルは、発生した空き巣のおよそ 39% について物語っていることになります。
- モデル内の各説明変数を評価します。これらには、係数、確率またはロバスト確率、および VIF (Variance Inflation Factor: 分散拡大要因) があります。各説明変数の係数は、説明変数の従属変数に対するリレーションシップの強度とタイプの両方を反映します。係数に関連付けられている符号が負であれば、リレーションシップも負です (たとえば、都市中心部からの距離が遠ければ遠いほど、空き巣の数も少なくなるなど)。符号が正であれば、リレーションシップも正です (たとえば、人口が多ければ多いほど、空き巣の数も多くなるなど)。係数は、それに関連付けられている説明変数と同じ単位で示されます (0.005 の係数に人口数を表す変数が関連付けられている場合は、0.005 人として解釈できます)。係数は、関連付けられている説明変数の 1 単位の変化に対して予想される従属変数の変化を反映し、その他のすべての変数は一定に保たれます (たとえば、国勢調査区域の人口が 1 人増加するたびに空き巣の数が 0.005 件増加することが予想され、その他のすべての説明変数は一定に保たれるなど)。説明変数が統計的に有意であるかどうかを評価するためには、t 検定が使用されます。その帰無仮説は、係数が実質的には 0 であること (したがって、モデルにとって無意味であること) です。確率またはロバスト確率 (p 値) が非常に小さければ、係数が実質的に 0 である可能性も低くなります。Koenker 検定 (下記を参照) が統計的に有意である場合は、ロバスト確率を使用して説明変数の統計的な有意性を評価します。統計的に有意な確率には、その横にアスタリスク (*) が表示されています。統計的に有意な係数に関連付けられている説明変数は、従属変数に対して有効なリレーションシップを持っていることが理論上または常識的に推定される場合、モデリング対象のリレーションシップが主に線形である場合、および変数がモデルの他の説明変数と重複していない場合は、回帰モデルにとって重要です。VIF は、説明変数がどれほど重複しているかを計測するための基準です。一般的に、7.5 より大きい VIF 値に関連付けられている説明変数は、回帰モデルから (1 つずつ) 削除する必要があります。たとえば、回帰モデルに人口変数 (人口数) と雇用変数 (被雇用者数) がある場合、これらは通常、大きい VIF 値に関連付けられており、両方の変数が同じことを物語っているため、どちらかをモデルから削除する必要があります。
- モデルの有意性を評価します。[Joint F 統計] と [Joint Wald 統計] は、全体的なモデルの統計的な有意性を計測するための基準です。[Joint F 統計] は、[Koenker (BP) 統計] (下記を参照) が統計的に有意ではない場合にのみ信頼できます。[Koenker (BP) 統計] が有意であれば、[Joint Wald 統計] を確認して全体的なモデルの有意性を判断します。これらのテスト両方の帰無仮説は、モデルの説明変数が有効ではないということです。信頼度が 95% の場合に、p 値 (確率) が 0.05 未満であれば、モデルが統計的に有意であることを示します。
- 定常性を評価します。[Koenker (BP) 統計] (Koenker のスチューデント化された Bruesch-Pagan 統計) は、モデルの説明変数が、地理空間とデータ空間の両方にある従属変数に対して一貫性のあるリレーションシップを持っているかどうかを判断するためのテストです。モデルが地理空間で一貫している場合、説明変数によって表される空間プロセスは、スタディ エリア全体で同じように動作します (プロセスは定常である)。モデルがデータ空間で一貫している場合、予測値と各説明変数のリレーションシップの値変動は、説明変数の値が変化しても変化しません (モデルに不均一分散がない)。犯罪を予測するとし、説明変数の 1 つが所得であるとします。予測が、中所得世帯が少ない場所については中所得世帯が多い場所よりも正確である場合、モデルには不均一分散の問題があることになります。このテストの帰無仮説は、モデルが定常であることです。信頼度が 95% の場合に、p 値 (確率) が 0.05 未満であれば、不均一分散または非定常性が統計的に有意であることを示します。このテストの結果が統計的に有意である場合は、ロバスト係数標準誤差および確率を確認して、各説明変数の有効性を評価します。通常、統計的に有意な非定常性がある回帰モデルは、[地理空間加重回帰分析 (Geographically Weighted Regression)](GWR) ツールの分析に適切な候補です。
- モデルの偏りを評価します。[Jarque-Bera 統計] の値は、残差 (従属変数の観測値または既知の値から予測値または推定値を減算したもの) が正規分布しているかどうかを示します。このテストの帰無仮説は、残差が正規分布していることです。したがって、これらの残差のヒストグラムを作成すると、典型的な釣鐘曲線 (ガウス分布) に似た形状が示されます。このテストの p 値 (確率) が小さい場合 (たとえば、信頼度が 95% で、0.05 未満であるなど)、残差は正規分布せず、モデルに偏りがあることを示します。残差 (下記を参照) に統計的に有意な空間的自己相関がある場合、その偏りは、モデルが正しく指定されていない (主要な変数がモデルにない) ことの結果であることがあります。正しく指定されていない OLS モデルの結果は信頼できません。非線形リレーションシップをモデリングしようとしている場合や影響力のある外れ値がデータに含まれている場合、または高レベルの不均一分散が存在する場合は、統計的に有意な Jarque-Bera 検定が実行されることもあります。
- 残差の空間的自己相関を評価します。常に、[空間的自己相関分析 (Spatial Autocorrelation (Morans I))] ツールを回帰残差で実行して、それらが空間的にランダムであることを確認します。高い残差および低い残差の統計的に有意なクラスタリング (モデルの下方予測および上方予測) は、主要な変数がモデルにないこと (モデルが正しく指定されていないこと) を示します。OLS の結果は、モデルが正しく指定されていない場合は信頼できません。
- 「回帰分析の基礎」の「回帰モデルがうまくいかない場合」を参照して、OLS 回帰モデルを適切に指定できているかどうかを確認します。適切に指定された回帰モデルを見つけられない場合は、[予備回帰分析 (Exploratory Regression)] ツールが役立ちます。OLS サマリー レポートの最後にある「注釈」を参照すると、各統計検定の目的を再確認し、モデルが 1 つ以上の診断に失敗したときの解決法を得ることができます。
オプションの [出力レポート ファイル] のパスを指定すると、PDF が作成されます。これには、サマリー レポート内のすべての情報に加えて、モデルを評価するのに役立つ追加のグラフィックスが含まれています。レポートの最初のページには、それぞれの説明変数に関する情報があります。サマリー レポートの最初のセクションと同様に (上記 2 を参照)、この情報を利用して、各説明変数の係数が統計的に有意であるかどうか、適切な記号 (+/-) が使用されているかどうかを確認します。Koenker 検定が統計的に有意である場合 (上記 4 を参照)、ロバスト確率を信頼して、変数がモデルにとって意味があるかどうかを判断できます。統計的に有意な係数には、確率とロバスト確率の列の p 値の横にアスタリスク (*) が表示されます。また、レポートのこのページの情報から、説明変数のいずれかが重複していないか (問題のある多重共線性を示していないか) を判断することもできます。他の方法を指示する理論がない限り、高い分散拡大係数 (VIF) 値を持つ説明変数を 1 つずつ削除して、残りのすべての説明変数の VIF 値が 7.5 より小さくなるようにする必要があります。
[出力レポート ファイル] の次のセクションには、OLS の診断確認の結果が表示されます。このページには、それぞれの確認が重要である理由を説明する「注釈」も含まれています。モデルによるこれらの診断のいずれかが失敗した場合、「一般的な回帰分析の問題」に記載の表をご参照ください。ここには、それぞれの問題の重要度が示され、可能な解決法が提示されています。レポートの残りのページにあるグラフも、モデルに関する問題の特定や解決に役立ちます。
[出力レポート ファイル] の 3 番目のセクションには、モデルの各変数の分布を示すヒストグラムと、従属変数と各説明変数との間のリレーションシップを示す散布図があります。モデルの偏り (統計的に有意な Jarque-Bera の p 値によって示される) に問題が生じた場合、ヒストグラム間の偏った分布を特定し、これらの変数を変換して、偏りがなくなりモデルのパフォーマンスが改善されたことを確認します。散布図は、どの変数が最善の予測子であるかを示します。これらの予測子を使用して、変数間の非線形リレーションシップを確認することもできます。場合によっては、1 つ以上の変数を変換すると、非線形リレーションシップが修正され、モデルの偏りがなくなることもあります。データ内の外れ値によって、偏ったモデルが生じる可能性もあります。ヒストグラムと散布図の両方を確認して、これらのデータ値とデータのリレーションシップを確認します。外れ値を含めた場合と含めない場合のモデルを実行して、結果に与える影響の違いを確認します。外れ値が無効なデータ (エラーとして入力または記録される) であることがわかると、関連付けられたフィーチャをデータセットから削除することができます。外れ値が有効なデータを反映していて、分析結果に大きな影響を与えている場合は、外れ値を含めた場合と含めない場合の両方の結果をレポートすることができます。
モデルを適切に指定すると、上方予測と下方予測にランダム ノイズが反映されます。ランダム ノイズのヒストグラムを作成すると、(釣鐘曲線のような) 正規分布になります。[出力レポート ファイル] の 4 番目のセクションには、モデルの上方予測と下方予測のヒストグラムが示されます。ヒストグラムのバーは実際の分布を示します。ヒストグラムの上部に重ねて表示される青いラインは、残差が実際に正規分布した場合にヒストグラムが取る形状を示します。完璧な正規分布は期待できないため、Jarque-Bera 検定を確認して、正規分布からの偏差が統計的に有意であるかどうかを判断する必要があります。
Koenker 診断により、モデリングするリレーションシップが、分析範囲全体にわたって変化するのか (非定常性)、または予測する変数の大きさを基準として変化するのか (不均一分散) がわかります。[地理空間加重回帰分析 (Geographically Weighted Regression)] を使用すると、非定常性の問題が解決します。[出力レポート ファイル] のセクション 5 のグラフは、不均一分散の問題があるかどうかを示します。この散布図 (下記) は、モデルの残差と予測値との間のリレーションシップを表します。犯罪率をモデリングする場合を考えます。グラフに円錐形状が表示され、グラフの左側にポイント、右側に最大幅の拡散が表示される場合、モデルが、犯罪率の低い領域では適切に予測しているが、犯罪率の高い領域では適切に予測していないことを示しています。
レポートの最後のページには、レポートの作成時に使用されたパラメーター設定のすべてが記録されます。
[出力フィーチャクラス] にあるモデルの残差を調べます。適切に指定された回帰モデルの上方予測と下方予測は、ランダムに分散されます。上方予測および下方予測のクラスタリングは、少なくとも 1 つの主要な説明変数がないことを示します。モデルの残差のパターンを調べて、どの変数が不足しているかを特定するためのヒントがあるかどうかを確認します。回帰残差で [ホット スポット分析 (Hot Spot Analysis)] ツールを実行すると、幅広いパターンを特定できることがあります。不適切に指定されたモデルの対処方法の概要については、「回帰分析の側面」をご参照ください。
係数テーブルと診断テーブルを確認します。係数テーブルと診断テーブルを作成するかどうかはオプションです。効果的なモデルを見つけ出すプロセスを行っている間に、これらのテーブルを作成するかどうかを選択します。モデルを構築するプロセスは反復的であり、一般的に、いくつかの適切なモデルに絞り込むまで、さまざまなモデル (異なる説明変数) を試す必要があります。レポートの [補正赤池情報量基準 (AICc)] の値を確認することで、モデルを比較できます。[AICc] の値がより小さいモデルが、より適切なモデルです (つまり、モデルの複雑さを考慮すると、[AICc] の値が小さければ小さいほど、観測されたデータにより近似していることを示します)。
最終的な OLS モデルの係数テーブルと診断テーブルを作成して、OLS レポートの重要な要素を記録します。係数テーブルには、モデルで使用されている説明変数とその係数のリスト、標準化係数、標準誤差、確率などが含まれます。係数は、関連する説明変数が 1 単位変化した場合に、従属変数がどれだけ変化するかを評価したものです。係数の単位は、説明変数と一致します。たとえば、全人口の説明変数の場合、その変数の係数の単位は人になります。説明変数が鉄道駅からの距離 (メートル) の場合、係数の単位はメートルになります。係数が標準偏差に変換される場合、標準化係数と呼ばれます。標準化係数を使用すると、さまざまな説明変数の従属変数に対する影響を比較できます。+/- 記号を削除した (絶対値にした) 最大の標準化係数を持つ説明変数は、従属変数に対して最大の影響力を持ちます。ただし、係数の解釈では、標準誤差のみが考慮されます。標準誤差は、無限にデータをリサンプリングしたりモデルを再調整したりしたと仮定した場合に、同じ係数を取得できる確率を示します。係数に対して大きな標準誤差とは、リサンプリング処理によって取り得る係数値の範囲が広いことを意味します。小さい標準誤差とは、係数がほぼ一定になることを示しています。
診断テーブルには、各診断テストの結果と、それらの結果の解釈方法のガイドラインが含まれます。
参考資料
「空間統計リソース ページ」には、OLS の学習に役立つリソースが多数あります。まず「回帰分析の基礎」を参照するか、「回帰分析チュートリアル」を学習してください。回帰分析を独自のデータに適用します。詳細については、「一般的な問題のテーブル」と「回帰分析の詳細」トピックをご参照ください。適切に指定されたモデルを見つけられない場合は、[予備回帰分析 (Exploratory Regression)] ツールが役立ちます。
次のリソースも有用です。
- Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005
- Wooldridge, J. M. Introductory Econometrics: A Modern Approach. South-Western, Mason, Ohio, 2003.
- Hamilton, Lawrence C. Regression with Graphics. Brooks/Cole, 1992.