回帰分析の基礎

[空間統計] ツールボックス は、空間パターンを数量化するための効果的なツールを提供します。たとえば、[ホット スポット分析 (Hot Spot Analysis (Getis-Ord Gi*))] ツールを使用すると、次のような情報を調べることができます。

  • 米国内に短命な人が異常に多い地域があるか。
  • 犯罪、緊急通報 (下の図を参照)、または火災のホット スポットはどこか
  • 都市内で異常に交通事故率が高い場所はどこか

緊急通報のホット スポットの分析
この緊急通報データの分析は、ホット スポット (赤色)、コールド スポット (青色)、およびそれを管轄する消防署/警察署の場所 (緑色の十字) を示しています。

上記の情報は、すべて「場所」に関する情報です。論理的に考えて、上記の分析タイプについて次に調べる必要があるのは「理由」です。

  • 米国内に短命な人が異常に多い地域があるのはなぜか。その考えられる原因は何か。
  • 犯罪、緊急通報、または火災が多発する場所の特性をモデリングして、これらのインシデントを減らすことができるか。
  • 交通事故率が高い要因は何か。都市全体または異常に交通事故発生率が高い区域で交通事故を減らす可能性のあるポリシーまたは抑止措置はあるか。

[空間関係のモデリング] ツールセット のツールを使用することで、これらの「理由」を調べることができます。これらのツールには、[最小二乗法 (Ordinary Least Squares)](OLS) 回帰ツールや [地理空間加重回帰分析 (Geographically Weighted Regression)] ツールなどがあります。

空間リレーションシップ

回帰分析を使用すると、空間リレーションシップをモデリング、検証、および模索することができ、観測された空間パターンの背後にある要因を説明できます。特定の地域で短命な人が異常に多い理由、または糖尿病罹患率が異常に高い要因を把握する必要がある場合があります。空間リレーションシップをモデリングすることで、回帰分析を予測に使用することもできます。たとえば、大学卒業率に寄与する要因をモデリングすることにより、将来の労働スキルおよびリソースを予測できます。また、回帰を使用して、観測所の不足が原因で (たとえば、雨量計が尾根や谷で不足していることがよくあるなど) 内挿が不十分である場合に降雨量または大気質を予想することもできます。

OLS は、最も一般的な回帰分析方法です。これは、すべての回帰分析の適切な開始点でもあります。これにより、調査/予測対象の変数またはプロセスのグローバル モデルが提供され (短命や降雨量)、そのプロセスを表す単一の回帰方程式が作成されます。GWR (Geographically Weighted Regression: 地理空間加重回帰) は、空間回帰手法の 1 つであり、地理およびその他の分野で広く使用されるようになってきています。GWR は、データセット内のあらゆるフィーチャに回帰方程式をあてはめることで、理解または予測しようとしている変数またはプロセスのローカル モデルを作成します。これらのモデルは、適切に使用すると、線形リレーションシップを調査および推定するための強力で信頼性の高い統計を提供します。

線形リレーションシップは、正か負のどちらかです。日中の気温が上昇すると捜索救助イベントの数が増える場合、そのリレーションシップは正です (正の相関)。日中の気温が下降すると捜索救助イベントの数が減ることも、正の相関を表します。反対に、区域をパトロールする警察官の数が増えるとその区域の犯罪の数が減る場合、そのリレーションシップは負です。パトロールする警察官の数が減ると犯罪の数が増えることも、負のリレーションシップを表します。下の図は、正と負の両方のリレーションシップと、2 つの変数の間にリレーションシップがない状態を示しています。

正の相関、負の相関、相関なし
散布図: 正の相関、負の相関、および 2 つの変数が無関係である状態

相関分析 (およびそれに関連する上に示した図) では、2 つの変数の相関の強さがチェックされます。一方、回帰分析ではより詳細な分析が行われ、1 つ以上の変数が別の変数で正か負の変化を発生させる可能性の程度が示されます。

回帰分析の適用

回帰分析は、次のようなさまざまな目的に使用できます。

  • 高校の在学率をモデリングして、生徒が高校に在学する要因をより深く理解する。
  • 交通事故を速度、道路状態、天候などの関数としてモデリングして、警察に情報を提供し、事故の防止を図る。
  • 火災による財産の喪失を消防署の対応の程度、応答時間、財産の価値などの変数の関数としてモデリングする。応答時間が主要な要因である場合は、さらに多くの消防署を設置する必要があります。消防署の対応の程度が主要な要因である場合は、火災現場に派遣される装備と消防隊員の数を増やす必要があります。

解析分析を使用する主な理由には 3 つあります。

  • 特定の現象をモデリングして、それをより深く理解し、可能であれば、その情報に基づいてポリシーを調整したり、適切な措置を取る決定を下したりする。基本的な目的は、1 つの変数の変化、または複数の変数の変化が共同で別の変数の変化におよぼす影響の程度を計測することです。例: 絶滅のおそれがある鳥の生息地の主要な特性 (降雨量、食料源、植生、捕食動物など) を把握して、その鳥を保護することを目的とした立法の策定に役立てたりします。
  • 特定の現象をモデリングして、他の場所または他の時間における値を予測する。基本的な目的は、一貫性のある正確な予測モデルを作成することです。例: 人口の増加の予測と典型的な天候状態に基づいて、翌年の電力の需要を予測したりします。
  • 回帰分析は、仮説を模索するためにも使用できます。住宅区域の犯罪をモデリングして、それをより深く理解し、それを防止するポリシーを実施するとします。分析を開始するとき、次のような情報または仮説を調べる必要があるでしょう。
    • 公共財産の汚損 (落書き、構造の破損など) が他の犯罪の誘因となると説く「割れ窓理論」に基づき、 公共物破壊インシデントと空き巣の間に正のリレーションシップがあるか。
    • 違法薬物の使用と窃盗の間に相関があるか (薬物中毒者は違法薬物を購入する資金を得るために窃盗を行うか)。
    • 窃盗犯罪者は弱者を標的にするか。高齢者または女性が世帯主である世帯が多い住宅区域では窃盗インシデントが多いか。
    • 富裕層区域または貧困層区域の住人は窃盗の被害を受ける確率が高いか。
    回帰分析は、このようなリレーションシップを模索して、必要な情報を得るために使用できます。

回帰分析の用語と概念

回帰分析について説明する前に、まず回帰統計に固有の用語と基本的な概念について説明する必要があります。

回帰方程式: モデリング対象の従属変数を最も効果的に予測するために説明変数 に適用される算術演算式。地球科学の分野では X と Y は座標として認識されますが、回帰方程式では y は常に従属変数を示し、X は常に独立変数または説明変数を示します。各独立変数は、その従属変数に対するリレーションシップの強度と正負を示す回帰係数に関連付けられます。回帰方程式は、次のようになります。y は従属変数、X は説明変数、β は回帰係数です。これらの回帰方程式の構成要素については、後で説明します。

OLS 回帰方程式
OLS 回帰方程式の構成要素
  • 従属変数 (y): 予測/調査対象のプロセスを表す変数 (空き巣、差し押さえ、降雨など)。これは、回帰方程式の左辺で使用されます。回帰を使用して従属変数を予測することはできますが、常にまず一連の既知の y 値を使用して回帰モデルを構築 (キャリブレーション) します。この既知の y 値は「観測値」とも呼ばれます。
  • 独立/説明変数 (X): 従属変数の値をモデリングまたは予測するために使用される変数。これは、回帰方程式の右辺で使用され、説明変数ともよばれます。従属変数は、説明変数の関数です。提案されている店舗における年間購入量を予測する場合、モデルには見込み客の数、競合店舗までの距離、店舗の認知度、その地域の消費パターンなどを表す説明変数を含めます。
  • 回帰係数 (β): 回帰ツールによって計算される係数。これは、説明変数の従属変数に対する相関の強さとタイプを表す値であり、説明変数ごとに 1 つの係数があります。火災発生頻度を太陽放射、植生、降雨量、および季観の関数としてモデリングするとします。火災発生頻度と太陽放射の間には正の相関があることが予想されます (つまり、太陽放射が多ければ多いほど、火災インシデントがより頻繁に発生する)。この相関関係が正であれば、関連付けられている係数の符号も正です。火災発生頻度と降雨量の間には負の相関があることが予想されます (つまり、降雨量が多い場所では火災が少ない)。負の相関の係数の符号は負です。相関関係が強い場合、その係数は相対的に大きくなります (それが関連付けられている説明変数の単位を基準として)。弱い相関関係は、0 に近い係数に関連付けられます。「β0」は、回帰の切片です。これは、すべての独立 (説明) 変数が 0 である場合に必要とされる従属変数の値を表します。

p 値: ほとんどの回帰分析において、各独立変数に関連付けられている係数の確率を計算するための統計テストが実行されます。これを「p 値」と呼びます。この統計テストの帰無仮説は、係数が 0 に近いことです (つまり、係数が実質的には 0 であり、関連付けられている説明変数がモデルにとって無意味であることです)。p 値が小さいと、確率も小さく、係数が 0 とは大幅に違う値であり、実際にはモデルにとって重要であることを示します (つまり、p 値が小さい場合、係数が 0 ではないことを示します)。たとえば、p 値が 0.01 の係数は、99% の信頼度で統計的に有意であり、関連付けられている変数は有効な予測子であると言えます。係数が 0 に近い変数は、従属変数の予測またはモデリングに役立ちません。これらを使用する確固たる理論的な理由がない限り、これらは回帰方程式から除去します。

R2/相関係数の二乗: 重相関係数の二乗および調整済み相関係数の二乗は、ともに、モデルのパフォーマンスを数量化する回帰方程式から派生する統計です。相関係数の二乗の値の範囲は 0 ~ 100% です。モデルが従属変数の観測値と完全に適合する場合、相関係数の二乗は 1.0 です。これはエラーであり、y を予測するために y の形式を使用した場合などに発生します。一般的に、相関係数の二乗は 0.49 などの値であり、これは「このモデルは従属変数の値変動の 49% を説明できている」と解釈できます。相関係数の二乗の値が達成することを理解するために、推定値 y と観測値 y の両方を推定値で並べ替えて示す棒グラフを作成します。重なり合いがどれほどあるかに注目してください。この図は、モデルの予測値が従属変数の観測値の値変動をどれほど説明できているかを視覚的に表現しています (図の表示)。調整済み相関係数の二乗の値は、データに関連付けられており、モデルの複雑さ (変数の数) を反映するため、常に重相関係数の二乗の値よりも少し低い値になります。したがって、調整済み相関係数の二乗は、モデルのパフォーマンスを計測するためには、より正確な基準です。

残差: 従属変数の説明のつかない部分。回帰方程式ではランダム誤差 ε で表されます (図の表示)。従属変数の既知の値が回帰モデルの構築およびキャリブレーションに使用されます。回帰ツールは、従属変数の既知の値 (y) とすべての説明変数の既知の値 (X) を使用して、可能な限り的確にこれらの既知の y 値を予測する方程式を構成します。ただし、予測値が観測値と正確に一致することはまれです。この観測値 y と予測値 y の差が「残差」と呼ばれます。回帰方程式によって算出される残差の程度は、モデルの適合性を計測する基準の 1 つです。残差が大きければ、モデルの適合性が低いことを示します。

回帰モデルの構築は、反復的なプロセスであり、モデリングまたは調査対象の従属変数を説明するために効果的な独立変数を見つけ、回帰ツールを使用してどの変数が有効な予測子であるかを特定してから、最適な回帰モデルが見つかるまで変数の削除と追加を繰り返します。モデルの構築プロセスは、一般的に、探索的なプロセスですが、手当り次第に探索することは非効率的です。候補の説明変数を特定するためには、理論、専門家の意見、および常識を考慮に入れる必要があります。分析の前に、それぞれの候補の説明変数と従属変数の間に必要とされるリレーションシップを明確に説明できる必要があり、これらのリレーションシップが一致しない場合、モデルは適切ではなく、修正する必要があります。

メモ:

回帰分析を使用したことがない場合は、ここで回帰分析に関するチュートリアルをダウンロードして、ステップ 1 ~ 5 を実行してみてください。

回帰分析の課題

OLS 回帰は、単純明快な分析方法であり、十分に確立された理論によってサポートされています。これには、解釈およびトラブルシューティングに役立つ効果的な診断基準が多数あります。ただし、OLS は、データと回帰モデルがこの分析方法で本質的に必要とされるすべての前提条件を満足させる場合にのみ有効であり、信頼できます。空間データは、一般的に OLS 回帰の前提条件および必要条件に違反するので、回帰が分析に適切な方法であるかどうかを評価できる適切な診断ツールとともに回帰ツールを使用することが重要です。

回帰モデルの不適切な指定

多くの回帰モデルにおいて、重大な違反とされることは、それが正しく指定されていないことです。正しく指定されていないモデルは、重要な説明変数がないため、完全なモデルではなく、モデリングまたは予測の対象 (従属変数 y) を適切に表しません。つまり、回帰モデルは、すべてを物語りません。回帰残差に統計的に有意な空間的自己相関がある場合、つまり、モデルの上方予測と下方予測 (残差) が空間的にクラスタリングする傾向があり、上方予測がスタディ エリアの一部でクラスタリングし、下方予測がその他の部分でクラスタリングする場合は、明らかに正しく指定されていません。多くの場合、回帰残差をマッピングする、または地理空間加重回帰分析に関連付けられている係数を確認することによって、不足している変数を特定するためのヒントが得られます。回帰残差で [ホット スポット分析 (Hot Spot Analysis (Getis-Ord Gi*))] ツールを実行することによって、局所的な変数を使用して OLS でモデリングできる、または地理空間加重回帰分析を使用して修正できる他の空間形態を検出することもできます。回帰残差をマッピングすると、モデルが常に山で上方予測し、谷で下方予測する場合、モデルに標高の変数が欠落していると考えることができます。ただし、不足している変数が複雑すぎてモデリングできなかったり、数量化することが不可能であったり、計測することが非常に困難であったりする場合があります。このような場合は、GWR などの他の空間回帰分析方法を使用して、正しく指定されたモデルを取得することができます。

次の表は、回帰モデルの一般的な問題と、その解決に役立つ ArcGIS のツールを示しています。

回帰の一般的な問題とその結果および解決方法

説明変数の省略 (正しくない指定)

回帰モデルに主要な説明変数がないと、係数およびそれに関連付けられている p 値を信頼することができません。

OLS の残差をマッピングして GWR の係数を調べるか、OLS の回帰残差で [ホット スポット分析 (Hot Spot Analysis (Getis-Ord Gi*))] ツールを実行して、不足している変数を特定するためのヒントを見出します。

非線形リレーションシップ (図の表示)。

OLS と GWR は、ともに線形の分析方法です。説明変数と従属変数の間のリレーションシップが非線形であると、結果として生成されるモデルは適切に動作しません。

散布図マトリックス グラフを作成して、モデルのすべての変数のリレーションシップを解明します。従属変数が含まれるリレーションシップには、特に注意してください。曲線性は、変数を変換することで修正できることがあります (図の表示)。または、非線形の回帰分析方法を使用します。

データの外れ値 (図の表示)。

影響力のある外れ値があると、回帰係数にバイアスがかかり、回帰結果がデータの真の傾向から大きく外れたものになる可能性があります。

散布図マトリックスおよびその他のグラフ (ヒストグラム) を作成して、極端なデータの値を調べます。 誤差を表す外れ値があれば、修正するか除去します。外れ値が正しい値または有効な値であれば、削除しないでください (削除できません)。外れ値を使用して、および外れ値を使用せずに回帰を実行して、結果にどれほどの影響があるかを確認します。

非定常性。たとえば、所得の変数が地域 A では強い説明力を持ち、地域 B では有意ではない、または場合によっては符号が逆になるとします (図の表示)。

従属変数と説明変数のリレーションシップがスタディ エリア全体で一貫していないと、算出される標準誤差が不自然に誇張されます。

ArcGIS の OLS ツールは、非定常性 (局所的な値変動) に関連する問題を自動的にチェックし、ロバスト標準誤差の値を計算します (図の表示)。Koenker 検定に関連付けられている確率が小さければ (たとえば 0.05 未満)、居所的な値変動が統計的に有意であることを示すため、ロバスト確率を確認して、説明変数が統計的に有意であるかどうかを判断する必要があります。一般的に、[地理空間加重回帰分析 (Geographically Weighted Regression)] ツールを使用して、モデルの結果を向上させます。

多重共線性。1 つの説明変数、または複数の説明変数の組み合わせが重複しています (図の表示)。

多重共線性があると、過剰に評価するタイプのバイアスが発生し、不安定なモデルまたは信頼できないモデルになる可能性があります。

ArcGIS の OLS ツールは、重複を自動的にチェックします。各説明変数に、算出された VIF 値が割り当てられます。この値が大きいと (たとえば 7.5 以上)、重複が無視できない問題であることを示すため、重複している変数をモデルから除去するか、相互作用変数を作成したりサンプルのサイズを大きくしたりして変更する必要があります (図の表示)。

一貫性のない残差の分散。従属変数の値が小さければ、モデルは適切に予測するものである可能性がありますが、従属変数の値が大きければ、モデルは信頼できないものになります (図の表示)。

一定範囲の値についてモデルが不適切に予測する場合、結果にバイアスがかかります。

ArcGIS の OLS ツールは、一貫性のない残差の分散 (不均一分散) を自動的にチェックし、この問題を棄却する標準誤差を計算します。Koenker 検定に関連付けられている確率が小さい (たとえば 0.05 未満) 場合は、ロバスト確率を確認して、説明変数が統計的に有意であるかどうかを判断する必要があります (図の表示)。

空間的自己相関残差 (図の表示)。

モデルから上方予測または下方予測の空間クラスタリングが生成される場合、過剰に評価するタイプのバイアスがあり、モデルが信頼できないものであることを示します。

[空間的自己相関分析 (Spatial Autocorrelation (Morans I))] ツールを残差で実行して、残差が統計的に有意な空間クラスタリングを示さないようにします。統計的に有意な空間的自己相関があると、ほぼ確実にモデルの指定が正しくないこと (主要な変数がモデルにないこと) を示します (図の表示)。

正規分布バイアス (図の表示)。

回帰モデルの残差が平均値 0 で正規分布していない場合、その係数の関連付けられている p 値は信頼できません。

ArcGIS の OLS ツールは、残差が正規分布しているかどうかを自動的にチェックします。Jarque-Bera 統計が有意であれば (たとえば 0.05 未満)、モデルが正しく指定されていない (主要な変数がモデルにない) 可能性があるか、モデリング対象の一部のリレーションシップが非線形である可能性があります。出力の残差マップを調べ、必要に応じて GWR 係数マップも調べて、主要な変数が分析に不足していることをこの統計が示しているかどうかを確認します。散布図マトリックス グラフを表示して、非線形のリレーションシップを探します。

回帰の一般的な問題とその解決方法

この表に示した問題はすべてチェックすることが重要です。これらの問題を無視すると、100% 間違った (正反対の) 結果が生成されることもあります。

メモ:

回帰分析を使用したことがない場合は、ここで回帰分析に関するチュートリアルをダウンロードして実行してみてください。

空間回帰

空間データには、OLS 回帰などの従来の (非空間的な) 統計方法の前提条件と必要条件を満足させることを困難にする (不可能ではないにしても) 2 つのプロパティがあります。

  • 多くの場合、地理フィーチャには空間的自己相関があります。これは、相互に近接するフィーチャは遠く離れているフィーチャよりも類似している傾向があることを意味します。従来の (非空間的な) 回帰分析方法では、これにより過剰に評価するタイプの偏りが発生します。
  • ジオグラフィは重要であり、一般的に、モデリング対象にとって最も重要なプロセスは非定常です。これらのプロセスは、スタディ エリアの場所によって異なる動作をします。この空間データの特性は、局所的な値変動または非定常性と呼ぶことができます。

真の空間回帰分析方法は、空間データのこれら 2 つの特性を堅牢に管理し、さらに、これらの特殊な性質を統合してデータのリレーションシップをより的確にモデリングできるようにするために開発されました。一部の空間回帰分析方法は 1 つ目の特性 (空間的自己相関) を効果的に処理し、その他の空間回帰分析方法は 2 つ目の特性 (非定常性) を効果的に処理します。現時点では、両方の特性を効果的に処理できる空間回帰分析方法はありません。GWR モデルを適切に指定すると、ほとんどの場合、空間的自己相関は問題ではありません。

空間的自己相関

従来の統計学者の空間的自己相関に対する認識と空間統計学者の空間的自己相関分析に対する認識の間には、大きな隔たりがあります。従来の統計学者は、空間的自己相関は従来の (非空間的な) 統計方法の多くの基になる前提条件に違反するため、空間的自己相関をデータから除去する必要のある無効な構成要素と考えます。一方、地理学者や GIS アナリストは、空間的自己相関は重要な内在する空間プロセスがアクティブであることを示すものであるため、空間的自己相関をデータの不可欠な構成要素と考えます。空間を除去すると、その空間コンテキストからデータが除去されるため、それは半分しか物語っていないのと同じことになります。データで明確に示される空間プロセスと空間リレーションシップは、最も重要な情報の 1 つであり、GIS ユーザーが空間データ分析を重視する理由の 1 つでもあります。過剰に評価するタイプのバイアスがモデルで発生することを回避するには、従属変数の本質的な空間構造を効果的にキャプチャする一連の説明変数をすべて特定する必要があります。すべての変数を特定できなければ、非常に高い確率で、モデルの残差に統計的に有意な空間的自己相関が見られます。これが修正されない限り、回帰結果を信頼することはできません。[空間的自己相関分析 (Spatial Autocrrelation (Morans I))] ツールを使用して、回帰残差の統計的に有意な空間的自己相関をチェックします。

少なくとも次の 3 つの方法で、回帰モデルの残差の空間的自己相関を処理できます。

  1. 入力変数が統計的に有意な空間的自己相関を示さなくなるまでサンプリングを繰り返します。これによって必ずしも分析から空間的自己相関の問題がなくなるわけではありませんが、空間的自己相関を従属変数と説明変数から除去すると、空間的自己相関が示される可能性が大幅に低くなります。これは、従来の統計学者が空間的自己相関を処理する方法であり、データが重複している (サンプリング スキーマが詳細すぎる) ことが空間的自己相関の原因である場合にのみ適切です。
  2. 空間フィルターを実行する回帰分析方法を使用して、各入力変数の空間的な構成要素と非空間的な構成要素を分離します。空間は、各変数から除去されますが、空間的な効果または空間構造を説明する新しい変数として回帰モデルに戻されます。現在、ArcGIS は空間フィルターを実行する回帰分析方法を提供していません。
  3. 空間計量経済学に基づく回帰分析方法を使用して、空間的自己相関を回帰モデルに組み込みます。空間計量経済学に基づく回帰分析方法は、ArcGIS の将来のリリースに追加されます。

局所的な値変動

OLS 回帰などのグローバル モデルは、スタディ エリアの全体的なデータのリレーションシップを最も的確に表す方程式を作成します。これらのリレーションシップがスタディ エリア全体で一貫していれば、OLS 回帰方程式はこれらのリレーションシップを適切にモデリングします。これらのリレーションシップがスタディ エリアの場所によって異なる動作をする場合、回帰方程式は、ある意味で、存在するリレーションシップの組み合わせの平均を算出するものとなり、これらのリレーションシップが 2 つの極端な動作を示す場合、グローバルな平均は、どちらの動作も適切にモデリングしなくなります。説明変数が非定常なリレーションシップ (ローカルな値変動) を示す場合、グローバルなモデルは、回帰の結果を計算するためにロバスト分析が使用されない限り、破綻する傾向があります。従属変数に固有の局所的な値変動をキャプチャする一連の説明変数をすべて特定できると最適です。これらの説明変数をすべて特定できない場合も、モデルの残差に統計的に有意な空間的自己相関が見られ、場合によっては相関係数の二乗の値が予想よりも低くなります。これが修正されない限り、回帰結果を信頼することはできません。

少なくとも次の 4 つの方法で、OLS 回帰モデルの局所的な値変動を処理できます。

  1. 局所的な値変動を説明するモデルの変数を含めます。たとえば、モデルが常に北では上方予測し、南では下方予測する場合、北のフィーチャについては 1 に設定され、南のフィーチャについては 0 に設定されている局所変数を追加します。
  2. [地理空間加重回帰分析 (Geographically Weighted Regression)] ツールなどの局所的な値変動を回帰モデルに組み込む分析方法を使用します。
  3. ロバスト回帰の標準誤差および確率を確認して、変数の係数が統計的に有意であるかどうかを判断します。ただし、地理空間加重回帰分析のほうがより効果的であり、推奨されます。
  4. スタディ エリア内のプロセスがすべて定常になるように (ローカルな値変動を示さないように) スタディ エリアのサイズを再定義または縮小します。

参考資料

回帰ツールの使用方法の詳細については、次のトピックをご参照ください。

関連トピック