回帰分析は、複雑な現象の理解、モデル化、予測、および説明のために使用されます。これは、「米国では試験の得点が全国平均よりも一貫して高い場所があるのはなぜか」または「住居侵入率が非常に高い都市エリアがあるのはなぜか」などの質問に答えるときに役立ちます。たとえば、回帰分析を使用し、所得、教育、および健康的な食品の入手性など、一連の関連する変数を使用して小児肥満症を分析する場合があります。
通常、回帰分析はこのように「なぜ」の質問に答えるときに役立ちます。これにより、対策を講じることができます。たとえば、新鮮なフルーツや野菜を昼食に提供している学校で小児肥満症が少ないことを発見した場合は、その情報を使用して方針を指導し、学校の昼食プログラムに関して討論することができます。同様に、高い犯罪率の説明に役立つ変数がわかると、将来の犯罪について予測できるため、防犯リソースをより効果的に割り当てることができます。
これらの事は、回帰分析に関して語られる事です。
回帰分析について語られないことは、質問に答えたり、モデル化しようとしている複雑な現象を説明したりすることができる一連の説明変数を見つけることが必ずしも簡単ではないことです。回帰分析を使用してモデル化したい小児肥満症、犯罪、試験の得点、および他のほとんどすべてのことは、単純な答えがまれにしか得られない複雑な問題です。自分で回帰モデルを作成しようとしたことがある人なら、おそらくこの点を実感しているでしょう。
幸い、[一般化線形回帰分析 (Generalized Linear Regression (GLR))] ツールを実行すると、適切に指定されたモデルがあるかどうかの確認に役立つ一連の診断が提供されます。適切に指定されたモデルとは信頼できるモデルのことです。このドキュメントでは、合格するとモデルを信頼することができるさまざまな確認を検証および説明します。これらの診断、および一部の最も一般的な回帰分析の問題の解決に使用できるテクニックは、作業を簡単にすることできるリソースです。
ヒント:
下記の説明を理解したうえで、GLR 手法のすべての要件を満たすモデルを見つけるための準備として [予備回帰分析 (Exploratory Regression)] ツールを使用してください。
はじめに
最初のタスクでは、理解したり、予測したり、モデル化したりする変数を選択します。この変数を従属変数と呼びます。前述の例では、小児肥満症、犯罪、および試験の得点が従属変数です。
次に、従属変数の説明に役立つ要因を決定する必要があります。これらの変数を説明変数と呼びます。小児肥満症の例で、説明変数は所得、教育、健康的な食品の入手性などの項目でした。ここでは、調査を実施し、重要と考えられるすべての説明変数を特定する必要があります。理論や既存の文献を調べ、専門家と話し、常に自身の常識に照らして考えます。事前に予備調査を実施すると、やがては適切なモデルに到達する可能性が高くなります。
従属変数と候補となる説明変数を選択したら、分析を実施する準備が整っています。[一般化線形回帰分析 (Generalized Linear Regression (GLR))] または [予備回帰分析 (Exploratory Regression)] を使用して回帰分析を開始することをお勧めします。それは、これらのツールにより、役に立つモデルが見つかったかどうか、またはまだ作業が残っているかどうかを確認できる重要な診断テストを実行できるためです。
回帰残差のマップ、チャート、サマリー レポートなど、GLR ツールは複数の出力を生成します。回帰残差マップは、モデルから得られる控えめな予測と過大な予測を示します。このマップを分析することは、適切なモデルを発見するときの最も重要なステップです。サマリー レポートは大部分が数値であり、下記の 6 つの確認を行うときに使用するすべての診断を含んでいます。
6 つの診断確認
確認 1: 説明変数はモデルの役に立っているか
理論や既存の調査を参考にした後、候補となる一連の説明変数を特定します。各説明変数をモデルに含める適切な理由があります。モデルを実行すると、統計的に有意である説明変数とそうでない説明変数があることがわかります。
有意である説明変数を見つけるにはどうしますか。GLR ツールは、モデル内の各説明変数の係数を計算し、統計テストを実行して変数がモデルの役に立つかどうかを判定します。統計テストでは、係数が実際にゼロである確率が計算されます。係数がゼロである (または非常にゼロに近い) 場合、関連付けられた説明変数はモデルの役に立ちません。また、統計テストで特定の説明変数で小さい確率 (P 値) が返された場合は、係数がゼロである見込みがない (確率が小さい) ことを示しています。確率が 0.05 よりも小さい場合は、GLR サマリー レポートの確率の横にアスタリスクが表示され、関連する説明変数がモデルにとって重要であることが示されます (つまり、その係数は 95% の信頼度で統計的に有意です)。このため、統計的に有意な確率に関連付けられた説明変数を探します (アスタリスク付きの確率を探す)。
GLR ツールは、説明変数ごとに確率とロバスト確率の両方を計算します。空間データの場合、モデル化しているリレーションシップが分析範囲内で変化することは珍しいことではありません。これらのリレーションシップは非定常として特徴付けられます。リレーションシップが非定常の場合は、説明変数が有意であるかどうかを確認するときにロバスト確率のみを信頼できます。
モデルのリレーションシップが非定常であるかどうかはどのようにしたらわかりますか。GLR サマリー レポートに含まれるもう 1 つの統計テストは、非定常向けの Koenker (Koenker スチューデント化 Breusch-Pagan) 統計です。Koenker p 値の横のアスタリスクは、モデル化しているリレーションシップが統計的に有意な非定常を示していることを意味します。したがって、ロバスト確率を調べます。
通常、統計的に有意でない説明変数はモデルから排除します。ただし、理論で変数が非常に重要であることが示されている場合や特定の変数が分析の対象である場合は、統計的に有意でない場合でもこれらの変数を残します。
メモ:
適切に指定された GLR モデルを見つけるプロセスでは、多様な説明変数を試すことがあります。モデルに含める変数の組み合わせによっては、説明変数の係数 (および統計的有意性) が根本的に変わる可能性があります。
確認 2: 想定どおりのリレーションシップか
説明変数が実際にモデルの役に立つかどうかを判定することが重要であるばかりでなく、各係数に関連付けられている符号 (+/-) をチェックし、リレーションシップが想定どおりであるかも確認してください。説明変数の係数の符号は、リレーションシップが正であるか負であるかを示します。犯罪をモデル化していて、説明変数の 1 つが平均の近傍所得であるとします。所得変数の係数が負の数値である場合は、近傍所得が増加するにつれて犯罪が減少する傾向があることを意味します (負のリレーションシップ)。小児肥満症をモデル化していて、ファスト フード変数が正の係数を持つ場合、これはファスト フードの入手性が高くなると、小児肥満症が増加する傾向を示しています (正のリレーションシップ)。
候補となる説明変数のリストを作成するときは、変数ごとに、想定しているリレーションシップ (正または負) を含める必要があります。理論や常識に反するようなリレーションシップを示すモデルを、信頼するわけにはいきません。森林火災の頻度を予測するモデルを構築しているときに、回帰モデルで降雨量変数に正の係数が返されたとします。雨が多いほど山火事も多い、とは変な話です。
とんでもない符号が返されるというのは、多くの場合、モデルに問題があるからです。それは他の診断確認を進めるうちに明るみに出てきます。説明変数係数の符号と強度は、モデルが 6 つの確認すべてに合格した場合のみ信頼できます。予期しない係数の符号があるにもかかわらずモデルが 6 つの確認すべてに合格した場合は、今まで誰も知らなかった新しい何かを学ぶことになるかもしれません。分析範囲の森林火災の主な原因が落雷であるために、森林火災の頻度と降雨量間に正のリレーションシップが存在する可能性があります。分析範囲の落雷に関するデータを取得して、モデルのパフォーマンスが向上するかどうかを確認することは価値があるかもしれません。
確認 3: 説明変数が冗長かどうか
分析に含める説明変数を選択するときは、モデル化しようとしている対象の種々の側面が得られる変数を探し、同様の情報を提供する変数を避けます。たとえば、住宅の価値をモデル化している場合は、住宅の面積と寝室数の両方の説明変数を含めることは恐らくありません。両方の変数は住宅のサイズに関連しており、両方を含めるとモデルが不安定になる可能性があるためです。最終的に、冗長な変数を含んでいるモデルを信頼することはできません。
複数の変数が冗長であることを確認するにはどうしますか。幸い、複数の説明変数がある場合、GLR ツールでは変数ごとに分散拡大係数 (VIF) を計算します。VIF 値は変数の冗長性を表す尺度であり、説明力を損なうことなくモデルから削除できる変数を決定するときに役立ちます。一般的に、7.5 を超える VIF 値は問題があります。7.5 よりも大きい VIF 値を持つ複数の変数がある場合は、冗長性がなくなるまで一度に 1 つの変数を削除して OLS をやり直す必要があります。高い VIF 値を持つすべての変数を削除する必要はないことを念頭に置いてください。住宅の価値をモデル化する例で、面積と寝室数は両方とも誇張された VIF 値を持っている可能性があります。これら 2 つの変数のいずれかを削除すると、すぐに冗長性が解消されます。住宅のサイズを反映する変数を含めることは重要ですが、その価値の側面を冗長的にモデル化するのは避ける必要があります。
確認 4: モデルに偏りがあるか
これは難しい質問のように思われますが、実際には答えは非常にシンプルです。GLR モデルが適切に指定されている場合、モデルの残差 (上方予測と下方予測) は平均値がゼロで正規分布しています (釣鐘曲線のように)。ただし、モデルに偏りがあると、残差の分布は下に示すように釣り合いが取れていません。モデルに偏りがあるときは、予測結果を完全には信頼できません。この問題の解決に役立つ複数の方法があります。
統計的に有意な Jarque-Bera 統計 (アスタリスクを探してください) モデルに偏りがあることを示します。低い値には適切に機能しているモデルが、高い値には十分な予測を行わない場合があります (その反対も同様)。小児肥満症の例に当てはめると、たとえば、小児肥満症が少ない場所でモデルがうまく機能するが、大きいエリアで予測が外れます。モデルの偏りは、モデルの推定に影響を与えている外れ値の結果である場合もあります。
モデルの偏りを解決しやすくするために、モデルのすべての変数について散布図マトリックスを作成します。従属変数といずれかの説明変数間の非線形のリレーションシップは、モデルの偏りの一般的な原因です。散布図マトリックスでは、これらの関係は曲線のように表示されます。線形リレーションシップは斜線のように表示されます。
従属変数がいずれかの説明変数との非線形リレーションシップを持っていると考えられる場合は、何らかの処置を行います。GLR はモデル化しているリレーションシップが線形であることを前提とした線形回帰方法です。そうでない場合は、変数を変換してより線形であるリレーションシップが作成されるかどうかを確認できます。よく使用される変換には指数と対数があります。一部の説明変数の値の歪みが大きい場合は、これらを変換してモデルの偏りを削除することもできます。
散布図マトリックスではデータの外れ値も明らかになります。外れ値がモデルに影響を与えているかどうかを確認するには、外れ値あり/なしの両方で [一般化線形回帰分析 (Generalized Linear Regression (GLR))] を実行し、モデル パフォーマンスの変化の程度を確認し、削除することによりモデルの偏りが修正されるかどうかを確認します。場合によっては (特に、外れ値が不良なデータを表していると考えられる場合)、分析から外れ値を除外することができます。
確認 5: 重要なすべての説明変数が見つかったか
多くの場合、どの変数が重要な予測子になるかを仮定して分析を始めます。また、5 つの特定の変数で適切なモデルが得られると考えられる場合もあり、関連していると思われる 10 の変数のしっかりしたリストがある場合もあります。仮定により回帰分析にアプローチすることは重要ですが、創造性と洞察を活用して詳細に調べることも重要です。初期変数リストに固執することを避けて、モデル化している内容に影響を与える可能性があるすべての考えられる変数を考慮するようにしてください。候補となる各説明変数の主題マップを作成し、従属変数のマップと比較します。関連する文献を確認します。洞察力を使って、マップ化したデータにおけるリレーションシップを探します。都市中心からの距離、主要高速道路への近さ、または大きな水域へのアクセスなど、可能な限り多くの候補となる空間変数を考え出してください。地理プロセスがデータのリレーションシップに影響を与えていると考えられる場合は、このような変数が特に分析で重要になります。事実、従属変数の空間構造を効果的に反映している説明変数を見つけるまで、モデルは重要な説明変数が不足しており、ここで説明しているすべての診断確認に合格できません。
1 つ以上の重要な説明変数が不足している証拠は、モデル残差の統計的に有意な空間的自己相関分析です。回帰分析では、空間的自己相関残差の問題は通常、クラスタリングという形で現れます。過大な予測、控えめな予測がそれぞれ寄り集まってクラスターを形成します。モデルの残差に統計的に有意な空間的自己相関があるかどうかをどうしたら確認できますか 回帰残差について [空間的自己相関 (Spatial AutocorrelationSpatial Autocorrelation)] ツールを実行すると、空間的自己相関で問題がある場合に通知されます。統計的に有意な Z スコアは、モデルに重要な説明変数がないことを示しています。
これらの見つからない説明変数を探すことは、ときに、科学というよりは芸術に近い難しさがあります。次の方法を試して、役に立つかどうかを確かめてください。
GLR 残差マップの検証
[一般化線形回帰分析 (Generalized Linear Regression (GLR))] ツールからの標準の出力は、モデルの残差のマップです。濃い紫色のエリアは、実際の値 (従属変数) がモデルで予測される値を上回っていることを示しています。ターコイズが濃いエリアほど、実際の値が予測される値を下回っていることを示しています。残差マップを見るだけで、不足しているものを把握できます。たとえば、市街地域を一貫して過大に予測している場合、都心までの距離を反映する変数を追加することが考えられます。過大な予測が山頂や谷底に関連付けられているような場合は、たぶん標高変数が必要です。局所的なクラスターがありますか。また、データにトレンドがあることを認識できますか。そうである場合、これらの地域的な違いを反映するダミー変数を作成することが効果的な可能性があります。ダミー変数の古典的な例には、都市フィーチャと郊外フィーチャを区別するダミー変数があります。すべての郊外フィーチャに値 1 を割り当て、他のすべてのフィーチャに値 0 を割り当てることにより、モデルで重要な可能性がある景観の空間的リレーションシップを反映できる可能性があります。モデル残差のホット スポット マップを作成すると、幅広い地域的パターンを視覚化するときに役立つことがあります。
見つからない空間変数を探すことは、モデルを改善できる場合があるだけでなく、モデル化している現象を新しい革新的な方法でさらに理解するうえでも役立つ可能性があります。
メモ:
空間様式ダミー変数は GLR モデルに含めると役に立ちますが、[地理空間加重回帰分析 (Geographically Weighted Regression)] (GWR) を実行するときは、削除してローカル多重共線性を回避することができます。
非定常性の検証
[地理空間加重回帰分析 (Geographically Weighted Regression)] を実行して、説明変数またはローカル R2 値のマップごとの係数サーフェスを作成することもできます。適切に機能している GLR モデル (すべてのまたは他のほとんどの診断確認に合格している高い補正 R2 値を持つモデル) を選択します。GWR は分析範囲のフィーチャごとに回帰方程式を作成するため、係数サーフェスは従属変数と各説明変数間のリレーションシップが地理的にどのように変動しているかを表します。ローカル R2 値のマップはモデルの説明力の変動を示します。これらの地理的変動を確認することで、見つからない変数に関するアイデアが浮かぶことがあります。これには、主要高速道路近くの説明力の下落、海岸からの距離に伴う減少、工業地域近くの係数の符号の変化、強い東から西へのトレンドまたは境界などがありますが、これらすべてはモデルを向上させる可能性がある情報となります。
係数サーフェスを検証するときは、符号が正から負に変わる係数を持つ説明変数を探します。GLR ではこれらの高い非定常性を持つ変数の予測可能性が低下する可能性があるため、これは重要です。たとえば、小児肥満症と健康的な食品の入手性の間のリレーションシップを検討します。車を利用しにくい低所得地域では、スーパーから離れていることは健康的な食品の選択を妨げる真の障害です。ただし、車を利用しやすい高所得地域では、歩ける距離内にスーパーがあることは実際には望ましくない可能性があります。スーパーへの距離は健康的な食品を購入する障害とはなりません。GWR ではこのようなタイプの複雑なリレーションシップをモデル化できますが、GLR ではできません。GLR はグローバル モデルであり、変数のリレーションシップが分析範囲全体で一貫している (定常状態である) ことを想定しています。係数の符号が変わると、これらは互いに打ち消し合います。(+1) + (-1) = 0 と考えてください。特に符号が変わった場合など、係数が大きく変わる変数がある場合、統計的に有意ではない場合でもこれらの変数をモデルに残す必要があります。このような種類の変数は、GWR に移行したときに効果があります。
小さいサブセット分析範囲に GLR を合わせる
GWR は非定常性を扱う場合にとても役に立ちます。また、適切に指定された GLR モデルを最初に見つける必要なしに GWR に直接移行できます。残念ながら、GWR には説明変数が統計的に有意であるかどうか、残差が正規分布であるかどうか、または、最終的に、適切なモデルがあるかどうかを確認するときに役立つ診断がすべて備わっているわけではありません。GLR モデルが 6 つの確認で不合格になっている唯一の理由が非定常性の直接の結果であることが明確でない限り、GWR では不適切に指定されたモデルは修正されません。非定常性の証拠は、分析範囲のいくつかの部分で強い正のリレーションシップを持ち、他の部分では強い負のリレーションシップを持つ説明変数が見つかることです。個々の説明変数に問題があるのではなく、モデルで使用されている説明変数のセットに問題がある場合があります。1 セットの変数により分析範囲の 1 つの部分に対して適切なモデルが得られるが、異なる変数の別のセットが他のすべての部分で最適に機能することもあります。このケースが該当するかどうかを確認するために、複数の小さなサブセット分析範囲を選択し、それぞれに GLR モデルを当てはめることができます。モデルに関連していると考えられるプロセスに基づいてサブセット範囲を選択します (高所得地域対低所得地域、古い家対新しい住宅など)。または、ローカル R2 値に基づいてエリアを選択します。種々の説明変数の異なるセットを使用することにより、モデル パフォーマンスの低い場所を適切にモデル化できる場合があります。
ヒント:
広範な分析範囲のサブリージョンを特定するには、[空間的に制限された多変量クラスター分析 (Spatially Constrained Multivariate Clustering)] ツールが非常に役立ちます。
複数の小さな分析範囲で適切に指定された GLR モデルが見つかった場合は、非定常性が問題の原因であること、およびすべてのサブセット範囲モデルから見つかった説明変数の完全なセットを使用して GWR に移行できるという結論に達することができます。小さなサブセット範囲で適切に指定されたモデルが見つからなかった場合は、シンプルな一連の計測値および線形リレーションシップに縮小するには複雑すぎる事象をモデル化しようとしている可能性があります。このようなケースでは、代替分析方法を探す必要があります。
これらは、手間に感じるかも知れませんが、探索的データ解析のとてもよい練習になります。また、データの理解を深め、使用する新しい変数の発見に役立ちます。さらに適切なモデルを得ることができる場合もあります。
確認 6: 従属変数の説明方法
モデル パフォーマンスを評価する確認について説明します。補正 R2 値は、説明変数による従属変数のモデル化がどの程度うまく行われているかを示す重要な尺度です。R2 値は、ほとんどのユーザーが回帰分析について最初に学ぶことの 1 つです。それでは、この重要な確認を最後にしたのはなぜでしょう。もしかしたらご存知ないかもしれませんが、前述の他のすべての確認にパスしない限り、R22 値を信頼できないということです。モデルに偏りがある場合、モデルは一部のエリアまたは特定の範囲の従属変数値で適切に機能するが、それ以外ではまったく機能しない可能性があります。R2 値はそれを反映しません。同様に、残差の空間的自動相関がある場合は、モデルからの係数リレーションシップを信頼することはできません。冗長な説明変数があると、非常に高い R2 値を得られますが、モデルが不安定になります。また、モデル化しようとしている真のリレーションシップを反映せず、単一の観測を追加しただけでもまったく異なる結果が得られる場合があります。
ただし、他の確認を終了し、すべての必要な基準を満たしているという自信がある場合は、補正 R2 値を評価して、モデルで従属変数の値がどの程度うまく説明されているかを確認する番です。R2 値は 0 から 1 の範囲で、割合 (%) を表しています。犯罪発生率をモデル化中に、モデルが補正 R2 値 0.65 で前述の 5 つの確認すべてに合格しているとします。これは、モデル内の説明変数が犯罪率従属変数の変動の 65% を説明していることを示しています。補正 R2 値はどちらかといえば主観的に判定される必要があります。科学の一部の分野では、複雑な現象の 23 パーセントを説明していることは驚異的です。他の分野では、すべての人の関心を引くには、R2 値が 80 または 90 パーセントに近い必要があります。どちらにしても、補正 R2 値はモデルのパフォーマンスの程度の判定に役立ちます。
モデルのパフォーマンスの評価に役立つ別の重要な診断は、補正赤池情報量基準 (AICc) です。AICc 値は複数のモデルを比較するときに役立つ基準です。たとえば、説明変数の複数の異なるセットを使用して、学生の試験の得点をモデル化する場合があります。あるモデルでは人口統計データのみを使用し、別のモデルでは、学生あたりの支出、先生と学生の比率など、学校とクラスに関連する変数を選択する場合があります。比較されるすべての従属変数が同じである限り (このケースでは、学生の試験の得点)、各モデルからの AICc 値を使用して、どれが適切に機能するかを判定できます。AICc の値が小さいモデルは、観測されたデータによりぴったりと収まります。
忘れてはならないこと
適切に指定された回帰モデルを構築するこれらの手順を進めるときは、分析の目標が最終的にデータを理解することであり、その理解を使用して問題を解決し、質問に答えることであることを念頭に置いてください。複数のモデルを試し (変換された変数あり/なしで)、複数の小さな分析範囲を探索し、係数サーフェスを分析しても適切に指定された GLR が見つからないのも真実です。しかし、これは重要です。それでもモデル化している現象の一連の知識に貢献しています。仮定したモデルが正確な予測子と思われていたが、実はまったく有意ではないことが明らかになった場合は、このことを発見したこと自体が非常に有益な情報です。強力であると思われた変数の 1 つが一部の範囲で正のリレーションシップを持ち、他の範囲で負のリレーションシップを持っている場合は、そのことをわかることが問題の理解を確実に高めます。ここで実行する作業、GLR を使用して適切なモデルを見つける試み、および GWR を適用してモデルの変数間の局所的な変動を探索することは、常に価値のあることです。
回帰分析の詳細と体験チュートリアルについては、https://www.esriurl.com/spatialstats をご参照ください。