地理空間加重回帰分析 (GWR) の詳細

地理空間加重回帰分析(GWR) は、地理およびその他の分野で使用される空間回帰手法の 1 つです。 GWR は、データセット内のあらゆるフィーチャに回帰方程式をあてはめることで、理解または予測しようとしている変数またはプロセスのローカル モデルを評価します。 GWR では、各ターゲット フィーチャの近傍内に存在するフィーチャの従属変数と説明変数を組み込んで、このような別々の方程式を作成します。 各近傍の形状と範囲は、[近傍タイプ][近傍選択方法] の各パラメーターに基づいて解析されます。 GWR は、数百のフィーチャを伴うデータセットに適用する必要があります。 GWR は、小さなデータセットに対しては適切な方法ではなく、マルチポイント データに使用することはできません。

[マルチスケール地理空間加重回帰分析 (Multiscale Geographically Weighted Regression)] ツールでは、従属変数と説明変数の間のさまざまなスケールの関係を使用して、データに対して GWR を実行できます。

注意:

このツールは ArcGIS Pro 2.3 で更新され、追加の学術研究と、過去数年間で開発された方法の改善を含むようになり、追加モデルのためにサポートを拡大しています。 [カウント (ポワソン)] モデルと [バイナリ (ロジスティック)] モデルの追加によって、より広範な問題にこのツールを適用できるようになっています。

適用例

[地理空間加重回帰分析 (Geographically Weighted Regression)] ツールは、次のようなさまざまな用途に利用できます。

  • 学歴と所得の間のリレーションシップは、分析範囲全体にわたって一貫性があるか。
  • 水塊フィーチャに近ければ近いほど特定の病気の発生率が高いか。
  • 森林火災の高い頻度を説明する主要な変数はどれか。
  • 絶滅のおそれのある種を再野生化するために保護する必要のある生息地はどれか。
  • 生徒が試験で高成績をあげている地域はどこか。 どのような特性が関連付けられているか。 各特性が最も重要なのはどこか。
  • 高いガン罹患率に影響を及ぼす要因は、分析範囲全体にわたって一貫性があるか。

入力

GWR ツールを実行するには、[入力フィーチャ] パラメーターに、[従属変数] を表すフィールドと [説明変数] を表す 1 つ以上のフィールドを指定します。 これらのフィールドは、数値で値の範囲を持つ必要があります。 従属変数または説明変数に欠損値を含むフィーチャは、解析から除外されます。ただし、GWR を実行する前に [欠損値の補完 (Fill Missing Values)] ツールを使用して、データセットを完全なものにすることができます。 次に、解析するデータに基づいて、[モデル タイプ] を選択する必要があります。 データに適したモデルを使用することが重要です。 モデル タイプの説明と、データに適したモデル タイプを決定する方法を以下に示します。

モデル タイプ

GWR は、連続、バイナリ、カウントという 3 つのタイプの回帰モデルを提供します。 これらのタイプの回帰は、統計学の文献ではそれぞれガウス、ロジスティック、ポワソンとして知られています。 解析の [モデル タイプ] は、[従属変数] が計測または集計された方法と、この変数に含まれる値の範囲に基づいて選択する必要があります。

連続 (ガウス)

[従属変数] が広範囲の値 (温度や総売上額など) をとることができる場合は、[モデル タイプ] として [連続 (ガウス)] を使用します。 従属変数が正規分布しているのが理想的です。 従属変数のヒストグラムを作成して、従属変数が正規分布していることを確認できます。 ヒストグラムが左右対称の釣鐘曲線である場合は、ガウス分布モデル タイプを使用します。 大半の値は平均値付近に集まり、平均値から根本的に外れた値はほとんどありません。 平均値の左側にも右側と同様に多数の値があります (分布の平均値と中央値は同じになります)。 [従属変数] が正規分布しているように見えない場合は、その変数をバイナリ変数に再分類することを検討します。 たとえば、従属変数が平均世帯収入である場合は、その変数を、1 が全国の収入中央値より上を示し、0 が全国の収入中央値より下を示すバイナリ変数に再コーディングできます。 連続フィールドは、[フィールド演算 (Calculate Field)] ツールの [再分類] ヘルパー関数を使用して、バイナリ フィールドに再分類できます。

バイナリ (ロジスティック)

[従属変数] が 2 つの値 (成功と失敗や存在と不在など) のいずれかをとることができる場合は、[モデル タイプ] として [バイナリ (ロジスティック)] を使用します。 [従属変数] を含むフィールドは数値で、1 と 0 のみを含む必要があります。 対象のイベント (成功や動物の存在など) をコーディングする場合、回帰は 1 の確立をモデル化するため、結果の解釈が容易になります。 グローバルとローカルの両方で、データ内に 1 と 0 のばらつきが存在するはずです。 [従属変数]ヒストグラムを作成すると、ヒストグラムには 1 と 0 だけが表示されます。 円による選択ツールを使用して、マップ上でさまざまな地域を選択し、各地域に 1 と 0 の組み合わせが存在することを確認することによって、ローカルなばらつきがあるかどうかをチェックできます。

カウント (ポワソン)

[従属変数] が不連続で、イベントの発生数 (犯罪件数など) を表す場合は、[モデル タイプ] として [カウント (ポワソン)] の使用を検討します。 [従属変数] が比率を表し、比率の分母が固定値である場合 (1 か月あたりの売上や人口 10,000 人あたりのガン患者の数など) も、カウント モデルを使用できます。 [カウント (ポワソン)] モデルは [従属変数] の平均と分散が等しいと想定し、[従属変数] の値は負になることも、小数を含むこともできません。

近傍 (バンド幅) の選択

近傍 (バンド幅とも呼ばれる) は、各ローカル回帰方程式に使用される距離バンドまたは近傍数であり、モデルでのスムージングの程度を制御するため、おそらく [地理空間加重回帰分析 (Geographically Weighted Regression)] で考慮すべき最も重要なパラメーターです。 解析対象の近傍の形状と範囲は、[近傍タイプ][近傍選択方法] の各パラメーターの入力に基づいて解析されます。ただし、1 つ変更があり、近傍内のフィーチャ数が 1000 を超える場合は、最も近い 1000 個だけが各ローカル回帰方程式で使用されます。

[近傍タイプ] パラメーターは、[近傍数] または [距離バンド] に基づくことができます。 [近傍数] が使用される場合、近傍サイズが、指定した近傍数の関数になります。これにより、フィーチャが密集している場合は近傍を小さくし、フィーチャがまばらな場合は近傍を大きくすることができます。 [距離バンド] が使用される場合、近傍サイズは分析範囲内の各フィーチャに対して一定のままです。そのため、フィーチャが密集している場合は、近傍ごとのフィーチャ数が多くなり、フィーチャがまばらな場合は、近傍ごとのフィーチャ数が少なくなります。

[近傍選択方法] パラメーターでは、近傍サイズの決定方法 (実際の距離または使用される近傍の数) を指定します。 [黄金探索] または [手動間隔] オプションで選択された近傍は、常に、AICc (赤池情報量基準) の値の最小化に基づきます。 または、[ユーザー定義] オプションで特定の近傍距離または近傍数を設定することもできます。

[黄金探索] オプションを選択すると、ツールは黄金分割探索方法を使用して、[距離バンド] または [近傍数] パラメーターの最適値を決定します。 [黄金探索] では、まず最大距離と最小距離を見つけ、それらの間のさまざまな距離で段階的に AICc をテストします。 データセットに 1000 を超えるフィーチャがある場合、最大距離は、各フィーチャが多くても 1000 の近傍を持つ距離となります。 最小距離は、各フィーチャが少なくとも 20 の近傍を持つ距離となります。 1000 より少ないフィーチャが存在する場合、最大距離は各フィーチャが n/2 の近傍 (近傍としてのフィーチャ数の半分) を持つ距離で、最小距離は各フィーチャが n の少なくとも 5% (近傍としてのデータセット内のフィーチャの 5%) を持つ距離となります。 [黄金探索] では、近傍サイズとして最小の AICc を持つ近傍の距離または数が特定されます。

[最小検索距離][最大検索距離] の各パラメーター ([距離バンド]) および [最小近傍数][最大近傍数] ([近傍数]) を使用して、検索範囲を制限できます。これを行うには、[黄金探索] の開始と終了の距離を手動で設定します。

ローカル加重方式

GWR の機能は、各ローカル回帰方程式で使用されるフィーチャに地理空間的な加重を適用することです。 回帰ポイントから遠く離れたフィーチャほど、少ない重みが与えられるため、ターゲット フィーチャの回帰結果に対する影響が小さくなります。回帰ポイントに近いフィーチャほど、回帰方程式で多くの重みをもちます。 重みは、カーネルを使用して決定されます。カーネルは距離減衰関数であり、距離が増えるにつれてどれだけ速く重みが減るかを決定します。 [地理空間加重回帰分析 (Geographically Weighted Regression)] ツールは、[ローカル加重方式] パラメーターで 2 つのカーネル オプション [ガウス][バイスクエア] を提供します。

[ガウス] 加重方式では、回帰フィーチャ (フィーチャ i) に重み 1 を割り当てます。周囲のフィーチャ (j フィーチャ) の重みは、回帰フィーチャからの距離が増えるにしたがって、なだらかに徐々に減っていきます。 たとえば、フィーチャ ij が 0.25 ユニット離れている場合、方程式における結果の重みは約 0.88 になります。 フィーチャ ij が 0.75 ユニット離れている場合、結果の重みは約 0.32 にしかなりません。 フィーチャ j は遠く離れているため、回帰に対する影響が小さくなります。 [ガウス] 加重方式は、0 に到達することはありませんが、回帰フィーチャから遠いフィーチャの重みをかなり小さくして、回帰にほとんど影響しないようにすることができます。 概念的には、[ガウス] 加重方式を使用すると、入力データ内の他のすべてのフィーチャが近傍フィーチャとなり、重みが割り当てられます。 ただし、計算効率を上げるため、近傍フィーチャの数が 1000 を超える場合は、最も近い 1000 個だけが各ローカル回帰に組み込まれます。 [ガウス] 加重方式では、各回帰フィーチャが確実に多くの近傍を持つため、それらの近傍の値にばらつきが存在する可能性が増加します。 これにより、地理空間加重回帰分析で、ローカル多重共線性というよく知られた問題を回避できます。 近傍フィーチャの影響がなだらかに徐々に重要でなくなっていくが、周囲のフィーチャがどれだけ離れているかに関係なく、その影響が常に存在する場合は、[ガウス] 加重方式を使用します。

[バイスクエア] 加重方式は、[ガウス] に似ています。 この加重方式では、回帰フィーチャ (フィーチャ i) に重み 1 を割り当てます。周囲のフィーチャ (j フィーチャ) の重みは、回帰フィーチャからの距離が増えるにしたがって、なだらかに徐々に減っていきます。 ただし、指定された近傍の外側にあるすべてのフィーチャに 0 が割り当てられ、それらのフィーチャはターゲット フィーチャのローカル回帰に影響を及ぼしません。 同じ近傍指定で [バイスクエア] 加重方式と [ガウス] 加重方式を比較すると、[バイスクエア] のほうが重みが速く減少します。 [バイスクエア] 加重方式を使用する場合は、距離を指定して、その距離を超えるフィーチャが回帰結果に影響を与えないようにすることができます。 [バイスクエア] は特定の距離を超えるフィーチャを除外するため、適切なローカル回帰分析を実行するための十分なフィーチャ (影響を持つ) が周囲の近傍に存在するという保証はありません。 近傍フィーチャの影響がなだらかに徐々に重要でなくなっていき、ある距離を超えるとその影響がなくなる場合は、[ガウス] 加重方式を使用します。 たとえば、住宅価格のモデル化に回帰がよく使用され、周囲の住宅の販売価格が共通の説明変数となります。 これらの周囲の住宅は、比較可能な物件 (または comps) と呼ばれます。 融資機関は、比較可能な住宅が最大距離内にあることを必要とする規則を設定することがあります。 この例では、融資機関によって指定された最大距離と等しい近傍で [バイスクエア] を使用できます。

予測

作成された回帰モデルを使用して、同じ分析範囲内の他のフィーチャ (ポイントまたはポリゴン) を予測できます。 このような予測の作成では、各 [予測位置] が、指定された各 [説明変数] の値を持つことが必要となります。 [入力フィーチャ] パラメーターと [予測位置] パラメーターのフィールド名が一致しない場合、変数照合パラメーターが指定されます。 説明変数を照合する場合、[入力フィーチャ] パラメーターと [予測位置] パラメーターのフィールドは同じタイプでなければなりません (たとえば、double フィールドは double フィールドと照合する必要があります)。

係数ラスター

GWR の強力な側面は、空間的に変化する関係を探索できることです。 説明変数と従属変数の関係の空間的な変化を視覚化する 1 つの方法は、係数ラスターを作成することです。 [出力ラスター ワークスペース] パラメーターでパス名を指定すると、GWR ツールはモデルの切片および各説明変数の係数ラスター サーフェスを作成します。 ラスターの解像度は [セル サイズ] 環境で制御されます。 [近傍タイプ] および [ローカル加重方式] パラメーターを使用して、各ラスター セルの周りに近傍 (カーネル) が作成されます。 ラスター セルの中心から、近傍 (バンド幅) 内のすべての入力フィーチャまでの、距離ベースの重みが計算されます。 これらの重みは、そのラスター セルの一意な回帰方程式の計算に使用されます。 距離ベースの重みが変わるため、係数はラスター セルごとに異なり、潜在的に異なる入力フィーチャが近傍 (バンド幅) に存在するようになります。

注意:

現在、GWR モデルの係数への信頼度を評価する方法についてのコンセンサスはありません。 これまでは t-検定を使用して、係数の推定値が 0 と大きく異なるかどうかに基づいて推測されてきましたが、この手法の妥当性については、まだ盛んに研究が行われています。 非公式に係数を評価する 1 つの手法は、関連する標準誤差で推定のマグニチュードをスケーリングする方法として、各フィーチャに提供された標準誤差で係数を除算し、それらの結果を視覚化して、それらの係数に比べて標準誤差の高いクラスターを探すことです。

出力

[地理空間加重回帰分析 (Geographically Weighted Regression)] ツールでは、各種出力を生成できます。 GWR モデルの概要と統計サマリーは、ツールの実行中に [ジオプロセシング] ウィンドウの下でメッセージとして入手できます。 このメッセージにアクセスするには[ジオプロセシング] ウィンドウでプログレス バーの上にポインターを置くか、ポップアップ ボタンをクリックするか、メッセージ セクションを展開します。 ジオプロセシング履歴を介して、以前に実行した [地理空間加重回帰分析 (Geographically Weighted Regression)] ツールのメッセージにアクセスすることもできます。 このツールは、[出力フィーチャ]、チャート、および必要に応じて [出力予測フィーチャ] と係数ラスター サーフェスも生成します。 [出力フィーチャ] と関連チャートは、残差をモデリングできるよう、自動的に、ホットおよびコールド レンダリング方式が適用された状態で、[コンテンツ] ウィンドウに追加されます。 生成される診断とチャートは、[入力フィーチャ][モデル タイプ] によって異なります。これらの診断とチャートについて、以下で説明します。

グローバル モデル統計は、すべてのモデルに対して計算されます。

連続 (ガウス)

フィーチャクラスと追加フィールド

回帰残差に加え、[出力フィーチャ] パラメーターには観測値および予測従属変数値、条件数 (COND)、ローカルの R2、説明変数の係数、および標準誤差のフィールドが含まれます。

切片、切片の標準誤差、係数、各説明変数の標準誤差、予測、残差、標準化された残差、影響、Cook の D、ローカル R2、条件数も報告されます。 これらのフィールドの多くは、「最小二乗法による回帰分析の詳細」で説明しています。 影響の値と Cook の D の値はいずれも、回帰係数の推定へのフィーチャの影響を測定します。 ヒストグラム チャートを使用して、一部のフィーチャが残りのデータセットよりも影響力が大きいかどうかを特定できます。 これらのフィーチャは多くの場合、係数の推定を歪ませる外れ値となり、これらのフィーチャを削除してツールを再実行することでモデルの結果が改善される場合があります。 ローカル R2 の値の範囲は 0 ~ 1 で、フィーチャのローカル モデルの相関関係の強さを表しています。 条件数とは、推定係数の安定性を測定するものです。 条件数がおよそ 1000 を上回る場合は、モデルに安定性がないことになります。通常は説明変数同士の相関関係が高い場合にこのような現象が発生します。

メッセージと診断の解釈

解析されたフィーチャの数、従属変数と説明変数、指定された近傍の数など、解析の詳細はメッセージで提供されます。 さらに、さまざまなモデル診断が報告されます。

連続モデル タイプのモデル診断
  • R2 - 相関係数の二乗は、近似性を計測するための基準です。 値は 0.0 ~ 1.0 で、値が高い方が推奨されます。 これは、回帰モデルによって説明される従属変数の分散の比率として解釈できます。 R2 の計算に使用される分母は、二乗された従属変数の値の合計です。 モデルに説明変数を追加した場合、分母は変化しませんが、分子は変化するため、モデルの適合度が向上した印象を与えます (実際には向上していない可能性もあります)。 次の「Adj R2」の説明をご参照ください。
  • AdjR2 - R2 の値には上記の問題があるため、調整済み相関係数の二乗の値を算出することで、分子と分母がその自由度によって正規化されます。 これには、モデルの変数の数を補正する効果があります。したがって、R2Adjusted の値は、ほぼ常に R2 の値よりも小さい値です。 ただし、この調整を行うことで、値を因子寄与の割合として解釈することができなくなります。 GWR では有効自由度は、使用される近傍の関数であるため、調整は [一般化線形回帰分析 (Generalized Linear Regression) (GLR)] などのグローバル モデルと比較すると顕著である場合があります。 このため、モデルを比較する方法としては AICc が最適です。
  • AICc - これは、モデルのパフォーマンスを計測するための基準であり、回帰モデルの比較に使用できます。 モデルの複雑さを考慮すると、AICc の値が小さければ小さいほど、観測されたデータにより近似していることを示します。 AICc は、近似性を正確に計測するための基準ではなく、説明変数が (同じ従属変数に適用されるが) 異なる複数のモデルを比較するための基準です。 2 つのモデルの AICc 値の差が 3 より大きい場合は、値が小さいモデルのほうがより適切であると見なされます。 GWR の AICc 値と GLR の AICc 値を比較することで、グローバルなモデル (GLR) からローカルの回帰モデル (GWR) に移行することの利点を評価できます。

    すべてのモデル タイプの AICc を計算する際に使用する式については、「参考資料」セクションの「Gollini et al.」をご参照ください。

  • シグマ 2 - 残差の分散の最小二乗推定 (標準偏差の二乗)です。 この統計情報の値を小さくすることをお勧めします。 この値は、正規化された二乗残差和です (二乗残差和は残差の有効自由度によって除算されます)。 シグマ 2 は、AICc の計算に使用されます。
  • シグマ 2 MLE - 残差の分散の最尤法推定 (標準偏差の二乗)です。 この統計情報の値を小さくすることをお勧めします。 この値は、二乗残差和を入力フィーチャの数で割って計算されます。
  • 有効自由度 - この値は、近似値の分散と係数推定のバイアスの間のトレードオフを反映し、近傍サイズの選択に影響を与えます。 近傍が無限に近づくと、すべてのフィーチャの地理空間加重は 1 に近づき、係数推定はグローバルな GLR モデルの係数推定に非常に近くなります。 近傍が非常に大きい場合、係数の有効数は実数に近づき、ローカルの係数推定の分散は小さくなり、バイアスは比較的大きくなります。 反対に、近傍が小さくなって 0 に近づくと、すべてのフィーチャの地理空間加重は、回帰ポイントそのものを除き、0 に近づきます。 近傍が非常に小さい場合、係数の有効数は観測の数になり、ローカルの係数推定の分散は大きくなり、バイアスは小さくなります。 有効数は、他の多くの診断基準を計算するために使用されます。
  • 疑似 t 統計の調整済みの臨界値 - 両面 t 検定において、95 % の信頼度で係数の統計的有意性をテストするために使用する調整済みの臨界値です。 値は有意水準 (アルファ) 0.05 に対応しており、有効な自由度で除算されます。 この調整は説明変数の有意性のファミリーワイズ エラー率 (FWER) を制御します。

出力チャート

このツールでは、散布図マトリックスとヒストグラムが [コンテンツ] ウィンドウに出力されます。 散布図マトリックスには、1 つの従属変数と 9 つまでの説明変数が含まれています。 ヒストグラムには、逸脱残差と正規分布曲線が表示されます。

バイナリ (ロジスティック)

フィーチャクラスと追加フィールド

切片 (INTERCEPT)、切片の標準誤差 (SE_INTERCEPT)、各説明変数の係数と標準誤差、1 である確率、予測、逸脱残差、GInfluence、およびローカルの逸脱 % が報告されます。

メッセージと診断の解釈

解析されたフィーチャの数、従属変数と説明変数、指定された近傍の数など、解析の詳細はメッセージで提供されます。 また、次の診断も報告されます。

  • グローバル モデルで説明される逸脱 % (非空間) - これは近似性を計測するための基準で、グローバルなモデル (GLR) のパフォーマンスを定量化します。 値は 0.0 ~ 1.0 で、値が高い方が推奨されます。 これは、回帰モデルによって説明される従属変数の分散の比率として解釈できます。
  • ローカル モデルで説明される逸脱 % - これは近似性を計測するための基準で、ローカルなモデル (GWR) のパフォーマンスを定量化します。 値は 0.0 ~ 1.0 で、値が高い方が推奨されます。 これは、ローカルの回帰モデルによって説明される従属変数の分散の比率として解釈できます。
  • ローカル モデル対グローバル モデルで説明される逸脱 % - この比率は、ローカルなモデルの二乗残差和をグローバルなモデルの二乗残差和と比較して、グローバルなモデル (GLR) からローカルの回帰モデル (GWR) に移行することの利点を評価する 1 つの方法です。 値は 0.0 ~ 1.0 で、値が高いほど、ローカルの回帰モデルがグローバルなモデルよりも適切に実行されたことを示します。
  • AICc - これは、モデルのパフォーマンスを計測するための基準であり、回帰モデルの比較に使用できます。 モデルの複雑さを考慮すると、AICc の値が小さければ小さいほど、観測されたデータにより近似していることを示します。 AICc は、近似性を正確に計測するための基準ではなく、説明変数が (同じ従属変数に適用されるが) 異なる複数のモデルを比較するための基準です。 2 つのモデルの AICc 値の差が 3 より大きい場合は、値が小さいモデルのほうがより適切であると見なされます。 GWR の AICc 値と OLS の AICc 値を比較することで、グローバルなモデル (OLS) からローカルの回帰モデル (GWR) に移行することの利点を評価できます。
  • シグマ 2 - この値は、正規化された二乗残差和です (二乗残差和は残差の有効自由度によって除算されます)。 これは、残差の分散の最小二乗推定 (標準偏差の二乗)です。 この統計情報の値を小さくすることをお勧めします。 シグマ 2 は、AICc の計算に使用されます。
  • シグマ 2 MLE - 残差の分散の最尤法推定 (標準偏差の二乗)です。 この統計情報の値を小さくすることをお勧めします。 この値は、二乗残差和を入力フィーチャの数で割って計算されます。
  • 有効自由度 - この値は、近似値の分散と係数推定のバイアスの間のトレードオフを反映し、近傍サイズの選択に影響を与えます。 近傍が無限に近づくと、すべてのフィーチャの地理空間加重は 1 に近づき、係数推定はグローバルな GLR モデルの係数推定に非常に近くなります。 近傍が非常に大きい場合、係数の有効数は実数に近づき、ローカルの係数推定の分散は小さくなり、バイアスは比較的大きくなります。 反対に、近傍が小さくなって 0 に近づくと、すべてのフィーチャの地理空間加重は、回帰ポイントそのものを除き、0 に近づきます。 近傍が非常に小さい場合、係数の有効数は観測の数になり、ローカルの係数推定の分散は大きくなり、バイアスは小さくなります。 有効数は、他の多くの診断基準を計算するために使用されます。
  • 疑似 t 統計の調整済みの臨界値 - 両面 t 検定において、95 % の信頼度で係数の統計的有意性をテストするために使用する調整済みの臨界値です。 値は有意水準 (アルファ) 0.05 に対応しており、有効な自由度で除算されます。 この調整は説明変数の有意性のファミリーワイズ エラー率 (FWER) を制御します。

出力チャート

散布図マトリックス、箱ひげ図、および逸脱残差のヒストグラムが提供されます。

カウント (ポワソン)

フィーチャクラスと追加フィールド

切片 (INTERCEPT) 、切片の標準誤差 (SE_INTERCEPT) 、各説明変数の係数と標準誤差、対数変換前の予測値 (RAW_PRED)、予測、逸脱残差、GInfluence、ローカルの逸脱 % 、および条件数が報告されます。

メッセージと診断の解釈

解析されたフィーチャの数、従属変数と説明変数、指定された近傍の数など、解析の詳細はメッセージで提供されます。 さらに、次のスクリーン キャプチャに示すような診断が報告されます。

  • グローバル モデルで説明される逸脱 % (非空間) - これは近似性を計測するための基準で、グローバルなモデル (GLR) のパフォーマンスを定量化します。 値は 0.0 ~ 1.0 で、値が高い方が推奨されます。 これは、回帰モデルによって説明される従属変数の分散の比率として解釈できます。
  • ローカル モデルで説明される逸脱 % - これは近似性を計測するための基準で、ローカルなモデル (GWR) のパフォーマンスを定量化します。 値は 0.0 ~ 1.0 で、値が高い方が推奨されます。 これは、ローカルの回帰モデルによって説明される従属変数の分散の比率として解釈できます。
  • ローカル モデル対グローバル モデルで説明される逸脱 % - この比率は、ローカルなモデルの二乗残差和をグローバルなモデルの二乗残差和と比較して、グローバルなモデル (GLR) からローカルの回帰モデル (GWR) に移行することの利点を評価する 1 つの方法です。 値は 0.0 ~ 1.0 で、値が高いほど、ローカルの回帰モデルがグローバルなモデルよりも適切に実行されたことを示します。
  • AICc - これは、モデルのパフォーマンスを計測するための基準であり、回帰モデルの比較に使用できます。 モデルの複雑さを考慮すると、AICc の値が小さければ小さいほど、観測されたデータにより近似していることを示します。 AICc は、近似性を正確に計測するための基準ではなく、説明変数が (同じ従属変数に適用されるが) 異なる複数のモデルを比較するための基準です。 2 つのモデルの AICc 値の差が 3 より大きい場合は、値が小さいモデルのほうがより適切であると見なされます。 GWR の AICc 値と OLS の AICc 値を比較することで、グローバルなモデル (OLS) からローカルの回帰モデル (GWR) に移行することの利点を評価できます。
  • シグマ 2 - この値は、正規化された二乗残差和です (二乗残差和は残差の有効自由度によって除算されます)。 これは、残差の分散の最小二乗推定 (標準偏差の二乗)です。 この統計情報の値を小さくすることをお勧めします。 シグマ 2 は、AICc の計算に使用されます。
  • シグマ 2 MLE - 残差の分散の最尤法推定 (標準偏差の二乗)です。 この統計情報の値を小さくすることをお勧めします。 この値は、二乗残差和を入力フィーチャの数で割って計算されます。
  • 有効自由度 - この値は、近似値の分散と係数推定のバイアスの間のトレードオフを反映し、近傍サイズの選択に影響を与えます。 近傍が無限に近づくと、すべてのフィーチャの地理空間加重は 1 に近づき、係数推定はグローバルな GLR モデルの係数推定に非常に近くなります。 近傍が非常に大きい場合、係数の有効数は実数に近づき、ローカルの係数推定の分散は小さくなり、バイアスは比較的大きくなります。 反対に、近傍が小さくなって 0 に近づくと、すべてのフィーチャの地理空間加重は、回帰ポイントそのものを除き、0 に近づきます。 近傍が非常に小さい場合、係数の有効数は観測の数になり、ローカルの係数推定の分散は大きくなり、バイアスは小さくなります。 有効数は、他の多くの診断基準を計算するために使用されます。
  • 疑似 t 統計の調整済みの臨界値 - 両面 t 検定において、95 % の信頼度で係数の統計的有意性をテストするために使用する調整済みの臨界値です。 値は有意水準 (アルファ) 0.05 に対応しており、有効な自由度で除算されます。 この調整は説明変数の有意性のファミリーワイズ エラー率 (FWER) を制御します。

出力チャート

[コンテンツ] ウィンドウに、散布図マトリックス (最大 19 の変数を含む) と、逸脱残差と正規分布ラインのヒストグラムが表示されます。

他の実装メモとヒント

GLR のようなグローバル回帰モデルでは、複数の変数が多重共線性を示すと (複数の変数が冗長であるか、同じストーリーを語るとき)、結果は信頼できません。 [地理空間加重回帰分析 (Geographically Weighted Regression)] ツールは、データセット内のフィーチャごとにローカル回帰方程式を作成します。 特定の説明変数の値が空間的にクラスターを形成すると、ローカル多重共線性の問題が生じる可能性が高くなります。 [出力フィーチャ] パラメーターの条件数は、いつローカル多重共線性によって結果が不安定になるかを示しています。 原則として、条件数が 30 を上回っている場合、NULL に等しい場合、またはシェープ ファイルの場合であれば -1.7976931348623158e+308 に等しい場合の結果には信頼性がありません。 条件数は、モデル内の説明変数の数を修正するためにスケール調整されます。 これによって、異なる数の説明変数を使用するモデル間で条件数を直接比較できるようにします。

モデル設計のエラーは、多くの場合、グローバルまたはローカルに多重共線性の問題があることを示しています。 問題の所在を決定するには、[GLR] を使用してモデルを実行し、各説明変数の VIF 値を調査します。 大きな VIF 値がある場合 (たとえば 7.5 以上)、グローバル多重共線性によって GWR では解を導けなくなっています。 しかし、もっと可能性が高いのは、ローカル多重共線性の問題です。 各独立変数の主題図を作成してみてください。 主題図で同一値が空間的にクラスターを形成している場合は、モデルからそのような変数を除外するか、別の独立変数と組み合わせて値のばらつきを増やします。 たとえば、住宅の価値をモデル化していて、寝室と風呂に変数がある場合は、両方を組み合わせて値のばらつきを増やすか、それぞれを風呂と寝室の広さとして表します。 GWR モデルを構築する際には、ガウス分布またはポワソン分布モデル タイプに空間様式の人為変数またはバイナリ変数を使用したり、ロジスティック モデル タイプで空間クラスターとなっているカテゴリ変数または名目変数を使用したり、可能性のある値が非常に限られている変数を使用したりしないでください。

ローカル多重共線性の問題のために、ツールが最適な [距離バンド] または [近傍数] の解を求めることができないこともあります。 [手動間隔][ユーザー定義][距離バンド]、または具体的な近傍数を指定してください。 その後、[出力フィーチャクラス] の条件数を調べ、ローカル多重共線性の問題と関係があるのはどのフィーチャか (条件数が 30 を超えるか) 確認します。 このような問題のあるフィーチャを一時的に除外して、近傍の最適な距離または数を見つけたいと思うかもしれません。 しかし、条件数が 30 を超えるような結果は信頼できないことを忘れないでください。

GWR のパラメーター推定値および予測値は、空間加重関数 exp(-d^2/b^2) を使用して計算されます。 GWR ソフトウェアの実装によっては,この加重関数が異なる場合があります。 そのため、[地理空間加重回帰分析 (Geographically Weighted Regression)] ツールの結果は他の GWR ソフトウェア パッケージの結果と正確に一致しないことがあります。

参考資料

[一般化線形回帰分析 (Generalized Linear Regression)] および [地理空間加重回帰分析 (Geographically Weighted Regression)] について学習するのに役立つ資料がいくつかあります。 まず「回帰分析の基礎」を参照するか、「回帰分析チュートリアル」を学習してください。

次のリソースも有用です。

Brunsdon, C., Fotheringham, A. S., & Charlton, M. E. (1996). "Geographically weighted regression: a method for exploring spatial nonstationarity". Geographical analysis, 28(4), 281-298.

Fotheringham, Stewart A., Chris Brunsdon, and Martin Charlton. Geographically Weighted Regression: The analysis of spatially varying relationships. John Wiley & Sons, 2002.

Gollini, I., Lu, B., Charlton, M., Brunsdon, C., & Harris, P. (2015). "GWmodel: An R Package For Exploring Spatial Heterogeneity Using Geographically Weighted Models." Journal of Statistical Software, 63(17), 1–50.https://doi.org/10.18637/jss.v063.i17.

Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.

Nakaya, T., Fotheringham, A. S., Brunsdon, C., & Charlton, M. (2005). "Geographically weighted Poisson regression for disease association mapping". Statistics in medicine, 24(17), 2695-2717.

Páez, A., Farber, S., & Wheeler, D. (2011). "A simulation-based study of geographically weighted regression as a method for investigating spatially varying relationships". Environment and Planning A, 43(12), 2992-3010.