マルチスケール地理空間加重回帰分析 (MGWR) の仕組み—ArcGIS Pro

[マルチスケール地理空間加重回帰分析 (Multiscale Geographically Weighted Regression) (MGWR)] ツールでは、地理や都市計画など、さまざまな分野で使用されている高度な空間回帰手法を実行します。ターゲットフィーチャの近傍内にある説明変数と従属変数を使用してローカル線形回帰モデルを作成することで解釈や予測を行う [地理空間加重回帰分析 (Geographically Weighted Regression) (GWR)] モデルを進化させたものが MGWR です。

GWR が導入された主な理由は、1 つの回帰モデルで広範な地理的地域に対応するには制約が多すぎることです。代わりに、GWR では、それぞれの空間位置に異なる回帰モデルを使用し、その地域全体にわたって回帰係数がスムーズに変化できるようになります。これは、分析範囲内の場所ごとに説明変数が従属変数に異なる影響を与えることを意味します。 GWR は、フィーチャとその空間近傍の説明変数と従属変数を使用して空間フィーチャごとに加重回帰モデルを作成することで、これに対応しています。フィーチャにより近い近傍は、より加重が大きく、ローカル回帰モデルにより大きい影響を与えます。

MGWR では、GWR よりもさらに進み、各空間フィーチャの周囲の近傍をそれぞれの説明変数間で変化させることができます。つまり、一部の説明変数では、他の変数の場合よりも近傍が大きくなったり小さくなったりすることがあります。説明変数と従属変数の関係がさまざまな空間スケールに影響を与える可能性があるため、説明変数ごとに異なる近傍を使用できるようにすることが重要となります。一部の変数の係数は、分析範囲全体でゆっくりと変化し、もう一部の変数の係数はすばやく変化します。各説明変数の近傍をその説明変数の空間スケールに一致させると、MGWR はローカル回帰モデルの係数をより正確に推定できるようになります。

MGWR の優れた点は、数百以上のフィーチャを含む大規模なデータセットと、従属変数で空間的な不均一性が示されるデータセットです。より小さなデータセットで空間的に変化する関係をモデル化するには、他のツールの方が適している場合があります。現在の [マルチスケール地理空間加重回帰分析 (Multiscale Geographically Weighted Regression) (MGWR)] ツールで使用できるのは連続する従属変数のみです。バイナリデータまたはカウントデータでモデルを実行しないでください。バイアスがかかったモデルや意味のない結果が生成される場合があります。

このトピックでは、主に他の回帰手法と比較しながら MGWR を説明します。最小二乗法 (OLS) 回帰の基礎知識を身に付け、さらに学習を進める前に GWR の近傍、加重方式、診断を理解するのに役立ちます。

OLS 回帰の詳細

GWR の詳細

回帰モデルの選択

OLS、GWR、MGWR はいずれも線形回帰モデルですが、動作する空間スケールがそれぞれ異なり、データセットの空間的な不均一性 (分析範囲間の関係の一貫性) に関する前提もそれぞれ違います。 OLS はグローバルモデルです。データ生成プロセスがスペースで安定しているという前提に基づいているため、1 つの係数ですべての場所の各説明変数と従属変数の間の関係を考慮に入れることができます。 GWR は、スペースにおける係数の変化を許可することで、空間の安定性の前提を緩和するローカルモデルです。ただし、GWR では、すべての説明変数で同じ近傍を使用することを必須にすることで、すべてのローカル関係が同じ空間スケールで動作するという前提に基づいています。たとえば、ある説明変数で 20 個の近傍が使用されている場合は、他のすべての説明変数でも 20 個の近傍を使用する必要があります。

ただし、MGWR ではスペースにおける係数の変化が許可されているだけでなく、説明変数ごとのスケールの変化も許可されています。各説明変数と従属変数間の関係の異なる空間スケールを考慮に入れる説明変数ごとに異なる近傍を使用することで、MGWR はこれを実現しています。これにより、比較的大きな空間スケール (温度や大気圧など) で動作する説明変数と、それよりも小さい空間スケール (人口密度や平均収入など) で動作する変数を組み合わせることが可能になります。

GWR に比べて、MGWR ではローカル係数の推測精度が高くなり、多重共線性に関する問題も少なくなります。ただし、処理時間は、MGWR の方が GWR よりもはるかに長くなります。これは特に、[近傍選択方法] パラメーターの [ゴールデン検索]、[手動間隔]、または [ユーザー定義] オプションを選択した場合に当てはまります。これら 3 つの近傍選択方法はバックフィッティングアルゴリズムに基づいているため、計算に時間がかかり、メモリが大量に消費されます。データのサイズが大きくなるにつれて、大幅に実行時間が長くなり、メモリ使用量が多くなります。

データに適用するモデルを決定する際は、以下の質問について検討してください。

ローカルレべルとグローバルレベルのどちらでモデルを実行する必要がありますか？
- ローカルモデルが必要な場合は GWR か MGWR を適用します。それ以外の場合は、OLS や [フォレストベースの分類と回帰分析 (Forest-based Classification and Regression)] ツールなどの他のモデルを使用します。
モデルの説明変数は異なる空間スケールで操作されますか？
- 説明変数が異なる空間スケールで操作される可能性があり、それらの異なるスケールを区別、モデル化する場合は MGWR を適用します。
データセットの大きさはどの程度ですか？結果が生成されるまでどれくらい待てますか？
- データセットが非常に大きい場合、[MGWR] ツールを実行するとツールの実行に予想以上の時間がかかります。約 10,000 ポイントよりも大きいデータセットで、2020 年代初頭の一般的なハードウェア (16 個の論理プロセッサと 32 GB のメモリ) と通常のパラメーターを使用した場合は、実行時間が数時間に及ぶ可能性があります。 50,000 ポイントに至っては、実行時間が数日にまたがることもあります。 100,000 以上の場合はメモリエラーが発生する可能性があります。

GWR と MGWR のどちらのローカルモデルをデータに適用するかわからない場合は、ひとまず MGWR を使用してください。 MGWR を実行すると、特定の設定下で GWR も実行されます。ジオプロセシングメッセージには GWR の診断が表示されるため、MGWR の診断と比較することができます。複数のツール (OLS、GWR、MGWR) を実行し、ジオプロセシングメッセージに記載されている AICc を使用することで、モデルを比較して最適なものを選択することもできます。複数のツールを実行することにした場合は、すべてのモデルをスケールするか、どのモデルもスケールしないことで、出力に互換性を持たせるようにしてください。

適用例

たとえば、以下のようにさまざまな多変量の解析や質問に MGWR を適用できます。

部屋数や築年数、敷地面積など、さまざまなフィーチャが住宅価格にどのように影響しますか？コミュニティ間で関係性に大きな違いがありますか？
PM2.5 の分布と経済変数 (地域の世帯収入、世帯あたりの自動車所有台数、農業が国内総生産に寄与している割合など) の関連はどのようになっていますか？
精密農業では、大気変数 (温度、湿度、降水量など) と同じ空間スケールにおける穀物生産高に土壌の状態は影響しますか？

パフォーマンスとベンチマークに関する注意事項

MGWR の実行時間にはさまざまな要因が影響します。実行時間において最も重要な要因はフィーチャの数です。フィーチャ数が増えると、その 3 乗で実行時間が長くなります。近傍サイズと説明変数の数も MGWR の実行時間に影響します (ローカルモデルごとにより多くの計算が必要になるため)。結果をできるだけ迅速に計算するために、MGWR では、コンピューター上で並列処理を採用しています。一部の計算では、使用可能なコアがすべて使用されますが、もう一部の計算は並列処理ファクター環境で制御できます。

ツールの入力

説明変数の空間スケールはさまざまな方法で指定できます。

近傍 (バンド幅) の選択

MGWR の主なメリットとして、線形回帰方程式の各説明変数のバンド幅 (近傍) を変えられるという点が挙げられます。ターゲットロケーションにある説明変数の近傍には、ローカル線形回帰モデルにある説明変数の係数の推定に寄与するすべてのロケーションが含まれます。各近傍は、ターゲットフィーチャの周囲にある近傍フィーチャの数で定義されるか、一定の距離内にあるすべての近傍フィーチャで定義されます。近傍フィーチャの数または距離は、説明変数ごとに異なる場合があります。

[近傍選択方法] パラメーターには、各説明変数について最適な空間スケールを推定するために使用される以下の 4 つのオプションがあります。

近傍選択方法

[黄金探索] - 黄金探索アルゴリズムを使用して、各説明変数の近傍数または距離バンドを特定します。この手法では、指定された最小値と最大値の間の各説明変数の値の複数の組み合わせが検索されます。この手続きは反復され、前の値を使用して次に検証する新しい各組み合わせが選択されます。選択される最終値が最小の AICc を持つことになります。近傍数オプションについては、[最小近傍数] パラメーターと [最大近傍数] パラメーターを使用して、最小値と最大値を指定します。距離バンドオプションについては、[最小検索距離] パラメーターと [最大検索距離] パラメーターを使用して、最小値と最大値を指定します。最小値と最大値は、すべての説明変数で共有されますが、推定される近傍数または距離バンドは説明変数ごとに異なります (複数の説明変数の空間スケールが同じである場合を除きます)。このオプションでは、特に大規模なデータセットか高次元データセットの場合、計算に最も時間がかかります。
[勾配探索] - 勾配に基づいた最適化アルゴリズムを使用して、各説明変数の近傍数または距離バンドを特定します。勾配探索は、各説明変数の最適なバンド幅を見つけるため、バンド幅に関する AICc の導関数をとり、最小の AICc が見つかるまでバンド幅を更新します。近傍数オプションについては、[最小近傍数] パラメーターと [最大近傍数] パラメーターを使用して、最小値と最大値を指定します。 [距離バンド] オプションについては、[最小検索距離] パラメーターと [最大検索距離] パラメーターを使用して、最小値と最大値を指定します。黄金探索と同様に、最小値と最大値は、すべての説明変数で共有されますが、推定される近傍数または距離バンドは説明変数ごとに異なります (複数の説明変数の空間スケールが同じである場合を除きます)。このオプションは黄金探索と同等の近傍を推定しますが、実行時のパフォーマンスが高く、メモリ使用量は大幅に抑えられます。
[手動間隔] - 近傍数または距離バンドを最小値から増分することにより、各説明変数の近傍数または距離バンドを特定します。近傍数オプションの場合、この方法は、[最小近傍数] パラメーターの値から開始されます。その後、近傍数は、[近傍数の増分] パラメーターの値だけ増加します。この増分は、[増分数] パラメーターを使用して指定された回数分、繰り返されます。距離バンドオプションの場合、この方法では、[最小検索距離] パラメーター、[検索距離の増分] パラメーター、[増分数] パラメーターを使用します。各説明変数によって使用される近傍数または距離バンドは、検証対象の値の 1 つとなりますが、これらの値は、説明変数ごとに異なる場合があります。このオプションは、黄金探索より処理が速く、同等の近傍を頻繁に推定します。
[ユーザー定義] - すべての説明変数によって使用される近傍数または距離バンド。この値は、[近傍数] パラメーターまたは [距離バンド] パラメーターを使用して指定されます。このオプションは、最適値がわかっている場合に最も高い制御効果を発揮します。

デフォルトでは、各近傍選択方法の従属近傍パラメーターがすべての説明変数に適用されます。ただし、近傍のタイプと選択方法に対応するオーバーライドパラメーター、すなわち [黄金探索の近傍数]、[勾配探索の近傍数]、[手動間隔の近傍数]、[ユーザー定義の近傍数]、[黄金探索の検索距離]、[勾配探索の検索距離]、[手動間隔の検索距離]、または [ユーザー定義検索距離] を使用して、特定の説明変数に、カスタマイズされた近傍選択パラメーターを指定できます。特定の説明変数に合わせてカスタマイズされた近傍を使用するには、対応するオーバーライドパラメーターの最初の列で説明変数を指定し、他の列でカスタマイズされた近傍のオプションを指定します。これらの列には、オーバーライドされるパラメーターと同じ名前が表示されます。たとえば、手動間隔と距離バンドを一緒に使用する場合、[検索距離の増分] 列では、[検索距離の増分] パラメーターの値が指定されます。 [ジオプロセシング] ウィンドウでは、カスタマイズされた近傍パラメーターは [カスタマイズされた近傍オプション] パラメーターカテゴリに表示されます。

たとえば、最小近傍数が 30 個、最大近傍数が 40 個で、近傍タイプが黄金探索の 3 つの説明変数を使用するとしましょう。これらのパラメーターを使用してツールを実行すると、3 つの各説明変数が 30 ～ 40 個の近傍を使用します。 2 番目の説明変数にのみ 45 ～ 55 個の近傍を使用したい場合は、[黄金探索の近傍数] パラメーターの列で 2 番目の説明変数、カスタム最小値、カスタム最大値を指定できます。これらのパラメーターを使用する場合、最初の説明変数と 3 番目の説明変数が 30 ～ 40 個の近傍を使用し、2 番目の説明変数が 45 ～ 55 個の近傍を使用します。

ローカル加重方式

MGWR では、地理的ウェイト (カーネル) 関数をフィーチャとその近傍フィーチャに適用して、各ターゲットフィーチャのローカル回帰モデルを推定します。ターゲットフィーチャにより近い近傍は、ローカルモデルの結果により大きい影響を与えます。 [ローカル加重方式] パラメーターで利用できるカーネルオプションは [Gaussian] と [Bisquare] です。カーネルによる地理的加重の詳細については、「地理空間加重回帰分析 (GWR) の詳細」をご参照ください。 MGWR では、説明変数間で加重バンド幅が異なります。

注意:

勾配検索の近傍タイプでは、Bisquare カーネルしか使用できません。 Gaussian カーネルは今後のバージョンで使用可能になる予定です。

スケーリングされたデータと係数

デフォルトでは、平均が 0、標準偏差が 1 になるようにすべての説明変数と従属変数がスケーリングされます (Z スコア標準化とも呼ばれています)。スケーリングされたデータ値の推定係数は標準偏差で解釈されます。たとえば、係数が 1.2 の場合は、説明変数で標準偏差が 1 増えるごとに従属変数で標準偏差が 1.2 増えることを意味します。すべての係数で同じ単位を使用するため、値を直接比較して、どの説明変数がモデルに対して最も影響を及ぼすかを確認できます。通常は変数をスケーリングすることが推奨されますが、変数の値の範囲が大幅に異なる場合にスケーリングが特に重要になります。一方で、[データのスケーリング] パラメーターをオフにして、データをスケーリングしないことを選択できます。

OLS や GWR など、大半の線形回帰モデルで線形スケーリングに対して係数が不変です。つまり、入力データをスケール処理し、回帰モデルを適合させ、結果のスケールを解除して元の単位に戻しても、データをまったくスケーリングしていないかのように結果は同じになります。ただし、MGWR では、スケーリングしてからスケールを解除しても、元のデータから受け取るモデルと同じにはなりません。これは、バックフィッティングが、各ステップの結果が前のステップの結果に依存する反復手順であるためです。別の開始スケールを使用すると、個別の MGWR モデルのテスト済み値と結果のパスに影響します。スケーリングによって変数の分散が均一化されるため、一般的にはスケーリングされた結果はより精度が高くなります。また、各変数で同一量がデータの合計分散に考慮される場合、通常は反復手順の方がより速く、かつより正確な値に収束します。説明変数に異なる分散がある場合 (たとえば、単位が異なる)、分散が大きい変数の方が反復推測の各ステップへの影響が大きくなります。大半のケースでは、モデルの最終的なバンド幅と係数にこれがマイナスの影響を及ぼします。

スケーリングされた結果を解釈しやすくするために、ツール出力のすべての係数にはスケーリングされた値、およびスケールが元のデータ単位に解除された値が含まれています。これらの出力には、(出力グループレイヤーにレイヤーとして追加された) 出力フィーチャ上の追加フィールド、および [出力係数ラスターワークスペース] パラメーターのディレクトリ内にある追加ラスターが含まれます。 [予測位置] パラメーターと [出力予測済みフィーチャ] パラメーターを使用して新しい位置を予測する場合は、すべての予測済み値でスケーリングが解除されて元のデータ単位に戻されます。出力の詳細については、「ツールの出力」をご参照ください。

ツールの出力

出力フィーチャ、メッセージ、チャートのさまざまなフィールドに対応するグループレイヤーなど、このツールではさまざまな出力が生成されます。オプションの出力には、新しいロケーションの値を予測するフィーチャクラス、近傍テーブル、各係数のラスターサーフェスなどがあります。

レイヤーとシンボルのグループ化

デフォルトの出力シンボルレイヤーでは、分類された配色を使用してローカル線形回帰モデルの標準化残差が視覚化されます。残差のパターンを確認して、モデルが適切に指定されているかどうかを特定します。適切に指定された回帰モデルの残差は正規分布となり、値のクラスタリングが発生することなく空間的にランダムになります。 [空間的自己相関分析 (Spatial Autocorrelation (Global Moran's I))] ツールを回帰残差で実行して、それらが空間的にランダムであるかどうかをテストできます。高い残差および低い残差の統計的に有意なクラスタリングは、MGWR モデルが最適ではないことを示しています。

各説明変数の係数のレイヤーと統計的有意性のレイヤーがグループレイヤーとしてマップに追加され、説明変数ごとに別々のサブグループレイヤーがあります。係数の各レイヤーは中心がゼロの発散配色を表しています。これにより、色を使用して、従属変数と正および負の関係にある変数を特定できます。ポイントの場合、統計的に有意なフィーチャ (95% の信頼度) は、ポイントの周囲にある緑のハローで表され、有意でない関係はグレーのハローで示されます。ポリゴンの場合は、ポリゴンのテクスチャメッシュで関係が表されます。係数レイヤーと有意性レイヤーを確認することで、説明変数の空間的変動をより深く理解できます。この空間的変動のインサイトをポリシーに活用できます。変数がグローバル規模で統計的に有意であり、ローカルな値変動がほとんど見られない場合は、グローバルポリシーが適切に機能することもあります。ただし、回帰係数で空間的変動が多く見られる場合は、ローカルポリシーの方が適切に機能することがあります。この場合は、ローカルの効果がプラスまたは大きいエリアでポリシーを開始することをお勧めします。一方で、効果がマイナスまたは小さい他のエリアには、同じポリシーが適していない可能性があります。

メッセージと診断

メッセージには MGWR モデルとそのパフォーマンスに関する情報が記載されています。これらのメッセージはいくつかのセクションに分かれています。

係数推定の統計サマリー

[係数推定の統計サマリー] セクションには、分析範囲全体の係数推定の平均、標準偏差、最小、中央値、最大のサマリーが表示されます。各係数の平均値は説明変数と従属変数の間の関連性を反映したものです。標準偏差は各説明変数の空間的変動を表しています。標準偏差が小さい場合は、OLS などの単純な方法でデータを適切にモデル化できます。 [データのスケーリング] パラメーターがオンになっている場合は、説明変数間で値を比較できます。 [データのスケーリング] パラメーターがオンになっていない場合は、単位が異なる可能性があるため、説明変数間の係数の値を直接比較することはできません。

モデル診断

[モデル診断] セクションには、R²、補正 R²、AICc、残差分散、有効な自由度の数など、GWR と MGWR の複数のモデル診断を表示するテーブルがあります。これらのモデル診断の詳細については、「地理空間加重回帰分析の詳細」をご参照ください。

注意:

一部のケースでは、比較用の GWR モデルで計算に失敗する場合があります。この場合は MGWR の診断のみが表示されます。

R² と補正 R² の診断を使用して、モデルとデータの適合性の度合いを評価できます。 R2 と補正 R2 が高いほど、モデルとデータの適合性も良くなります。複数の説明変数と有効な自由度の診断でモデルの複雑性を評価します。モデルがシンプルなほど有効な自由度が高くなり、パラメーターが少なくなります。モデルのパラメーターが多すぎる場合は、データの過剰適合が発生するリスクが高くなります。 AICc 診断では、モデルの適合性の度合いと複雑性の両方が考慮されます。 [マルチスケール地理空間加重回帰分析 (Multiscale Geographically Weighted Regression)] ツールでは、AICc が最も低いモデルが選択されます。

説明変数と近傍のサマリー

[説明変数と近傍のサマリー] セクションには、各説明変数の推測近傍と有意性レベルが表示されます。近傍数に基づく近傍の場合は、カウント、および合計入力フィーチャ数の割合として最適な近傍数が表示されます。距離バンド近傍の場合は、入力フィーチャの対角線範囲の割合としての距離とともに最適な距離バンドが表示されます。フィーチャまたは範囲の割合は説明変数の空間スケールの特徴を調べるのに役立ちます。たとえば、説明変数でフィーチャの 75% を近傍として使用している場合、ローカル回帰モデルはローカルモデルよりもグローバルモデルに近くなります (OLS などの単純なモデルが適していることを示す)。別の説明変数で入力フィーチャのうち 5% しか近傍として使用していない場合は、そちらの方がローカルモデルということになります。どの近傍タイプでも、信頼度レベルが 95% の統計的に有意なローカルモデルのカウントと割合が説明変数ごとに表示されます。

最適なバンド幅の検索履歴

[最適なバンド幅の検索履歴] セクションには、テストされた値の各セットの AICc 値とともに、最適と思われるバンド幅の検索履歴が表示されます。ツールでは、各変数に同じ値 (GWR の最適なバンド幅) を割り当てることで、各説明変数の最適なバンド幅を検索し始めます。次に、このツールで反復ごとに各変数のバンド幅と係数が調整され、新しい AICc 値が推定されます。反復が進むにつれ、安定するか増加して反復が終了するまで AICc の値が減少します。通常、[ユーザー定義] オプションでは必要となる反復の数が最小になり、[ゴールデン検索] オプションでは必要となる反復の数が最大になります。反復が多数使用されていますが、[勾配検索] オプションを選択すると、各反復をすばやく計算できるので、通常はこのオプションが最も実行時間の速い方法になります。

注意:

勾配検索で近傍数を使用すると、最適なバンド幅の検索履歴セクションに表示される最終的な AICc 値とモデル診断セクションに表示される AICc 値が若干異なることがよくあります。この状況が発生する理由は、勾配検索では、帯域幅の最適化時に近傍数の連続表現が使用されるためです。この結果、各反復の AICc 値の計算でわずかな不正確が生じます。最終モデルの AICc を報告する場合は、モデル診断セクションに表示される値を使用します。

バンド幅の統計サマリー

[バンド幅の統計サマリー] セクションには、各ローカルモデルで各説明変数が統計的に有意かどうかをテストするために使用した値のサマリーが表示されます。これらの統計には、MGWR の最適な近傍 (近傍または距離バンドの数)、パラメーターの有効数、調整済み有意水準 (アルファ)、疑似 t 統計の調整済み臨界値が含まれます。出力フィーチャの各説明変数の統計的有意性に関連するフィールドがこれらの値を使用して作成されます。アルファの調整済み値は、有意水準 (0.05) をパラメーターの有効数で除算することで計算します。これが説明変数の有意性のファミリーワイズエラー率 (FWER) を制御します。調整済みアルファは、自由度の有効数とともに、両側 t 検定で有意水準として使用されます。

出力フィーチャ

このツールでは、各フィーチャのローカル診断を含むフィーチャクラスが出力されます。これらの診断には、回帰残差、標準化残差、従属変数の予測済み値、切片、説明変数の係数、係数の標準誤差、係数の疑似 t 統計、係数の有意性、影響度、Cook の D、ローカル R2、条件数が含まれます。これらの診断の詳細については、「地理空間加重回帰分析の詳細」をご参照ください。

チャート

次のチャートが [コンテンツ] ウィンドウに追加されます。

[変数間の関係] - 1 つの従属変数と 9 つまでの説明変数を含む散布図マトリックスであり、従属変数と各説明変数の相関関係および説明変数の各ペア間の相関関係が表示されます。多重共線性が発生している場合はいずれかのペア間で強い相関関係が示されます。
[標準化残差の分布] - 標準化残差のヒストグラム。標準化残差は、平均 0、標準偏差 1 の正規分布となります。
[標準化残差と予測] - 標準化残差と対応する予測値の間の散布図。プロットはランダムになり、パターンやトレンドは表示されません。

オプション出力

[予測オプション] および [その他のオプション] ドロップダウンで、次のオプション出力を指定できます。

[出力予測済みフィーチャ] パラメーター値は、[予測位置] パラメーターで指定した位置における従属変数の予測があるフィーチャクラスです。
[出力近傍テーブル] パラメーター値には、メッセージの [係数推定の統計サマリー] セクションと [説明変数と近傍のサマリー] セクションの値を含むテーブルが保存されます。
[係数ラスターワークスペース] パラメーターでは、係数のラスターが保存されるワークスペース (ディレクトリかジオデータベース) を指定します。これらの係数ラスターサーフェスを見ることで、係数の空間的変動がわかります。

多重共線性

回帰モデルで 2 つ以上の説明変数に強い相関関係がある場合に多重共線性が発生します。 [OLS]、[GLR]、[GWR]、[MGWR] の各モデルで多重共線性が発生する場合があります。説明変数間に相関関係がある場合、それらの説明変数で情報が相互に共有され、回帰モデルで変数の効果を区別できなくなるため、多重共線性は係数と最適な近傍の推定にマイナスの影響を及ぼすことがあります。緩やかなケースでは、推定係数にバイアスがかかり、不確実性が高くなる場合があります。極端なケースではモデルで計算に失敗する場合があります。以下の例は、お互いの相関関係が密な 3 つの変数の散布図マトリックス、およびこれらの変数を説明変数として使用する回帰モデルで多重共線性の問題が発生しやすいことを示したものです。

MGWR における多重共線性の特定と防止

MGWR モデルでは、以下のようなさまざまな状況で多重共線性が発生します。

いずれかの説明変数が空間的に強くクラスター化されている。 MGWR はローカル回帰モデルに適合しているので、説明変数に対するフィーチャとすべての近傍フィーチャの値がほとんど同じである場合に、多重共線性が発生する可能性があります。
これを防ぐには、各説明変数をマッピングし、可能な値が極めて少ない変数、または同一の変数が空間的にクラスター化されている部分を特定します。こうしたタイプの変数が見られる場合は、モデルからそれらを削除するか、値の範囲を増加させる形で変数を表すことを検討してください。たとえば、寝室の変数番号は平方フィートあたりの寝室として表す法が適切な場合があります。
2 つ以上の説明変数がグローバルレベルで密接な相関関係にある。
[一般化線形回帰 (Generalized Linear Regression)] を使用してグローバルモデルを実行し、各説明変数について分散拡大要因 (VIF) を確認します。大きな VIF 値がある場合 (たとえば 7.5 以上)、グローバル多重共線性が原因で MGWR を実行できなくなることがあります。この場合は変数が冗長であるため、モデルからそのような変数のずれかを除外するか、別の独立変数と組み合わせて値のばらつきを増やします。
定義した近傍が小さすぎる。
多重共線性では、複数の説明変数を同時に取り込むこともできるため、この状況は、一部の説明変数の線形結合ともう一部の説明変数の線形結合の相関関係が強い場合に発生します。この状況は、近傍フィーチャの数が少ない近傍で最もよく発生します。これをテストするには、出力フィーチャクラスでローカル条件数をチェックします。ローカル条件数が多い場合は、ローカル多重共線性が原因で結果が不安定になります。この場合は、大量の近傍か距離バンドを使用してモデルを再実行します。通常、フィーチャの条件数が 30 を超えているか Null の場合は結果に信頼性がありません。シェープファイルの場合、Null 値は値 -1.7976931348623158e+308 で表されます。モデル内の説明変数の数を修正するために条件数のスケールが調整されます。これにより、異なる数の説明変数を使用するモデル間で条件数を直接比較できるようになります。

これらの条件をすべてチェックすることで多重共線性の問題を特定しやすくなりますが、問題を必ず解決できるとは限りません。

係数とバンド幅の推定

勾配検索を除くすべての近傍選択方法では、説明変数の係数とバンド幅はバックフィッティング (Breiman et al. 1985) と呼ばれるプロセスを通じて推定されます。元々は単純化加法モデルのパラメーターを推定するために開発されたもので、説明変数を 1 つずつ移動し、他のすべての説明変数を定数として保持しながら、スムージング関数を使用して係数のキャリブレーションを行います。このプロセスは、係数の値が安定し、反復が連続しても変化しなくなるまで、説明変数に対して繰り返されます。

MGWR (Fotheringham et al. 2017) に適用した場合、スムージング関数は 1 つの説明変数に対して前の残差調整予測を回帰する一変量 GWR モデルとなります (他のすべての説明変数を定数として扱う)。この GWR モデルでは、同じ近傍選択手法 (ゴールデン検索、手動間隔、またはユーザー定義) を使用して説明変数の空間スケールを推定します。プロセスの詳細な説明については、「参考資料」セクションをご参照ください。

バックフィッティングアルゴリズムは係数の初期化された値で開始する必要があります。これらの初期値はすべての説明変数の GWR モデルによって推定されます。多重共線性が原因でこのモデルが失敗した場合は、代わりに OLS が使用されます。 25 回反復してもプロセスが収束しない場合は、最後の反復の係数値が使用されます。

勾配検索

[勾配検索] 近傍選択方法オプションは、バックフィッティングを使用しない MGWR で最適なバンド幅を推定する最新の手法です。勾配検索には、実行時間が短縮され、メモリを効率的に利用できるという主な利点があります。この方法は、二次的な最適化アルゴリズムであり、勾配とヘッセ行列を使用して、説明変数の空間スケールに対する AICc を最小化します。各反復ステップで 1 つの説明変数のパラメーターが更新されるのではなく、AICc の曲率で補正された最も急な勾配方向を下降することで、すべての説明変数のパラメーターが同時に更新されます。

通常、ゴールデン検索と勾配検索で生成される結果はよく似ています。次の画像には、実際の係数サーフェスだけでなく、ゴールデン検索と勾配検索で推定された係数サーフェスも示されています。すべてのサーフェスが類似しており、実際のサーフェスが正確に推定されている点に注目してください。

ゴールデン検索と勾配検索の係数サーフェス

次の画像では、異なる数の説明変数と異なるサイズのデータセットでのゴールデン検索と勾配検索の実行時間を比較しています。説明変数が同じ数の場合に、勾配検索の実行時間が一貫してゴールデン検索の実行時間の約半分である点に注目してください。

ゴールデン検索と勾配検索の実行時間の比較

次の画像では、ゴールデン検索と勾配検索のメモリ使用量を比較しています。ゴールデン検索のメモリ使用量は、サンプルサイズの拡大に伴って急増していますが (二次成長)、勾配検索のメモリ使用量はサンプルサイズの影響を受けていません。

ゴールデン検索と勾配検索のメモリ使用量の比較

次の画像では、ゴールデン検索と勾配検索の AICc 値を比較しています。両方の方法の精度は似通っていますが、ゴールデン検索の方が勾配検索よりも若干小さい AICc 値を示しています (推定の精度がやや高いことを意味する)。

ゴールデン検索と勾配検索の AICc 値の比較

参考資料

詳細については、次のリソースをご参照ください。

Breiman, L., and J. H. Friedman. 1985. "Estimating optimal transformations for multiple regression and correlations (with discussion)." Journal of the American Statistical Association 80, (391): 580–619. https://doi.org/10.2307/2288473. JSTOR 2288473.
Brunsdon C., A. S. Fotheringham, and M. E. Charlton. 1996 "Geographically weighted regression: A method for exploring spatial nonstationarity." Geographical Analysis 28: 281–298.
Conn, A.R., N.I.M. Gould, and P.L. Toint. 2000. "Trust Region Methods." Society for Industrial and Applied Mathematics. https://doi.org/10.1137/1.9780898719857.
da Silva, A. R., and A. S. Fotheringham. 2016. "The multiple testing issue in geographically weighted regression." Geographical Analysis 48(3), 233–247. https://doi.org/10.1111/gean.12084.
Fotheringham, A. S., W. Yang, and W. Kang. 2017. "Multiscale geographically weighted regression (MGWR)." Annals of the American Association of Geographers 107: 1247–265. https://doi.org/10.1080/24694452.2017.1352480
Oshan, T. M., Z. Li, W. Kang, L. J. Wolf, and A. S. Fotheringham. 2019. "mgwr: A Python implementation of multiscale geographically weighted regression for investigating process spatial heterogeneity and scale." ISPRS International Journal of Geo-Information 8: 269.
Yu, H., A. S. Fotheringham, Z. Li, T. Oshan, W. Kang, and L. J. Wolf. 2020. "Inference in multiscale geographically weighted regression." Geographical Analysis 52: 87–106.
Zhou, X., R. Assunção, H. Shao, M. Janikas, C. Huang, and H. Asefaw. 2023. "Gradient-based optimization for Multi-scale Geographically Weighted Regression." (レビュー中)