地理空間加重回帰分析 (Geographically Weighted Regression) ツールの結果の解釈—ArcMap

[地理空間加重回帰分析 (Geographically Weighted Regression)] ツール (以下、「GWR」) によって生成される出力には、次のものが含まれます。

出力フィーチャクラス
オプションの係数ラスターサーフェス
全体的なモデルの結果のメッセージウィンドウレポート
モデルの変数および診断結果を表示する補足テーブル
予測出力フィーチャクラス

これらの出力については、以下に示す、GWR ツールを実行し、GWR ツールの結果を解釈する手順において説明します。一般的に、[最小二乗法 (Ordinary Least Squares)] ツール (以下、「OLS」) を使用した回帰分析から開始します。詳細については、「回帰分析の基礎」と「最小二乗法 (Ordinary Least Squares) ツールの回帰分析結果の解釈」をご参照ください。回帰分析の一般的な目的は、GWR に移行する前に最適な OLS モデルを特定することです。これにより、以下の手順に使用できるコンテキストが提供されます。

(A)必要に応じて、[結果] ウィンドウを開きます。OLS 回帰ツールを使用して 1 つ以上の回帰モデル候補を特定したら、GWR ツールを使用してこれらのモデルを実行します。局所的なバイナリ (ダミー) 変数があれば、それらはローカルの多重共線性と競合し、GWR では不要であるため、GWR モデルから除外します。モデリング/説明/予測する [従属変数] を含んでいる [入力フィーチャクラス] とモデルのすべての [説明変数] を指定する必要があります。また、[出力フィーチャクラス] のパス名、[カーネルタイプ]([固定] または [適合])、および [バンド幅手法]([赤池情報量基準]、[交差検定]、または以下の指定に一致) を指定する必要もあります。[バンド幅手法] で BANDWIDTH_PARAMETER を選択した場合は、[距離]([カーネルタイプ] が [固定] の場合) または [近傍数]([カーネルタイプ] が [適応] の場合) を指定する必要があります。「地理空間加重回帰分析 (Geographically Weighted Regression) ツールのドキュメント」で説明されているオプションのパラメーターの値を指定することもできます。重要なオプションのパラメーターとして、[出力ラスターワークスペース] があります。このパラメーターでフォルダーパスを指定すると、GWR ツールはモデルの切片および各説明変数の係数ラスターサーフェスを作成します (これについては、後で説明します)。

(B) [結果] ウィンドウに書き出された統計サマリーレポートを調べます。[結果] ウィンドウの [メッセージ] のエントリを右クリックし、[表示] をクリックすると、[メッセージ] ダイアログボックスに GWR サマリーレポートが表示されます。このツールを前景で実行すると、サマリーレポートは進捗状況ダイアログボックスにも表示されます。以下に、報告される診断について説明します。

Bandwidth または Neighbors:これは、各ローカル推定に使用されるバンド幅または近傍数であり、多くの場合、最も重要な GWR のパラメーターです。これは、モデルのスムージングのレベルを制御します。一般的に、バンド幅または近傍数は、[バンド幅手法] パラメーターで [赤池情報量基準] または [交差検証] のどちらかを選択することにより、プログラムで自動的に選択されるようにします。これらのオプションは、最適な固定距離または最適な適応可能近傍数を特定しようとします。[赤池情報量基準] と [交差検証] とでは「最適」と見なされる基準が異なるため、一般的に、取得する最適値も異なります。[バンド幅手法] で [以下の指定に一致] を選択することで、正確な固定距離または特定の近傍数を指定することもできます。[バンド幅手法] で BANDWIDTH_PARAMETER を選択することで、正確な固定距離または特定の近傍数を指定することもできます。
バンド幅の単位は、[カーネルタイプ] で指定されている値によって異なります。FIXED を選択すると、バンド幅の値は [入力フィーチャクラス] と同じ単位の距離を反映します (たとえば、入力フィーチャクラスが UTM 座標で投影される場合、報告される距離はメートル単位です)。ADAPTIVE を選択すると、バンド幅の距離は [入力フィーチャクラス] のフィーチャの空間密度に応じて決定されます。バンド幅は、最も近い近傍の数の関数になります。これにより、各ローカル推定は同じ数のフィーチャに基づいて行われます。特定の距離ではなく、分析に使用される近傍数が報告されます。
ResidualSquares:これは、モデルの二乗残差の合計です (残差とは、観測値 y と GWR モデルによって返されたその推定値の間の相違です)。これが小さければ小さいほど、観測されたデータに GWR モデルがより近似していることを示します。この値は、他の多くの診断基準でも使用されます。
EffectiveNumber:この値は、近似値の分散と係数推定のバイアスの間のトレードオフを反映し、バンド幅の選択に影響を与えます。バンド幅が無限に近づくと、すべての観測の地理空間加重は 1 に近づき、係数推定はグローバルな OLS モデルの係数推定に非常に近くなります。バンド幅が非常に大きい場合、係数の有効数は実数に近づき、ローカルの係数推定の分散は小さくなり、バイアスは比較的大きくなります。反対に、バンド幅が 0 に近づくと、すべての観測の地理空間加重は、回帰ポイントそのものを除き、0 に近づきます。バンド幅が非常に小さい場合、係数の有効数は観測の数になり、ローカルの係数推定の分散は大きくなり、バイアスは小さくなります。有効数は、診断基準の数を計算するために使用されます。
Sigma:この値は、正規化された二乗残差和の平方根です (二乗残差和は残差の有効自由度によって除算されます)。これが残差の推定標準偏差です。この統計にはより小さい値を使用することをお勧めします。この値は、[赤池情報量基準] の計算に使用されます。
赤池情報量基準: これは、モデルのパフォーマンスを計測するための基準であり、複数の異なる回帰モデルを比較するために役立ちます。モデルの複雑さを考慮すると、[赤池情報量基準の値が小さければ小さいほど、観測されたデータにより近似していることを示します。[赤池情報量基準] は、近似性を正確に計測するための基準ではなく、説明変数が (同じ従属変数に適用されるが) 異なる複数のモデルを比較するための基準です。2 つのモデルの [赤池情報量基準] 値の差が 3 より大きい場合は、値が小さいモデルのほうがより適切であると見なされます。GWR の [赤池情報量基準] 値と OLS の [赤池情報量基準] 値を比較することで、グローバルなモデル (OLS) からローカルの回帰モデル (GWR) に移行することの利点を評価できます。
R2:相関係数の二乗は、近似性を計測するための基準です。この値の範囲は 0.0 ～ 1.0 であり、より高い値が適切な値です。これは、回帰モデルによって説明される従属変数の分散の比率として解釈されることがあります。相関係数の二乗の計算に使用される分母は、二乗された従属変数の値の合計です。モデルに説明変数をさらに追加しても、分母は変更されませんが、分子は変更されます。これにより、モデルの近似性が向上したように見えますが、実際には向上していない可能性があります。次の「R2Adjusted」の説明をご参照ください。
調整済み R2 (R2Adjusted): [R2] の値には上記の問題があるため、調整済み相関係数の二乗の値を算出することで、分子と分母がその自由度によって正規化されます。これには、モデルの変数の数を補正する効果があります。したがって、[R2Adjusted] の値は、ほぼ常に [R2] の値よりも小さい値です。ただし、この調整を行うと、説明される分散の比率として値を解釈することができなくなります。GWR では有効自由度はバンド幅の関数であるため、調整は OLS などのグローバルモデルと比較すると顕著である場合があります。このため、モデルを比較する方法としては [赤池情報量基準] が最適です。

メッセージウィンドウの診断は、モデルの変数およびパラメーターに関するサマリー情報とともに補足テーブル (*_supp) に書き出されます。

(C)[出力フィーチャクラス] の残差を調べます。

適切に指定された回帰モデルの上方予測と下方予測は、ランダムに分散されます。上方予測および下方予測のクラスタリングは、少なくとも 1 つの主要な説明変数がないことを示します。OLS および GWR モデルの残差のパターンを調べて、どの変数が不足しているかを特定するためのヒントがあるかどうかを確認します。[空間的自己相関分析 (Spatial Autocorrelation (Morans I))] ツールを回帰残差で実行して、それらが空間的にランダムであることを確認します。高い残差および低い残差の統計的に有意なクラスタリング (モデルの下方予測および上方予測) は、GWR モデルが正しく指定されていないことを示します。

GWR の出力フィーチャクラス — GWR のフィーチャクラスのレンダリングされた残差が含まれる出力

回帰残差に加え、[出力フィーチャクラス] には観測値および予測値 y、条件数 (cond)、ローカルの R2、説明変数の係数、および標準誤差のフィールドが含まれます。

条件数 (Condition Number) : この診断は、ローカルの多重共線性を評価します。強度のローカルの多重共線性が存在する場合、結果は不安定になります。30 より大きい条件数に関連付けられている結果は、信頼性が低い可能性があります。
ローカル R2 (Local R2) : これらの値の範囲は 0.0 ～ 1.0 であり、ローカルの回帰モデルが観測値 y とどれほど近似するかを示します。非常に小さい値は、ローカルのモデルのパフォーマンスが低いことを示します。[Local R2] の値をマッピングして GWR がどこで適切に予測し、どこで不適切に予測するかを確認すると、回帰モデルに不足している可能性のある重要な変数に関するヒントを得ることができる場合があります。
予測 (Predicted) : これらは、GWR によって計算された推定 (近似)y 値です。
残差 (Residuals) : 残差の値を取得するために、近似値 y が観測値 y から減算されます。標準残差は、平均が 0 であり、標準偏差が 2 です。標準残差のコールド/ホットレンダリング処理されたマップは、GWR が ArcMap で実行されるときに自動的に [コンテンツ] ウィンドウに追加されます。
係数標準誤差 (Coefficient Standard Error) : これらの値は、各係数推定の信頼性を計測するための基準です。標準誤差が実際の係数の値と比較して小さい場合は、これらの推定の信頼度が高いことを示します。標準誤差が大きい場合は、ローカルの多重共線性に問題がある可能性を示します。

(D)GWR によって作成された係数ラスターサーフェス (ポリゴンデータがある場合は、フィーチャレベルの係数の等級色レンダリング) を調べて、モデルの説明変数の局所的な値変動に対する理解を深めます。GWR を使用していくつかの変数 (従属変数) をモデリングするとき、一般的に、従属変数の結果に影響を与える値を予想したり、その要因を理解したりすることが主な目的です。また、従属変数とそれぞれの説明変数の間のリレーションシップがスタディエリア全体でどれほど空間的に一貫しているか (定常であるか) を調べることも重要な目的です。係数の分布をサーフェスとして調べることで、値変動がどこにどれほど存在するかを確認できます。この値変動に対する理解に基づいて、ポリシーを通知することができます。

局所的な値変動をほとんど示さない統計的に有意なグローバル変数は、リージョン全体のポリシーを通知します。
強度の局所的な値変動を示す統計的に有意なグローバル変数は、ローカルのポリシーを通知します。
一部の変数は、一部のリージョンでは正の関連性を持ち、その他のリージョンでは負の関連性を持つため、グローバルに有意ではありません。

(E)GWR の予測をマッピングします。GWR は、サンプリングされたデータに適用されるときに予測のために使用できます。従属変数が不明であるロケーションのすべての説明変数を含んでいるフィーチャクラスを指定します。GWR は、[入力フィーチャクラス] から既知の従属変数の値を使用して回帰方程式をキャリブレーションしてから、従属変数の推定を含んでいる新しい [出力フィーチャクラス] を作成します。