特に、モデル化しようとしている変数 (従属変数) の重要な要因であると考えられる多数の 説明候補 がある場合は、適切に指定された OLS モデルを見つけるのが困難な場合があります。このようなケースでは、[予備回帰分析 (Exploratory Regression)] ツールが役に立つ場合があります。これは、説明変数のすべての組み合わせについて必要なすべての OLS 診断に合格するモデルを確認するデータ マイニング ツールです。候補となる説明変数のすべての組み合わせを評価することにより、問題の解決または質問への回答を行う最適なモデルが見つかる可能性が非常に高くなります。[予備回帰分析 (Exploratory Regression)] は、多くの統計ソフトウェア パッケージに収録されている段階的重回帰と似ていますが、予備回帰分析 (Exploratory Regression)は高い補正 R2 値を持つモデルを単に検索するのではなく、OLS 法のすべての要件および前提条件を満たすモデルを検索します。
予備回帰分析 (Exploratory Regression) ツールの使用方法
予備回帰分析 (Exploratory Regression) ツールを実行するときは、各モデルが含んでいる説明変数の最小数および最大数とともに、補正 R2、係数 p 値、VIF (Variance Inflation Factor: 分散拡大要因) 値、Jarque-Bera p 値、空間的自動相関 p 値の閾値条件を指定します。予備回帰分析 (Exploratory Regression) は、[説明変数の最小数] 以上および [説明変数の最大数] 以下を含むモデルの [候補となる説明変数] のすべての可能な組み合わせについて OLS を実行します。各モデルは [検索条件] に対して評価されます。検索されるモデル:
- 指定した補正 R2 閾値を超えているモデル
- すべての説明変数について、指定した値未満の係数 p 値を含んでいるモデル
- すべての説明変数について、指定した閾値未満の係数 VIF 値を含んでいるモデル
- 指定した値よりも大きい Jarque-Bera p 値を返すモデル
次に、そのモデルの残差に対して [空間的自己相関分析 (Spatial Autocorrelation (Moran’s I))] ツールが実行されます。空間的自動相関 p 値もツールの検索条件 ([空間的自己相関の最小許容 p 値]) で指定した値より大きい場合、モデルは [適合モデル] として表示されます。[予備回帰分析 (Exploratory Regression)] ツールは、[空間的自己相関分析 (Spatial Autocorrelation (Moran's I))] ツールを使用して 3 つの最高の補正 R2 結果を含むモデルについて回帰残差もテストします。
[適合モデル] の下に表示されたモデルは、指定した検索条件を満たしています。[最大係数 p 値カットオフ]、[最大 VIF 値カットオフ]、[最小許容 Jarque Bera p 値]、および [空間的自己相関の最小許容 p 値] のデフォルト値を採用すると、適合モデルは適切に特定された OLS モデルでもあります。適切に特定された OLS モデルは次を含んでいます。
- すべての係数が統計的に有意である説明変数
- 各説明変数と従属変数間の想定される、または少なくとも正当化できる関係を反映している係数
- モデル化しようとしている内容の異なる側面に注目する説明変数 (どれも冗長ではありません。7.5 未満の小さい VIF 値を含んでいます)
- モデルに偏りがない (最小 Jarque-Bera p 値が統計的に有意ではない) ことを示す、正規分布している残差
- モデルの残差が正規分布している (空間的自己相関の最小 p 値が統計的に有意ではない) ことを示す、ランダムに分散している上方予測および下方予測
[出力結果テーブル] を指定すると、[最大 VIF 値カットオフ] を満たし、すべての説明変数が [最大係数 p 値カットオフ] を満たすモデルがテーブルに書き込まれます。このテーブルは、テキスト レポート ファイルに含まれるモデルの他にさらにモデルを調べたい場合に役立ちます。
注意事項
段階的重回帰などの方法を使用する場合と同様に、[予備回帰分析 (Exploratory Regression)] ツールについては議論の余地があります。大げさかもしれませんが、これについては基本的に科学的方法の観点とデータ マイナーの観点の 2 つの学派があります。
科学的方法の観点
科学的方法の強力な提唱者は、予備回帰分析方法に反対する場合があります。彼らの観点からすれば、データを探索する前に自身の仮説を定式化すべきだというのです。そうしなければ、自身が用意したデータには適合するが、より広い範囲でのプロセスを反映しないモデルができてしまうということです。ある特定のデータセットに過度に適合しているモデルを構築すると、他のデータセットには使い物にならない場合があります。事実、過適合のモデルは、新しい観測を追加しただけで不安定になることがあります (パフォーマンスが低下したり、説明変数の有意性が減少したりします)。新しい観測の追加にも耐えられないようなモデルが、モデル化しようとしているものの主要プロセスに到達できるわけがありません。
さらに、回帰統計は確率理論に基づいていることを理解してください。また、数千のモデルを実行すると、帰無仮説を不適切に棄却する可能性が非常に高くなります (タイプ 1 統計エラー)。たとえば、95% の信頼度を選択するということは、一定のリスク、つまり、100 個のリサンプルデータのうち 5 個が偽陽性を生じるというリスクを受け入れることを意味します。P 値は係数ごとに計算されます。帰無仮説とは、係数が実際にはゼロであること、そしてその帰結として、その係数に関連付けられている説明変数がモデルの役に立たないことです。確率論によれば、ただ誤って結論を肯定する観測を選択したがために p 値が統計的に有意であるとみなされることが、100 サンプル中の 5 個で発生します。1 つのモデルのみを実行しているときは、95% の信頼度は控えめであると思われます。試行するモデル数を増やすと、結果から結論を得る能力が減少します。[予備回帰分析 (Exploratory Regression)] ツールでは、わずか数分で数千のモデルを試行できます。試行されたモデル数は、[出力レポート ファイル] のグローバル サマリー セクションに報告されます。
データ マイナーの観点
他方で、データ マイニング学派の研究者は与えられた実世界の結果に寄与するすべての要因を演繹的に知ることが不可能であると感じることがあります。答えようとしている質問は多くの場合複雑であり、特定のトピックに関する理論は存在しないか、古い可能性があります。データ マイナーは、予備回帰分析により得られる解析などの帰納的解析の大きな支持者です。彼らは、既成概念にとらわれない考え方、および仮説の作成に予備回帰分析を使用することを推奨しています。
推奨
慎重に使用した場合、予備回帰分析 (Exploratory Regression) は適切に指定された OLS モデルを見つけるのに非常に役立つデータ マイニング ツールです。候補となる予備回帰分析変数を選ぶときは常に、理論による裏付け、エキスパートからの助言、そしてあなた自身の常識に照らし合わせて選んでください。データの一部を使用して回帰モデルをキャリブレーションし、残りのデータを使って検証するか、追加のデータセットを使用してモデルを検証してください。結果から推論を導く場合は、少なくとも、ブートストラップ法などの感度解析を実行してください。
[予備回帰分析 (Exploratory Regression)] ツールは、補正 R2 値についてモデル パフォーマンスのみを評価する他の探索的方法を使用する場合よりも利点があります。[予備回帰分析 (Exploratory Regression)] ツールは、上記のすべての OLS 診断に合格するモデルを検索します。