[ローカル外れ値分析 (Local Outlier Analysis)] ツールは、データに含まれる統計的に有意なクラスターと外れ値を特定します。このツールは、空間と時間の両方の観点で近隣の場所と統計的有意差のある場所を分析範囲から検出します。このツールは、[ポイントの集約による時空間キューブの作成 (Create Space Time Cube By Aggregating Points)] ツールで作成された時空間 NetCDF キューブを入力として取得します。この後、[近傍距離] および [近隣時間のステップ] パラメーターの値を使用して、ビンごとに Anselin Local Moran's I 統計 ([クラスター/外れ値分析 (Cluster and Outlier Analysis)]) の時空間での実装を計算します。この計算では、Local Moran's I インデックス、疑似 p 値、および [入力時空間キューブ] に含まれる統計的に有意な各ビンのクラスターまたは外れ値のカテゴリ タイプを表すタイプ コード (CO_TYPE) が算出されます。疑似 p 値は、算出されたインデックス値の統計的有意性を表し、その精度は順列の数に依存します。
適用例
[ローカル外れ値分析 (Local Outlier Analysis)] ツールの用途は、経済学、資源管理、政治地理学、人口統計、公共衛生、詐欺防止など、多岐の分野にわたっています。このツールを使用して答えられる質問のいくつかを次に示します。
- 消費パターンが正常でない場所が分析範囲内に存在するか?
- 分析範囲全体で病気発生率が予想以上に高い期間が存在したか?
- 近隣の地域よりも居住者が水を大量に消費している郊外地域が存在するか? また、水保全の最善策を考案するために、一貫して水の消費量が少ない郊外地域も特定します。
- 過去 1 か月に保険金請求の件数が急上昇した場所が居住地域内に存在するか?
ツールの出力
このツールでは、さまざまな出力が作成されます。特に効果的な出力は各場所を時系列に要約した 2 次元マップであり、このツールの終了時にマップに追加されます。出力のカテゴリを次に示します。
タイプ名 | 定義 |
---|---|
Never Significant | これまで統計的に有意な CO_TYPE が存在したことがない場所。 |
Only High-High Cluster | 高 - 高 クラスターだけが期間全体を通して統計的に有意なタイプであった場所。 |
Only High-Low Outlier | 高 - 低 外れ値だけが期間全体を通して統計的に有意なタイプであった場所。 |
Only Low-High Outlier | 低 - 高 外れ値だけが期間全体を通して統計的に有意なタイプであった場所。 |
Only Low-Low Cluster | 低 - 低 クラスターだけが期間全体を通して統計的に有意なタイプであった場所。 |
Multiple Types | 期間全体を通して統計的に有意なタイプのクラスターと外れ値が複数存在した場所 (たとえば、ある期間中は高 - 低外れ値が統計的に有意なタイプであり、それ以外の期間中は高 - 高クラスターが統計的に有意なタイプであった場所)。 |
場所ごとにクラスターと外れ値のタイプを要約した 2 次元マップは、効果的な出力を生成し、このツールの終了時にマップに追加されます。さらに、分析結果を要約するメッセージが、[結果] ウィンドウに書き込まれます。[結果] ウィンドウ内のメッセージ エントリを右クリックして、[表示] を選択すると、[メッセージ] ダイアログ ボックスに結果が表示されます。
これらのメッセージには、期間、時間的バイアス、分析されたビンと場所の数など、[入力時空間キューブ] に関する情報が表示されます。また、直近の時間ステップで生じた外れ値に関する重要な情報や対象となるキー時間ステップの要約なども表示されます。たとえば、販売テリトリー内に採算性の悪い地域があることが問題となっている状況で、低 - 高外れ値がないかを調べたい場合は、低 - 高外れ値の数が最も多いキー時間ステップをこれらのメッセージで確認できます。
このツールでは、[入力時空間キューブ] の各場所のビンを要約した次の各フィールドを含む新しい出力フィーチャクラスが作成されます。
エイリアス | フィールド名 |
---|---|
外れ値の総数 | NUM_OUT |
外れ値のパーセンテージ | PERC_OUT |
低クラスターの数 | N_LOW_CLS |
低クラスターのパーセンテージ | P_LOW_CLS |
低外れ値の数 | N_LOW_OUT |
低外れ値のパーセンテージ | P_LOW_OUT |
高クラスターの数 | N_HIGH_CLS |
高クラスターのパーセンテージ | P_HIGH_CLS |
高外れ値の数 | N_HIGH_OUT |
高外れ値のパーセンテージ | P_HIGH_OUT |
[空間近傍なし] の場所 (分析計算で時間近傍にのみ依存する) | NO_SP_NBR |
[直近の時間ステップに含まれる外れ値] のある場所 | OUT_R_TIME |
クラスター外れ値タイプ | CO_TYPE |
分析された変数の合計値、最小値、最大値、平均値、標準偏差、および中央値を含むその他の要約統計量 | SUM_VALUE、MIN_VALUE、MAX_VALUE、MEAN_VALUE、STD_VALUE、および MED_VALUE |
最後に、[ローカル外れ値分析 (Local Outlier Analysis)] ツールで、新しい複数の変数を [入力時空間キューブ] に追加します。これらの変数がすでに存在する場合 ([ローカル外れ値分析 (Local Outlier Analysis)] ツールを同じ [分析変数] に対して複数回実行した場合)、これらの変数は上書きされるため、常に最新の分析結果がキューブに含まれます。
ArcGIS Pro を使用して、これらの変数を視覚化することができます。その方法については、「時空間キューブの視覚化」をご参照ください。
解釈
[ローカル外れ値分析 (Local Outlier Analysis)] ツールの実行結果の解釈を分かりやすくするために、[時空間キューブを 3D で視覚化 (Visualize Space Time Cube in 3D)] ツールを使用して、キューブに追加された結果の変数を表示できます。各ビンのインデックス、p 値、および [クラスター外れ値分析タイプ] は、Cluster and outlier results [表示テーマ] を選択して視覚化することができます。正の値のインデックスは、1 つのビンに、類似した高い属性値または低い属性値が設定された近傍ビンがあることを示します。このビンはクラスターの一部です。負の値のインデックスは、1 つのビンに、類似していない値が設定された近傍ビンがあることを示します。このビンは外れ値です。どちらの場合も、フィーチャの疑似 p 値または p 値を小さい値に設定し、クラスターと外れ値が統計的に有意と見なされるようにする必要があります。統計的有意性を判断する方法の詳細については、「Z スコアとは、 p 値とは」をご参照ください。Local Moran's I インデックス (I) は、相対的な測定であり、生成された基準分布と算出された疑似 p 値または p 値に照らし合わせてのみ解釈できます。出力フィーチャクラスでレポートされる疑似 p 値または p 値は、多重検定と空間依存性に関して補正されています。
クラスターと外れ値のタイプでは、統計的に有意な高い値のクラスター (高 - 高)、統計的に有意な低い値のクラスター (低 - 低)、高い値が主に低い値に取り囲まれている外れ値 (高 - 低)、低い値が主に高い値に取り囲まれている外れ値 (低 - 高) が区別されます。統計的な有意性は、95 % の信頼度に設定されます。この統計的有意性は FDR 補正を表します。FDR 補正により、p 値の閾値が 0.05 から、多重検定の結果を考慮して 95 % の信頼度が十分に反映された値に調整されます。
近傍のデフォルト
時空間にあるビンの値が、統計的に有意なホット スポットまたはコールド スポットの一部であるか、統計的に有意な外れ値であるかを判断するために、各ビンがその近傍の時空間ビンに照らし合わせて評価されます。[近傍距離] および [近傍時間のステップ] のパラメーター値は、各ビンの近傍の範囲 (各ビンの分析のコンテキスト) を定義します。ビンのディメンションが 1 日単位で 400 x 400 メートルであるとします。[近傍距離] を 801 メートル、[近隣時間のステップ] を 2 に設定すると、次に示すように、空間近傍が水平方向と垂直方向のどちらにも 2 つのビンの分だけ拡大され、対角線上に 1 つのビンの分だけ拡大されます。
加えて、時間近傍が存在します。一致する期間と前の 2 つの期間 (この例では合計 3 日) においてターゲットとその空間近傍 (上記参照) と同じ場所にあるすべてのビンが、近傍として含められます。時間近傍は時間を遡ること、および [近傍時間のステップ] 2 には 3 つの時間ステップ間隔が含まれることに注意してください。各場所に 1 つ以上の時間近傍を確保するために、最初のタイム スライス内にあるビンでは Local Moran's インデックスの計算が行われません。ただし、最初のタイム スライス内にあるビンの値は、グローバル平均の計算に含められます。
[近傍距離] パラメーターに値を指定しない場合は、値が自動的に計算されます。その式は、カーネル密度のデフォルトの検索範囲を決定するために使用される計算から生成されます。[近傍時間のステップ] に値を指定しない場合は、デフォルト値が 1 に設定されます。
順列
順列を使用すると、ランダムに生成された一連の値と比較して分析する値の実際の空間分布が検出される可能性がどれくらいあるかを判断できます。空間完全ランダム性 (CSR) を使用した場合でも、単にランダム性によって、ある程度のクラスター分布が常に観測されます。順列では、ランダムなデータセットが多数生成され、これらの値が元のデータの Local Moran's I と比較されます。順列を実行するごとに、各ビンの周囲の近傍値がランダムに並べ替えられ、このランダムなデータの Local Moran's I 値が算出されます。順列から生成された Local Moran's I の分布を確認すると、ランダム性によって生じたと考えられる Local Moran's I 値の範囲を特定できます。統計的に有意な空間パターンがデータに含まれている場合、順列から生成された Local Moran's I 値は、元のデータから生成された Local Moran's I 値よりも、クラスター分布の少ない状態で表示されることが予想されます。この後、順列から生成された Local Moran's I 値が元のデータよりもクラスター分布の多い状態で表示される比率を求めて、疑似 p 値が算出されます。この比率 (疑似 p 値) が小さい値 (0.05 未満) の場合は、そのデータから統計的に有意なクラスター分布が表示されると判断できます。
順列の数を選択する場合は、精度と処理時間の増加とのバランスを考慮します。順列の数を多くすると、疑似 p 値の範囲が広くなり、結果的に精度が上がります。たとえば、順列の数が 99 の場合は疑似 p 値の精度が .01 (1/99+1) になり、順列の数が 999 の場合は疑似 p 値の精度が .001 (1/999+1) になります。初期段階で問題を調査する場合には順列の数を少なくしてもかまいませんが、通常は順列の数を増やし、最終結果に適した最大数にすることが最善策です。
参考資料
Anselin, Luc 『Local Indicators of Spatial Association—LISA』Geographical Analysis 27(2): 93–115, 1995.
Mitchell, Andy 『The ESRI Guide to GIS Analysis, Volume 2』 ESRI Press, 2005