一連のフィーチャクラス ([入力フィーチャクラス]) と分析フィールド ([入力フィールド]) を指定すると、[クラスター/外れ値分析 (Cluster and Outlier Analysis)] ツールにより高い値または低い値を持つ空間クラスターが特定されます。このツールでは、空間的な外れ値も特定されます。この場合、ツールでは、ローカルな Moran's I 値、Z スコア、疑似 p 値、および統計的に有意な各フィーチャのクラスター タイプを表すコードが計算されます。Z スコアと疑似 p 値は、計算されたインデックス値の統計的な有意性を表します。
計算
解釈
I が正の値である場合は、フィーチャの近隣フィーチャが同様に高いまたは低い属性値をもち、このフィーチャがクラスターの一部であることを示しています。I が負の値である場合は、フィーチャの近隣フィーチャが異なる値をもっており、このフィーチャが外れ値であることを示します。どちらの場合も、統計的に有意なクラスターまたは外れ値であると見なすためには、フィーチャの p 値が十分に小さいものである必要があります。統計的有意性を判断する方法の詳細については、「Z スコアとは、 p 値とは」をご参照ください。Local Moran's I インデックス (I) は、相対的な測定であり、計算された Z スコアまたは p 値との関係の中でしか解釈できないものです。出力フィーチャクラスにレポートされる Z スコアおよび p 値は、多重検定や空間依存性では補正されていません。
クラスター/外れ値タイプ (COType) フィールドでは、高い値をもつ統計的に有意なラスター (HH)、低い値をもつクラスター (LL)、高い値が主に低い値に取り囲まれている外れ値 (HL)、低い値が主に高い値に取り囲まれている外れ値 (LH) が区別されます。統計的な有意性は、95 % の信頼度に設定されます。FDR 補正を適用しない場合、0.05 より小さい p 値を持つフィーチャが統計的に有意であるとみなされます。FDR 補正は、p 値の閾値を 0.05 から 95 % の信頼度の多重検定の結果を良くする値にまで小さくします。
出力
このツールを使用すると、入力フィーチャクラスにある各フィーチャについて、Local Moran's I インデックス、Z スコア、p 値、COType の各属性をもつ新しい出力フィーチャクラスが作成されます。
ArcMap でこのツールを実行すると、自動的に、[コンテンツ] ウィンドウに出力フィーチャクラスが、COType フィールドにデフォルトのレンダリングが適用された状態で追加されます。適用されるレンダリングは、<ArcGIS>/ArcToolbox/Templates/Layers にあるレイヤー ファイルによって定義されます。必要に応じて、テンプレート レイヤー シンボルをインポートすれば、デフォルトのレンダリングを再適用できます。
順列
順列を使用すると、ランダムに生成された一連の値と比較して分析する値の実際の空間分布が検出される可能性がどれくらいあるかを判断できます。空間完全ランダム性 (CSR) を使用した場合でも、単にランダム性によって、ある程度のクラスター分布が常に観測されます。順列では、ランダムなデータセットが多数生成され、これらの値が元のデータの Local Moran's I と比較されます。順列を実行するごとに、各フィーチャの周囲の近傍値がランダムに並べ替えられ、このランダムなデータの Local Moran's I 値が算出されます。順列から生成された Local Moran's I の分布を確認すると、ランダム性によって生じたと考えられる Local Moran's I 値の範囲を特定できます。統計的に有意な空間パターンがデータに含まれている場合、順列から生成された Local Moran's I 値は、元のデータから生成された Local Moran's I 値よりも、クラスター分布の少ない状態で表示されることが予想されます。この後、順列から生成された Local Moran's I 値が元のデータよりもクラスター分布の多い状態で表示される比率を求めて、疑似 p 値が算出されます。この比率 (疑似 p 値) が小さい値 (0.05 未満) の場合は、そのデータから統計的に有意なクラスター分布が表示されると判断できます。
順列の数を選択する場合は、精度と処理時間の増加とのバランスを考慮します。順列の数を多くすると、疑似 p 値の範囲が広くなり、結果的に精度が上がります。たとえば、順列の数が 99 の場合は疑似 p 値の精度が .01 (1/99+1) になり、順列の数が 999 の場合は疑似 p 値の精度が .001 (1/999+1) になります。初期段階で問題を調査する場合には順列の数を少なくしてもかまいませんが、通常は順列の数を増やし、最終結果に適した最大数にすることが最善策です。
ベスト プラクティスのガイドライン
- 結果は、入力フィーチャクラスに 30 個以上のフィーチャが格納されている場合にのみ、信頼性があります。
- このツールを使用するときには、カウント、率、その他の計測値などの入力フィールドが必要です。各ポイントが 1 つのイベントまたはインシデントを表すようなポイント データを分析している場合は、評価の対象となる具体的な数値属性 (重要度ランキング、カウント、その他の計測) がないかもしれません。インシデントの多い位置 (ホット スポット) やインシデントが非常に少ない位置 (コールド スポット) の特定を考えている場合は、分析の前にインシデント データを集約する必要があります。ホット スポットとコールド スポットは、[ホット スポット分析 (Hot Spot Analysis (Getis-Ord Gi*))] ツールでも効果的に特定できます。ただし、統計的に有意な空間的な外れ値 (高い値が低い値に取り囲まれている場合や低い値が高い値に取り囲まれている場合) は、[クラスター/外れ値分析 (Cluster and Outlier Analysis (Anselin Local Moran's I))] ツールでしか特定できません。
- 適切な空間リレーションシップのコンセプトを選択してください。
- SPACE_TIME_WINDOW コンセプトを選択すると、時空間クラスターおよび外れ値を特定できます。詳細については、「時空間分析」をご参照ください。
- 適切な距離バンドまたは距離の閾値を選択してください。
- すべてのフィーチャが少なくとも 1 つ近接フィーチャを持つ必要があります。
- すべてのフィーチャを近接フィーチャとするフィーチャが存在してはいけません。
- 特に、入力フィールドの値が偏っている場合は、各フィーチャに 8 つの近隣フィーチャをもたせてください。
適用例
[クラスター/外れ値分析 (Cluster and Outlier Analysis (Anselin Local Moran's I))] ツールでは、高い値の集中、低い値の集中、および空間的な外れ値を特定できます。これは次のような質問に答えるうえで役立ちます。
- 分析範囲における裕福層と貧困層の間の最も急激な境界はどこにあるか?
- 分析範囲に、消費パターンが異常な領域はあるか?
- 分析範囲全体にわたって糖尿病発生率が予想外に高い場所はどこか?
経済、資源管理、生物地理、政治地理、人口統計など多数の分野での適用が可能です。
参考資料
Anselin, Luc 『Local Indicators of Spatial Association—LISA』(Geographical Analysis 27 (2): 93–115)、1995 年
Mitchell, Andy 『The ESRI Guide to GIS Analysis, Volume 2』ESRI Press, 2005