[最適化ホット スポット分析 (Optimized Hot Spot Analysis)] は、入力データの特性から作成されたパラメーターを使用して [ホット スポット分析 (Hot Spot Analysis (Getis-Ord Gi*))] ツールを実行します。デジタル カメラの自動設定が、照明および被写体と地面の読み取り値を使用して適切な絞り、シャッター スピード、焦点を決定するのと同様に、[最適化ホット スポット分析 (Optimized Hot Spot Analysis)] ツールは、データを調べて、最適なホット スポットが得られる設定を取得します。たとえば、入力フィーチャ データセットにインシデント ポイント データが含まれる場合、このツールは、それらのインシデントを重み付きフィーチャに集約します。ツールは、重み付きフィーチャの分布を使用して、分析の適切なスケールを決定します。出力フィーチャにレポートされる統計的な有意性は、FDR (False Discovery Rate) 補正を使用して多重検定と空間依存性に合わせて自動的に調整されます。
最良の結果を提供するためにツールによって行われた判定が、ツールの実行中にメッセージとしてレポートされます。各判定の内容については後述します。
カメラに、自動設定を無効にできる手動モードが備わっているのと同様に、[ホット スポット分析 (Hot Spot Analysis (Getis-Ord Gi*))] ツールでは、すべてのパラメーターのオプションを完全に制御できます。[最適化ホット スポット分析 (Optimized Hot Spot Analysis)] ツールを実行するときに、ツールが使用したパラメーター設定を書き留めておくと、完全に制御された [ホット スポット分析 (Hot Spot Analysis (Getis-Ord Gi*))] ツールに対して指定するパラメーターの調整に役立ちます。
[最適化ホット スポット分析 (Optimized Hot Spot Analysis)] ツールのワークフローには、以下のコンポーネントが含まれています。これらの各コンポーネントで使用される計算とアルゴリズムについて、以下で説明します。
初期データの評価
このコンポーネントでは、入力フィーチャとオプションの分析フィールド、インシデント範囲境界ポリゴン、およびインシデントをポイントに集約するためのポリゴンが精査されて、分析するための十分なフィーチャとさまざまな値が適切に存在することが確認されます。ツールによってレコードの破損やジオメトリの欠損が検出された場合、または分析フィールドを指定し、かつ NULL 値が存在する場合、関連するレコードが不良レコードとしてリスト表示され、分析から除外されます。
[最適化ホット スポット分析 (Optimized Hot Spot Analysis)] ツールは、Getis-Ord Gi* (ジー アイ スターと発音) 統計を使用します。多くの統計手法と同様に、フィーチャが 30 個未満の場合、このツールの結果は信頼できません。ポリゴン入力フィーチャまたはポイント入力フィーチャと、分析フィールドを指定する場合、このツールを使用するには、30 個以上のフィーチャが必要になります。[インシデントをポイントに集約するためのポリゴン] の最小数も 30 です。インシデント範囲境界ポリゴンを表すフィーチャ レイヤーには、1 つ以上のポリゴンを含めることができます。
また、Gi* 統計は、分析対象の各フィーチャに値を関連付けることを必要とします。指定した入力フィーチャがインシデント データを表す場合 (分析フィールドを指定しない場合)、ツールはインシデントを集約し、そのインシデント数が分析対象の値になります。集約処理の完了後も、引き続き 30 個以上のフィーチャが存在している必要があります。そのため、インシデント データでは、30 個よりも多いフィーチャを使用して開始することをお勧めします。以下の表に、インシデント データ集約方法ごとの最小フィーチャ数をまとめています。
インスタンスの最小数 | 集約方法 | 集約後の最小フィーチャ数 |
---|---|---|
60 |
COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS([インシデント範囲境界ポリゴン] の指定なし) | 30 |
30 |
COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS([インシデント範囲境界ポリゴン] パラメーターにフィーチャクラスを指定した場合) | 30 |
30 |
COUNT_INCIDENTS_WITHIN_AGGREGATION_POLYGONS | 30 |
60 |
SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS | 30 |
また、Gi* 統計は、さまざまな値を持つ分析フィールド用に設計されています。この統計は、バイナリ データなどには適していません。[最適化ホット スポット分析 (Optimized Hot Spot Analysis)] ツールは、分析フィールド をチェックして、値に最小限の変動があることを確認します。
密度サーフェスのパスを指定した場合、ツールのワークフローのこのコンポーネントは、ラスター解析マスク環境設定もチェックします。ラスター解析マスクが設定されていない場合、出力密度サーフェス ラスター レイヤーのクリップに使用されるインシデント ポイントの周囲に凸包が作成されます。[密度サーフェス] パラメーターは、入力フィーチャがポイントであり、ArcGIS Spatial Analyst が存在する場合にのみ有効化されます。このパラメーターは、SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS 以外のインシデント データ集約方法に対しては無効です。
地理的な外れ値は、データセット内の大部分のフィーチャと比べて、近隣フィーチャから大きく離れているフィーチャです。人口密度の高い大都市群が中心に存在し、人口密度の低い小都市群が周辺に存在する都市環境を考えてみます。これらの都市について平均最近隣距離を計算する場合に、周辺の地理的な外れ値を除外し、密集地に近い都市のみを計算対象にすると、計算結果の値が小さくなることがわかります。これは、地理的な外れ値が [平均最近隣距離分析 (Average Nearest Neighbor)] などの空間統計に大きな影響を与える一例です。[最適化ホット スポット分析 (Optimized Hot Spot Analysis)] ツールは、平均最近隣距離と中央最近隣距離の計算値を集約で使用し、分析の適切なスケールも決定します。そのため、ツールの初期データ評価コンポーネントは、入力フィーチャまたはインシデントをポイントに集約するためのポリゴンの地理的な外れ値も決定し、検出した数をレポートします。ツールは、これを実行するために、各フィーチャの平均最近隣距離を計算し、それらすべての距離の分布を評価します。同じ場所ではない最近隣フィーチャからの距離が 3 標準偏差距離を超えているフィーチャは、地理的な外れ値と見なされます。
インシデントの集約
ワークフローの次のコンポーネントは、インシデント データを集約します。[インシデント データの集約方法] で選択して使用できる 3 つの方法があります。それらの方法のアルゴリズムを以下で説明します。
- COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS:
- 同じ場所に存在し、一意の場所で単一のポイントを生成するデータセット内の各ポイントを、[イベントの集計 (Collect Events)] ツールで採用された方法と同じ方法を使用して集約します。
- 地理的な外れ値を除外し、一意の場所のポイントすべてに対して、平均最近隣距離と中間最近隣距離の両方を計算します。各フィーチャの最近隣フィーチャへの距離を合計し、それをフィーチャ数 (N) で割ることによって、平均最近隣距離 (ANN) を計算します。最近隣距離を昇順に並べ替え、並べ替えられたリストの中央にある距離を選択することよって、中間最近隣距離 (MNN) を計算します。
- 初期セル サイズ (CS) を、ANN と MNN のうちの大きい方の値に設定します。
- 同じ場所に存在するポイントを考慮して、セル サイズを調整します。Smaller = MIN(ANN,MNN)、Larger = MAX(ANN,MNN)。Scalar = MAX((Larger/Smaller),2)。調整されたセル サイズは、CS * Scalar になります。
- 調整されたセル サイズを使用してフィッシュネット ポリゴン メッシュを作成し、インシデント ポイントを使用してメッシュをオーバーレイします。
- 各ポリゴン セル内のインシデントをカウントします。
- [インシデント範囲境界ポリゴン] を指定した場合、境界ポリゴン内のすべてのポリゴン セルが維持されます。[インシデント範囲境界ポリゴン] を指定しない場合、インシデント数がゼロのポリゴン セルが削除されます。
- 集約処理によってポリゴン セルが 30 個未満になった場合、またはすべてのポリゴン セルのカウント数が同じである場合、指定した入力フィーチャが選択したインシデント データ集約方法 に適していないことを示すメッセージが表示されます。そうでない場合は、この方法の集約コンポーネントが正常に完了します。
- COUNT_INCIDENTS_WITHIN_AGGREGATION_POLYGONS:
- このインシデント データ集約方法では、インシデントをポイントに集約するためのポリゴンフィーチャ レイヤーが必要です。これらの集約ポリゴンは、インシデント ポイントをオーバーレイします。
- 各ポリゴン内のインシデントを計算します。
- インシデント数に、分析のための十分な変動があることを確認します。集約処理によって、すべてのポリゴンのインシデント数が同じになった場合、選択したインシデント データ集約方法に対してデータが適していないことを示すメッセージが表示されます。
- SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS:
- 同じ場所に存在し、一意の場所で単一のポイントを生成するデータセット内の各ポイントを、[イベントの集計 (Collect Events)] ツールで採用された方法と同じ方法を使用して集約します。一意の場所のフィーチャの数 (UL) をカウントします。
- 地理的な外れ値を除外し、一意の場所のポイントすべてに対して、平均最近隣距離と中間最近隣距離の両方を計算します。各フィーチャの最近隣フィーチャへの距離を合計し、それをフィーチャ数 (N) で割ることによって、平均最近隣距離 (ANN) を計算します。最近隣距離を昇順に並べ替え、並べ替えられたリストの中央にある距離を選択することよって、中間最近隣距離 (MNN) を計算します。
- 初期スナップ距離 (SD) を、ANN と MNN のうちの小さい方の値に設定します。
- 同じ場所に存在するポイントを考慮して、スナップ距離を調整します。Scalar = (UL/N)。ここで N は、入力フィーチャ レイヤー内のフィーチャ数です。調整されたスナップ距離は、SD * Scalar になります。
- [インテグレート (Integrate)] ツールは、次のように 3 回反復してインシデント ポイントを統合します。まず、調整されたスナップ距離の 0.10 倍を使用し、次に調整されたスナップ距離の 0.25 倍を使用し、最後に調整されたスナップ距離全体に等しいスナップ距離を使用して統合します。これらの 3 つのパスで統合ステップを実行することによって、元のポイントの場所の変形を最小限に抑えます。
- 一緒にスナップされたインシデントの数を示す重みを使用して、各場所で単一のポイントを生成するスナップされたポイントを集約します。集約処理のこの部分では、[イベントの集計 (Collect Events)] の方法が使用されます。
- 集約処理によって重み付きポイントが 30 個未満になった場合、またはすべてのポイントのカウント数が同じである場合、指定した入力フィーチャが選択したインシデント データ集約方法 に適していないことを示すメッセージが表示されます。そうでない場合は、この方法の集約コンポーネントが正常に完了します。
分析のスケール
分析フィールドと共に入力フィーチャを指定したことによって、またはインシデント集約プロシージャがインシデント数から重みを作成したことによって、[最適化ホット スポット分析 (Optimized Hot Spot Analysis)] ワークフローの次のコンポーネントが、重み付きフィーチャに適用されます。次のステップでは、分析の適切なスケールを決定します。理想的な分析のスケールは、対象にしている問題のスケールに一致する距離です (たとえば、病気発生のホット スポットを探している場合、媒介蚊の範囲が 10 マイルであることがわかっていれば、10 マイルの距離を使用することが理想的です)。分析のスケールに使用する特定の距離を正しく判断できない場合、それに役立つ方法がいくつかあります。[最適化ホット スポット分析 (Optimized Hot Spot Analysis)] ツールは、これらの方法を採用しています。
最初に試みられる方法は、[インクリメンタル空間的自己相関 (Incremental Spatial Autocorrelation)] です。地形上に空間クラスタリングが見られる場合は、内在する空間プロセスがアクティブであることを示します。[インクリメンタル空間的自己相関 (Incremental Spatial Autocorrelation)] ツールにより、距離を徐々に増やして Global Moran's I 統計を実行し、各距離の空間クラスタリングの強度を計測します。クラスタリングの強度は、返される Z スコアによって決定されます。通常、距離が増えると Z スコアも増え、クラスタリングの強度が増していることを示します。ただし、通常、ある特定の距離で Z スコアはピークになります。ピークは、クラスタリングを促進する空間プロセスが最も顕著である距離を表します。[最適化ホット スポット分析 (Optimized Hot Spot Analysis)] ツールは、[インクリメンタル空間的自己相関 (Incremental Spatial Autocorrelation)] を使用してピーク距離を探します。ピーク距離が見つかったら、その距離が分析のスケールになります。複数のピーク距離が見つかった場合は、最初のピーク距離が選択されます。
[最適化ホット スポット分析 (Optimized Hot Spot Analysis)] は、ピーク距離が見つからなかった場合、フィーチャの空間分布を調べて、K 個の隣接フィーチャを生成する平均距離をフィーチャごとに計算します。K は、0.05 * N として計算されます。ここで N は、入力フィーチャ レイヤー内のフィーチャの数です。K 個の隣接フィーチャを生成する平均距離が 1 つの標準距離を超えた場合、分析のスケールは、1 つの標準距離に設定されます。そうでない場合、分析のスケールは、K 個の隣接フィーチャの平均距離を反映します。
大規模で高密度のデータセットの場合、[インクリメンタル空間的自己相関 (Incremental Spatial Autocorrelation)] 手順の完了に長時間かかることがあります。その結果、隣接フィーチャが 500 以上存在するフィーチャが検出された場合、インクリメンタル分析がスキップされ、30 個の隣接フィーチャを生成する平均距離が計算されて、分析のスケールに使用されます。
分析のスケールを反映する距離が [結果] ウィンドウにレポートされ、ホット スポット分析に使用されます。[密度サーフェス] パラメーターのパスを指定した場合、この最適距離は、[カーネル密度 (Kernel Density)] ツールで検索範囲としても使用されます。この距離は、[ホット スポット分析 (Hot Spot Analysis (Getis-Ord Gi*))] ツールによって使用される [距離バンドまたは距離の閾値] パラメーターに対応します。
ホット スポット分析
[最適化ホット スポット分析 (Optimized Hot Spot Analysis)] ワークフローのこの時点で、チェックとパラメーター設定はすべて完了しています。次のステップでは、Getis-Ord Gi* 統計を実行します。この統計計算の詳細については、「ホット スポット分析 (Hot Spot Analysis (Getis-Ord Gi*)) の詳細」で説明されています。Gi* 統計の結果は、FDR (False Discovery Rate) 補正を使用して 多重検定と空間依存性に対して自動的に補正されます。FDR 補正が適用されると、統計的に有意なホット スポットまたはコールド スポットとして特定されたフィーチャの数が要約され、[結果] ウィンドウにメッセージとして表示されます。
出力
[最適化ホット スポット分析 (Optimized Hot Spot Analysis)] ツールの最後のコンポーネントでは、出力フィーチャと密度サーフェス ラスター レイヤー (指定した場合) が作成されます。入力フィーチャが、集約を必要とするインシデント データを表している場合、出力フィーチャには、集約された重み付きフィーチャ (フィッシュネット ポリゴン セル、[インシデントをポイントに集約するためのポリゴン] パラメーターに指定した集約ポリゴン、または重み付きポイント) が反映されます。各フィーチャには、Z スコア、p 値、および Gi Bin の結果が含められます。
指定した場合、[カーネル密度 (Kernel Density)] ツールを使用して密度サーフェスが作成されます。このツールの検索範囲は、ホット スポット分析で使用される分析のスケールの距離と同じです。デフォルトでは、グレー スケール色の傾斜に沿ってストレッチされた値でレンダリングされます。環境設定でラスター分析マスクを指定した場合、出力密度サーフェスは分析マスクにクリップされます。ラスター分析マスクを指定しない場合、密度サーフェスは、入力フィーチャの重心周辺の凸包にクリップされます。
参考資料
Getis, A. and J.K. Ord.1992. "The Analysis of Spatial Association by Use of Distance Statistics" in Geographical Analysis 24(3).
Ord, J.K. and A. Getis.1995. "Local Spatial Autocorrelation Statistics:Distributional Issues and an Application" in Geographical Analysis 27(4).
空間統計リソースのページには、ショート ビデオ、チュートリアル、Web セミナー、記事、およびその他いろいろな資料が用意されており、空間統計を取り扱う際に役立ちます。