[ポイントの集約による時空間キューブの作成 (Create Space Time Cube by Aggregating Points)] ツールは、タイムスタンプの付いたポイント フィーチャを取得し、ポイントを時空間ビンに集約してポイント フィーチャを netCDF データ キューブに構造化します。各ビンの中でポイントがカウントされ、[サマリー フィールド] 統計情報が計算され、Mann-Kendall 統計を使用して各場所の時間経過に伴うビンの値の傾向が計測されます。このツールは、多くの場合、詳細な時空間パターン マイニングに必要な入力キューブの作成に使用しますが、分析範囲の時系列の傾向を調べる場合にも使用できます。
結果の解析
このツールの出力は、入力ポイントの netCDF 表現です。You may visualize the cube point count data in either 2D or 3D using ArcGIS Pro. netCDF ファイルに加えて、時空間キューブのディメンションとコンテンツについてまとめたメッセージが、[結果] ウィンドウに書き込まれます。[結果] ウィンドウでメッセージ エントリを右クリックして [表示] を選択すると、[メッセージ] ダイアログ ボックスに結果が表示されます。
キューブ構造にはロウ、カラム、および時間ステップが含まれます。ロウ数とカラム数と時間ステップ数を掛け合わせると、キューブ内のビンの総数がわかります。ロウとカラムによってキューブの空間範囲が決まり、時間ステップによって時間範囲が決まります。
ほとんどの分析では、少なくとも 1 つの時間ステップ間隔のデータを持つ場所だけが分析に含められますが、それらの場所はすべての時間ステップにわたって分析されます。ポイントのカウントが計算される場合、ポイントが存在しないビンについてはゼロ カウントと見なされますが、関連付けられている場所は、少なくとも 1 つの時間ステップ間隔において少なくとも 1 つのポイントを持っています。少なくとも 1 つの時間ステップ間隔のデータを持つ場所では、その場所に関連付けられたゼロの割合に関する情報が散在性としてメッセージに書き込まれます。[サマリー フィールド] の値を計算する場合、[空のビンの入力方法] パラメーターによって、ポイントのないビンへの値の指定方法が決定されます。評価基準に基づいて値が指定できないビンは、その場所全体が分析から除外されます。空間近傍の平均値を使用して空のビンを埋めるには、最低 4 つの近傍が必要です。また、時空間近傍の平均値を使用して空のビンを埋めるには、最低 13 の近傍が必要です。
出力メッセージの最後に、全体のデータの傾向に関する情報があります。この傾向は、非空間時系列分析に基づいています。この情報は、入力ポイントによって示されるイベントが時間経過に伴って増加しているか、減少しているかという全体的な質問の回答となっています。この回答を得るために、Mann-Kendall 統計を使用して、各時間ステップ間隔におけるすべての場所のポイント数が、時系列のカウント値として分析されます。
集約するビン ディメンション
ほとんどの場合、キューブのビン ディメンションを定義する方法はおわかりだと思います。答えを得ようとしている特定の質問に対して、どれが適切なディメンションであるかを考えることを強くお勧めします。たとえば、犯罪の発生を調べている場合、都市ブロックのサイズである 400 メートルつまり 0.25 マイルのビンにポイントを集約することにしたとします。1 年全体のデータを持っている場合は、1 か月ごとまたは 1 週間ごとのイベント集約に関して、傾向を調べようと思うかもしれません。
デフォルト パラメーター
まれに特定の時間ステップ間隔または距離間隔について強い根拠がない場合がありますが、そのような場合は [時間ステップ間隔] または [距離間隔] パラメーターを空白のままにして、ツールでデフォルト値が計算されるようにすることができます。
デフォルトのビン距離は、次のように計算されます。
- [入力フィーチャ] 範囲の最も長い辺の距離 (最大範囲) を特定します。
- ビンの距離は、最大範囲を 100 で割った値か、[入力フィーチャ] の空間分布に基づくアルゴリズムによる値のうちの大きい方になります。
デフォルトの時間ステップ間隔は、時間ステップ間隔の最適な数および幅の決定に使用される 2 つの異なるアルゴリズムに基づきます。これらのアルゴリズムからの最小数値結果が 10 より大きい場合は、その値が時間ステップ間隔のデフォルト値に使用されます。両方の数値結果が 10 未満の場合は、10 が時間ステップ間隔のデフォルト値になります。
時間ステップの配列
[時間ステップの配列] は、集約の開始時点と終了時点を決定するため、データを時空間キューブに集約するときに検討すべき重要なパラメーターです。次に例を示します。
上記の図は、2015 年 9 月 3 日から 2015 年 9 月 12 日までのデータセットを表しています。このデータセットを使用して、さまざまなパラメーター オプションの意味を調べていきます。
終了時間
たとえば、[時間ステップの間隔] に 3 日、[時間ステップの配列] に [END_TIME] を選択した場合、ビニングは最後のデータ ポイントを使用して開始し、すべてのデータ ポイントが時間ステップ内に配置されるまで、3 日ずつ前に戻ります。
選択した [時間ステップの間隔] に応じて、期間全体にデータがない時間ステップが時空間キューブの最初に作成される可能性があるので注意してください。上の例では、9/3 までデータが存在しなくても、最初の時間ステップに 9/1 と 9/2 が含められることがわかります。これらの空の日は時間ステップの一部になりますが、関連付けられたデータはありません。これにより、時間的偏りのある時間ステップは他の時間ステップよりポイントが大幅に少ないため、結果に偏りが生じて、集約方式の結果が不自然になる可能性があります。レポートは、最初または最後の時間ステップに時間的バイアスがあるかどうかを示します。この場合、最初の時間ステップの 3 日のうち 2 日はデータがありません。そのため、時間的バイアスは 66% です。
解析は最近発生した事象に焦点を当てることが多く、このバイアスをキューブの最初に配置することが望ましいため、[END_TIME] が [時間ステップの配列] のデフォルト オプションです。別の解決策としては、すべての時間的バイアスを取り除く方法があります。これは、期間で偏りが生じないように、[時間ステップの間隔] によってデータを均等に分割します。これには、最初の期間の外部に配置されるポイント データセットの一部を除外するデータの選択セットを作成します。この例では、9/4 より前に配置されるデータを除くすべてのデータを選択すると、問題を解決できます。レポートは、最初と最後の時間ステップの期間を表示します。この情報を使用して、除外する時点を決定できます。
また、前に戻るプロセスにおいて、最後のビンの開始時点に最初のデータ ポイントが配置される場合、その最初のデータ ポイントはそのビンに含められないことにも注意してください。これは、[時間ステップの配列] が [END_TIME] の場合、ビン内の最後の日付はそのビンに含められますが、最初の日付まで戻っても、その日付はビンに含められないためです。そのため、この場合、最初のデータ ポイントが含まれるように、ビンを追加する必要があります。
開始時間
たとえば、[時間ステップの間隔] に 3 日、[時間ステップの配列] に [START_TIME] を選択した場合、ビニングは最初のデータ ポイントを使用して開始し、すべてのデータ ポイントが時間ステップ内に配置されるまで、3 日ずつ先に進みます。
いくつかの注意点があります。1 つは、[時間ステップの配列] が [START_TIME] の場合、選択した [時間ステップの間隔] に基づいて、期間全体にデータがない時間ステップが時空間キューブの最後に作成される可能性があることです。上の例では、9/12 の後にデータが存在しなくても、最後の時間ステップに 9/13 と 9/14 が含められることがわかります。これらの空の日は時間ステップの一部になりますが、関連付けられたデータはありません。これにより、時間的偏りのある時間ステップは他の時間ステップよりポイントが大幅に少ないため、結果に偏りが生じて、集約方式の結果が不自然になる可能性があります。レポートは、最初または最後の時間ステップに時間的バイアスがあるかどうかを示します。この場合、最後の時間ステップの 3 日のうち 2 日はデータがありません。そのため、一時的なバイアスは 66% です。これは、[時間ステップの配列] に [START_TIME] を選択する場合、最新データに焦点を当てた解析に大きな影響があるため、特に問題になります。解決策としては、期間で偏りが生じないように、[時間ステップの間隔] によってデータを均等に分割します。これには、最後の期間の外部に配置されるポイント データセットの一部を除外するデータの選択セットを作成します。この例では、9/11 より後に配置されるデータを除くすべてのデータを選択すると、問題を解決できます。データセットの最初から 2 日を除外する方法もあります。こうすることで、時間ステップ内でデータを均等に配置できます。レポートは、最初と最後の時間ステップの期間を表示します。この情報を使用して、除外する時点を決定できます。
また、先に進むプロセスにおいて、最後の時間ステップの終了時点に最後のデータ ポイントが配置される場合、その最後のデータ ポイントはそのビンに含められないことにも注意してください。これは、[時間ステップの配列] が [START_TIME] の場合、ビン内の最初の日付はそのビンに含められますが、最後の日付まで進んでも、その日付はビンに含められないためです。そのため、この場合、最後のデータ ポイントが含まれるように、ビンを追加する必要があります。
基準時間
[時間ステップの配列] に [REFERENCE_TIME] を選択すると、キューブ内の 1 つの時間ステップの開始または終了を特定の日付でマークできます。
データセットの範囲の後、最後のデータ ポイント、またはデータセットの中間に配置される [REFERENCE_TIME] を選択した場合、以下の図のように、その時間が時間ステップの最後のデータ ポイントとして扱われ、横に配置されるその他すべてのビンは、[時間ステップの配列] を使用して、すべてのデータがカバーされるまで作成されます。
データセットの範囲の前、または最初のデータ ポイントに配置される [REFERENCE_TIME] を選択した場合、以下の図のように、その時間が時間ステップの最初のデータ ポイントとして扱われ、横に配置されるその他すべてのビンは、[START_TIME] の [時間ステップの配列] を使用して、すべてのデータがカバーされるまで作成されます。
データの範囲の前または後に [REFERENCE_TIME] を選択すると、空または一部空のビンが作成され、解析に偏りが生じる可能性があるので注意してください。
テンプレート キューブ
[テンプレート キューブ] の使用を選択すると、さまざまなデータセットを解析するときに、一定の空間範囲と [時間ステップの間隔] を使用できます。たとえば、次の年のデータを取得したら、去年の時空間キューブを [テンプレート キューブ] として使用できます。これにより、新しいデータをカバーできるようにキューブを拡張しながら、使用される空間範囲と [時間ステップの間隔] を一定にすることができます。また、解析結果を比較できるように、あるタイプのインシデントの時空間キューブを [テンプレート キューブ] として使用して、別のタイプのインシデントを解析することもできます。
[テンプレート キューブ] を選択することは、[時間ステップの配列] と関係があります。次に例を示します。[入力フィーチャ] の期間の前または後に配置される [テンプレート キューブ] を選択したとき、[テンプレート キューブ] の [時間ステップの配列] を使用して、すべてのデータが時間ステップによってカバーされるまで、時間ステップが追加されます。結果の時空間キューブには、[テンプレート キューブ] が [入力フィーチャ] と重ならない時間に、空のキューブができます。これにより、解析結果に偏りが生じる可能性があります。[テンプレート キューブ] が [入力フィーチャ] と重なる場合、結果の時空間キューブは、[テンプレート キューブ] の時間範囲をカバーし、[テンプレート キューブ] の [時間ステップの配列] を使用して、すべての [入力フィーチャ] をカバーするまで拡張します。以下の図は、テンプレート キューブを青、結果の時空間キューブをオレンジで示しています。
[テンプレート キューブ] を使用して新しい時空間キューブを作成する場合、[テンプレート キューブ] の一時的な範囲がすべてのデータがカバーされるまで拡大します。これにより、去年のキューブを使用して、去年のデータと今年のデータを含む新しいキューブを作成できます。[テンプレート キューブ] の空間範囲の扱われ方は異なります。[テンプレート キューブ] の空間範囲外にあるデータはすべて分析から除外されます。[テンプレート キューブ] と作成される時空間キューブの空間範囲は同じになります。変更が発生するとすれば、[テンプレート キューブ] が作成されたときに存在していなかった新しいフィーチャが表示された場合に、これまでデータがなかった場所がデータのある場所になる可能性のある空間範囲内です。
トレンド解析
データを持つ各場所に対して、独立したビン時系列テストとして Mann-Kendall 傾向検定が実行されます。Mann-Kendall 統計は、ビン カウントまたは値とそのタイム シーケンスのランク相関分析です。最初の期間のビンの値が、2 番目の期間のビンの値と比較されます。最初の値が 2 番目より小さい場合、結果は +1 です。最初の値が 2 番目より大きい場合、結果は -1 です。2 つの値が同じ場合、結果はゼロです。比較された各期間ペアの結果が、集計されます。期待される集計はゼロです。これは、値に時間経過に伴う傾向がないことを示します。ビンの時系列の値の変化、カウントが同じであった回数、および期間の数に基づいて、観測された集計が期待される集計 (ゼロ) と比較され、相違が統計的に有意であるかどうかが調べられます。各ビンの時系列の傾向は、Z スコアおよび p 値として記録されます。小さな p 値は、その傾向が統計的に有意であることを示します。Z スコアに関連付けられている記号によって、その傾向がビンの値の増加であるか (正の Z スコア)、ビンの値の減少であるか (負の Z スコア) が決まります。傾向の結果を視覚化する方法については、「時空間キューブの視覚化」をご参照ください。
参考資料
時空間キューブの作成、視覚化、および分析では、UCAR/Unidata によって開発された netCDF ソフトウェアを利用します。Unidata および NetCDF (Network Common Data Form) プロジェクトの詳細については、こちらをご参照ください。
ヒストグラムのビンの幅最適化
- Shimazaki H. および Shinomoto S.、「A method for selecting the bin size of a time histogram」、『Neural Computation』 (2007) Vol. 19 (6)、1503 ~ 1527 ページ。
- Terrell, G. および Scott, D.、「Oversmoothed Nonparametric Density Estimates」。『Journal of the American Statistical Association』 (1985) Vol. 80(389)、209 ~ 214 ページ。
- オンライン統計教育: A Multimedia Course of Study (http://onlinestatbook.com/)。プロジェクト リーダー: David M. Lane、Rice University (第 2 章「Graphing Distributions, Histograms」)。
Mann-Kendall トレンド テスト
- Hamed, K. H.、「Exact distribution of the Mann-Kendall trend test statistic for persistent data」、『Journal of Hydrology』 (2009)、86 ~ 94 ページ。
- Kendall, M. G.、Gibbons, J. D.、『Rank correlation methods』、第 5 判、(1990)、Griffin、London。
- Mann, H. B.、「Nonparametric tests against trend」、『Econometrica』 (1945) Vol. 13、245 ~ 259 ページ。