Инструмент Создать куб Пространство-Время по агрегации точек использует точечные объекты с временной меткой и структурирует их в куб формата netCDF, агрегируя точки в бины пространства-времени. Для значений бинов выполняется подсчет количества точек, вычисляется статистика Поля суммирования, и определяется наличие трендов во времени в каждом местоположении с использованием статистики Манна-Кенделла. Чаще этот инструмент необходим для создания куба, который будет использован в качестве входных данных для других инструментов анализа пространственно-временных закономерностей, но также можно использовать построенный куб для оценки трендов по временным рядам в области изучения.
Интерпретация результатов
Этот инструмент создает представление входных точек в формате netCDF. Вы можете визуализировать куб, содержащий подсчет точечных данных, как в 2D, так и в 3D, с помощью ArcGIS Pro. В дополнение к файлу netCDF, сообщения, в которых отражена суммарная информация по кубу Пространство-Время, отображаются в окне Результаты. Если щелкнуть правой кнопкой запись сообщения в окне Результаты и выбрать Вид, результаты можно будет просмотреть в диалоговом окне Сообщение.
Структура куба будет содержать строки, столбцы и временные шаги. Перемножив число строк на число столбцов и на число временных шагов, вы получите суммарное число бинов в кубе. Строки и столбцы определяют пространственный экстент куба, а временные шаги определяют временной экстент.
Для большинства инструментов анализа только местоположение с данными хотя бы для одного временного шага будет включено в анализ, при этом анализ будет проводиться для всех временных шагов. При подсчете количества точек, нулевое количество будет присвоено бину, не содержащему ни одной точки, если в соответствующем местоположении хотя бы один временной шаг будет содержать хотя бы одну точку. Информация о проценте бинов с нулевым количеством, связанных с местоположениями, для которых есть данные хотя бы для одного временного шага, будет отражена в сообщении, как величина разреженности. При подсчете значений для Полей суммирования параметр Заполнить пустые бины с определяет, как будут заполнятся бины, не содержащие точек. Если какие-либо бины которые не могут быть заполнены на основе оценочного критерия, это приведет к тому, что все местоположение будет исключено из анализа. Для заполнения пустого бина необходимо минимум 4 соседа, для которых будет вычислено среднее значение на основе пространственного соседства, и минимум 13 соседей необходимо для заполнения пустого бина при помощи вычисления среднего значения на основе пространственно-временного соседства.
В конце выходного сообщения находится информация об общем тренде в данных. Тренд вычисляется на основе анализа временных рядов в пространстве. Основной вопрос, на который отвечает анализ – количество событий, которые представлены входными точками, увеличивается или уменьшаются с течением времени? Чтобы получить ответ на этот вопрос, значения количеств точек по всем местоположением и временным шагам группируются во временные ряды и анализируются с использованием статистики Манна-Кендалла.
Размеры бинов для агрегирования
В большинстве случаев вы должны знать как задать размер бина куба, так как чрезвычайно важно подобрать подходящий размер, который будет соответствовать тому вопросу, на который вы хотите получить ответ с помощью анализа. Например, для анализа преступлений вы хотите агрегировать точки в бины размером 400 на 400 метров, исходя из размера городского квартала. Если ваши данные охватывают временной период протяженностью в один год, возможно вы захотите оценить тренды по месяцам или по неделям.
Параметры по умолчанию
В тех случаях, когда у вас нет четких требований к размеру интервала временного шага или интервала расстояний, вы можете оставить параметры Интервал временного шага или интервал расстояния пустыми, и инструмент рассчитает значения по умолчанию.
Горизонтальные размеры бина по умолчанию рассчитываются следующим образом:
- Вычисляется длина более длинной стороны экстента Входных объектов (максимальный экстент).
- Далее размер бина рассчитывается либо как значение максимального экстента, разделенное на 100, либо по алгоритму, основанному напространственном распределении Входных объектов (берется большее значение).
Интервал временного шага по умолчанию рассчитывается с использованием двух разных алгоритмов, определяющих оптимальное количество и ширину интервалов временного шага. Минимальное число больше 10, полученное в результате расчетов с использованием двух алгоритмов, используется как значение по умолчанию для интервала временного шага. Если в результате обоих алгоритмов получено число меньше 10, значение по умолчанию для интервала временного шага устанавливается на 10.
Выравнивание временного шага
Параметр Выравнивание временного шага очень важен при агрегировании данных в куб пространства-времени, так как определяет точки начала и завершения агрегирования. Рассмотрим приведенный пример.
Рисунок выше представляет данные за период с 3 сентября по 12 сентября 2015 года. На примере указанного набора данных мы изучим различные опции этого параметра.
Конечное время
Если END_TIME Выравнивания временного шага выбрано с Интервалом временного шага в 3 дня, биннинг будет начинаться с последней во времени точки данных с шагом назад в 3 дня, до тех пор, пока все точки не попадут во временной шаг.
Важно знать, что в зависимости от выбранного Интервала временного шага, можно создать бин в начале или в конце куба, не имеющего данных за весь временной интервал. В примере выше можно увидеть, что значения 9/1 и 9/2 включаются в первый временной шаг, даже если до значения 9/3 данные отсутствуют. Эти пустые дни являются частью временного шага, но не содержат связанных с ним данных. Это может отразиться на результатах, поскольку этот временный интервал будет содержать значительно меньшее число точек, чем другие, что на самом деле является следствием схемы агрегации. В отчете показано, имеется ли временной сдвиг в первом или последнем интервале. В этом случае, 2 из 3 дней первого шага не имеют данных, поэтому временной сдвиг будет равен 66%.
Опция END_TIME является опцией по умолчанию для Выравнивания временного шага, так как при проведении анализа важно учитывать, в первую очередь, недавние события, следовательно, предпочтительнее выполнять вычисление шага от конца к началу. В качестве альтернативы, чтобы избежать смещения во времени, можно предложить разбиение данных на равные интервалы с помощью Интервала временного шага, чтобы ни один из периодов не подвергался сдвигу. Это можно сделать, создав выборку данных и убрав часть набора точечных данных, выходящую за пределы временного периода, с которого вы бы хотели начать. В этом примере, выбор всех данных, кроме тех, которые имеют дату до 9/4, решит эту проблему. В отчете показан промежуток времени первого и последнего шагов, эта информация может быть использована для определения данных, которые следует убрать.
Также, важно заметить, что, если в процессе перемещения назад во времени последний бин точно совпал с первой точкой данных в начале, эта последняя точка данных не будет включена в данный бин. Это происходит потому, что с END_TIME Выравниванием временного шага каждый бин включает в себя последнюю дату, затем движется назад, но не включает в себя первую дату этого бина. Поэтому, в этом случае следует добавить дополнительный бин, чтобы включить и первую точку данных.
Начальное время
Если START_TIME Выравнивания временного шага выбрано с Интервалом временного шага, например, в 3 дня, биннинг будет начинаться с первой во времени точки данных с шагом в 3 дня, до тех пор, пока все точки не попадут во временной шаг.
Есть несколько моментов, знать которые очень важно. Один из них – при выборе START_TIME Выравнивания временного шага, в зависимости от выбранного Интервала временного шага, возможно создать временной шаг на конце куба пространства-времени, в котором отсутствуют данные за весь временной период. В примере выше можно увидеть, что значения 9/13 и 9/14 включаются в последний временной шаг, даже если после значения 9/12 данные отсутствуют. Эти пустые дни являются частью временного шага, но не содержат связанных с ним данных. Это может отразиться на результатах, поскольку этот временный интервал будет содержать значительно меньшее число точек, чем другие, что на самом деле является следствием схемы агрегации. В отчете показано, имеется ли временной сдвиг в первом или последнем интервале. В этом случае, 2 из 3 дней последнего шага не имеют данных, поэтому временной сдвиг будет равен 66%. Это особенно проблематично при выборе START_TIME Выравнивания временного шага, поскольку анализ, сфокусированный на самых свежих данных, может значительно пострадать. В качестве решения можно предложить разбиение данных на равные интервалы с помощью Интервала временного шага, чтобы ни один из периодов не подвергался сдвигу. Это можно сделать, создав выборку данных и убрав часть набора точечных данных, выходящую за пределы временного периода, на котором вы бы хотели закончить. В этом примере, выбор всех данных, кроме тех, которые имеют дату после 9/11, решит эту проблему. Вы можете также отрезать 2 дня от начала набора данных, что может также привести к тому, что данные попадут ровно во временные шаги. В отчете показан промежуток времени первого и последнего шагов, эта информация может быть использована для определения данных, которые следует убрать.
Также, важно заметить, что, если в процессе перемещения вперед во времени последний шаг точно совпал на конце с последней точкой данных, эта последняя точка данных не будет включена в данный бин. Это происходит потому, что с START_TIME Выравниванием временного шага, каждый бин включает в себя первую дату, затем движется вперед, но не включает в себя последнюю дату этого бина. Поэтому, в этом случае следует добавить дополнительный бин, чтобы включить и последнюю точку данных.
Базовое время
REFERENCE_TIME Выравнивание временного шага позволяет убедиться, что начало или конец одного из шагов времени в кубе отмечены определенными датами.
Когда вы выбираете REFERENCE_TIME, которое попадает позже временного экстента набора данных, в последней точке данных или в середине набора данных, она будет обрабатываться как последняя точка данных шага, а все остальные бины с обоих сторон будут создаваться с использованиемВыравнивания временного шага до тех пор, пока не будут охвачены все данные, как показано ниже.
Когда вы выбираете REFERENCE_TIME , которое попадает ранее временного экстента набора данных, или на первую точку данных, она будет обрабатываться как первая точка данных шага, а все остальные временные шаги с обоих сторон будут создаваться с использованием START_TIME Выравнивания временного шага до тех пор, пока не будут охвачены все данные, как показано ниже.
Помните, что выбор REFERENCE_TIME до или после экстента данных может привести к созданию пустых или частично пустых бинов, что повлияет на результаты анализа.
Шаблоны кубов
Использование Шаблона куба позволяет использовать непрерывный пространственный экстент и Интервал временного шага при анализе различных наборов данных. Например, при поступлении данных за текущий год можно использовать куб Пространство-Время за прошлый год в качестве Шаблон куба, это позволит сохранить имеющийся пространственный экстент и использующийся Интервал временного шага, при этом давая возможность расширить куб для охвата новых данных. Также можно использовать куб пространства-времени для инцидентов одного типа в качестве Шаблона куба для анализа инцидентов другого типа, что гарантирует возможность сравнения результатов.
Выбор Шаблона куба имеет значение для Выравнивания временного шага. Рассмотрим несколько примеров. Когда вы выбираете Шаблон куба, который, который находится до или после промежутка времени Входных объектов, временные интервалы будут добавляться, пока все данные не окажутся в пределах промежутка времени, это делается с использованием Выравнивания временного шага Шаблона куба. Получившийся куб пространства-времени будет содержать пустые кубы в тех местах, где Шаблон куба не пересекается во времени с Входными объектами. Это влияет на результаты анализа. Если Шаблон кубанакладывается на Входные объекты, получившийся куб пространства-времени будет охватывать временной экстент Шаблона куба и распространится до тех пор, пока не будут покрыты все Входные объекты с помощью Выравнивания временного шагаШаблона куба. На рисунке ниже представлены Шаблоны куба (голубым цветом) и итоговый куб пространство-время (оранжевый).
Важно заменить, что при создании нового куба пространства-времени с использованием Шаблона куба, временной экстент Шаблона куба будет продолжаться до покрытия всех данных. Это позволит использовать куб прошлого кода для создания нового куб, содержащего данные прошлого и текущего годов. Пространственный экстент Шаблона куба обрабатывается по-разному. Любые данные, находящиеся вне пространственного экстента Шаблона куба, будут исключены из анализа. Шаблон куба и полученный куб пространства-времени будут обладать одинаковым пространственным экстентом. Единственное возможное изменение пространственного экстента может произойти там, где местоположения, которые ранее не имели данных, могут стать местоположениями с данными, если появились новые объекты, отсутствующие в момент создания Шаблона куба.
Анализ тренда
Анализ тренда по алгоритму Манна-Кендалла выполняется для каждого местоположения с данными как независимый анализ бинов временного ряда. Статистика Манна-Кендалла подразумевает ранговый корреляционный анализ количества точек или значений и их временных периодов. Значение бина первого интервала сравнивается со значением бина в следующем. Если первое значение было меньше второго – результат равен +1. Если первое значение было больше второго – результат равен -1. Если два значения совпадают – результат равен 0. Результаты каждой пары временных периодов сравниваются и суммируются. Ожидаемое значение суммы равно 0 и свидетельствует об отсутствии тренда в значениях во времени. На основе вариабельности значений во временных рядах бинов, количеству совпадений и общему число временных периодов, общая сумма сравнивается с ожидаемой суммой (S=0, нулевая гипотеза) для оценки, статистически значима разница, или нет. Тренд для каждого временного ряда бинов определяется оценкой z и значением P. Небольшие значения P свидетельствуют о наличии статистически значимого тренда. Величина z-оценки показывает, свидетельствует ли тренд о возрастании значений в бинах (положительное значение z-оценки) или их убывании (отрицательное значение z-оценки). Дальнейшие шаги для визуализации результирующих трендов описаны в разделе Визуализация куба Пространство-Время.
Дополнительные ресурсы
Для создания, визуализации и анализа куба Пространство-Время необходимо наличие программного обеспечения netCDF, которое предоставляется UCAR/Unidata. Подробнее об Unidata и проекте Network Common Data Form (NetCDF) см. здесь.
Оптимизация ширины бина по гистограмме
- Shimazaki H. and Shinomoto S., A method for selecting the bin size of a time histogram in Neural Computation (2007) Vol. 19(6), 1503–1527.
- Terrell, G. and Scott, D., Oversmoothed Nonparametric Density Estimates. Journal of the American Statistical Association (1985) Vol. 80(389), 209-214.
- Online Statistics Education: A Multimedia Course of Study (http://onlinestatbook.com/). Project leader: David M. Lane, Rice University (chapter 2, "Graphing Distributions, Histograms").
Mann-Kendall trend test
- Hamed, K. H., Exact distribution of the Mann-Kendall trend test statistic for persistent data in Journal of Hydrology (2009), 86–94.
- Kendall, M. G., Gibbons, J. D., Rank correlation methods, fifth ed., (1990) Griffin, London.
- Mann, H. B., Nonparametric tests against trend in Econometrica (1945) Vol. 13, 245–259.