Оптимизированный анализ горячих точек выполняет инструмент Анализ горячих точек (Getis-Ord Gi*), используя параметры, извлеченные из характеристик ваших входных данных. Аналогичным образом, как автоматические настройки на цифровой камере используют вспышку и объект вместо наземных измерений, чтобы определить подходящую апертуру, скорость затвора и фокус, таким же образом инструмент Оптимизированный анализ горячих точек (Optimized Hot Spot Analysis) обрабатывает ваши данные, чтобы получить настройки, которые позволят получить оптимальные результаты горячих точек. Если, например, набор данных Входные объекты (Input Features) содержит данные точек инцидентов, инструмент агрегирует инциденты в объекты с весами. Используя распределение объектов с весами, инструмент определит соответствующий вашему анализу масштаб. Статистическая значимость, отображаемая в Выходных объектах (Output Features), будет автоматически настроена для множественного тестирования и пространственной зависимости с использованием метода коррекции FDR (False Discovery Rate).
Каждое из решений, которое принимает инструмент, чтобы выдать наилучшие возможные результаты, выводится в виде сообщения во время работы инструмента, а объяснение этих решений приводится ниже.
Аналогично камере, которая имеет режим ручной настройки, который позволяет вам переписать автоматические настройки, инструмент Анализ горячих точек (Getis-Ord Gi*) (Hot Spot Analysis (Getis-Ord Gi*)) дает вам полный контроль над всеми опциями параметра. Запуская инструмент Оптимизированный анализ горячих точек и запоминая настройки параметра, которые он использует, вы сможете определить параметры, которые дадут вам полный контроль над инструментом Анализ горячих точек (Getis-Ord Gi*) (Hot Spot Analysis (Getis-Ord Gi*)).
Рабочий процесс инструмента Оптимизированный анализ горячих точек (Optimized Hot Spot Analysis) включает следующие компоненты. Вычисления и алгоритмы, используемые в каждом из этих компонентов, описаны ниже.
Оценка исходных данных
В этом компоненте, Входные объекты (Input Features) и дополнительное Поле анализа (Analysis Field), Ограничивающие полигоны, определяющие возможное расположение инцидентов (Bounding Polygons Defining Where Incidents Are Possible) и Полигоны для агрегирования инцидентов в точки (Polygons For Aggregating Incidents Into Points) тщательно проверяются, чтобы убедиться, что используется достаточное количество объектов и присутствует разница в тех значениях, которые будут анализироваться. Если инструмент находит записи с поврежденной или потерянной геометрией, или, если указано Поле анализа (Analysis Field) и имеются пустые значения, то связанные записи будут перечислены в качестве неверных записей и исключены из анализа.
Инструмент Оптимизированный анализ горячих точек (Optimized Hot Spot Analysis) использует статистику Getis-Ord Gi* (произносится Gee Eye Star) и, аналогично многим методам статистики, результаты могут быть недостоверными, если используется менее 30 объектов. Если вы предоставляете полигональные Входные объекты (Input Features) или точечные Входные объекты (Input Features) и Поле анализа (Analysis Field), вам необходимо наличие как минимум 30 объектов, чтобы использовать этот инструмент. Минимальное количество Полигонов для агрегирования инцидентов в точки (Polygons For Aggregating Incidents Into Points) также равно 30. Слой объектов, представляющий Ограничивающие полигоны, определяющие возможное расположение инцидентов (Bounding Polygons Defining Where Incidents Are Possible) может включать один или более полигонов.
Статистика Gi* также требует, чтобы значения были связаны с каждым пространственным объектом, который она анализирует. Если предоставленные вами Входные объекты (Input Features) отображают данные инцидентов (когда вы не предоставляете Поле анализа (Analysis Field)), инструмент будет агрегировать инциденты, и количество инцидентов будет использоваться в качестве значений для анализа. После окончания процесса агрегирования, должно все еще оставаться минимум 30 объектов, так что с данными инцидентов, с которыми вы начнете работать, будет связано более 30 объектов. В приведенной ниже таблице показано минимальное число объектов для каждого Метода агрегирования случайных данных:
Минимальное число инцидентов | Метод агрегирования | Минимальное число объектов после агрегирования (Minimum Number of Features After Aggregation) |
---|---|---|
60 | COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS, без указания Ограничивающих полигонов, определяющих возможное расположение инцидентов | 30 |
30 | COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS, когда вы предоставляете класс объектов для параметра Ограничивающие полигоны, определяющие места возможных инцидентов | 30 |
30 | COUNT_INCIDENTS_WITHIN_AGGREGATION_POLYGONS | 30 |
60 | SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS | 30 |
Статистика Gi* также была разработана для Поля анализа (Analysis Field) с множеством различных значений. Эта статистика, например, не подходит для бинарных данных. Инструмент Оптимизированный анализ горячих точек (Optimized Hot Spot Analysis) проверяет Поле анализа (Analysis Field), чтобы убедиться, что значения имеют хотя бы некоторую разницу.
Если вы укажите путь к Поверхности плотности, этот компонент рабочего процесса инструмента также проверит настройку среды "маска анализа растра". Если маска анализа растра не задана, он создаст выпуклую оболочку вокруг точек инцидентов, которая будет использоваться для вырезания выходного растрового слоя Поверхности плотности (Density Surface). Параметр Поверхность плотности будет доступным только в случае, если ваши Входные объекты являются точками и у вас есть ArcGIS Spatial Analyst. Это недоступно для всех методов, кроме Метода агрегирования данных инцидентов SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS.
Выбросы по местоположению – это объекты, которые находятся намного дальше от соседних объектов, чем большинство объектов в наборе данных. Представьте городскую среду с большими, густонаселенными городами в центре, и маленькими, малонаселенными городами вокруг. Если вы вычисляете среднее расстояние до ближайшего соседа для этих городов, вы увидите, что результат может быть меньше, если вы исключили периферийные выбросы по местоположению и сосредоточились только на городах около центра городской среды. Это пример того, как выбросы по местоположению могут иметь сильное влияние на пространственные статистики, такие как Среднее Ближайшее Соседство (Average Nearest Neighbor). Поскольку инструмент Оптимизированный анализ горячих точек (Optimized Hot Spot Analysis) использует вычисление среднего и медианного расстояния до ближайшего соседа для агрегирование, а также для идентификации подходящего масштаба анализа, компонент Оценка исходных данных (Initial Data Assessment) инструмента также сможет идентифицировать любой выброс по местоположению во Входных объектах (Input Features) или Полигоны для агрегирования инцидентов в точки (Polygons For Aggregating Incidents Into Points) и сможет сообщить их количество. Чтобы сделать это, инструмент вычисляет среднее расстояние от каждого объекта до ближайшего к нему соседнего объекта и выполняет оценку распределения всех этих расстояний. Объекты, находящиеся на расстоянии более трех стандартных отклонений от своего ближайшего несовпадающего соседа, считаются выбросами по местоположению.
Агрегирование инцидента
Для данных инцидентов следующий компонент в рабочем процессе агрегирует ваши данные. Существует три возможных подхода на основе выбранного вами Метода агрегирования случайных данных (Incident Data Aggregation Method_. Алгоритмы для каждого из этих подходов описаны ниже.
- COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS:
- Сверните совпадающие точки, получив отдельную точку для каждого уникального местоположения в наборе данных, используя тот же метод, что и в инструменте Собрать события (Collect Events).
- Вычислите среднее и медианное расстояния до ближайшего соседа для всех точек с уникальными местоположениями, исключая выбросы по местоположению. Среднее расстояние до ближайшего соседнего объекта (AAN) вычисляется с помощью суммирования расстояний до каждого ближайшего к объекту соседа и деления этой суммы на число объектов (N). Медианное расстояние до ближайшего соседнего объекта (MNN) вычисляется с помощью сортировки расстояний до ближайшего соседа от меньшего к большему и выбора расстояния, которое попадает в середину этого отсортированного списка.
- Установите начальный размер ячейки (CS) на наибольшее значение из ANN и MNN.
- Настройте размер ячейки на случай совпадающих точек. Smaller = MIN(ANN,MNN); Larger = MAX(ANN,MNN). Scalar = MAX((Larger/Smaller),2). Настроенный размер ячейки станет равен CS * Scalar.
- Создайте ячейку полигональной сетки, используя настройку размера ячейки и разместите сетку поверх точек инцидентов.
- Посчитайте инциденты в каждой ячейке полигона.
- Когда вы указываете Ограничивающие полигоны, определяющие места возможных инцидентов (Bounding Polygons Defining Where Incidents Are Possible), сохраняются все ячейки полигонов в пределах ограничивающих полигонов. Когда вы не указываете Ограничивающие полигоны, определяющие места возможных инцидентов (Bounding Polygons Defining Where Incidents Are Possible), ячейки полигонов с нулевым числом инцидентов будут удалены.
- Если процесс агрегирования выдает результат в менее 30 полигональных ячеек, или если количество во всех полигональных ячейках одинаковое, вы получите сообщение о том, что заданные вами Входные объекты (Input Features) не подходят для выбранного Метода агрегирования данных инцидентов (Incident Data Aggregation Method); в противном случае, компонент агрегирования для данного метода выполнится успешно.
- COUNT_INCIDENTS_WITHIN_AGGREGATION_POLYGONS:
- Для этого Метода агрегирования данных инцидентов (Incident Data Aggregation Method) требуется векторный слой Полигоны для агрегирования инцидентов в точки (Polygons For Aggregating Incidents Into Points). Эти полигоны агрегирования перекрывают точки инцидентов.
- Посчитайте инциденты внутри каждого полигона.
- Убедитесь, что присутствует достаточное количество различных значений в количестве инцидентов для анализа. Если процесс агрегирования в результате получит, что все полигоны имеют одинаковое количество инцидентов, вы получите сообщение о том, что данные не подходят для выбранного Метода агрегирования данных инцидентов (Incident Data Aggregation Method).
- SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS:
- Сверните совпадающие точки, получив отдельную точку для каждого уникального местоположения в наборе данных, используя тот же метод, что и в инструменте Собрать события (Collect Events). Посчитайте количество уникальных объектов расположений (unique locations, UL).
- Вычислите среднее и медианное расстояния до ближайшего соседа для всех точек с уникальными местоположениями, исключая выбросы по местоположению. Среднее расстояние до ближайшего соседнего объекта (AAN) вычисляется с помощью суммирования расстояний до каждого ближайшего к объекту соседа и деления этой суммы на число объектов (N). Медианное расстояние до ближайшего соседнего объекта (MNN) вычисляется с помощью сортировки расстояний до ближайшего соседа от меньшего к большему и выбора расстояния, которое попадает в середину этого отсортированного списка.
- Установите начальное расстояние замыкания (SD) на наименьшее значение из ANN и MNN.
- Настройте расстояние замыкания на случай совпадающих точек. Scalar = (UL/N), где N – это количество объектов в слое Входных объектов (Input Features). Настроенное расстояние замыкания станет равным SD * Scalar.
- Интегрировать (Integrate) точки инцидентов с помощью трех итераций, сначала используя интервалы настроенного расстояния замыкания в 0.10, затем в 0.25, и в итоге интегрируя с расстоянием замыкания, равным полному настроенному расстоянию замыкания. Выполнение шага интегрирования в эти три захода минимизирует искажение исходных местоположений точек.
- Сверните замкнутые точки, получив отдельную точку для каждого местоположения с весом, показывающим количество инцидентов, которые были замкнуты вместе. Эта часть процесса агрегирования использует метод Собрать события.
- Если процесс агрегирования выдает результат в менее 30 точек с весами, или если количество всех этих точек одинаковое, вы получите сообщение о том, что заданные вами Входные объекты (Input Features) не подходят для выбранного Метода агрегирования данных инцидентов (Incident Data Aggregation Method); в противном случае, компонент агрегирования для данного метода выполнится успешно.
Масштаб анализа
Этот следующий компонент рабочего процесса Оптимизированного анализа горячих точек (Optimized Hot Spot Analysis) применяется к объектам с весами, либо в случае, когда вы предоставляете Входные объекты (Input Features) с Полем анализа (Analysis Field), либо когда процедура Агрегации инцидентов (Incident Aggregation) создала веса из количества инцидентов. Следующий шаг – идентифицировать подходящий масштаб анализа. Идеальный масштаб анализа – это расстояние, которое совпадает с масштабом задаваемого вопроса (например, если вы ищете горячие точки вспышки заболевания и знаете, что вектор москитов имеет диапазон в 10 миль, то использование 10-мильного расстояния будет наиболее подходящим). Когда вы не можете определить какое-либо конкретное расстояние для использования в качестве масштаба анализа, существует несколько стратегий, чтобы помочь вам в выборе. Инструмент Оптимизированный анализ горячих точек (Optimized Hot Spot Analysis) использует данные стратегии.
Первая рассматриваемая стратегия – это Пошаговая пространственная автокорреляция (Incremental Spatial Autocorrelation). Когда вы видите пространственную кластеризацию в ландшафте, вы видите доказательства работы внутренних пространственных процессов. Инструмент Пошаговая пространственная автокорреляция (Incremental Spatial Autocorrelation) выполняет статистику Глобальный индекс Морана I) (Global Moran’s I)) с последовательностью увеличивающимися расстояниями для измерения интенсивности пространственной кластеризации для каждого расстояния. Интенсивность кластеризации определяется z-оценкой. Обычно при увеличении расстояния растет и z-оценка, что указывает на повышенную интенсивность кластеризации. Однако на определенном расстоянии возникает пик z-оценки. Пиковые z-оценки соответствует расстояниям, при которых пространственные процессы, обеспечивающие пространственную кластеризацию, наиболее выражены. Инструмент Оптимизированный анализ горячих точек (Optimized Hot Spot Analysis) ищет пиковые расстояния, используя Пошаговую пространственную автокорреляцию (Incremental Spatial Autocorrelation). Если пиковое расстояние найдено, это расстояние становится масштабом для анализа. Если найдено несколько пиковых расстояний, будет выбрано первое пиковое расстояние.
Если не найдено ни одного пикового расстояния, Оптимизированный анализ горячих точек (Optimized Hot Spot Analysis) исследует пространственное распределение объектов и вычисляет среднее расстояние, которое будет присваивать K соседей каждому объекту. K вычисляется, как 0.05 * N, где N – это количество объектов в слое Входных объектов (Input Features). K будет выбрано таким образом, чтобы оно не было меньше 3 или больше 30. Если среднее расстояние, которое присваивает K соседей, превышает одно стандартное расстояние, масштаб анализа будет установлен на одно стандартное расстояние; в противном случае, оно будет равно среднему расстоянию K соседа.
Шаг Пошаговой пространственной автокорреляции (Incremental Spatial Autocorrelation) может выполняться в течении долгого времени для больших, плотных наборов данных. Соответственно, когда находится объект с 500 или более соседями, пошаговый анализ пропускается и среднее расстояние, которое будет присваивать 30 соседей, вычисляется и используется в качестве масштаба анализа.
Расстояние, отражающее масштаб анализа, будет показано в окне Результаты (Results) и будет использовано для выполнения анализа горячих точек. Если вы предоставили путь для параметра Поверхность плотности (Density Surface), оптимальное расстояние также служит в качестве радиуса поиска для инструмента Плотность ядер (Kernel Density). Это расстояние соответствует параметру Диапазон расстояний или пороговое расстояние (Distance Band or Threshold Distance), который используется инструментом Анализ горячих точек (Getis-Ord Gi*) (Hot Spot Analysis (Getis-Ord Gi*)).
Анализ горячих точек
К этому моменту рабочий процесс Оптимизированного анализа горячих точек (Optimized Hot Spot Analysis) выполнил все проверки и настройки параметров. Следующий шаг – запуск статистики Getis-Ord Gi*. Подробные сведения о математической основе этой статистики приведены в разделе Как работает Анализ горячих точек (Getis-Ord Gi*). Результаты статистики Gi* будут автоматически скорректированы для множественного тестирования и пространственной зависимости, используя метод коррекции FDR (False Discovery Rate). Сообщения в Окне Результаты суммируют число объектов, идентифицированных в качестве горячих или холодных точек после применения коррекции FDR.
Выходные данные
Последним компонентом Оптимизированного анализа горячих точек (Optimized Hot Spot Analysis) является создание Выходных объектов (Output Features) и, если выбрано, растрового слоя Поверхности плотности (Density Surface). Если Входные объекты (Input Features) отображают данные инцидентов, требующие агрегирования, то Выходные объекты (Output Features) будут отображать агрегированные объекты с весами (ячейки полигональной сетки, агрегированные полигоны, которые вы предоставили для параметра Полигоны для агрегирования инцидентов в точки (Polygons For Aggregating Incidents Into Points), или точки с весами). Каждый объект будет иметь z-значение, p-значение и результат Gi Bin.
Когда выбрана, Поверхность плотности (Density Surface) создается с помощью инструмента Плотность ядер (Kernel Density). Радиус поиска для этого инструмента является таким же, как и расстояние масштаба анализа, используемое для анализа горячих точек. Метод отображения по умолчанию – это растяжка значений вдоль цветовой схемы оттенков серого. Если маска анализа растра выбрана в системных настройках, выходная Поверхность плотности (Density Surface) будет вырезана по маске анализа. Если маска анализа растра не задана, Поверхность плотности (Density Surface) будет вырезана по выпуклой оболочке вокруг центроида Входных объектов (Input Features).
Дополнительные ресурсы
Getis, A. and J.K. Ord. 1992. "The Analysis of Spatial Association by Use of Distance Statistics" (Анализ пространственный взаимосвязей с использованием статистики расстояний) в Geographical Analysis 24(3).
Ord, J.K. and A. Getis. 1995. "Local Spatial Autocorrelation Statistics: Distributional Issues and an Application" (Статистика местной пространственной автоматической корреляции: вопросы распределения и применения) в Geographical Analysis 27(4).
На странице описания пространственной статистики имеются кроткие видеоролики, учебные пособия, онлайн-семинары, статьи и другие материалы, которые помогут вам начать работу с пространственной статистикой.