Как работает Оптимизированный анализ горячих точек—Справка

Оценка исходных данных
Агрегирование инцидентов
Масштаб анализа
Анализ горячих точек
Результат
Дополнительные ресурсы

Оптимизированный анализ горячих точек выполняет инструмент Анализ горячих точек (Getis-Ord Gi*), используя параметры, извлеченные из характеристик ваших входных данных. Аналогичным образом, как автоматические настройки на цифровой камере используют вспышку и объект вместо наземных измерений, чтобы определить подходящую апертуру, скорость затвора и фокус, таким же образом инструмент Оптимизированный анализ горячих точек обрабатывает ваши данные, чтобы получить настройки, которые позволят получить оптимальные результаты горячих точек. Если, например, набор данных Входные объекты содержит данные точек инцидентов, инструмент агрегирует инциденты в объекты с весами. Используя распределение объектов с весами, инструмент определит соответствующий вашему анализу масштаб. Статистическая значимость, отображаемая в Выходных объектах, будет автоматически настроена для множественного тестирования и пространственной зависимости с использованием метода коррекции FDR (False Discovery Rate).

Каждое из решений, которое принимает инструмент, чтобы выдать наилучшие возможные результаты, выводится в виде сообщения во время работы инструмента, а объяснение этих решений приводится ниже.

Аналогично камере, которая имеет режим ручной настройки, который позволяет вам переписать автоматические настройки, инструмент Анализ горячих точек (Getis-Ord Gi*) (Hot Spot Analysis (Getis-Ord Gi*)) дает вам полный контроль над всеми опциями параметра. Запуская инструмент Оптимизированный анализ горячих точек и запоминая настройки параметра, которые он использует, вы сможете определить параметры, которые дадут вам полный контроль над инструментом Анализ горячих точек (Getis-Ord Gi*) (Hot Spot Analysis (Getis-Ord Gi*)).

Рабочий процесс инструмента Оптимизированный анализ горячих точек включает следующие компоненты. Вычисления и алгоритмы, используемые в каждом из этих компонентов, описаны ниже.

Оценка исходных данных

В этом компоненте Входные объекты и дополнительное Поле анализа, Ограничивающие полигоны, определяющие возможное расположение инцидентов и Полигоны для агрегирования инцидентов в точки тщательно проверяются, чтобы убедиться, что используется достаточное количество объектов и присутствует разница в тех значениях, которые будут анализироваться. Если инструмент находит записи с поврежденной или потерянной геометрией, или, если указано Поле анализа и имеются пустые значения, то связанные записи будут перечислены в качестве неверных записей и исключены из анализа.

Инструмент Оптимизированный анализ горячих точек использует статистику Getis-Ord Gi* (произносится Gee Eye Star) и, аналогично многим методам статистики, результаты могут быть недостоверными, если используется менее 30 объектов. Если вы предоставляете полигональные Входные объекты или точечные Входные объекты и Поле анализа, вам необходимо наличие как минимум 30 объектов, чтобы использовать этот инструмент. Минимальное число Полигонов для агрегирования инцидентов в точки также равняется 30. Слой объектов, представляющий Ограничивающие полигоны, определяющие возможное расположение инцидентов может содержать один или несколько полигонов.

Статистика Gi* также требует, чтобы значения были связаны с каждым пространственным объектом, который она анализирует. Если предоставленные вами Входные объекты отображают данные инцидентов (когда вы не предоставляете Поле анализа (Analysis Field)), инструмент будет агрегировать инциденты, и количество инцидентов будет использоваться в качестве значений для анализа. После окончания процесса агрегирования, должно все еще оставаться минимум 30 объектов, так что с данными инцидентов, с которыми вы начнете работать, будет связано более 30 объектов. В приведенной ниже таблице показано минимальное число объектов для каждого Метода агрегирования случайных данных:

Минимальное число инцидентов	Метод агрегирования	Минимальное число объектов после агрегирования
60	COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS, без указания Ограничивающих полигонов, определяющих возможное расположение инцидентов	30
30	COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS, когда вы предоставляете класс объектов для параметра Ограничивающие полигоны, определяющие места возможных инцидентов	30
30	COUNT_INCIDENTS_WITHIN_AGGREGATION_POLYGONS	30
60	SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS	30

Статистика Gi* также была разработана для Поля анализа с множеством различных значений. Например, статистика не подходит для бинарных данных. Инструмент Оптимизированный анализ горячих точек проверяет Поле анализа, чтобы убедиться, что значения имеют хотя бы некоторую разницу.

Если вы укажите путь к Поверхности плотности, этот компонент рабочего процесса инструмента также проверит настройку среды "маска анализа растра". Если маска анализа растра не задана, он создаст выпуклую оболочку вокруг точек инцидентов, которая будет использоваться для вырезания выходного растрового слоя Поверхности плотности, доступного с лицензией Advanced. Параметр Поверхность плотности будет доступным только в случае, если Входные объекты являются точками и у вас есть дополнительный модуль ArcGIS Spatial Analyst. Он недоступен для всех методов, кроме SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS Метода агрегирования данных инцидентов.

Выбросы по местоположению – это объекты, которые находятся намного дальше от соседних объектов, чем большинство объектов в наборе данных. Представьте городскую среду с большими, густонаселенными городами в центре, и маленькими, малонаселенными городами вокруг. Если вы вычисляете среднее расстояние до ближайшего соседа для этих городов, вы увидите, что результат может быть меньше, если вы исключили периферийные выбросы по местоположению и сосредоточились только на городах около центра городской среды. Это пример того, как выбросы по местоположению могут иметь сильное влияние на пространственные статистики, такие как Среднее ближайшее соседство. Поскольку инструмент Оптимизированный анализ горячих точек использует вычисление среднего и медианного расстояния до ближайшего соседа для агрегирования, а также для идентификации подходящего масштаба анализа, компонент Оценка исходных данных инструмента также сможет идентифицировать любой выброс по местоположению во Входных объектах или Полигоны для агрегирования инцидентов в точки и сможет сообщить их количество. Чтобы сделать это, инструмент вычисляет среднее расстояние от каждого объекта до ближайшего к нему соседнего объекта и выполняет оценку распределения всех этих расстояний. Объекты, находящиеся на расстоянии более трех стандартных отклонений от своего ближайшего несовпадающего соседа, считаются выбросами по местоположению.

Агрегирование инцидентов

Для данных инцидентов следующий компонент в рабочем процессе агрегирует ваши данные. Существует три возможных подхода на основе выбранного вами Метода агрегирования случайных данных. Алгоритмы для каждого из этих подходов описаны ниже.

COUNT_INCIDENTS_WITHIN_FISHNET_POLYGONS:
1. Сверните совпадающие точки, получив отдельную точку для каждого уникального местоположения в наборе данных, используя тот же метод, что и в инструменте Собрать события.
2. Вычислите среднее и медианное расстояния до ближайшего соседа для всех точек с уникальными местоположениями, исключая выбросы по местоположению. Среднее расстояние до ближайшего соседнего объекта (AAN) вычисляется с помощью суммирования расстояний до каждого ближайшего к объекту соседа и деления этой суммы на число объектов (N). Медианное расстояние до ближайшего соседнего объекта (MNN) вычисляется с помощью сортировки расстояний до ближайшего соседа от меньшего к большему и выбора расстояния, которое попадает в середину этого отсортированного списка.
3. Установите начальный размер ячейки (CS) на наибольшее значение из ANN и MNN.
4. Настройте размер ячейки на случай совпадающих точек. Smaller = MIN(ANN,MNN); Larger = MAX(ANN,MNN). Scalar = MAX((Larger/Smaller),2). Настроенный размер ячейки станет равен CS * Scalar.
5. Создайте ячейку полигональной сетки, используя настройку размера ячейки и разместите сетку поверх точек инцидентов.
6. Посчитайте инциденты в каждой ячейке полигона.
7. Когда вы указываете Ограничивающие полигоны, определяющие места возможных инцидентов, сохраняются все ячейки полигонов в пределах ограничивающих полигонов. Когда вы не указываете Ограничивающие полигоны, определяющие места возможных инцидентов, ячейки полигонов с нулевым числом инцидентов будут удалены.
8. Если процесс агрегирования выдает результат в менее 30 полигональных ячеек, или если количество во всех полигональных ячейках одинаковое, вы получите сообщение о том, что заданные вами Входные объекты не подходят для выбранного Метода агрегирования данных инцидентов; в противном случае, компонент агрегирования для данного метода выполнится успешно.

COUNT_INCIDENTS_WITHIN_AGGREGATION_POLYGONS:
1. Для этого Метода агрегирования данных инцидентов требуется векторный слой Полигоны для агрегирования инцидентов в точки. Эти полигоны агрегирования перекрывают точки инцидентов.
2. Посчитайте инциденты внутри каждого полигона.
3. Убедитесь, что присутствует достаточное количество различных значений в количестве инцидентов для анализа. Если процесс агрегирования в результате получит, что все полигоны имеют одинаковое количество инцидентов, вы получите сообщение о том, что данные не подходят для выбранного Метода агрегирования данных инцидентов.

SNAP_NEARBY_INCIDENTS_TO_CREATE_WEIGHTED_POINTS:
1. Сверните совпадающие точки, получив отдельную точку для каждого уникального местоположения в наборе данных, используя тот же метод, что и в инструменте Собрать события. Посчитайте количество уникальных объектов расположений (UL).
2. Вычислите среднее и медианное расстояния до ближайшего соседа для всех точек с уникальными местоположениями, исключая выбросы по местоположению. Среднее расстояние до ближайшего соседнего объекта (AAN) вычисляется с помощью суммирования расстояний до каждого ближайшего к объекту соседа и деления этой суммы на число объектов (N). Медианное расстояние до ближайшего соседнего объекта (MNN) вычисляется с помощью сортировки расстояний до ближайшего соседа от меньшего к большему и выбора расстояния, которое попадает в середину этого отсортированного списка.
3. Установите начальное расстояние замыкания (SD) на наименьшее значение из ANN и MNN.
4. Настройте расстояние замыкания на случай совпадающих точек. Scalar = (UL/N), где N – это количество объектов в слое Входных объектов. Настроенное расстояние замыкания станет равным SD * Scalar.
5. Интегрировать точки инцидентов с помощью трех итераций, сначала используя интервалы настроенного расстояния замыкания в 0.10, затем в 0.25, и в итоге интегрируя с расстоянием замыкания, равным полному настроенному расстоянию замыкания. Выполнение шага интегрирования в эти три захода минимизирует искажение исходных местоположений точек.
6. Сверните замкнутые точки, получив отдельную точку для каждого местоположения с весом, показывающим количество инцидентов, которые были замкнуты вместе. Эта часть процесса агрегирования использует метод Собрать события.
7. Если процесс агрегирования выдает результат в менее 30 точек с весами, или если количество всех этих точек одинаковое, вы получите сообщение о том, что заданные вами Входные объекты не подходят для выбранного Метода агрегирования данных инцидентов; в противном случае, компонент агрегирования для данного метода выполнится успешно.

Масштаб анализа

Этот следующий компонент рабочего процесса Оптимизированного анализа горячих точек применяется к объектам с весами, либо в случае, когда вы предоставляете Входные объекты с Полем анализа, либо когда процедура Агрегации инцидентов создала веса из количества инцидентов. Следующий шаг – идентифицировать подходящий масштаб анализа. Идеальный масштаб анализа – это расстояние, которое совпадает с масштабом задаваемого вопроса (например, если вы ищете горячие точки вспышки заболевания и знаете, что вектор москитов имеет диапазон в 10 миль, то использование 10-мильного расстояния будет наиболее подходящим). Когда вы не можете определить какое-либо конкретное расстояние для использования в качестве масштаба анализа, существует несколько стратегий, чтобы помочь вам в выборе. Инструмент Оптимизированный анализ горячих точек использует данные стратегии.

Первая рассматриваемая стратегия – это Пошаговая пространственная автокорреляция. Когда вы видите пространственную кластеризацию в ландшафте, вы видите доказательства работы внутренних пространственных процессов. Инструмент Пошаговая пространственная автокорреляция выполняет статистику Глобальный индекс Морана I с последовательностью увеличивающимися расстояниями для измерения интенсивности пространственной кластеризации для каждого расстояния. Интенсивность кластеризации определяется z-оценкой. Обычно при увеличении расстояния растет и z-оценка, что указывает на повышенную интенсивность кластеризации. Однако на определенном расстоянии возникает пик z-оценки. Пиковые z-оценки соответствует расстояниям, при которых пространственные процессы, обеспечивающие пространственную кластеризацию, наиболее выражены. Инструмент Оптимизированный анализ горячих точек ищет пиковые расстояния, используя Пошаговую пространственную автокорреляцию. Если пиковое расстояние найдено, это расстояние становится масштабом для анализа. Если найдено несколько пиковых расстояний, будет выбрано первое пиковое расстояние.

Если не найдено ни одного пикового расстояния, Оптимизированный анализ горячих точек исследует пространственное распределение объектов и вычисляет среднее расстояние, которое будет присваивать K соседей каждому объекту. K вычисляется, как 0.05 * N, где N – это количество объектов в слое Входных объектов. K будет выбрано таким образом, чтобы оно не было меньше 3 или больше 30. Если среднее расстояние, которое присваивает K соседей, превышает одно стандартное расстояние, масштаб анализа будет установлен на одно стандартное расстояние; в противном случае, оно будет равно среднему расстоянию K соседа.

Шаг Пошаговой пространственной автокорреляции может выполняться в течение долгого времени для больших, плотных наборов данных. Соответственно, когда находится объект с 500 или более соседями, пошаговый анализ пропускается и среднее расстояние, которое будет присваивать 30 соседей, вычисляется и используется в качестве масштаба анализа.

Расстояние, отражающее масштаб анализа, будет показано в окне Результаты и будет использовано для выполнения анализа горячих точек. Если вы предоставили путь для параметра Поверхность плотности, оптимальное расстояние также служит в качестве радиуса поиска для инструмента Плотность ядер. Это расстояние соответствует параметру Диапазон расстояний или пороговое расстояние, который используется инструментом Анализ горячих точек (Getis-Ord Gi*).

Анализ горячих точек

К этому моменту рабочий процесс Оптимизированного анализа горячих точек выполнил все проверки и настройки параметров. Следующий шаг – запуск статистики Getis-Ord Gi*. Подробные сведения о математической основе этой статистики приведены в разделе Как работает Анализ горячих точек (Getis-Ord Gi*). Результаты статистики Gi* будут автоматически скорректированы для множественного тестирования и пространственной зависимости, используя метод коррекции FDR. Сообщения в окне Результаты суммируют число объектов, идентифицированных в качестве горячих или холодных точек после применения коррекции FDR.

Результат

Последним компонентом Оптимизированного анализа горячих точек является создание Выходных объектов и, если выбрано, растрового слоя Поверхности плотности. Если Входные объекты отображают данные инцидентов, требующие агрегирования, то Выходные объекты будут отображать агрегированные объекты с весами (ячейки полигональной сетки, агрегированные полигоны, которые вы предоставили для параметра Полигоны для агрегирования инцидентов в точки, или точки с весами). Каждому объекту будет присвоено z-значение, p-значение и результат Gi Bin.

Когда выбрана, Поверхность плотности создается с помощью инструмента Плотность ядер. Радиус поиска для этого инструмента является таким же, как и расстояние масштаба анализа, используемое для анализа горячих точек. Метод отображения по умолчанию – это растяжка значений вдоль цветовой схемы оттенков серого. Если маска анализа растра выбрана в системных настройках, выходная Поверхность плотности будет вырезана по маске анализа. Если маска анализа растра не задана, Поверхность плотности будет вырезана по выпуклой оболочке вокруг центроида Входных объектов.

Дополнительные ресурсы

Getis, A. and J.K. Ord. 1992. "The Analysis of Spatial Association by Use of Distance Statistics" (Анализ пространственный взаимосвязей с использованием статистики расстояний) в Geographical Analysis 24(3).

Ord, J.K., A. Getis. 1995. "Local Spatial Autocorrelation Statistics: Distributional Issues and an Application" (Статистика местной пространственной автоматической корреляции: вопросы распределения и применения) в Geographical Analysis 27(4).

На странице описания пространственной статистики имеются кроткие видеоролики, учебные пособия, онлайн-семинары, статьи и другие материалы, которые помогут вам начать работу с пространственной статистикой.