Имея набор объектов (Входной класс объектов) и поле анализа (Входное поле), инструмент Анализ кластеров и выбросов определяет пространственные кластеры объектов с высокими или низкими значениями. Этот инструмент также определяет пространственные выбросы. Чтобы сделать это, инструмент вычисляет Локальный индекс Морана I, z-оценку, псевдо p-значение, и код, представляющий тип кластера для каждого статистически значимого объекта. Z-оценки и псевдо p-значения представляют статистическую значимость вычисленных значений индекса.
Вычисления
См. дополнительные математические расчеты для статистического показателя Локальный индекс Морана I.
Интерпретация
Положительное значение I указывает, что у объекта есть соседние объекты с такими же высокими или низкими значениями атрибута; этот объект является частью кластера. Отрицательное значение I указывает, что у объекта есть соседние объекты с несходными значениями; этот объект является выбросом. В любом случае, p-значение для объекта должно быть достаточно маленьким, чтобы кластер или выброс можно было считать статистически значимыми. Более подробно об определении статистической значимости см. Что такое z-оценка? Что такое p-значение? Заметьте, что локальный индекс Морана (I) – относительная измерение и может только интерпретироваться в контексте вычисленных для него z-оценки или p-значения. P-значения и z-оценки, сообщаемые в классе выходных объектов, не являются скорректированными для множественного тестирования или пространственных зависимостей.
Поле тип кластера/выброса (COType) различает статистически существенный (0.05 уровня) кластер высоких значений (HH), кластер низких значений (LL), выброс, в котором высокое значение окружено в основном низкими значениями (HL), и выброс, в котором низкое значение окружено в основном высокими значениями (LH). Статистическая значимость задается с уровнем достоверности 95 %. Когда применяется FDR коррекция, объекты с p-значениями, меньшими 0.05, рассматриваются как статистически значимые. Коррекция FDR уменьшает порог p-значения с 0.05 до значения, которое лучше отражает 95-процентный уровень достоверности данного множественного тестирования.
Выходные данные
Инструмент создает новый выходной класс объектов со следующими атрибутами для каждого объекта во входном классе объектов: локальный индекс Морана I, z-оценка, p-значение и COType.
Когда этот инструмент запускается в ArcMap, выходной класс объектов автоматически добавляется к таблице содержания (TOC) с методом отображением по умолчанию для поля COType. Применяемое отображение определяется файлом слоя в <ArcGIS>/ArcToolbox/Templates/Layers. Метод отображения по умолчанию, если это необходимо, можно применить заново путем импорта символов слоя шаблона.
Перестановки
Перестановки используются для определения вероятности нахождения актуального пространственного распределения анализируемых значений, методом сравнения имеющихся значений и случайно сгенерированных. Даже в случае полной пространственной случайности (CSR), в силу этой случайности всегда будет наблюдаться некоторая степень кластеризации. Перестановки позволяют сгенерировать множество случайных наборов данных и сравнить эти значения с локальным индексом Морана I исходных данных. Для этого, при каждой перестановке, значения, окружающие каждый объект, перераспределяются в случайном порядке, затем вычисляется значение локального индекса Морана I этих случайных данных. Рассматривая распределение локального индекса Морана I, полученного от перестановок, вы можете увидеть диапазон значений локального индекса Морана I, которые действительно являются следствием случайного распределения. Если в данных имеется статистически значимая пространственная закономерность, можно ожидать, что значения локального индекса Морана I, полученного в результате перестановок, показывают меньшую кластеризацию, по сравнению с исходными данными. Затем вычисляется псевдо p-значение, это делается определением пропорции значений локального индекса Морана I перестановок, которые показывают большую кластеризацию, по сравнению с исходными данными. Если эта пропорция (псевдо p-значение) мала (менее 0.05), можно заключить, что в данных отсутствует статистически значимая кластеризация.
Выбор числа перестановок является компромиссом между точностью и временем обработки. Увеличение числа перестановок повышает точность, поскольку увеличивается диапазон возможных значений для вычисления псевдо p. Например, с 99 перестановками, точность псевдо p-значения составляет .01 (1/99+1), а для 999 перестановок, точность равна .001 (1/999+1). Малое число перестановок может использоваться для начального изучения проблемы, но рекомендуется увеличивать количество перестановок до максимального, в зависимости от требуемого результата.
Практическое применение
- Результаты надежны только в том случае, если входной класс объектов содержит, по крайней мере, 30 объектов.
- Этот инструмент требует входное поле, такое как количество, уровень, или другое числовое измерение. Если вы анализируете точечные данные, где каждый пункт представляет единственный случай или инцидент, то вы возможно не имеете определенного числового атрибута для оценки (ранжирование, количество, или другое измерение). Если вам необходимо осуществить поиск местоположений с большим количеством инцидентов (горячие точки) и/или местоположений с небольшим количеством инцидентов (холодные точки), то вам нужно агрегировать данные инцидентов до анализа. Инструмент Анализ горячих точек также эффективен для обнаружения горячих и холодных точек. Однако только инструмент Анализ кластеров и выбросов (Локальный Индекс Морана Anselin I) сможет идентифицировать статистически существенные пространственные выбросы (высокое значение, окруженное низкими значениями или низкое значение, окруженное высокими значениями).
- Выбрать подходящее Определение пространственных отношений.
- При выборе значения SPACE_TIME_WINDOW, вы можете указать пространственно-временные кластеры и выбросы. Более подробную информацию см. в Пространственно-временной анализ.
- Выбрать подходящее значение Диапазона расстояний или Порогового расстояния.
- Все объекты должны иметь, по крайней мере, одного соседа.
- Никакой из объектов не должен иметь всех других объектов в качестве соседей.
- В случае если значения для входящего поля ассиметричны, у каждого объекта должно быть около восьми соседей.
Возможное применение
Инструмент Анализ кластеров и выбросов (Anselin Локальный Индекс Морана I) идентифицирует концентрации высоких значений, концентрации низких значений и пространственные выбросы. Это может помочь вам ответить на вопросы, такие как:
- Где проходят наиболее четкие границы между богатыми и бедными областями?
- Есть ли местоположения в области исследования с аномальными типами расходов?
- Где можно встретить неожиданно высокий уровень заболевания диабетом в области изучения?
Применения могут быть найдены во многих областях, включая экономику, управление ресурсами, биогеографию, политическую географию, и демографию.
Дополнительные ресурсы
Anselin, Luc. "Local Indicators of Spatial Association – LISA," Geographical Analysis 27(2): 93–115, 1995.
Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. ESRI Press, 2005.