Анализ кластеров и выбросов (Anselin Локальный индекс Морана I) (Пространственная статистика)—ArcMap

Сводка
Иллюстрация
Использование
Синтаксис
Пример кода
Параметры среды
Информация о лицензиях

Сводка

Приведенный набор взвешенных объектов, определяет статистическую значимость "горячих" точек и "холодных" точек на основе статистического показателя Anselin Локальный индекс Морана I.

Более подробно о том, как работает Анализ кластеров и выбросов (Anselin Локальный индекс Морана I)

Иллюстрация

Использование

Инструмент создает новый Выходной класс объектов со следующими атрибутами для каждого объекта в Входном классе объектов:: локальный индекс I Морана, z-оценка, псевдо p-значение и тип кластера/выброса (COType).
Z-оценки и р-значения являются измерениями статистической значимости, которая определяет, можно ли отклонить нулевую гипотезу. В действительности, они показывают, насколько очевидное сходство (пространственная кластеризация) или несходство (пространственные выбросы) являются чем-то большим, нежели случайное распределение. P-значения и z-оценки в Выходном классе пространственных объектов не отражают исправления FDR (False Discovery Rate).
Высокое положительное значение z-оценки для объекта свидетельствует, что окружающие объекты имеют схожие значения (либо низкие, либо высокие). Поле COType в Выходном классе объектов будет содержать значение HH для статистически значимого кластера с высокими значениями и LL для статистически значимого кластера с низкими значениями.
Малое отрицательное значение z-оценки (например, менее -3,96) для объекта свидетельствует о статистической значимости пространственных выбросов в данных. Поле COType в Выходном классе объектов имеет значение HL для объекта с высоким значением, окруженного объектами с низкими значениями, и LH для объекта с низкими значениями, окруженного объектами с высокими значениями.
В поле COType всегда указываются статистические значимые кластеры и выбросы с достоверностью 95 %. Только статистически значимые объекты имеют значения для поля COType. При включении дополнительного параметра Применить коррекцию FDR, статистическая значимость основывается на корректированном 95-процентном уровне достоверности.
Метод отображения по умолчанию Выходного класса пространственных объектов основывается на значениях в поле COType.
Перестановки используются для определения вероятности нахождения актуального пространственного распределения анализируемых значений. Для каждой перестановки, значения, окружающие каждый объект, перераспределяются в случайном порядке, затем вычисляется значение локального индекса Морана I. Результат референсного распределения значений затем сравнивается с наблюдаемым индексом Морана I для определения вероятного нахождения наблюдаемого значения в случайном распределении. По умолчанию используется 499 перестановок; однако распределение случайной выборки улучшается при увеличении числа перестановок, что повышает точность псевдо p-значений.
Если параметр Number_of_Permutations имеет значение 0, в результате получается обычное p-значение, вместо псевдо p-значения, а z-оценка основана на вычислении гипотезы нулевой рандомизации. Дополнительные сведения о z-оценке и p-значениях см. в разделе Что такое z-оценка? Что такое p-значение?
Когда Входной класс объектов не имеет проекции (т.е. когда координаты заданы в градусах, минутах и секундах), или когда в качестве выходной системы координат используется Географическая система координат, расстояния будут рассчитываться с помощью хордовых измерений. Измерения хордовых расстояний применяются постольку, поскольку они могут быть быстро вычислены и дают очень хорошие оценки истинных геодезических расстояний, по крайней мере, для точек, расстояние между которыми в пределах порядка тридцати градусов. Хордовые расстояния основаны на эллипсоиде вращения. Если взять две любые точки на поверхности Земли, то хордовым расстоянием между ними будет длина прямой линии, проходящей через трехмерное тело Земли и соединяющей эти две точки. Хордовые расстояния выражаются в метрах.
Внимание:
Следует обязательно производить проецирование ваших данных, если область исследования превышает 30 градусов. Хордовые расстояния не обеспечивают точных оценок геодезических расстояний, превышающих 30 градусов.
Когда при анализе используются хордовые расстояния, параметр Диапазон расстояний или пороговое расстояние, если он указывается, должен быть выражен в метрах.

Прежние версии:

В более ранних версиях, чем ArcGIS 10.2.1, вы бы увидели предупреждение о том, что выбранные вами параметры и системные настройки предполагают проведение вычислений на основе географических координат (градусы, минуты, секунды). Увидев это предупреждение, необходимо было произвести проецирование данных в Систему координат проекции для того, чтобы вычисление расстояний было точным. Однако, начиная с версии 10.2.1, этот инструмент рассчитывает хордовые расстояния для всех случаев, когда требуются вычисления в географической системе координат.

Внимание:

Из-за этого изменения имеется небольшая вероятность того, что вам потребуется изменить модели с участием этого инструмента, если эти модели были созданы до выхода версии ArcGIS 10.2.1, и если в эти модели включены жестко-запрограммированные значения параметров Географической системы координат. Например, если параметр расстояния установлен на что-то вроде 0,0025 градуса, то вам потребуется конвертировать это значение из градусов в метры и заново сохранить свою модель.

Для линейных или полигональных объектов, при расчете расстояний используются центроиды. Для мультиточек, полилиний или полигонов, состоящих их нескольких частей, центроид вычисляется с использованием средневзвешенного центра всех частей объекта. При определении весов точечные объекты имеют равный вес (1). Для линейных объектов это длина сегмента. Для полигональных – площадь.
Входное поле должно содержать разные значения. Для математических расчетов, выполняемых в рамках этих статистических операций, требуется, чтобы исходные переменные были разными. Например, анализ не будет выполняться, если все входящие значения равны 1. Если вы хотите использовать данный инструмент для анализа пространственных закономерностей случайных данных, попробуйте агрегировать ваши случайные данные. Для анализа пространственных закономерностей случайных данных может также использоваться инструмент Оптимизированный анализ горячих точек.
Примечание:

Инцидентными данными являются точки, представляющие события (преступление, дорожно-транспортное происшествие) или объекты (деревья, магазины), по отношению к которым ваше внимание концентрируется скорее на их наличии или отсутствии, чем на атрибутах, свойственных каждой такой точке.
Выбор параметра Определение пространственных взаимоотношений должен отражать внутренние отношения между пространственными объектами, которые вы анализируете. Чем более точно вы сможете смоделировать взаимодействие пространственных объектов в пространстве, тем более точные результаты вы получите. Рекомендации см. в разделе Выбор определения пространственных отношений: рекомендации. Ниже приводится несколько дополнительных советов:
- FIXED_DISTANCE_BAND
  Значение по умолчанию для параметра Диапазон расстояний или пороговое расстояние гарантирует, что каждый объект имеет, по крайней мере, одного соседа, и это важно. Но часто значение, заданное по умолчанию, не будет наиболее подходящим расстоянием для вашего анализа. В разделе Выбор фиксированного расстояния приведены стратегии, которые помогут определить значение диапазона расстояний, подходящее для вашего анализа.
- INVERSE_DISTANCE или INVERSE_DISTANCE_SQUARED
  Когда для параметра Диапазон расстояний или пороговое расстояние указано значение 0, все объекты считаются соседями всех других объектов. Когда этот параметр остается пустым, применяется пороговое значение по умолчанию.
  Веса для расстояний менее 1 становятся не стабильны после обращения. Следовательно, при взвешивании для объектов, разделенных менее чем одной единицей расстояния, получают вес 1.
  При использовании опции обратного расстояния (INVERSE_DISTANCEINVERSE_DISTANCE_SQUARED или ZONE_OF_INDIFFERENCE) любым двум совпадающим точкам придается значение веса 1 во избежание деления на 0. Это будет гарантировать, что объекты не исключены из анализа.
Для параметра Определение пространственных взаимоотношений при использовании инструментов Построить матрицу пространственных весов или Построить матрицу пространственных весов для сети доступны дополнительные опции, в том числе пространственно-временные отношения. Чтобы эффективно применять дополнительные опции, с помощью одного из этих инструментов создайте файл матрицы пространственных весов до выполнения анализа, выберите значение GET_SPATIAL_WEIGHTS_FROM_FILE для параметра Определение пространственных взаимоотношений, а для параметра Файл матрицы весов укажите путь к файлу с пространственными весами, который вы создали.
Дополнительные сведения о пространственно-временном кластерном анализе см. в документе Пространственно-временной анализ.
Слои карты можно использовать для определения Входного класса объектов. Если в слое есть выборка, только выбранные объекты будут включены в анализ.
Если указан Файл матрицы весов с расширением .swm, инструмент предполагает получение файла матрицы весов, созданного , либо Построить матрицу пространственных весов или Построить матрицу пространственных весов для сети , иначе инструмент ожидает файл матрицы весов в формате ASCII. В некоторых случаях, поведение различно в зависимости от типа использованной матрицы весов:
- ASCII-файлы с матрицей пространственных весов:
  - Веса используются без изменений. Отсутствующие отношения объект к объекту рассматриваются как нули.
  - Если веса нормализованы, то вероятнее всего, что результаты будут непригодны для анализа выбранного набора. Если вам нужно выполнить анализ выбранного набора данных, конвертируйте ASCII-файл с матрицей весов в SWM-файл, считав данные ASCII-файла в таблицу, затем используйте опцию CONVERT_TABLE с инструментом Построить матрицу пространственных весов.
- Матрица пространственных весов в формате SWM:
  - Если веса уже были нормализованы, то они будут нормализованы вновь для выбранного набора данных. В противном случае они будут использоваться без изменений.
Для выполнения анализа с ASCII-файлом с матрицей пространственных весов требуется большой объем памяти. При анализе более 5000 объектов ASCII-файл с матрицей пространственных весов следует конвертировать в SWM-файл. Сначала вы вставляете ваш ASCII-файл с весами в форматированную таблицу (например, с помощью Excel). Затем запустите инструмент Построить матрицу пространственных весов с CONVERT_TABLE для параметра Определение пространственных взаимоотношений. В результате будет создан SWM-файл с матрицей пространственных весов.
Выходной класс объектов автоматически добавляется в таблицу содержания с использованием способа отображения по умолчанию, примененного к полю COType. Применяемый метод отображения определен файлом слоя в папке <ArcGIS>/Desktop10.x/ArcToolbox/Templates/Layers. Метод отображения по умолчанию, если это необходимо, можно применить заново путем импорта символов слоя шаблона.
Выходной класс объектов содержит поле SOURCE_ID, которое позволяет при необходимости присоединить его к Входному классу объектов.
Дополнительную информацию о параметрах инструмента см. в справочной статье Моделирование пространственных отношений.

Внимание:

При использовании шейп-файлов, помните, что в них нельзя хранить нулевые (null) значения. Инструменты или другие процедуры, создающие шейп-файлы из прочих входных данных, могут хранить значения NULL в виде 0 или оперировать ими как нулем. В некоторых случаях нули в шейп-файлах хранятся как очень маленькие отрицательные числа. Это может привести к неожиданным результатам. Дополнительные сведения см. в разделе Рекомендации по геообработке выходных данных шейп-файла.

При использовании этого инструмента в скрипте Python, объект-результат, возвращенный инструментом, содержит следующие выходные данные:


Положение	Описание	Тип данных
0	Выходной класс объектов	Класс объектов
1	Имя поля индексов	Поле
2	Имя поля Z-оценки	Поле
3	Имя поля вероятности	Поле
4	Имя поля типа кластера/выброса	Поле
5	Имя поля ID источника	Поле

Синтаксис

arcpy.stats.ClustersOutliers(Input_Feature_Class, Input_Field, Output_Feature_Class, Conceptualization_of_Spatial_Relationships, Distance_Method, Standardization, {Distance_Band_or_Threshold_Distance}, {Weights_Matrix_File}, {Apply_False_Discovery_Rate__FDR__Correction}, {Number_of_Permutations})

Параметр	Объяснение	Тип данных
Input_Feature_Class	Класс пространственных объектов, для которых будет выполняться анализ кластеров и выбросов.	Feature Layer
Input_Field	Числовое поле, которое должно быть оценено.	Field
Output_Feature_Class	Выходной класс объектов для представления полей с результатами.	Feature Class
Conceptualization_of_Spatial_Relationships	Определяет, как заданы пространственные отношения между объектами. INVERSE_DISTANCE —Близко расположенные соседние объекты оказывают большее влияние на вычисления для целевого объекта, нежели удаленные объекты. INVERSE_DISTANCE_SQUARED —То же самое, что и INVERSE_DISTANCE, только угол наклона острее, влияние объектов уменьшается быстрее, и лишь ближайшие соседи окажут существенное влияние на вычисления для рассматриваемого объекта. FIXED_DISTANCE_BAND —Каждый объект анализируется в контексте соседних объектов. Соседние объекты в пределах указанного критического расстояния (Distance_Band_or_Threshold_Distance) получают вес 1 и влияют на расчеты для целевого объекта. Соседние объекты за пределами указанного критического расстояния получают вес 0 и не оказывают влияния на расчеты для целевого объекта. ZONE_OF_INDIFFERENCE —Объекты в пределах указанного критического расстояния (Distance_Band_or_Threshold_Distance) получают вес 1 и влияют на расчеты для целевого объекта. Как только критическое расстояние превышено, веса (и влияние соседнего объекта на расчеты целевого объекта) начинают уменьшаться с расстоянием. CONTIGUITY_EDGES_ONLY —Только соседние полигональные объекты, которые имеют смежную границу или перекрываются, повлияют на расчеты для целевого полигонального объекта. CONTIGUITY_EDGES_CORNERS —Полигональные объекты, которые имеют общую границу, общий узел или перекрываются, повлияют на расчеты для целевого полигонального объекта. GET_SPATIAL_WEIGHTS_FROM_FILE —Пространственные отношения определены в файле пространственных весов. Путь к файлу пространственных весов указан в параметре Weights_Matrix_File.	String
Distance_Method	Определяет, как рассчитываются расстояния от одного объекта до соседнего объекта. EUCLIDEAN_DISTANCE —Расстояние по прямой линии между двумя точками (как ворона летает) MANHATTAN_DISTANCE —Расстояние между двумя точками, измеренное вдоль осей, расположенных под прямым углом друг к другу (городские кварталы); рассчитывается суммированием абсолютных разностей между координатами х и у.	String
Standardization	Нормализация ряда рекомендуется, независимо от того, распределены ли объекты потенциально предвзято в зависимости от дизайна примера или от установленной схемы агрегации. NONE —Нормализация ряда пространственных весов не применяется. ROW —Пространственные веса нормализуются; каждый вес делится на его сумму ряда (сумму весов всех соседних объектов).	String
Distance_Band_or_Threshold_Distance (Дополнительный)	Определяет пороговое значение расстояния для параметров Обратное расстояние и Фиксированное расстояние. Объекты, расположенные вне указанной области, игнорируются при анализе этого объекта. Однако для Зоны индифферентности, влияние объектов, расположенных вне приведенного расстояния сокращается с расстоянием, в то время как влияние тех объектов, которые располагаются в пределах порогового расстояния, распределяется равномерно. Введенное значение расстояния должно соответствовать выходной системе координат. При использовании концептуализации Обратных расстояний для вычисления пространственных отношений, значение 0 обозначает, что пороговое расстояние не применялось; когда данный параметр остается пустым, пороговое значение по умолчанию рассчитывается и применяется при анализе. Значение по умолчанию – это Евклидово расстояние, которое гарантирует каждому объекту как минимум 1 соседа. Этот параметр не эффективен, когда выбраны концептуализации Близость полигонов или Получить пространственные веса из файла.	Double
Weights_Matrix_File (Дополнительный)	Путь к файлу, который содержит веса, определяющие пространственные и, возможно, временные отношения между объектами.	File
Apply_False_Discovery_Rate__FDR__Correction (Дополнительный)	APPLY_FDR —Статистическая значимость основывается на коррекции FDR для 95-процентного уровня достоверности. NO_FDR —Объекты с p-значениями менее 0.05 появятся в поле COType, отражая статистические значимые кластеры или выбросы с уровнем достоверности 95 % (по умолчанию).	Boolean
Number_of_Permutations (Дополнительный)	Число случайных перестановок для вычисления псевдо p-значений. По умолчанию число перестановок равно 499. Если выбрано 0 перестановок, будет вычислено стандартное p-значение. 0 —Перестановки не используются, вычисляется стандартное p-значение. 99 —С 99 перестановками, минимально возможное псевдо p-значение равно 0.01, а все остальные псевдо p-значения будут четным произведением этого значения. 199 —С 199 перестановками, минимально возможное псевдо p-значение равно 0.005, а все остальные возможные псевдо p-значения будут четным произведением этого значения. 499 —С 499 перестановками, минимально возможное псевдо p-значение равно 0.002, а все остальные псевдо p-значения будут четным произведением этого значения. 999 —С 999 перестановками, минимально возможное псевдо p-значение равно 0.001, а все остальные псевдо p-значения будут четным произведением этого значения. 9999 —С 9999 перестановками, минимально возможное псевдо p-значение равно 0.0001, а все остальные псевдо p-значения будут четным произведением этого значения.	Long

Производные выходные данные

Имя	Объяснение	Тип данных
Index_Field_Name	Имя поля индекса.	Поле
ZScore_Field_Name	Имя поля z-оценки.	Поле
Probability_Field	Имя поля вероятности.	Поле
Cluster_Outlier_Type	Имя поля кластера/выброса.	Поле
Source_ID	Имя поля ID источника.	Поле

Пример кода

ClusterandOutlierAnalysis, пример 1 (окно Python)

Следующий скрипт окна Python демонстрирует, как использовать инструмент ClusterandOutlierAnalysis.

import arcpy
arcpy.env.workspace = "c:/data/911calls"
arcpy.ClustersOutliers_stats("911Count.shp", "ICOUNT","911ClusterOutlier.shp",
                             "GET_SPATIAL_WEIGHTS_FROM_FILE","EUCLIDEAN_DISTANCE", 
                             "NONE","#", "euclidean6Neighs.swm","NO_FDR", 499)

ClusterandOutlierAnalysis, пример 2 (автономный скрипт)

Следующий автономный Python скрипт демонстрирует, как использовать инструмент ClusterandOutlierAnalysis.

# Analyze the spatial distribution of 911 calls in a metropolitan area
# using the Cluster-Outlier Analysis Tool (Anselin's Local Moran's I)
# Import system modules
import arcpy
# Set property to overwrite outputs if they already exist
arcpy.env.overwriteOutput = True
# Local variables...
workspace = r"C:\Data\911Calls"
try:
    # Set the current workspace 
    #  (to avoid having to specify the full path to the feature classes each time)
    arcpy.env.workspace = workspace
    # Copy the input feature class and integrate the points to snap
    # together at 500 feet
    # Process: Copy Features and Integrate
    cf = arcpy.CopyFeatures_management("911Calls.shp", "911Copied.shp")
    integrate = arcpy.Integrate_management("911Copied.shp #", "500 Feet")
    # Use Collect Events to count the number of calls at each location
    # Process: Collect Events
    ce = arcpy.CollectEvents_stats("911Copied.shp", "911Count.shp", "Count", "#")
    # Add a unique ID field to the count feature class
    # Process: Add Field and Calculate Field
    af = arcpy.AddField_management("911Count.shp", "MyID", "LONG", "#", "#", "#", "#",
                     														"NON_NULLABLE", "NON_REQUIRED", "#",
                     														"911Count.shp")
    
    cf = arcpy.CalculateField_management("911Count.shp", "MyID", "!FID!", "PYTHON")
    # Create Spatial Weights Matrix for Calculations
    # Process: Generate Spatial Weights Matrix... 
    swm = arcpy.GenerateSpatialWeightsMatrix_stats("911Count.shp", "MYID",
                        																											"euclidean6Neighs.swm",
                       																											 "K_NEAREST_NEIGHBORS",
                       															 												"#", "#", "#", 6) 
    # Cluster/Outlier Analysis of 911 Calls
    # Process: Local Moran's I
    clusters = arcpy.ClustersOutliers_stats("911Count.shp", "ICOUNT", 
                      																				  "911ClusterOutlier.shp", 
                        																				"GET_SPATIAL_WEIGHTS_FROM_FILE",
                        																				"EUCLIDEAN_DISTANCE", "NONE",
                       							 													"#", "euclidean6Neighs.swm", "NO_FDR", "499")
except arcpy.ExecuteError:
    # If an error occurred when running the tool, print out the error message.
    print(arcpy.GetMessages())

Параметры среды

Текущая рабочая область
Временная рабочая область
Выходная система координат
Примечание:
До начала анализа геометрия пространственных объектов проецируется в Выходную систему координат, поэтому значения параметров Диапазон расстояний или пороговое расстояние должны быть выражены в единицах измерения, заданных в Выходной системе координат. Все математическое вычисления основаны на пространственной привязке Выходной системы координат. Если выходная система координат выражена в градусах, минутах и секундах, геодезические расстояния рассчитываются с помощью хордовых расстояний в метрах.
Географические преобразования
Полноценные имена полей
Выходные данные имеют Z-значения
Выходное значение Z по умолчанию
Разрешение Z
Допуск Z
Выходные данные имеют M-значения
Разрешение M
Допуск M
Разрешение XY
Допуск XY
Генератор случайных чисел
Примечание:
В этом инструменте поддерживается только один тип генератора случайных чисел – Mersenne Twister.

Информация о лицензиях

Basic: Да
Standard: Да
Advanced: Да