Сводка
Группирует объекты на основе атрибутов объектов и дополнительных пространственных или временных ограничений.
Иллюстрация
Использование
-
Этот инструмент создает класс выходных объектов с полями, используемыми в анализе, а также целочисленным полем SS_GROUP. Отображение по умолчанию выполняется на основании значений поля SS_GROUP и показывает, к какой группе принадлежит каждый объект. Если вы указали, что требуется три группы, каждая запись будет содержать значение 1, 2 или 3 в поле SS_GROUP. Если NO_SPATIAL_CONSTRAINT выбрано для параметра Пространственные ограничения, выходной класс объектов также будет содержать новое двоичное поле SS_SEED. Поле SS_SEED указывает, какие объекты использовались как начальные точки для подбора групп. Число ненулевых значений в поле SS_SEED будет совпадать с указанным значением для параметра Число групп.
-
Этот инструмент при необходимости создает PDF-файл отчета при указании пути в параметре Выходной файл отчета. Данный отчет содержит различные таблицы и графики, помогающие понять характеристики выявленных групп. Доступ к PDF-файлу отчета можно получить в окне Результаты.
-
Когда Входной класс объектов не имеет проекции (т.е. когда координаты заданы в градусах, минутах и секундах), или когда в качестве выходной системы координат используется Географическая система координат, расстояния будут рассчитываться с помощью хордовых измерений. Измерения хордовых расстояний применяются постольку, поскольку они могут быть быстро вычислены и дают очень хорошие оценки истинных геодезических расстояний, по крайней мере, для точек, расстояние между которыми в пределах порядка тридцати градусов. Хордовые расстояния основаны на эллипсоиде вращения. Если взять две любые точки на поверхности Земли, то хордовым расстоянием между ними будет длина прямой линии, проходящей через трехмерное тело Земли и соединяющей эти две точки. Хордовые расстояния выражаются в метрах.
-
Поле уникального ID позволяет связать записи в выходном классе объектов с исходным входным классом объектов. Следовательно, значение поля уникального ID должно быть уникально для каждого объекта и, как правило, должно хранится в постоянном поле, которое остается с классом объектов. Если у вас нет поля уникального ID в наборе данных, вы можете легко создать его путем добавления нового целого поля в вашу таблицу класса объектов и рассчитать значения поля, которое должно соответствовать полям FID/OID. Вы не можете непосредственно использовать поля FID/OID для параметра поля уникального ID.
-
Поля анализа должны быть числовыми и должны содержать разные значения. Поля без вариации (т. е. с одним значением для каждой записи) будут удалены из анализа, но будут включены в выходной класс объектов. Поля категорий можно использовать с инструментом Анализ группирования, если они представлены как бинарные переменные (значение один для всех объектов категории и ноль для всех других объектов).
-
Инструмент Анализ группирования создает группы с пространственными или временными ограничениями, или без них. Для некоторых приложений не требуется применять к создаваемым группам требования примыкания или другие требования близости. В этих случаях для параметра Пространственные ограничения задается значение NO_SPATIAL_CONSTRAINT.
-
Для определенного анализа группы должны быть пространственно непрерывными. Опции непрерывности включены для полигональных классов объектов и указывают, что объекты могут входить в одну группу, только если у них есть общее ребро (CONTIGUITY_EDGES_ONLY) или общее ребро или вершина (CONTIGUITY_EDGES_CORNERS) с другим участником группы.
-
Опции DELAUNAY_TRIANGULATION и K_NEAREST_NEIGHBORS подходят для точечных и полигональных объектов, если требуется убедиться, что все члены группы являются проксимальными. Эти опции указывают, что объект включается в группу, только если хотя бы один другой объект является естественным соседом (триангуляция Делоне) или K ближайшим соседом. K – это учитываемое число соседей, которое указывается с помощью параметра Число соседей.
-
Чтобы создать группы и с пространственными, и с временными ограничениями, используйте инструмент Построить матрицу пространственных весов, чтобы сначала создать файл матрицы пространственных весов (.swm), определяющий пространственно-временные отношения ваших объектов. Затем запустите инструмент Анализ группирования, задав для параметра Пространственные ограничения значение GET_SPATIAL_WEIGHTS_FROM_FILE , а для параметра Файл матрицы пространственных весов указав созданный SWM-файл.
-
Дополнительные пространственные ограничения, такие как фиксированное расстояние, можно наложить, создав с помощью инструмента Построить матрицу пространственных весов SWM-файл, а затем указав путь к этому файлу в параметре Файл матрицы пространственных весов.
-
При определении пространственного ограничения можно гарантированно получить компактные, непрерывные или близкие группы. Включение пространственных переменных в ваш список полей анализа также может повлиять на эти атрибуты группы. К примерам пространственных переменных можно отнести расстояние до скоростных автострад, доступность вакансий, близость магазинов, измерения связности и даже координаты (X, Y). Включение переменных, представляющих время, день недели или временное расстояние, позволяет обеспечить временную компактность членов группы.
-
При наличии четкого пространственного шаблона в ваших объектах (например, три отдельных кластера) алгоритм группирования с пространственным ограничением может усложниться. Сначала алгоритм определяет, существуют ли разъединенные группы. Если число таких групп больше значения Число групп, инструмент не сможет выполнить вычисления и отобразит соответствующее сообщение об ошибке. Если число разъединенных групп совпадает со значением параметра Число групп, только пространственная конфигурация объектов определяет результаты группировки, как показано на рисунке (A) ниже. Если указанное Число групп больше числа разъединенных групп, то группирование начинается с уже определенных групп. Например, если число разъединенных групп равно трем, а значение параметра Число групп равно 4, одна из этих трех групп будет разделена, чтобы создать четвертую группу, как показано на рисунке (B) ниже.
-
В некоторых случаях инструмент Анализ группирования не сможет выполнить наложенные пространственные ограничения, а некоторые объекты не будут включены ни в одну группу (значение SS_GROUP будет равно -9999 с нулевым отображением). Это происходит при наличии объектов, у которых нет соседей. Чтобы избежать этого, используйте опцию K_NEAREST_NEIGHBORS, которая гарантирует, что у всех объектов будут соседи. Увеличение значения параметра Число соседей поможет устранить проблемы с разъединенными группами.
-
Хотя существует тенденция для включения максимально возможного числа полей анализа, при использовании этого инструмента лучше начать с одной переменной. Результаты намного легче интерпретировать при меньшем числе полей анализа. Также легче определить, какие переменные лучше разделяют группы при меньшем количестве полей.
-
При выборе значения NO_SPATIAL_CONSTRAINT для параметра Пространственные ограничения у вас будет три опции для метода инициализации: FIND_SEED_LOCATIONS, GET_SEEDS_FROM_FIELD и USE_RANDOM_SEEDS. Начальные значения – это объекты, используемые для создания групп. Если, например, ввести значение 3 для параметра Число групп, анализ начнется с трех начальных объектов. Опция по умолчанию, FIND_SEED_LOCATIONS, случайным образом выбирает первое начальное значение, а последующие выбранные начальные значения представляют объекты, которые находятся вдалеке друг от друга в пространстве данных. Выбор начальных значений, которые формируют разные области пространства данных, улучшает производительность. Иногда вы знаете, что определенные объекты отражают характеристики, которые должны быть представлены разными группами. В этом случае создайте поле начального значения, чтобы идентифицировать эти объекты. Создаваемое поле начального значения должно содержать нули для всех объектов, кроме изначальных, для которых должно быть указано значение 1. Затем вы выбираете значение GET_SEEDS_FROM_FIELD для параметра Метод инициализации. Если вы хотите выполнить анализ чувствительности, чтобы узнать, какие объекты всегда будут в одной группе, выберите опцию USE_RANDOM_SEEDS для параметра Метод инициализации. Для этой опции все начальные объекты выбираются случайным образом.
-
Любые значения 1 в поле инициализации будут интерпретироваться как начальные. Если начальных объектов больше значения Число групп, начальные объекты выбираются случайным образом из объектов, заданных полем инициализации. Если число начальных объектов меньше значения Число групп, выбираются дополнительные начальные объекты так, чтобы они были далеко (в пространстве данных) из объектов, заданных полем инициализации.
-
Иногда вы знаете, что Число групп лучше всего подходит для ваших данных. Если это не так, можно попробовать использовать три разных числа групп, отмечая, какие значения обеспечивают наилучшую дифференциацию групп. Если отметить опцию Оценить оптимальное число групп, псевдо-F-статистика вычисляется для решений группировки с группами 2-15. Если других критериев для параметра Число групп нет, используйте число, связанное с одним из самых больших значений псевдо-F-статистики. Самые большие значения псевдо-F-статистики указывают решения, которые улучшают поиск сходств внутри групп и отличий между группами. При указании дополнительного Выходного файла отчета, этот PDF-отчет будет содержать график со значениями F-статистики для решений с группами 2-15.
-
В зависимости от указанного значения в параметре Число групп, инструмент остановится, когда деление на группы примет случайный характер. Предположим, в ваших данных, содержащих одно поле анализа, можно выделить три пространственных кластера для полигонов. Если все объекты в кластере содержат одно значение в поле анализа, любые дополнительные кластеры, создаваемые инструментом после выявления трех основных, были бы случайны. Даже если вы указали более 3-х групп для этой ситуации, инструмент все равно создаст только 3 группы. Хотя если в поле анализа будет выявлена вариабельность значений для какой-либо группы, деление на дополнительные группы будет продолжено.
-
При включении пространственного или пространственно-временного ограничения в анализ, псевдо-F-статистика доступна для сравнения (если входные объекты и поля анализа не изменяются). Затем вы можете использовать эти значения F-статистики, чтобы определить не только оптимальное число групп, но и выбрать наиболее эффективную опцию для параметров Пространственные ограничения, Метод определения расстояния и Число соседей.
-
Алгоритм K-средних, используемый для разбиения объектов по группам, когда выбрана опция NO_SPATIAL_CONSTRAINT для параметра Пространственные ограничения , а опция FIND_SEED_LOCATIONS или USE_RANDOM_SEEDS выбрана для параметра Метод инициализации,, применяет эвристические данные и может возвращать разные результаты при каждом запуске инструмента (даже при использовании одинаковых данных и параметров инструмента). Это происходит, потому что случайный компонент применяется для поиска начальных объектов, используемых для создания групп.
-
При наложении пространственного ограничения в алгоритме нет случайного компонента, поэтому одно значение псевдо-F-статистики может быть вычислено для групп 2-15, а самые большие значения F-статистики можно использовать для определения оптимального количества групп. Так как опция NO_SPATIAL_CONSTRAINT – это эвристический метод, определение оптимального числа групп – более сложный процесс. F-статистика может отличаться при каждом запуске инструментов из-за разных начальных объектов. Если в данных есть четкая закономерность, решения при последовательном запуске инструмента будут более согласованными. Следовательно, для определения оптимального числа групп, если выбрана опция NO_SPATIAL_CONSTRAINT, инструмент выполняет анализ группирования 10 раз для 2, 3, 4 и до 15 групп. Сведения о распределении этих 10 решений затем записываются в отчет (мин., макс., среднее и медиана), чтобы помочь в определении оптимального числа групп для анализа.
-
Инструмент Анализ группирования возвращает три выходных значения для их потенциального использования в пользовательской модели или скриптах. Это псевдо-F-статистика для параметра Число групп (Output_FStat), самая большая псевдо F-статистика для групп с 2 по 15 (Max_FStat), и число групп, связанных с самым большим значением псевдо-F-статистики (Max_FStat_Group). Если вам не нужно выбирать параметр Оценить оптимальное число групп, все образованные выходные переменные получают значение None.
-
Число групп, назначенных набору объектов, может измениться после запуска инструмента. Например, предположим, что вы разбиваете объекты на две группы на основе переменной дохода. При первом выполнении анализа вы можете увидеть объекты с высоким доходом в группе 2, а объекты с низким доходом – в группе 1. При втором выполнении того же анализа объекты с высоким доходом будут отмечены как группа 1. Вы также можете увидеть, что некоторые объекты со средним доходом переходят из одной группы в другую при указании опции NO_SPATIAL_CONSTRAINT.
-
Хотя вы можете создать большое число разных групп, в большинстве сценариев, вы будете разбивать объекты всего на несколько групп. Так как графики и карты трудно интерпретировать при наличии множества групп, отчеты не создаются при вводе значения больше 15 для параметра Число групп или выборе больше 15 полей анализа. Однако вы можете увеличить это ограничение до максимального числа групп.
-
Этот инструмент при необходимости создает PDF-файл отчета со сводным представлением результатов. PDF-файл не отображается автоматически в окне Каталога. Если необходимо отобразить файлы PDF в Каталоге, выберите опцию меню Настройка, щелкните Опции ArcCatalog и выберите вкладку Типы файлов. Нажмите кнопку Новый тип и укажите PDF, как показано ниже, для параметра Расширение файла.
-
На компьютерах с языковыми пакетами ArcGIS для арабского языка и других языков, которые читаются справа налево, в PDF-файле выходного отчета может отсутствовать текст или элементы форматирования. Эти проблемы описаны в этой статье.
-
Дополнительные сведения о выходном файле отчета см. в разделе Более подробно о работе инструмента Анализ группирования .
Синтаксис
arcpy.stats.GroupingAnalysis(Input_Features, Unique_ID_Field, Output_Feature_Class, Number_of_Groups, Analysis_Fields, Spatial_Constraints, {Distance_Method}, {Number_of_Neighbors}, {Weights_Matrix_File}, {Initialization_Method}, {Initialization_Field}, {Output_Report_File}, {Evaluate_Optimal_Number_of_Groups})
Параметр | Объяснение | Тип данных |
Input_Features | Класс или слой объектов, для которого требуется создать группы. | Feature Layer |
Unique_ID_Field | Целочисленное поле, содержащее по уникальному значению для каждого объекта во входном классе объектов. Если у вас нет поля Уникальный ID, вы можете создать его путем добавления нового целого поля в вашу таблицу классов объектов и вычислив значения полей, которые были бы равны полям FID или OBJECTID. | Field |
Output_Feature_Class | Новый выходной класс объектов, содержащий все объекты, указанные поля анализа и поле, указывающее, какой группе принадлежит объект. | Feature Class |
Number_of_Groups | Число создаваемых групп. Параметр Выходной отчет будет отключен, если групп больше 15. | Long |
Analysis_Fields [analysis_field,...] | Список полей, которые будут использоваться, чтобы различать группы друг от друга. Параметр Выходной отчет будет отключен, если полей больше 15. | Field |
Spatial_Constraints | Определяет, как пространственные отношения между объектами должны ограничивать создаваемые группы.
| String |
Distance_Method (Дополнительный) | Определяет, как рассчитываются расстояния от одного объекта до соседнего объекта.
| String |
Number_of_Neighbors (Дополнительный) | Этот параметр может указываться во всех случаях, когда для параметра Spatial_Constraints задается значение K_NEAREST_NEIGHBORS или один из методов примыкания (CONTIGUITY_EDGES_ONLY или CONTIGUITY_EDGES_CORNERS). Число соседей по умолчанию равно 8 и не может быть меньше 2 для K_NEAREST_NEIGHBORS. Это значение отражает точное число кандидатов в ближайшие соседи, рассматриваемое при построении групп. Объект не будет включен в группу, если один из других объектов в этой группе не является ближайшим K соседом. Значения по умолчанию для CONTIGUITY_EDGES_ONLY и CONTIGUITY_EDGES_CORNERS равны 0. Для методов примыкания это значение отражает минимальное число кандидатов в соседи. Дополнительные соседние объекты, в случае, если соседей выявляется меньше, чем указано в параметре Number_of_Neighbors, определяются на основании близости центроидов объектов. | Long |
Weights_Matrix_File (Дополнительный) | Путь к файлу, который содержит пространственные веса, которые определяют пространственные отношения между объектами. | File |
Initialization_Method (Дополнительный) | Указывает, как получаются начальные значения, если для параметра Spatial_Constraint задано значение NO_SPATIAL_CONSTRAINT. Начальные значения используются для создания групп. Если требуется три группы, анализ начнется с трех начальных объектов.
| String |
Initialization_Field (Дополнительный) | Числовое поле, определяющее начальные объекты. Объекты, для которых это поле имеет значение 1, используются для создания групп. | Field |
Output_Report_File (Дополнительный) | Полный путь к создаваемому PDF-файлу отчета со сводкой характеристик групп. Данный отчет содержит ряд графиков, помогающих сравнить характеристики каждой группы. Создание файла отчета может значительно увеличить время обработки. | File |
Evaluate_Optimal_Number_of_Groups (Дополнительный) |
| Boolean |
Производные выходные данные
Имя | Объяснение | Тип данных |
Output_FStat | Псевдо-F-статистика. | Double |
Max_FStat_Group | Число групп, связанных с наибольшим значением псевдо-F-статистики | Double |
Max_FStat | Наибольшее псевдо-F-статистики для группы с 2 по 15. | Double |
Пример кода
GroupingAnalysis, пример 1 (окно Python)
Следующий скрипт окна Python демонстрирует, как использовать инструмент GroupingAnalysis.
import arcpy
import arcpy.stats as SS
arcpy.env.workspace = r"C:\GA"
SS.GroupingAnalysis("Dist_Vandalism.shp", "TARGET_FID", "outGSF.shp", "4",
"Join_Count;TOTPOP_CY;VACANT_CY;UNEMP_CY",
"NO_SPATIAL_CONSRAINT", "EUCLIDEAN", "", "",
"FIND_SEED_LOCATIONS", "", "outGSF.pdf", "DO_NOT_EVALUATE")
GroupingAnalysis, пример 2 (автономный скрипт)
Следующий автономный Python скрипт демонстрирует, как использовать инструмент GroupingAnalysis.
# Grouping Analysis of Vandalism data in a metropolitan area
# using the Grouping Analysis Tool
# Import system modules
import arcpy
import arcpy.stats as SS
# Set geoprocessor object property to overwrite existing output, by default
arcpy.env.overwriteOutput = True
try:
# Set the current workspace (to avoid having to specify the full path to
# the feature classes each time)
arcpy.env.workspace = r"C:\GA"
# Join the 911 Call Point feature class to the Block Group Polygon feature class
# Process: Spatial Join
fieldMappings = arcpy.FieldMappings()
fieldMappings.addTable("ReportingDistricts.shp")
fieldMappings.addTable("Vandalism2006.shp")
sj = arcpy.SpatialJoin_analysis("ReportingDistricts.shp", "Vandalism2006.shp", "Dist_Vand.shp",
"JOIN_ONE_TO_ONE",
"KEEP_ALL",
fieldMappings,
"COMPLETELY_CONTAINS")
# Use Grouping Analysis tool to create groups based on different variables
# or analysis fields
# Process: Group Similar Features
ga = SS.GroupingAnalysis("Dist_Vand.shp", "TARGET_FID", "outGSF.shp", "4",
"Join_Count;TOTPOP_CY;VACANT_CY;UNEMP_CY",
"NO_SPATIAL_CONSRAINT", "EUCLIDEAN", "", "", "FIND_SEED_LOCATIONS", "",
"outGSF.pdf", "DO_NOT_EVALUATE")
# Use Summary Statistic tool to get the Mean of variables used to group
# Process: Summary Statistics
SumStat = arcpy.Statistics_analysis("outGSF.shp", "outSS", "Join_Count MEAN; \
VACANT_CY MEAN;TOTPOP_CY MEAN;UNEMP_CY MEAN",
"GSF_GROUP")
except arcpy.ExecuteError:
# If an error occurred when running the tool, print out the error message.
print(arcpy.GetMessages())
Параметры среды
- Выходная система координат
- Географические преобразования
- Текущая рабочая область
- Временная рабочая область
- Полноценные имена полей
- Выходные данные имеют M-значения
- Разрешение M
- Допуск M
- Выходные данные имеют Z-значения
- Выходное значение Z по умолчанию
- Разрешение Z
- Допуск Z
- Разрешение XY
- Допуск XY
- Генератор случайных чисел
Информация о лицензиях
- Basic: Да
- Standard: Да
- Advanced: Да
Связанные разделы
- Моделирование пространственных отношений
- Что такое z-оценка? Что такое p-значение?
- Пространственные веса
- Обзор группы инструментов Картографирование кластеров
- Пространственная автокорреляция (Глобальный индекс Морана I)
- Как работает инструмент Анализ группирования
- Поиск сходства
- Направленное распределение (эллипс стандартного отклонения)