Анализ группирования—Справка

Краткая информация
Иллюстрация
Использование
Синтаксис
Пример кода
Параметры среды
Информация о лицензиях

Краткая информация

Группирует объекты на основе атрибутов объектов и дополнительных пространственных/временных ограничений.

Более подробно о работе инструмента Анализ группирования

Иллюстрация

Использование

Этот инструмент создает класс выходных объектов с полями, используемыми в анализе, а также целочисленным полем SS_GROUP. Отображение по умолчанию выполняется на основании значений поля SS_GROUP и показывает, к какой группе принадлежит каждый объект. Если вы указали, что требуется три группы, каждая запись будет содержать значение 1, 2 или 3 в поле SS_GROUP. Если NO_SPATIAL_CONSTRAINT выбрано для параметра Пространственные ограничения (Spatial Constraints), выходной класс объектов также будет содержать новое двоичное поле, которое называется SS_SEED. Поле SS_SEED указывает, какие объекты использовались как начальные точки для подбора групп. Число ненулевых значений в поле SS_SEED будет совпадать с указанным значением для параметра Число групп (Number of Groups).
Этот инструмент при необходимости создает PDF-файл отчета при указании пути в параметре Выходной файл отчета (Output Report File). Данный отчет содержит различные таблицы и графики, помогающие понять характеристики выявленных групп. Доступ к PDF-файлу отчета можно получить в окне Результаты.

Примечание:

Создание файла отчета может значительно увеличить время обработки. Затем инструмент Анализ группирования создаст выходной класс объектов с отображением участников групп. PDF-файл отчета не создается, если вы укажете более 15 групп или более 15 переменных.
Когда Входной класс объектов (Input Feature Class) не имеет проекции (т.е. когда координаты заданы в градусах, минутах и секундах), или когда в качестве выходной системы координат (output coordinate system) используется Географическая система координат (Geographic Coordinate System), расстояния в этих случаях будут рассчитываться с помощью хордовых измерений. Измерения хордовых расстояний применяются постольку, поскольку они могут быть быстро вычислены и дают очень хорошие оценки истинных геодезических расстояний, по крайней мере для точек, расстояние между которыми в пределах порядка тридцати градусов. Хордовые расстояния основаны на эллипосиде вращения. Если взять две любые точки на поверхности Земли, то хордовым расстоянием между ними будет длина прямой линии, проходящей через трехмерное тело Земли и соединяющей эти две точки. Хордовые расстояния выражаются в метрах.
Внимание:
Следует обязательно производить проецирование ваших данных, если область исследования превышает 30 градусов. Хордовые расстояния не обеспечивают точных оценок геодезических расстояний, превышающих 30 градусов.
Поле уникального ID позволяет связать записи в выходном классе объектов с исходным входным классом объектов. Следовательно, значение поля уникального ID должно быть уникально для каждого объекта и, как правило, должно хранится в постоянном поле, которое остается с классом объектов. Если у вас нет поля уникального ID в наборе данных, вы можете легко создать его путем добавления нового целого поля в вашу таблицу класса объектов и рассчитать значения поля, которое должно соответствовать полям FID/OID. Вы не можете непосредственно использовать поля FID/OID для параметра поля уникального ID.
Поля анализа должны быть числовыми и должны содержать разные значения. Поля без вариации (т. е. с одним значением для каждой записи) будут удалены из анализа, но будут включены в выходной класс объектов. Поля категорий можно использовать с инструментом Анализ группирования, если они представлены как бинарные переменные (значение один для всех объектов категории и ноль для всех других объектов).
Инструмент Анализ группирования создает группы с пространственными или временными ограничениями, или без них. Для некоторых приложений не требуется применять к создаваемым группам требования примыкания или другие требования близости. В этих случаях для параметра Пространственные ограничения (Spatial Constraints) задается значение NO_SPATIAL_CONSTRAINT.
Для определенного анализа группы должны быть пространственно непрерывными. Опции непрерывности включены для полигональных классов объектов и указывают, что объекты могут входить в одну группу, только если у них есть общее ребро (CONTIGUITY_EDGES_ONLY) или общее ребро или вершина (CONTIGUITY_EDGES_CORNERS) с другим участником группы.
Опции DELAUNAY_TRIANGULATION и K_NEAREST_NEIGHBORSподходят для точечных и полигональных объектов, если требуется убедиться, что все члены группы являются проксимальными. Эти опции указывают, что объект включается в группу, только если хотя бы один другой объект является естественным соседом (триангуляция Делоне) или K ближайшим соседом. K – это учитываемое число соседей, которое указывается с помощью параметра Количество соседей (Number of Neighbors).
Чтобы создать группы и с пространственными, и с временными ограничениями, используйте инструмент Построить матрицу пространственных весов, чтобы сначала создать файл матрицы пространственных весов (.swm), определяющий пространственно-временные отношения ваших объектов. Затем запустите инструмент Анализ группирования, задав для параметра Пространственные ограничения значение GET_SPATIAL_WEIGHTS_FROM_FILE, а для параметра Файл матрицы пространственных весов указав созданный SWM-файл.
Дополнительные пространственные ограничения, такие как фиксированное расстояние, можно наложить, создав с помощью инструмента Построить матрицу пространственных весов SWM-файл, а затем указав путь к этому файлу в параметре Файл матрицы пространственных весов.
Примечание:
Хотя можно создать SWM-файл для определения пространственных ограничений, фактически веса не применяются. SWM-файл определяет, какие объекты являются примыкающими или близкими. Наложение пространственного ограничения определяет, какие объекты могут входить в одну группу. Если выбрать значение CONTIGUITY_EDGES_ONLY, например, у всех объектов в группе будет по крайней мере одно общее ребро с другим объектом из этой группы. Так полученные группы будут пространственно непрерывными.
При определении пространственного ограничения можно гарантированно получить компактные, непрерывные или близкие группы. Включение пространственных переменных в ваш список полей анализа также может повлиять на эти атрибуты группы. К примерам пространственных переменных можно отнести расстояние до скоростных автострад, доступность вакансий, близость магазинов, измерения связности и даже координаты (X, Y). Включение переменных, представляющих время, день недели или временное расстояние, позволяет обеспечить временную компактность членов группы.
При наличии четкого пространственного шаблона в ваших объектах (например, три отдельных кластера) алгоритм группирования с пространственным ограничением может усложниться. Сначала алгоритм определяет, существуют ли разъединенные группы. Если число таких групп больше значения Количество групп (Number of Groups), инструмент не сможет выполнить вычисления и отобразит соответствующее сообщение об ошибке. Если число разъединенных групп совпадает со значением параметра Количество групп (Number of Groups), только пространственная конфигурация объектов определяет результаты группировки, как показано на рисунке (A) ниже. Если указанное Количество групп больше числа разъединенных групп, то группирование начинается с уже определенных групп. Например, если число разъединенных групп равно трем, а значение параметра Количество групп равно 4, одна из этих трех групп будет разделена, чтобы создать четвертую группу, как показано на рисунке (B) ниже.
В некоторых случаях инструмент Анализ группирования не сможет выполнить наложенные пространственные ограничения, а некоторые объекты не будут включены ни в одну группу (значение SS_GROUP будет равно -9999 с нулевым отображением). Это происходит при наличии объектов, у которых нет соседей. Чтобы избежать этого, используйте опцию K_NEAREST_NEIGHBORS, которая гарантирует, что у всех объектов будут соседи. Увеличение значения параметра Количество соседей поможет устранить проблемы с разъединенными группами.
Хотя существует тенденция для включения максимально возможного числа полей анализа, при использовании этого инструмента лучше начать с одной переменной. Результаты намного легче интерпретировать при меньшем числе полей анализа. Также легче определить, какие переменные лучше разделяют группы при меньшем количестве полей.
При выборе значения NO_SPATIAL_CONSTRAINT для параметра Пространственные ограничения у вас будет три опции для метода инициализации: FIND_SEED_LOCATIONS, GET_SEEDS_FROM_FIELD и USE_RANDOM_SEEDS. Начальные значения – это объекты, используемые для создания групп. Если, например, ввести значение 3 для параметра Количество групп (Number of Groups), анализ начнется с трех начальных объектов. Опция по умолчанию, FIND_SEED_LOCATIONS, случайным образом выбирает первое начальное значение, а последующие выбранные начальные значения представляют объекты, которые находятся вдалеке друг от друга в пространстве данных. Выбор начальных значений, которые формируют разные области пространства данных, улучшает производительность. Иногда вы знаете, что определенные объекты отражают характеристики, которые должны быть представлены разными группами. В этом случае создайте поле начального значения, чтобы идентифицировать эти объекты. Создаваемое поле начального значения должно содержать нули для всех объектов, кроме изначальных, для которых должно быть указано значение 1. Затем вы выбираете значение GET_SEEDS_FROM_FIELD для параметра Метод инициализации. Если вы хотите выполнить анализ чувствительности, чтобы узнать, какие объекты всегда будут в одной группе, выберите опцию USE_RANDOM_SEEDS для параметра Метод инициализации. Для этой опции все начальные объекты выбираются случайным образом.
Любые значения 1 в поле инициализации будут интерпретироваться как начальные. Если начальных объектов больше значения Количество групп (Number of Groups), начальные объекты выбираются случайным образом из объектов, заданных полем инициализации. Если число начальных объектов меньше значения Количество групп, выбираются дополнительные начальные объекты так, чтобы они были далеко (в пространстве данных) из объектов, заданных полем инициализации.
Иногда вы знаете, что Количество групп лучше всего подходит для ваших данных. Если это не так, можно попробовать использовать три разных числа групп, отмечая, какие значения обеспечивают наилучшую дифференциацию групп. Если отметить опцию Оценить оптимальное число групп (Evaluate Optimal Number of Groups), псевдо-F-статистика вычисляется для решений группировки с группами 2-15. Если других критериев для параметра Количество групп нет, используйте число, связанное с одним из самых больших значений псевдо-F-статистики. Самые большие значения псевдо-F-статистики указывают решения, которые улучшают поиск сходств внутри групп и отличий между группами. При указании дополнительного Выходного файла отчета, этот PDF-отчет будет содержать график со значениями F-статистики для решений с группами 2-15.
В зависимости от указанного значения в параметре Число групп (Number of Groups), инструмент остановится, когда деление на группы примет случайный характер. Предположим, в ваших данных, содержащих одно поле анализа, можно выделить три пространственных кластера для полигонов. Если все объекты в кластере содержат одно значение в поле анализа, любые дополнительные кластеры, создаваемые инструментом после выявления трех основных, были бы случайны. Даже если вы указали более 3-х групп для этой ситуации, инструмент все равно создаст только 3 группы. Хотя если в поле анализа будет выявлена вариабельность значений для какой-либо группы, деление на дополнительные группы будет продолжено.
Группы не будут формироваться только при условии отсутствии вариабельности значений в поле анализа.
При включении пространственного или пространственно-временного ограничения в анализ, псевдо-F-статистика доступна для сравнения (если входные объекты и поля анализа не изменяются). Затем вы можете использовать эти значения F-статистики, чтобы определить не только оптимальное количество групп, но и выбрать наиболее эффективную опцию для параметров Пространственные ограничения, Метод определения расстояния и Количество соседей.
Алгоритм K-средних, используемый для разбиения объектов по группам, когда выбрана опция NO_SPATIAL_CONSTRAINT для параметра Пространственные ограничения, а опция FIND_SEED_LOCATIONS или USE_RANDOM_SEEDS выбрана для параметра Метод инициализации, применяет эвристические данные и может возвращать разные результаты при каждом запуске инструмента (даже при использовании одинаковых данных и параметров инструмента). Это происходит, потому что случайный компонент применяется для поиска начальных объектов, используемых для создания групп.
При наложении пространственного ограничения в алгоритме нет случайного компонента, поэтому одно значение псевдо-F-статистики может быть вычислено для групп 2-15, а самые большие значения F-статистики можно использовать для определения оптимального количества групп. Так как опция NO_SPATIAL_CONSTRAINT – это эвристический метод, определение оптимального числа групп – более сложный процесс. F-статистика может отличаться при каждом запуске инструментов из-за разных начальных объектов. Если в данных есть четкая закономерность, решения при последовательном запуске инструмента будут более согласованными. Следовательно, для определения оптимального числа групп, если выбрана опция NO_SPATIAL_CONSTRAINT, инструмент выполняет анализ группирования 10 раз для 2, 3, 4 и до 15 групп. Сведения о распределении этих 10 решений затем записываются в отчет (мин., макс., среднее и медиана), чтобы помочь в определении оптимального числа групп для анализа.
Инструмент Анализ группирования возвращает три выходных значения для их потенциального использования в пользовательской модели или скриптах. Это псевдо-F-статистика для параметра Количество групп (Number of Groups) (Output_FStat), самая большая псевдо F-статистика для групп с 2 по 15 (Max_FStat), и число групп, связанных с самым большим значением псевдо-F-статистики (Max_FStat_Group). Если вам не нужно выбирать параметр Оценить оптимальное число групп (Evaluate Optimal Number of Groups), все образованные выходные переменные получают значение Нет (None).
Число групп, назначенных набору объектов, может измениться после запуска инструмента. Например, предположим, что вы разбиваете объекты на две группы на основе переменной дохода. При первом выполнении анализа вы можете увидеть объекты с высоким доходом в группе 2, а объекты с низким доходом – в группе 1. При втором выполнении того же анализа объекты с высоким доходом будут отмечены как группа 1. Вы также можете увидеть, что некоторые объекты со средним доходом переходят из одной группы в другую при указании опции NO_SPATIAL_CONSTRAINT.
Хотя вы можете создать большое число разных групп, в большинстве сценариев, вы будете разбивать объекты всего на несколько групп. Так как графики и карты трудно интерпретировать при наличии множества групп, отчеты не создаются при вводе значения больше 15 для параметра Количество групп (Number of Groups) или выборе больше 15 полей анализа. Однако вы можете увеличить это ограничение до максимального числа групп.
Более подробно:
Так как у вас есть исходный код на языке Python для инструмента Анализ группирования, вы можете переопределить ограничение в 15 переменных и 15 групп. Это верхнее ограничение задается двумя переменными в файле скрипта Partition.py и в коде проверки инструмента в наборе инструментов Пространственная статистика:
maxNumGroups = 15 maxNumVars = 15
Этот инструмент при необходимости создает PDF-файл отчета со сводным представлением результатов. PDF-файл не отображается автоматически в окне Каталога. Если вы хотите, чтобы PDF-файлы отображались в окне Каталога, откройте приложение ArcCatalog, выберите опцию меню Настройка (Customize), щелкните Опции ArcCatalog (ArcCatalog Options) и выберите закладку Типы файлов (File Types). Нажмите кнопку Новый тип (New Type) и укажите PDF, как показано ниже, для параметра Расширение файла (File Extension).
На компьютерах с языковыми пакетами ArcGIS для китайского или японского языков в Выходном файле отчета (Output Report File) формата PDF может отсутствовать текст или элементы форматирования. Эти проблемы можно исправить, изменив настройки шрифта.
Дополнительные сведения о выходном файле отчета см. в статье Более подробно о работе инструмента Анализ группирования.

Синтаксис

GroupingAnalysis_stats (Input_Features, Unique_ID_Field, Output_Feature_Class, Number_of_Groups, Analysis_Fields, Spatial_Constraints, {Distance_Method}, {Number_of_Neighbors}, {Weights_Matrix_File}, {Initialization_Method}, {Initialization_Field}, {Output_Report_File}, {Evaluate_Optimal_Number_of_Groups})

Параметр	Объяснение	Тип данных
Input_Features	Класс или слой объектов, для которого требуется создать группы.	Feature Layer
Unique_ID_Field	Целое поле, содержащее разное значение для каждого объекта во входном классе объектов. Если у вас нет поля Уникальный ID (Unique ID), вы можете создать его путем добавления нового целого поля в вашу таблицу классов объектов и вычислив значения полей, которые были бы равны полю FID или OBJECTID.	Field
Output_Feature_Class	Новый выходной класс объектов, содержащий все объекты, указанные поля анализа и поле, указывающее, какой группе принадлежит объект.	Feature Class
Number_of_Groups	Число создаваемых групп. Параметр Выходной отчет (Output Report) будет отключен, если групп больше 15.	Long
Analysis_Fields [analysis_field,...]	Список полей, которые будут использоваться, чтобы различать группы друг от друга. Параметр Выходной отчет (Output Report) будет отключен, если полей больше 15.	Field
Spatial_Constraints	Определяет, как пространственные отношения между объектами должны ограничивать создаваемые группы. CONTIGUITY_EDGES_ONLY —Группы с непрерывными полигональными объектами. Только полигоны с общим ребром могут входить в одну группу. CONTIGUITY_EDGES_CORNERS —Группы с непрерывными полигональными объектами. Только полигоны с общим ребром или общей вершиной могут входить в одну группу. DELAUNAY_TRIANGULATION —У объектов в одной группе будет, по крайней мере, один общий естественный сосед с другим объектом из этой группы. Отношения естественной окрестности основаны на триангуляции Делоне. Концептуально, метод триангуляции Делоне создает сеть неперекрывающихся треугольников на основе центроидов объектов. Каждый объект – это узел треугольника, а узлы с общими ребрами считаются соседями. K_NEAREST_NEIGHBORS —Объекты в одной группе будут расположены рядом друг с другом. Каждый объект будет соседом, по крайней мере, для одного другого объекта в группе. Соседские отношения основаны на ближайших K объектах, при этом вы указываете целое число K для параметра Number_of_Neighbors. GET_SPATIAL_WEIGHTS_FROM_FILE —Пространственные и, при необходимости, временные отношения определяются файлом пространственных весов (.swm). Создайте файл матрицы пространственных весов с помощью инструментов Построить матрицу пространственных весов (Generate Spatial Weights Matrix) или Построить матрицу пространственных весов для сети (Generate Network Spatial Weight). NO_SPATIAL_CONSTRAINT —Объекты группируются только с использованием близости в пространстве данных. Объекты не обязательно должны располагаться рядом друг с другом в пространстве или времени, чтобы попасть в одну группу.	String
Distance_Method (Дополнительный)	Определяет, как рассчитываются расстояния от одного объекта до соседнего объекта. EUCLIDEAN —Расстояние по прямой линии между двумя точками (как ворона летает) MANHATTAN —Расстояние между двумя точками, измеренное вдоль осей (городских кварталов); рассчитывается суммированием абсолютных разностей между координатами х и у	String
Number_of_Neighbors (Дополнительный)	Этот параметр может указываться во всех случаях, когда для параметра Spatial_Constraints задается значение K_NEAREST_NEIGHBORS или один из методов примыкания (CONTIGUITY_EDGES_ONLY или CONTIGUITY_EDGES_CORNERS). Число соседей по умолчанию равно 8 и не может быть меньше 2 для K_NEAREST_NEIGHBORS. Это значение отражает точное число кандидатов в ближайшие соседи, рассматриваемое при построении групп. Объект не будет включен в группу, если один из других объектов в этой группе не является ближайшим K соседом. Значения по умолчанию для CONTIGUITY_EDGES_ONLY и CONTIGUITY_EDGES_CORNERS равны 0. Для методов примыкания это значение отражает минимальное число кандидатов в соседи. Дополнительные соседние объекты, в случае, если соседей выявляется меньше, чем указано в параметре Number_of_Neighbors, определяются на основании близости центроидов объектов.	Long
Weights_Matrix_File (Дополнительный)	Путь к файлу, который содержит пространственные веса, которые определяют пространственные отношения между объектами.	File
Initialization_Method (Дополнительный)	Указывает, как получаются начальные значения, если для параметра Spatial_Constraint задано значение NO_SPATIAL_CONSTRAINT. Начальные значения используются для создания групп. Если требуется три группы, анализ начнется с трех начальных объектов. FIND_SEED_LOCATIONS —Начальные объекты выбираются для оптимизации производительности. GET_SEEDS_FROM_FIELD —Ненулевые записи в поле инициализации будут использоваться как начальные точки для наращивания групп. USE_RANDOM_SEEDS —Начальные объекты выбираются случайным образом.	String
Initialization_Field (Дополнительный)	Числовое поле, определяющее начальные объекты. Объекты, для которых это поле имеет значение 1, используются для создания групп.	Field
Output_Report_File (Дополнительный)	Полный путь к создаваемому PDF-файлу отчета со сводкой характеристик групп. Данный отчет содержит ряд графиков, помогающих сравнить характеристики каждой группы. Создание файла отчета может значительно увеличить время обработки.	File
Evaluate_Optimal_Number_of_Groups (Дополнительный)	EVALUATE —Оцениваются группы 2-15. DO_NOT_EVALUATE —Оценка числа групп не выполняется. Это значение используется по умолчанию.	Boolean

Пример кода

GroupingAnalysis. Пример 1. (окно Python)

Следующий скрипт в окне Python демонстрирует, как использовать инструмент GroupingAnalysis.

import arcpy
import arcpy.stats as SS
arcpy.env.workspace = r"C:\GA"
SS.GroupingAnalysis("Dist_Vandalism.shp", "TARGET_FID", "outGSF.shp", "4",
                    "Join_Count;TOTPOP_CY;VACANT_CY;UNEMP_CY",
                    "NO_SPATIAL_CONSRAINT", "EUCLIDEAN", "", "", "FIND_SEED_LOCATIONS", "",
                    "outGSF.pdf", "DO_NOT_EVALUATE")

GroupingAnalysis. Пример 2. (автономный скрипт Python)

Следующий автономный скрипт Python демонстрирует, как использовать инструмент GroupingAnalysis.

# Grouping Analysis of Vandalism data in a metropolitan area
# using the Grouping Analysis Tool

# Import system modules
import arcpy, os
import arcpy.stats as SS

# Set geoprocessor object property to overwrite existing output, by default
arcpy.gp.overwriteOutput = True

try:
    # Set the current workspace (to avoid having to specify the full path to
    # the feature classes each time)
    arcpy.env.workspace = r"C:\GA"

    # Join the 911 Call Point feature class to the Block Group Polygon feature class
    # Process: Spatial Join
    fieldMappings = arcpy.FieldMappings()
    fieldMappings.addTable("ReportingDistricts.shp")
    fieldMappings.addTable("Vandalism2006.shp")

    sj = arcpy.SpatialJoin_analysis("ReportingDistricts.shp", "Vandalism2006.shp", "Dist_Vand.shp",
                               "JOIN_ONE_TO_ONE",
                               "KEEP_ALL",
                               fieldMappings,
                               "COMPLETELY_CONTAINS", "", "")
    
    # Use Grouping Analysis tool to create groups based on different variables or analysis fields
    # Process: Group Similar Features  
    ga = SS.GroupingAnalysis("Dist_Vand.shp", "TARGET_FID", "outGSF.shp", "4",
                                       "Join_Count;TOTPOP_CY;VACANT_CY;UNEMP_CY",
                                       "NO_SPATIAL_CONSRAINT", "EUCLIDEAN", "", "", "FIND_SEED_LOCATIONS", "",
                                       "outGSF.pdf", "DO_NOT_EVALUATE")
    
    # Use Summary Statistic tool to get the Mean of variables used to group
    # Process: Summary Statistics
    SumStat = arcpy.Statistics_analysis("outGSF.shp", "outSS", "Join_Count MEAN; \
                               VACANT_CY MEAN;TOTPOP_CY MEAN;UNEMP_CY MEAN", 
                                       "GSF_GROUP")

except:
    # If an error occurred when running the tool, print out the error message.
    print(arcpy.GetMessages())

Параметры среды

Выходная система координат (Output Coordinate System)
Примечание:
До начала анализа геометрия пространственных объектов проецируется в Выходную систему координат. Во всех математических вычислениях учитывается пространственная привязка Выходной системы координат. Если выходная система координат выражена в градусах, минутах и секундах, то геодезические расстояния рассчитываются с помощью хордовых расстояний.
Географические преобразования (Geographic Transformations)
Текущая рабочая область (Current Workspace)
Временная рабочая область (Scratch Workspace)
Стандартизированные имена полей (Qualified Field Names)
Выходные данные содержат значения M (Output has M values)
Разрешение M (M Resolution)
Допуск M (M Tolerance)
Выходные данные содержат Z значения (Output has Z values)
Выходное значение Z по умолчанию (Default Output Z Value)
Разрешение Z (Z Resolution)
Допуск Z (Z Tolerance)
Разрешение XY (XY Resolution)
Допуск XY (XY Tolerance)
Генератор случайных чисел (Random number generator)

Информация о лицензиях

ArcGIS Desktop Basic: Да
ArcGIS Desktop Standard: Да
ArcGIS Desktop Advanced: Да