В этом документе содержится дополнительная информация о параметрах инструментов, а также описываются основные термины и понятия, важные для анализа данных с помощью Инструментов пространственной статистики. Используйте этот документ как справочник, когда вам потребуется дополнительная информация о параметрах инструмента.
Концептуализация пространственных отношений
Важное отличие между пространственной и традиционной (пространственной или непространственной) статистикой состоит в том, что пространственная статистика интегрирует пространство и пространственные отношения непосредственно в вычисления. Следовательно, многие инструменты из набора пространственной статистики требуют, чтобы значение параметра Концептуализация пространственных отношений (Conceptualization of Spatial Relationships) было выбрано до выполнения анализа. Общая концептуальная модель (концептуализация) включает обратное расстояние, время в пути, фиксированное расстояние, K ближайших соседей и смежность. Концептуальная модель (концептуализация) пространственных отношений, которую вы используете, зависит от того, что именно вы измеряете. Если вы измеряете кластеризацию отдельных видов размножающихся семенами растений, вероятно, обратное расстояние подходит лучше всего. Однако, если вы оцениваете географическое распределение жителей пригородов, приезжающих на работу в город, время пути и стоимость пути будут лучше всего описывать пространственные отношения. Для некоторых видов анализа, пространство и время могут иметь меньшее значение, чем абстрактные концепции, такие как знакомство с чем-либо (чем более знакомо что-либо, тем большей функциональностью оно обладает) или пространственное взаимодействие (например, между Нью-Йорком и Лос-Анджелесом совершается значительно больше телефонных звонков, чем между Нью-Йорком и небольшим городом рядом с ним, таким как Покипси – можно предположить, что Лос-Анджелес и Нью-Йорк функционально ближе).
Инструмент Анализ группирования (Grouping Analysis) содержит параметр Пространственные ограничения (Spatial Constraints), и хотя опции параметры аналогичны описанным для параметра Концептуализация пространственных взаимоотношений (Conceptualization of Spatial Relationships), они используются по-разному. При наложении пространственного ограничения, только объекты с хотя бы одним соседом (что также определяется близостью, отношениями ближайшей окрестности или методами триангуляции) могут входить в одну группу. Дополнительные сведения и примеры см. в разделе Как работает инструмент Анализ группирования.
Опции параметра Концептуализация пространственных отношений описываются ниже. Выбранные вами опции определяют взаимоотношения в окрестностях для инструментов, которые оценивают каждый пространственный объект в контексте окрестных объектов. К таким инструментам относятся Пространственная автокорреляция (глобальный индекс Морана I), Анализ горячих точек (Getis-Ord Gi*) и Анализ кластеров и выбросов (Anselin локальный индекс Морана I). Обратите внимание, что некоторые из этих опций доступны только, если вы используете инструменты Построить матрицу пространственных весов (Generate Spatial Weights Matrix) или Построить матрицу пространственных весов для сети (Generate Network Spatial Weights).
Обратное расстояние, обратное расстояние в квадрате (сопротивление)
При использовании опций обратного расстояния, концептуальная модель (концептуализация) пространственных отношений зависит от сопротивления, или затухания в зависимости от расстояния. Все пространственные объекты воздействуют/влияют на другие пространственные объекты, но, с увеличением расстояния, это влияние снижается. В общем случае, если вы используете концептуализацию обратных расстояний, вам потребуется ввести значение Диапазон расстояний или Пороговое расстояние (Distance Band or Threshold Distance) для сокращения количества необходимых вычислений, особенно для больших наборов данных. Если эти значения не указаны, вычисляется пороговое значение по умолчанию. Вы можете ввести все объекты в ближайшую окрестность, задав значение 0 для параметра Диапазон расстояний или пороговое расстояние (Distance Band or Threshold Distance).
Обратное евклидово расстояние подходит для моделирования непрерывных данных, например изменений температуры. Обратное манхэттенское расстояние лучше всего работает, если в анализе участвуют местоположения магазинов или других городских предприятий, в том случае, если данные дорожной сети недоступны. Концептуальная модель при использовании опции Обратные расстояния в квадрате (Distance Squared) не отличатся от модели, использующей обратные расстояния, за исключением случаев, когда уклон острее, и влияния соседей спадают быстрее и только ближайший сосед оказывает наиболее значимое влияние на вычисления для данного объекта.
Диапазон расстояний (сфера влияния)
Для таких инструментов как Анализ горячих точек (Hot Spot Analysis) диапазон фиксированных расстояний выбирается как концептуализация по умолчанию. С помощью опции Диапазон фиксированных расстояний вводится модель "сферы влияния" или "скользящего окна". Каждый пространственный объект анализируется в контексте окружающих его объектов, расположенных на расстоянии, заданном параметром Диапазон расстояний или пороговое расстояние (Distance Band or Threshold Distance). Соседи в пределах заданного расстояния имеют одинаковый вес. Пространственные объекты, находящиеся вне указанного расстояния, не оказывают влияния на вычисления (их вес принимается за 0). Используйте метод Диапазон фиксированных расстояний, если вы хотите оценить статистические параметры данных при определенном (фиксированном) пространственном масштабе. Если вы изучаете закономерности ежедневных поездок в город из пригородов и знаете, что среднее расстояние поездки составляет 15 миль, можно использовать для анализа фиксированное расстояние в 15 миль. В разделе Выбор фиксированного расстояния приведены стратегии, которые помогут определить соответствующий вашему анализу масштаб.
Зона индифферентности
Опция Зона индифферентности параметра Концептуализация пространственных отношений комбинирует модели Обратное расстояние и Диапазон фиксированных расстояний. Пространственные объекты, расположенные в пределах диапазона расстояний или порогового расстояния, включаются в анализ целевого пространственного объекта. После достижения критического расстояния, уровень влияния (вес) быстро уменьшается. Предположим, вы ищите работу и выбираете между офисами, расположенными на расстоянии 5 и 6 миль от дома. В этом случае, расстояние, скорее всего, не будет иметь для вас большого значения. Теперь, предположим, что один офис расположен в 5 милях от дома, а другой – в 20 милях. В этом случае, расстояние становится существенным и не может не учитываться при принятии решения. Используйте этот метод, если вы хотите иметь фиксированный масштаб анализа, но не хотите ограничиваться жесткими рамками окрестных объектов включенных в вычисления для целевого объекта.
Смежность полигонов (первого порядка)
Для классов полигональных объектов можно выбрать опцию CONTIGUITY_EDGES_ONLY (которую иногда называют Rook's Case) или CONTIGUITY_EDGES_CORNERS (которую иногда называют Queen's Case). В рамках метода CONTIGUITY_EDGES_ONLY полигоны, имеющие общее ребро (т. е. совпадающую границу), включаются в вычисления для целевого полигона. Полигоны, не имеющие общих ребер, исключаются из вычислений. В рамках метода CONTIGUITY_EDGES_CORNERS полигоны, имеющие общее ребро и (или) угол, включаются в вычисления для целевого полигона. Если часть двух полигонов пересекается, они считаются соседями и включатся в соответствующие вычисления. Используйте одну из этих концептуальных моделей смежности с объектами-полигонами в том случае, если вы моделируете распространение некоторых типов инфекционных заболеваний или работаете с непрерывными данными, представленными в виде полигонов.
Ближайшая окрестность K
Отношения в окрестности можно также сконструировать так, что каждый пространственный объект будет доступен в пределах пространственного контекста, состоящего из заданного числа ближайших окрестностей. Если K (число окрестностей) равно 8, в вычисления для целевого пространственного объекта будут включены восемь ближайших окрестностей. В тех местах, где плотность пространственных объектов высока, пространственный контекст анализа будет меньше. Соответственно, если плотность объектов невелика, пространственный контекст анализа будет больше. Преимущество этой модели пространственных отношений состоит в том, что для каждого целевого объекта будет задано некоторое количество окрестностей, даже если плотность пространственных объектов в изучаемой области варьирует в широких пределах. Этот метод можно применить, когда вы работаете с инструментом Построить матрицу пространственных весов (Generate Spatial Weights Matrix). Опция K_NEAREST_NEIGHBORS со значением 8 для параметра Количество соседей – это концептуализация по умолчанию, используемая с инструментом Исследовательская регрессия для оценки невязок регрессии.
Триангуляция Делоне (естественная окрестность)
Опция Триангуляция Делоне создает окрестности методом построения треугольников Вороного по точечным объектам или по центроидам пространственных объектов, так, чтобы каждая точка/центроид становилась узлом (вершиной) треугольника. Узлы, соединенные ребрами треугольников, рассматриваются как окрестности. Использование триангуляции Делоне позволяет обеспечить для каждого пространственного объекта наличие хотя бы одной окрестности, даже если в данных присутствуют острова и/или плотность пространственных объектов меняется в широких пределах. Опцию DELAUNAY_TRIANGULATION не следует использовать для наборов данных с совпадающими объектами. Этот метод можно применить, когда вы работаете с инструментом Построить матрицу пространственных весов (Generate Spatial Weights Matrix).
Пространственно-временное окно
С помощью этой опции можно определить отношения объектов как в пространственном (фиксированное расстояние), так и во временном (фиксированный интервал) окне. Эта опция доступна при создании файла матрицы пространственных весов с помощью инструмента Построить матрицу пространственных весов (Generate Spatial Weights Matrix). При выборе опции SPACE_TIME_WINDOW также требуется указать Поле даты/времени, Тип интервала даты/времени (например, HOURS, DAYS или MONTHS) и Значение интервала даты/времени. Значение интервала – целое число. Если вы выбрали опцию HOURS в качестве типа интервала и значение 3 как значение интервала, два объекта будут считаться соседями, если значения в поле Дата/Время расположены в пределах трех часов друг от друга. С такой концептуализацией объекты будут соседями, если они расположены на определенном расстоянии и в пределах заданного временного интервала целевого объекта. В качестве примера можно выбрать опцию SPACE_TIME_WINDOW для параметра Концептуализация пространственных взаимоотношений, если требуется создать файл матрицы пространственных весов для инструмента Hot_Spot_Analysis, чтобы выявить горячие точки в пространстве-времени. Дополнительные сведения, в том числе о визуализации результатов, см. в разделе Пространственно-временной анализ. Имеются также другие возможности для визуализации в 3D пространственно-временного куба netCDF.
Получение пространственных весов из файла (пространственные отношения, заданные пользователем)
Можно создать файл для хранения соседских отношений объектов с помощью инструмента Построить матрицу пространственных весов (Generate Spatial Weights Matrix) или Построить матрицу пространственных весов для сети (Generate Network Spatial Weights). Если вы хотите определить пространственные отношения с учетом времени или стоимости пути, определенных в сетевом наборе данных, создайте файл матрицы пространственных весов с помощью инструмента Построить матрицу пространственных весов для сети, а затем используйте для анализа итоговый SWM-файл. Если пространственные отношения для ваших объектов заданы в таблице, можно использовать инструмент Построить матрицу пространственных весов для конвертации этой таблицы в файл матрицы пространственных весов (.swm). Определенные поля должны включаться в таблицу для использования опции CONVERT_TABLE и создания SWM-файла. Можно указать путь к форматированному текстовому ASCII-файлу, который задает пользовательскую концептуализацию пространственных отношений (например, на основе пространственных взаимодействий).
Выбор концептуализации пространственных отношений: рекомендации
Чем более точно можно смоделировать взаимодействие пространственных объектов в пространстве, тем более точные результаты вы получите. Выбор параметра Определение пространственных взаимоотношений (Conceptualization of Spatial Relationships) должен отражать внутренние отношения между пространственными объектами, которые вы анализируете. Иногда на выбор могут влиять характеристики имеющихся данных.
Методы обратно-взвешенного расстояния (INVERSE_DISTANCE, INVERSE_DISTANCE_SQUARED), например, лучше всего подходят для непрерывных данных или для моделирования процессов, в которых два объекта сближены в пространстве настолько, что с большей вероятностью оказывают влияние друг на друга. При такой пространственной концептуализации, каждый объект является потенциальной окрестностью любого другого объекта, и, при использовании больших наборов данных, количество вычислений может стать значительным. Всегда следует пытаться включить значение Диапазон расстояний или пороговое значение (Distance Band or Threshold Distance) при использовании концептуализации обратно-взвешенного расстояния. Это особенно важно для больших наборов данных. Если вы оставите параметр Диапазон расстояний или пороговое значение (Distance Band or Threshold Distance) пустым, пороговое расстояние будет вычислено автоматически, но оно может оказаться не вполне подходящим расстоянием для вашего анализа. По умолчанию пороговое расстояние равно минимальному расстоянию, которое гарантирует, что для каждого объекта имеется хотя бы одна окрестность.
Метод FIXED_DISTANCE_BAND хорошо работает с точечными данными. Это опция по умолчанию, используемая инструментом Анализ горячих точек (Getis-Ord Gi*). Метод фиксированного диапазона расстояний хорошо работает с полигональными данными, имеющими различные размеры полигонов (большие полигоны по краям изучаемой области и очень маленькие полигоны в центре изучаемой области, например), если вам требуется обеспечить согласованный масштаб анализа. В нижеследующем разделе Выбор фиксированного расстояния приведены стратегии, которые помогут определить значение диапазона расстояний, подходящее для вашего анализа.
Концептуализация ZONE_OF_INDIFFERENCE, хорошо работает при правильно подобранном фиксированном расстоянии, но слишком резкие границы отношений окрестностей мешают точному представлению данных. Имейте в виду, что в модели зоны индифферентности, каждый пространственный объект рассматривается как окрестность другого объекта. Следовательно, эта опция не подходит для больших наборов данных, поскольку указанные значения Диапазона расстояний или порогового расстояния (Distance Band or Threshold Distance) не ограничивают число окрестностей, а только определяют, где интенсивность пространственных отношений начинает снижаться.
Концептуализация смежности полигонов (CONTIGUITY_EDGES_ONLY, CONTIGUITY_EDGES_CORNERS) эффективна когда полигоны имеют одинаковые размеры и однотипное распределение, а пространственные отношения являются функцией близости полигонов (если два полигона имеют общую границу, пространственное взаимодействие между ними возрастает). Если вы выбрали концептуализацию смежности полигонов, почти всегда потребуется выбрать нормализацию ряда (значений) для инструментов, которые имеют параметр Нормализация ряда (Row Standardization).
Опция K_NEAREST_NEIGHBORS эффективна, если вам необходимо задать минимальное количество окрестностей для анализа. Если значения, связанные с пространственными объектами, ассиметричны (не имеют нормального распределения), важно, чтобы каждый объект оценивался в контексте как минимум восьми (или около того) окрестностей. Если распределение данных в изучаемом районе неоднородно, т.е., некоторые пространственные объекты расположены очень далеко от всех остальных объектов, этот метод работает очень хорошо. Заметьте, однако, что пространственный контекст анализа меняется в зависимости от изменения плотности используемых пространственных объектов. Если фиксированный масштаб анализа имеет меньшее значение, чем фиксированное число окрестностей, можно использовать метод K ближайших соседей.
Некоторые аналитики рассматривают DELAUNAY_TRIANGULATION в качестве способа создания естественных окрестностей для набора пространственных объектов. Этот метод является хорошим вариантом, если ваши данные содержат островные полигоны (изолированные полигоны, которые не имеют общих границ с другими полигонами), или в тех случаях, когда пространственные объекты распределены слишком неравномерно. Эту опцию не следует использовать для наборов данных с совпадающими объектами. Так же, как и метод K ближайших соседей, триангуляция Делоне обеспечивает для каждого пространственного объекта наличие минимум одной окрестности, при этом на основе распределения данных определяется количество окрестностей, которое может быть присвоено каждому объекту.
Опция SPACE_TIME_WINDOW позволяет определить отношения объектов как с точки зрения пространственной, так и временной близости. Эта опция используется для определения горячих точек в пространстве-времени или формирования групп, членство в которых определяется близостью в пространстве и времени. Примеры пространственно-временного анализа, а также стратегии для эффективного отображения результатов такого анализа представлены в разделе Пространственно-временной анализ.
Для некоторых приложений пространственные взаимодействия лучше всего моделируются в терминах времени пути или расстояния пути. Если вы моделируете доступность до городских служб, например, или определяете "горячие точки" преступности, наилучшим выбором будет моделирование пространственных отношений в терминах сети. С помощью инструмента Построить матрицу пространственных весов создайте файл матрицы пространственных весов (.swm) до начала анализа, выберите GET_SPATIAL_WEIGHTS_FROM_FILE для значения Концептуализации пространственных отношений, а затем для параметра Файл матрицы весов, назначив полный путь к созданному SWM-файлу.
Если ни одна из опций параметра Концептуализация пространственных взаимоотношений (Conceptualization of Spatial Relationships) не подходит для вашего анализа, можно создать текстовый ASCII-файл или таблицу, содержащие необходимые вам отношения между пространственными объектами, и затем использовать их для построения файла матрицы пространственных весов. Если одна из указанных выше опций соответствует, но не идеально подходит для ваших целей, можно использовать инструмент Построить матрицу пространственных весов для создания базового SWM-файла, а затем изменить файл матрицы пространственных весов.
Выбор значения диапазона фиксированных расстояний
Представьте выбранный диапазон фиксированных расстояний в виде движущегося окна, которое быстро фокусируется на каждом пространственном объекте и рассматривает этот объект в контексте его окрестностей. Следующие правила помогут вам определить соответствующий вашему анализу диапазон расстояний:
- Выбирайте дистанцию на основе знаний о географическом экстенте пространственных процессов, обеспечивающих кластеризацию изучаемого явления. Часто, вы не сможете узнать этого, но, если такая информация доступна, ее следует использовать для выбора значения расстояния. Предположим, например, вы знаете, что среднее расстояние ежедневного пути на работу составляет 15 миль. Для анализа этих данных, лучше использовать диапазон расстояний в 15 миль.
- Используйте достаточно большой диапазон расстояний, чтобы каждый пространственный объект мог иметь как минимум одну окрестность, в противном случае результаты будут недействительными. Если данные распределены неравномерно (не позволяют получить ровную кривую при построении гистограммы), потребуется убедиться, что выбранный диапазон расстояний не является слишком малым (большинство пространственных объектов имеют только одну или две окрестности) или слишком большим (несколько объектов используют в качестве окрестности все остальные пространственные объекты), поскольку это может привести к получению недостоверных z-оценок. Z-оценки будут достоверны (даже при использовании неравномерно распределенных данных) в тех случаях, когда выбран достаточно большой диапазон расстояний, чтобы каждый пространственный объект мог получить несколько (около 8) окрестностей. Даже если ни у одного из объектов нет соседей среди других объектов, проблемы с производительностью и даже потенциальные ограничения памяти могут возникнуть, если создать диапазон расстояний, где у объектов будут тысячи соседей.
- Иногда, если пытаться сделать так, чтобы у всех объектов был хотя бы один сосед, можно получить объекты с тысячами соседей, а это нежелательно. Это может произойти, если некоторые объекты являются пространственными выбросами. Чтобы устранить эту проблему, определите соответствующий диапазон расстояний для всех объектов, кроме выбросов и используйте инструмент Построить матрицу пространственных весов, чтобы создать файл матрицы пространственных весов с использованием этого расстояния. При запуске инструмента Построить матрицу пространственных весов (Generate Spatial Weights Matrix) укажите минимальное число соседей для параметра Количество соседей (Number of Neighbors). Например: предположим, что вы оцениваете доступ к здоровой пище в округе Лос-Анджелеса с использованием данных переписи. Вы знаете, что более 90 процентов населения живут в пяти километрах от магазинов. Если вы проанализируете переписные участки, то вы обнаружите, что расстояние между ними (на основе центроидов районов) в центральном районе составляет в среднем около 1 000 метров, в то время как расстояния между участками в удаленных районах превышают 18 000 метров. Чтобы убедиться, что каждый пространственный объект имеет, по крайней мере, одного соседа, диапазон расстояний должен быть более 18000 метров, а такой масштаб анализа не подходит для исследуемого вопроса. Для решения задачи нужно создать файл матрицы пространственных весов для класса объектов района переписи с помощью инструмента Построить матрицу пространственных весов. Укажите для параметра Пороговое расстояние (Threshold Distance) значение 4800 метров (приблизительно три мили) и минимальное число соседей (допустим, 2) для параметра Количество соседей (Number of Neighbors). Так окрестность в 4800 метров будет применена ко всем объектам, кроме объектов, у которых нет хотя бы двух соседей на этом расстоянии. Для дальних объектов (и только для них) расстояние будет увеличено так, чтобы у каждого объекта было, по крайней мере, два соседа.
- Используйте диапазон расстояний, который отражает максимальную пространственную автокорреляцию. Когда вы видите пространственную кластеризацию ландшафта, вы видите проявление работы внутренних пространственных процессов. Диапазон расстояний, который представляет максимальную кластеризацию, измеренную инструментом Пошаговая пространственная автокорреляция, является расстоянием, на котором данный пространственный процесс проявляется наиболее активно или лучше выражен. Запустите инструмент Пошаговая пространственная автокорреляция и определите, при каком расстоянии полученные z-оценки будут максимальными. Используйте расстояние, обеспечивающее пиковые значения, для последующего анализа.
- Каждое максимальное значение соответствует расстоянию, при котором процессы, обеспечивающие пространственную кластеризацию, наиболее выражены. Часто имеется несколько максимальных значений. В основном, максимальные значения, связанные с большими расстояниями, отражают широкие тренды (широкий тренд с востока на запад, например, где запад является гигантской "горячей точкой", а восток – гигантской "холодной точкой"). В общем случае более интересны максимальные значения, связанные с меньшими расстояниями, как правило, первый максимум.
- Малозаметный пик часто означает наличие нескольких различных пространственных процессов, действующих при различных пространственных масштабах. Возможно, следует изучить другие критерии, чтобы определить фиксированное расстояние, которое следует использовать для данного анализа (или более эффективное расстояние для исправления полученных результатов).
- Если z-оценка не демонстрирует пиков (другими словами, продолжает возрастать), а вы используете сгруппированные данные (например, округа), это обычно означает, что схема группировки слишком груба; интересующие вас пространственные процессы действуют при меньшем масштабе, чем масштаб группируемых единиц. Если можно использовать меньший масштаб анализа (перейти от округов к районам, например), это поможет определить необходимую дистанцию. Если вы работаете с точечными данными и z-оценка не достигает пика, то это означает, что в наличии множество различных пространственных процессов на разных пространственных масштабах. Вам потребуется использовать другой критерий для определения фиксированного расстояния в анализе. Также необходимо убедиться, что значение Начальное расстояние (Beginning Distance) при запуске инструмента Пошаговая пространственная автокорреляция не слишком велико.
- Если не указать начальное расстояние, инструмент Пошаговая пространственная автокорреляция будет использовать расстояние, позволяющее получить для всех объектов хотя бы одного соседа. Если данные содержат пространственные выбросы, это расстояние может быть слишком большим для анализа, поэтому вы и не увидите выраженного пика в выходном файле отчета. Чтобы устранить эту проблему, запустите инструмент Пошаговая пространственная автокорреляция для выбранных объектов, из которых временно исключены все пространственные выбросы. Если после исключения выбросов удалось найти пик, используйте стратегию, описанную выше, с применением этого пикового расстояния ко всем объектам (в том числе пространственным выбросам) и укажите, чтобы у каждого объекта был минимум один или два соседа. Если вы не уверены в том, являются ли объекты пространственными выбросами:
- При работе с полигональными данными отображайте области полигонов с помощью схемы отображения Стандартное отклонение и считайте полигоны с областями более трех стандартных отклонений пространственными выбросами. Можно использовать инструмент Вычислить поле для создания поля с площадями полигонов, если оно отсутствует.
- Для точечных данных используйте инструмент Ближайший объект (Near), который вычисляет расстояние до ближайшего соседа каждого объекта. Для этого установите параметры Входные объекты и Ближайшие объекты (Near Features) так, чтобы они указывали на ваш набор данных. После получения поля с расстояниями до ближайшего соседа отобразите эти значения с помощью метода отображения Стандартное отклонение и считайте расстояния, превышающие три стандартных отклонения, пространственными выбросами.
Определите расстояние, при котором процессы, обеспечивающие пространственную кластеризацию, наиболее выражены. - Не следует считать, что существует только один правильный диапазон расстояний. В реальности все может быть сложнее. Весьма вероятно, что влияние на наблюдаемую кластеризацию оказывают несколько пространственных процессов. Вместо поиска одного диапазона расстояний, попытайтесь рассмотреть инструменты анализа структурных закономерностей в качестве эффективного метода изучения пространственных отношений при различных пространственных масштабах. Обратите внимание, что при изменении масштаба (изменении значения диапазона расстояний), появляется возможность изучения других задач. Предположим, вы исследуете входные данные. С небольшими диапазонами расстояний можно изучить закономерности в ближайшем соседстве, средние диапазоны расстояний могут отражать закономерности на уровне поселения или города, самые большие диапазоны расстояний используются для определения региональных закономерностей.
Метод расстояния
Многие инструменты из набора инструментов Пространственная статистика используют в вычислениях расстояние. Эти инструменты позволяют выбрать либо Евклидово, либо Манхэттэнское расстояние.
- Евклидово расстояние вычисляется по формуле
D = sq root [(x1–x2)**2.0 + (y1–y2)**2.0]
где (x1, y1) – координаты точки A, (x2, y2) – координаты точки B, а D – расстояние по прямой между точками A и B.
- Манхэттоновское расстояние вычисляется по формуле
D = abs(x1–x2) + abs(y1–y2)
где (x1, y1) – координаты точки A, (x2, y2) – координаты точки B, а D – сумма вертикальной и горизонтальной разности между точками A и B. Это расстояние, которое необходимо пройти, если возможность перемещения ограничена только направлениями север-юг и запад-восток. Этот метод дает более точные результаты, чем Евклидово расстояние, если путь ограничен дорожной сетью и если стоимость перемещения по уличной сети не доступна.
Когда ваши входные объекты не имеют проекции (т.е. когда координаты заданы в градусах, минутах и секундах), или когда в качестве выходной системы координат используется Географическая система координат, а также когда вы указываете путь выходного класса объектов к набору классов объектов, имеющему пространственную привязку Географической системы координат, расстояния в этих случаях будут рассчитываться с помощью хордовых измерений, а параметр Метод определения расстояния (Distance Method) будет отключен. Измерения хордовых расстояний применяются постольку, поскольку они могут быть быстро вычислены и дают очень хорошие оценки истинных геодезических расстояний, по крайней мере для точек, расстояние между которыми в пределах порядка тридцати градусов. В основе хордовых расстояний лежит скорее сфероид, чем форма сплющенного у полюсов эллипсоида Земли. Если взять две любые точки на поверхности Земли, то хордовым расстоянием между ними будет длина прямой линии, проходящей через трехмерное тело Земли и соединяющей эти две точки. Хордовые расстояния выражаются в метрах.
Самопотенциал (поле, дающее интразональный вес)
Некоторые инструменты в наборе инструментов Пространственная статистика позволяют вычислить поле, представляющее вес, который используется для самопотенциала. Собственный потенциал – это расстояние или вес между объектом и этим же объектом. Часто вес имеет значение 0, но в некоторых случаях может потребоваться определить другое фиксированное или изменяющееся для каждого объекта значение. Если ваша концептуализация пространственных отношений основана на расстояниях в пределах или между переписными участками, то, например, можно решить смоделировать самопотенциал, чтобы отразить средние расходы на путешествие с учетом размеров полигона:
dii = 0.5*[(Ai / π)**0.5]
где dii – транспортные расходы, связанные с внутризональным путешествием для полигонального объекта i, и Ai – область, связанная с полигональным объектом i.
Нормализация
Нормализация ряда рекомендуется, независимо от того, распределены ли объекты потенциально предвзято в зависимости от дизайна примера или от установленной схемы агрегации. Когда выбирается нормализация ряда, каждый вес делится на его сумму весов ряда (сумму весов всех соседних объектов). Взвешивание с нормализацией весов ряда значений часто используется с фиксированным расстоянием до соседних окрестностей и практически всегда используется для соседей, основанных на полигональной смежности. Это для того, чтобы смягчить смещение из-за того, что объекты имеют разное количество соседей. Нормализация ряда масштабирует все веса так, что они варьируют между 0 и 1, создавая относительную, а не абсолютную схему взвешивания. В любом случае, когда вы работаете с полигональными объектами, представляющими административные границы, вы, вероятно, захотите выбрать опцию Нормализации ряда.
Примеры:
- Предположим, что у вас есть полный набор всех инцидентов-правонарушений. В некоторых частях изучаемой территория представлено много точек, так как это места с высоким уровнем преступности. В других частях точек меньше, так как здесь уровень преступности низкий. Плотность точек очень хорошо отражает (представляет) то, что вы пытаетесь понять: пространственные закономерности преступлений. Возможно, вы не будете выполнять нормализацию ряда для пространственных весов.
- Предположим, вы взяли образцы почвы. По какой-то причине (погода была хорошая или вы были в месте без заборов, болот и горных вершин, которые нужно было преодолеть) у вас много образцов из определенных частей изучаемой территории и меньше образцов из других частей. Другими словами, плотность точки не является результатом тщательно спланированной произвольной выборки, из-за чего могло возникнуть собственное смещение. Кроме того, большое число точек необязательно является отражением пространственного распределения анализируемых данных. Чтобы минимизировать смещение, которое могло возникнуть в процессе получения образцов, необходимо выполнить нормализацию ряда пространственных весов. После выполнения нормализации ряда, тот факт, что у одного объекта два соседа, а другого их 18, не будет сильно влиять на результаты. Все веса в сумме будут давать 1.
- При агрегации данных вы придаете им определенную структуру. В редких случаях эта структура будет хорошим отражением анализируемых данных и исследуемого явления. Например: хотя полигоны переписи (как и районы переписи) сформированы на основе численности населения, даже если ваш анализ связан с вопросами численности, вам все равно придется нормализовать веса, так как эти полигоны представляют всего один из множества способов представления данных. Для полигональных данных нормализация ряда пространственных весов выполняется практически всегда.
Диапазон расстояний и Пороговое расстояние
Параметр Диапазон расстояний и пороговое расстояние (Distance Band or Threshold Distance) позволяет установить масштаб анализа для большинства концептуализаций пространственных отношений (например, INVERSE_DISTANCE и FIXED_DISTANCE_BAND). Это положительное числовое значение, представляющее предельное расстояние. Объекты, расположенные за пределами указанного предельного расстояния, игнорируются в анализе для данного объекта. Однако для ZONE_OF_INDIFFERENCE, влияние объектов, расположенных вне приведенного расстояния сокращается в соответствие с близостью, в то время как расположенные в пределах порогового расстояния, рассматриваются в одинаковых условиях.
Выбор подходящего расстояния очень важен. Некоторые пространственные статистические показатели требуют для каждого объекта иметь как минимум одного соседа для того, чтобы анализ был надежный. Если значения, которое вы устанавливаете для параметра Диапазон расстояний и пороговое расстояние (Distance Band or Threshold Distance), слишком мало (и у некоторых объектов нет соседей), появится предупреждение и вам будет предложено увеличить расстояние. Инструмент Вычислить диапазон расстояний до числа соседних объектов (Calculate Distance Band from Neighbor Count) позволяет оценить минимальное, среднее и максимальное расстояния для указанного количества соседей, и может помочь вам определить подходящий диапазон расстояний для анализа. См. также Выбор фиксированного диапазона расстояний (Selecting a fixed distance band value) для дополнительных инструкций.
Когда значение не указано, рассчитывается пороговое расстояние по умолчанию. Приведенная ниже таблица демонстрирует, какие результаты выдают различные опции параметра Концептуализация пространственных отношений (Conceptualization of Spatial Relationships) для каждого из трех возможных типов (отрицательные значения не действительны):
Обратное расстояние, обратное расстояние в квадрате | Фиксированный диапазон расстояний, Зона индифферентности | Близость полигонов, Триангуляция Делоне, К ближайших соседей | |
0 | Пороговое и предельное значения не применяются; каждый объект – сосед для каждого другого объекта. | Неверно. Будет сгенерирована Ошибка выполнения. | Игнорировано. |
пустой | Будет вычислено расстояние по умолчанию. Значение по умолчанию – это минимальное расстояние, которое гарантирует каждому объекту как минимум 1 соседа. | Будет вычислено расстояние по умолчанию. Значение по умолчанию – это минимальное расстояние, которое гарантирует каждому объекту как минимум 1 соседа. | Игнорировано. |
положительное число | Ненулевое, положительное значение будет использовано как предельное расстояние; соседские взаимосвязи будут только существовать среди объектов в пределах этой дистанции. | Для фиксированного диапазона расстояний, только объекты в пределах этого указанного предельного расстояния будут соседями. Для зоны индифферентности, объекты в пределах указанного предельного расстояния будут соседями; объекты за пределами этого расстояния тоже будут соседями, но будут иметь все меньший и меньший вес/влияние по мере увеличения расстояния. | Игнорировано. |
Количество соседей
Укажите положительное целое число, чтобы представить количество соседей, которые должны быть включены в анализ. Когда для параметра Концептуализация пространственных отношений (Conceptualization of Spatial Relationships) выбрано значение K ближайших соседей (K Nearest Neighbors), каждый объект будет оценен в контексте ближайших К соседей (где К – указанное количество соседей). Если при запуске инструмента Построить матрицу пространственных весов для Обратного расстояния или Фиксированного диапазона расстояний задать значение параметра Количество соседей, каждый объект будет гарантированно иметь как минимум К соседей. При расчете на основе примыкания полигонов, для любого объекта, для которого не указано Количество соседей, будут найдены соседние объекты на основании расчета близости по центроидам. Если для инструмента Построить матрицу пространственных весов задать значение параметра Максимальное количество соседей, у каждого объекта будет не больше указанного числа соседей. Если для инструмента Анализ группирования (Grouping Analysis) указать значение параметра Количество соседей (Number of Neighbors), то в каждую группу будут включены близкие объекты. Например, если выбрать 6 соседей, то у объектов в группах, по крайней мере, один из шести ближайших объектов будет общим с другими объектами в группе.
Файл матрицы весов
Некоторые инструменты позволяют вам определить пространственные отношения среди объектов, указывая путь к матрице пространственных весов. Пространственные веса – числа, которые отражают расстояние, время, или цену между объектами в базе данных. Файл матрицы пространственных весов можно создать с помощью инструментов Построить матрицу пространственных весов (Generate Spatial Weights Matrix) или Построить матрицу пространственных весов для сети (Generate Network Spatial Weights), или использовать обычный ASCII-файл.
Когда файл матрицы пространственных весов – просто текстовый ASCII-файл, первая строка должна быть именем уникального поля ID. Это позволяет гибко использовать любое числовое поле из набора данных в качестве ID, при генерации файла; однако поле с ID должно быть целочисленным (длинным или коротким) и содержать уникальные значения для каждого объекта. После первой линии, файл пространственных весов должен быть форматирован в 3 колонки:
- От ID объекта
- К ID объекта
- Вес
Например, предположим, что у вас есть 3 газовые станции. Поле, которое вы используете, как ID поле называется StationID, а ID объектов – 1, 2 и 3. Вы хотите смоделировать пространственные отношения между этими тремя станциями, используя время в пути в минутах. Вы можете создать ASCII-файл, который выглядит следующим образом:
Обычно, когда веса представляют расстояние или время, они обращаются (например, 1/10, когда расстояние 10 миль или 10 минут) для того, чтобы ближайшие объекты имели больший вес, нежели удаленные. Заметьте из файла весов выше, что газовая станция 1 в 10-ти минутах от газовой станции 2. Заметьте также, что время в пути – несимметрично в этом примере (время в пути от станции 1 до станции 3 – 7 минут, но время в пути от станции 3 до станции 1 – только 6 минут). Заметьте, что вес между станцией 1 и ей самой – 0, для станции 2 – пустое поле. Пустое поле означает 0.
Ручной ввод значений для матрицы пространственных весов – утомительная работа даже для маленьких наборов данных. Лучший подход – использовать инструмент Построить матрицу пространственных весов (Generate Spatial Weights Matrix) или быстро написать скрипт, чтобы выполнить эту задачу.
Файл матрицы пространственных весов (.swm)
Инструменты Построить матрицу пространственных весов или Построить матрицу пространственных весов для сети создают файл матрицы пространственных весов (.swm), определяющий пространственные отношения между объектами в наборе данных с учетом указанного параметра. Этот файл создается в двоичном формате, чтобы его нельзя было просматривать напрямую. Для просмотра или изменения отношений объектов в SWM-файле используйте инструмент Преобразовать матрицу пространственных весов в таблицу.
Если пространственные отношения между объектами хранятся в таблице, можно использовать инструмент Построить матрицу пространственных весов для конвертации этой таблицы в файл матрицы пространственных весов (.swm). В таблице должны присутствовать следующие поля:
Имя поля | Описание |
---|---|
<Уникальное имя поля ID> | Целое поле, которое существует во входящем классе объектов с уникальным ID для каждого объекта. Это от ID объекта. |
NID | Целочисленное поле, содержащее ID соседних объектов. Это к ID объекта. |
WEIGHT | Это числовой вес, определяющий пространственные отношения между объектами: от объекта и к объекту. Большие значения отражают большие веса и более сильное влияние, или взаимодействие между двумя объектами. |
Разделение файлов матриц пространственных весов
Результатом работы инструментов Построить матрицу пространственных весов (Generate Spatial Weights Matrix) и Построить матрицу пространственных весов для сети (Generate Network Spatial Weights) является SWM-файл. Этот файл связывается с входным классом объектов, полем уникального ID и выходной системой координат при создании SWM-файла. Другие люди могут продублировать пространственные отношения, которые вы определяете для анализа, используя SWM-файл и тот же входной класс объектов или класс объектов, связывающий все или часть объектов с соответствующим полем Уникальный ID (Unique ID). В частности, если вы планируете предоставить SWM-файлы для совместной работы, попытайтесь избежать ситуации, когда выходная система координат отличается от пространственной привязки, ассоциированной с входным классом объектов. Лучшая стратегия – перепроецировать Входной класс объектов, затем установить Выходную систему координат такую же, как и Входной класс объектов до создания файлов матрицы пространственных весов.