Как работает Поиск сходства—Справка

Возможное применение
Методы сопоставления
Рекомендации

Инструмент Поиск сходства (Similarity Search) определяет, какой из Объектов-кандидатов (Candidate Features) имеет наибольшее сходство (или наибольшее различие) с одним или более Входных объектов сопоставления (Input Features To Match). Сходство основывается на определенных числовых атрибутах (Атрибуты интереса (Attributes Of Interest)). Если указывается более одного Входного объекта для сопоставления (Input Features To Match), то сходство основывается на средних значениях для каждого из Атрибутов интереса. Выходной класс объектов (Выходные объекты (Output Features)) будет содержать Входные объекты для сопоставления, а также все найденные подходящие Объекты-кандидаты, упорядоченные по сходству (в соответствии с заданным параметром Наибольшее или наименьшее сходство (Most Or Least Similar). Число совпадений будет зависеть от значения параметра Число результатов (Number Of Results).

Возможное применение

Вы можете использовать инструмент Поиск сходства (Similarity Search) для поиска других городов, похожих на ваш, с точки зрения населения, образования и рекреационных возможностей.
Местные власти заинтересованы в привлечении нового бизнеса, чтобы увеличить доходы за счет налогов. Инструмент Поиск сходства поможет им найти другие похожие города, чтобы они могли провести сравнение своего города с точки зрения привлекательности (такие атрибуты, как низкий уровень преступности и быстрый рост). Эти же власти могут быть заинтересованы в поиске похожих мест, но больших или меньших по размеру (косинусоидальное сходство). Когда они определят, что у них сходство с более мелкими или более крупными городами, которые привлекательны для бизнеса, который они хотят заманить, они смогут либо отметить свое сходство, либо подчеркнуть преимущество мелких городов (меньше скопления людей и машин, чище воздух) или крупных (больше потенциальных клиентов). Эти лица могут также проявить интерес к городам, менее схожим с их городом. Если какое-либо из мест представляет собой конкурента в борьбе за вожделенный бизнес, то такой анализ позволит получить необходимую информацию для проведения сравнения.
Управляющему кадрами необходимо быть в состоянии проверить обоснованность уровня зарплат в компании. Если он отберет похожие города с точки зрения размера, стоимости жизни и красоты, то он сможет изучить уровни зарплаты в них, чтобы проверить, насколько им соответствует уровень зарплат в компании.
Криминалисту требуется знать по базе данных, является ли то или иное преступление частью более крупного заговора или тренда.
Фитнесс-программа имела большой успех в городе А. Промоутеры хотят подобрать другие города с аналогичными характеристиками для распространения в них этой программы.
У агентства исполнения судебных решений и приговоров имеются неохваченные районы, где выращиваются наркосодержащие растения и производятся наркотики. Определение мест с аналогичными характеристиками может помочь им нацелиться на выявление таких районов в будущем.
Крупный розничный торговец имеет несколько успешных магазинов, но есть и такие, в которых не выполняется план по реализации. Поиск мест с аналогичными демографическими и социальными характеристиками (доступность, наглядность и т.д.) поможет найти наилучшее место для нового магазина.

Методы сопоставления

Сопоставление может производиться на основе значений атрибутов, ранжированных атрибутов или профилей атрибутов (косинусоидальное сходство). Алгоритмы для каждого из этих методов описаны ниже. При всех методах, если имеется более одного входного объекта для сопоставления, атрибуты для всех объектов усредняются для создания составного целевого объекта, который будет использоваться в процессе сопоставления. Усредненные атрибуты интереса

Значения атрибута

При выборе ATTRIBUTE_VALUES в качестве параметра Метода сопоставления инструмент сначала стандартизирует все Атрибуты интереса. Затем, для каждого кандидата он вычитает стандартизированные значения из целевых, возводит разницу в квадрат и суммирует возведенные в квадрат разницы в одно целое. Полученная сумма есть индекс сходства для данного кандидата. Когда таким образом будут обработаны все кандидаты, они будут ранжированы от наименьшего индекса (больше сходства) до наибольшего (меньше сходства).

Более подробно:

Стандартизация значений атрибутов включает z-трансформацию (z-transform), где каждое значение вычитается из средней величины всех значений и делится на стандартное для всех значений отклонение. Стандартизация расставляет все эти атрибуты на одни весы, даже когда они представлены совершенно разными типами чисел: коэффициентами (от 0 до 1,0), численностью население (значение свыше 1 миллиона) и расстояниями (например, километрами).

Ранжированные значения атрибутов

Если вы выберете RANKED_ATTRIBUTE_VALUES в качестве параметра Метода сопоставления, инструмент ранжирует каждый из Атрибутов интереса как для целевого объекта, так и для всех кандидатов. Затем инструмент по каждому кандидату суммирует возведенную в квадрат разницу для каждого атрибута по отношению к целевому объекту. Если значение численности населения для целевого объекта будет 10-й по величине среди кандидатов, а численность населения объекта-кандидата – 15-й по величине, то сумма возведенной в квадрат разницы этих рангов для данного кандидата будет 10 – 15 = -5, -5 в квадрате = 25. Сумма возведенных в квадрат разниц рангов для всех Атрибутов интереса (Attributes of Interest) будет индексом сходства для данного кандидата. Когда таким образом будут обработаны все кандидаты, они будут ранжированы от наименьшего индекса (больше сходства) до наибольшего (меньше сходства).

Профили атрибутов

При выборе ATTRIBUTE_PROFILES в качестве параметра Метода сопоставления инструмент сначала стандартизирует все Атрибуты интереса (для этого метода требуется минимум два Атрибута интереса). Затем он использует математику косинусоидального сходства для сравнения вектора стандартизированных атрибутов для каждого кандидата с вектором стандартизированных атрибутов для сопоставляемого целевого объекта. Косинусоидальное сходство двух векторов, А и В, рассчитывается так:

Косинусоидальное сходство не связано с сопоставлением величин атрибутов, этот метод скорее сфокусирован на отношениях между атрибутами. Если вы создали профиль (линейная диаграмма) стандартизированных атрибутов в двух сравниваемых векторах (целевой объект и один из кандидатов), вы можете увидеть очень похожие или очень разные профили:

Профили топ-пары атрибутов очень схожи, профили последней пары совершенно разные.

Индекс косинусоидального сходства может иметь значения от 1.0 (полное сходство) до -1.0 (полное различие) и указывается в поле SIMINDEX (косинусоидальное сходство). Этот метод сходства можно использовать для поиска мест с одинаковыми характеристиками, но, возможно, в большем или меньшем масштабах.

Рекомендации

Модели сходства

Если вы устанавливаете параметр Число результатов (Number of Results) равным нулю, то инструмент будет ранжировать все объекты-кандидаты. Результаты анализа покажут пространственную структурную закономерность (spatial pattern) сходства. Обратите внимание на то, что при ранжировании всех кандидатов вы получите информацию и о сходстве, и о различии.

Включая пространственные переменные

Вероятно, вам известны места (полигоны, площади), где очень хорошо живется определенным вымирающим видам животных, и вы хотите найти другие места, в которых им будет так же хорошо. Вы будете стараться найти места, которые имеют сходство с благополучными, но вам также потребуется найти места и достаточно большие, и достаточно компактные, в которых бы эти вымирающие виды процветали. При таком анализе рассчитывается показатель (метрика) компактности для каждой полигональной области (обычные измерения компактности определяются как площадь полигона по отношению к площади круга, длина окружности которого равна периметру полигона). Затем, когда вы будете использовать инструмент Поиск сходства (Similarity Search), вы можете добавить свои измерения компактности и атрибут, отражающий размер полигона (Shape_Area), в параметр Поля для присоединения к выходным данным (Fields To Append To Output). Отобрав первую десятку полученных результатов по условиям компактности и площади, вы сможете выбрать наиболее подходящие места для воспроизводства упомянутых выше видов животных.

Предположим, что вы являетесь розничным торговцем и заинтересованы в расширении своего бизнеса. Если у вас уже есть успешные торговые предприятия, то вы можете использовать атрибуты, отражающие ключевые характеристики успешности, которые помогут вам найти новые места-кандидатуры для расширения. Предположим. что продаваемая вами продукция будет представлять интерес в первую очередь для студентов колледжей, и что вы не хотите размещать свои новые точки вблизи уже существующих или вблизи магазинов конкурентов. Перед тем, как воспользоваться инструментом Поиск сходства (Similarity Search), вы запустите инструмент <Ближайший объект (Near), чтобы создать свои пространственные переменные: расстояние до колледжей или мест с высокой плотностью студентов колледжей, расстояние до существующих магазинов и расстояние до магазинов конкурентов. Затем, когда вы будете использовать инструмент Поиск сходства (Similarity Search), вы можете добавить эти пространственные переменные в параметр Поля для присоединения к выходным данным (Fields To Append To Output).