Как работает Поиск сходства

Инструмент Поиск сходства определяет, какой из Объектов-кандидатов имеет наибольшее сходство (или наибольшее различие) с одним или более Входных объектов сопоставления. Сходство основывается на определенных числовых атрибутах (Атрибуты интереса). Если указывается более одного Входного объекта для сопоставления, то сходство основывается на средних значениях для каждого из Атрибутов интереса. Выходной класс объектов (Выходные объекты) будет содержать Входные объекты для сопоставления, а также все найденные подходящие Объекты-кандидаты, упорядоченные по сходству (в соответствии с заданным параметром Наибольшее или наименьшее сходство). Число совпадений будет зависеть от значения параметра Число результатов.

Возможное применение

  • Вы можете использовать инструмент Поиск сходства для поиска других городов, похожих на ваш, с точки зрения населения, образования и рекреационных возможностей.
  • Местные власти заинтересованы в привлечении нового бизнеса, чтобы увеличить доходы за счет налогов. Инструмент Поиск сходства поможет им найти другие похожие города, чтобы они могли провести сравнение своего города с точки зрения привлекательности (такие атрибуты, как низкий уровень преступности и быстрый рост). Эти же власти могут быть заинтересованы в поиске похожих мест, но больших или меньших по размеру (косинусоидальное сходство). Когда они определят, что у них сходство с более мелкими или более крупными городами, которые привлекательны для бизнеса, который они хотят заманить, они смогут либо отметить свое сходство, либо подчеркнуть преимущество мелких городов (меньше скопления людей и машин, чище воздух) или крупных (больше потенциальных клиентов). Эти лица могут также проявить интерес к городам, менее схожим с их городом. Если какое-либо из мест представляет собой конкурента в борьбе за вожделенный бизнес, то такой анализ позволит получить необходимую информацию для проведения сравнения.
  • Управляющему кадрами необходимо быть в состоянии проверить обоснованность уровня зарплат в компании. Если он отберет похожие города с точки зрения размера, стоимости жизни и удобства, то он сможет изучить уровни зарплаты в них, чтобы проверить, насколько им соответствует уровень зарплат в компании.
  • Криминалисту требуется узнать по базе данных, является ли то или иное преступление частью более крупного заговора или тренда.
  • Фитнес-программа после школы была чрезвычайно успешной в городе А. Промоутеры хотят подобрать другие города с аналогичными характеристиками для распространения в них этой программы.
  • Правоохранительные органы обнаружили районы, где выращиваются или производятся наркотики. Определение мест с аналогичными характеристиками может помочь им нацелиться на выявление таких районов в будущем.
  • У крупного ритейлера есть несколько успешных магазинов и несколько отстающих. Поиск мест с аналогичными демографическими и социальными характеристиками (доступность, наглядность и т.д.) поможет найти наилучшее место для нового магазина.

Методы сопоставления

Сопоставление может производиться на основе значений атрибутов, ранжированных атрибутов или профилей атрибутов (косинусоидальное сходство). Алгоритмы для каждого из этих методов описаны ниже. При всех методах, если имеется более одного входного объекта для сопоставления, атрибуты для всех объектов усредняются для создания составного целевого объекта, который будет использоваться в процессе сопоставления: Усредненные атрибуты интереса

Значения атрибута

При выборе Атрибутивных значений в качестве параметра Метода сопоставления инструмент сначала стандартизирует все Атрибуты интереса. Затем, для каждого кандидата он вычитает стандартизированные значения из целевых, возводит разницу в квадрат и суммирует возведенные в квадрат разницы в одно целое. Полученная сумма есть индекс сходства для данного кандидата. Когда таким образом будут обработаны все кандидаты, они будут ранжированы от наименьшего индекса (больше сходства) до наибольшего (меньше сходства).

Более подробно:

Стандартизация атрибутивных значений включает в себя z-трансформацию, при которой среднее от всех значений вычитается из каждого значения и делится на среднеквадратическое отклонение всех значений (и Входные объекты для сопоставления, и Объекты-кандидаты включаются в вычисления среднего и среднеквадратического отклонения). Стандартизация расставляет все эти атрибуты на одни весы, даже когда они представлены совершенно разными типами чисел: коэффициентами (от 0 до 1,0), численностью население (значение свыше 1 миллиона) и расстояниями (например, километрами).

Ранжированные значения атрибутов

Если вы выберете Ранжированные значения атрибутов в качестве параметра Метод сопоставления, инструмент ранжирует каждый из Атрибутов интереса как для целевого объекта, так и для всех кандидатов. Затем инструмент по каждому кандидату суммирует возведенную в квадрат разницу для каждого атрибута по отношению к целевому объекту. Если значение населения - десятое среди всех кандидатов, а население кандидата предполагается пятнадцатым, сумма квадрата разницы рангов по населению для такого кандидата составит: 10 - 15 = -5 и -5**2 = 25. Сумма квадратов разниц рангов для всех Атрибутов интереса составит индекс сходства кандидата. Когда таким образом будут обработаны все кандидаты, они будут ранжированы от наименьшего индекса (больше сходства) до наибольшего (меньше сходства).

Профили атрибутов

При выборе Профили атрибутов в качестве параметра Метода сопоставления инструмент сначала стандартизирует все Атрибуты интереса (для этого метода требуется минимум два Атрибута интереса). Затем он использует математику косинусоидального сходства для сравнения вектора стандартизированных атрибутов для каждого кандидата с вектором стандартизированных атрибутов для сопоставляемого целевого объекта. Косинусоидальное сходство двух векторов, А и В, рассчитывается так:

Уравнение косинусоидального сходства

Косинусоидальное сходство не связано с сопоставлением величин атрибутов, этот метод скорее сфокусирован на отношениях между атрибутами. Если вы создали профиль (линейная диаграмма) стандартизированных атрибутов в двух сравниваемых векторах (целевой объект и один из кандидатов), вы можете увидеть очень похожие или очень разные профили:

Профили атрибутов
Профили топ-пары атрибутов очень схожи, профили последней пары совершенно разные.

Индекс косинусного коэффициента может иметь значения от 1.0 (полное сходство) до -1.0 (полное различие) и указывается в поле SIMINDEX (косинусный коэффициент). Этот метод сходства можно использовать для поиска мест с одинаковыми характеристиками, но, возможно, в большем или меньшем масштабах.

Рекомендации

Модели сходства

Если вы устанавливаете параметр Число результатов равным нулю, то инструмент будет ранжировать все объекты-кандидаты. Результаты анализа покажут пространственную структурную закономерность сходства. Обратите внимание на то, что при ранжировании всех кандидатов вы получите информацию и о сходстве, и о различии.

Карта упорядоченного сходства

Включая пространственные переменные

Вероятно, вам известны места (полигоны, площади), где очень хорошо живется определенным вымирающим видам животных, и вы хотите найти другие места, в которых им будет так же хорошо. Вы будете стараться найти места, которые имеют сходство с благополучными, но вам также потребуется найти места и достаточно большие, и достаточно компактные, в которых бы эти вымирающие виды процветали. При таком анализе рассчитывается показатель (метрика) компактности для каждой полигональной области (обычные измерения компактности определяются как площадь полигона по отношению к площади круга, длина окружности которого равна периметру полигона). Затем, когда вы будете использовать инструмент Поиск сходства , вы можете добавить свои измерения компактности и атрибут, отражающий размер полигона (Shape_Area), в параметр Поля для присоединения к выходным данным. Отобрав первую десятку полученных результатов по условиям компактности и площади, вы сможете выбрать наиболее подходящие места для воспроизводства упомянутых выше видов животных.

Предположим, что вы являетесь розничным торговцем и заинтересованы в расширении своего бизнеса. Если у вас уже есть успешные торговые предприятия, то вы можете использовать атрибуты, отражающие ключевые характеристики успешности, которые помогут вам найти новые места-кандидатуры для расширения. Предположим, что продаваемая вами продукция будет представлять интерес в первую очередь для студентов колледжей, и что вы не хотите размещать свои новые точки вблизи уже существующих или вблизи магазинов конкурентов. Перед тем, как воспользоваться инструментом Поиск сходства, вы запустите инструмент Ближайший объект, чтобы создать свои пространственные переменные: расстояние до колледжей или мест с высокой плотностью студентов колледжей, расстояние до существующих магазинов и расстояние до магазинов конкурентов. Затем, когда вы будете использовать инструмент Поиск сходства, вы можете добавить эти пространственные переменные в параметр Поля для присоединения к выходным данным.