Как работает Определение пространственных выбросов

Инструмент Определение пространственных выбросов выявляет глобальные и локальные пространственные выбросы у точечных объектов. Глобальный выброс - это точка, которая находится далеко от всех других точек класса пространственных объектов. Локальный выброс - это точка, которая находится дальше от своих соседей, чем можно было бы ожидать, исходя из плотности точек в локальной области. Помимо классификации входных точек, как выбросов или отклонений, инструмент может создавать растровую поверхность с вычисленным локальным фактором выбросов (LOF) по исследуемой области, что может помочь в определении того, как новые наблюдения будут классифицироваться с учетом пространственного распределения ваших данных. Кроме того, инструмент может оптимизировать выбор необходимых параметров, таких как число соседей и процент местоположений, считающихся выбросами.

Возможное применение

Возможные применения этого инструмента включают следующие сценарии:

  • Организация поддерживает станции мониторинга качества воздуха, которые используются для интерполяции качества воздуха на поверхности, и она хочет определить наиболее изолированные точки мониторинга, чтобы определить, где необходим сбор дополнительных данных.
  • Программы донорства крови часто проводятся вблизи групп потенциальных доноров, чтобы свести к минимуму перемещение каждого донора, однако для не менее важных доноров, живущих далеко, могут потребоваться дополнительное оповещение и средства поощрения, чтобы стимулировать добровольную сдачу крови. Координатор может идентифицировать этих кандидатов-доноров, которые считаются пространственными отклонениями, и отправить почтовую рассылку с дополнительными стимулами для поощрения дальнейших поездок на мероприятия по сдаче крови.

Глобальные и локальные пространственные выбросы

Выбросы в пространстве определены как точки, местоположения которых не типичны для закономерности в остальных точках в наборе данных. В самом примитивном случае это означает что точка расположена очень далеко от остальных точек и это называется глобальным выбросом. Например, карта расположения отделений неотложной помощи на территории штата может идентифицировать такие отделения в областях с малой численностью населения как глобальные выбросы, так как расстояние между ними значительно больше, чем в областях с высокой численностью населения. Тем не менее, часто важнее выявить точки, чьи местоположения не укладываются в закономерности в локальных областях, и такие точки называются локальными выбросами. Используя тот же пример с отделениями неотложной помощи в штате, локальными выбросами будут больницы, расположенные далеко от остальных, с учетом изменения плотности расположения отделений неотложной помощи по всей территории штата. Это позволит идентифицировать отделения неотложной помощи в областях с высокой численностью населения, которые обслуживают больше людей, чем окружающие отделения неотложной помощи, что позволит определить районы с низким уровнем доступа к неотложной помощи.

На рисунке ниже показан обычный результат выявления пространственных выбросов, где выбросы окрашены в оранжевый цвет, а отклонения в серый. Глобальные выбросы показаны справа, а локальные, для небольшого фрагмента штата Вашингтон показаны слева. Локальные точки не считаются выбросами, если рассматривать все точки по всей стране, но при этом они значительно отдалены от локального кластера точек в своей локальной области

Локальные и глобальные пространственные выбросы

Глобльные выбросы показаны справа, а локальные, для небольших областей, показаны слева.

Выходные данные инструмента

Инструмент предоставляет выходной векторный слой, выделяющий объекты, обозначенные как пространственные выбросы. Выбросы обозначаются оранжевым, а отклонения – полупрозрачным серым, что позволяет визуально оценивать пространственную плотность вставок.

Найденные пространственные выбросы

Слой объектов включает две диаграммы: столбчатую диаграмму, показывающую количество выбросов и отклонений, и гистограмму, показывающую распределение значений LOF (для локальных выбросов) или расстояние окрестности (для глобальных выбросов).

Столбчатая диаграмма, показывающая количество выбросов, позволяет мгновенно подсчитать выбросы и может быть эффективным способом выбора всех выбросов из выходного анализа.

Столбчатая диаграмма количества выбросов

Гистограмма, показывающая распределение значений LOF или расстояние окрестности, включает среднее значение LOF и пороговое значение LOF, используемое для различения выбросов и отклонений.

Гистограмма значений LOF

Кроме того, если значение введено в параметр Выходной растр прогнозирования, создается выходной растр, показывающий рассчитанное значение LOF или расстояние окрестности для каждой ячейки в области исследования.

Выходная растровая поверхность

Выходной растр отображает значения LOF в виде непрерывной поверхности.

Выявление глобальных пространственных выбросов

Глобальные выбросы проще идентифицировать, нежели локальные. Для выявления глобальных выбросов, выбросы определяются вычислением расстояния до одной из ближайших окрестностей, которое называется расстоянием окрестности. По умолчанию используется ближайшая окрестность, но вы можете изменить это значение, используя параметр Число соседей. Если вы указали значение 3 - будет вычислено расстояние до трех ближайших окрестностей для каждой точки. Точки с максимальным расстоянием от их ближайших соседей, и любая точка в пределах расстояния окрестности выше заданного порога определяется как глобальный выброс.

Порог выявления выбросов определяется распределением расстояний окрестностей и значением параметра Чувствительность обнаружения. Вы можете визуализировать порог на ящичковой диаграмме, добавив число межквартильных диапазонов (значение средних 50 процентов данных) к третьему квартилю данных. Для Высокой чувствительности добавляется один межквартильный диапазона выше третьего квартиля. Для Средней чувствительности добавляется полтора межквартильных диапазона. Для Низкой чувствительности добавляется два межквартильных диапазона. Помните, что высокая чувствительность приводит к использованию низкого порога, что в свою очередь выявляет глобальные выбросы при небольшом расстоянии окрестности.

Правило ящичковой диаграммы для глобальных выбросов

Порог для низкой, средней и высокой чувствительности показан на ящичковой диаграмме голубого цвета расстояний окрестности.

Выявление локальных пространственных выбросов

Выявление аномальных или отдаленных местоположений часто более важно, чем определение типичных или сгруппированных местоположений. Примером может служить расследование потенциально мошеннических финансовых транзакций, которые часто происходят в ненормальных местах, которые отличаются от типичных пространственных схем транзакций.

Несмотря на эту задачу, большинство подходов, которые пытаются идентифицировать выбросы, сосредотачиваются на том, чтобы сначала идентифицировать кластеры, а затем использовать оставшиеся объекты как последствия пространственных выбросов. Например, инструмент Кластеризация на основе плотности эффективен для определения и идентификации пространственной кластеризации с использованием различных подходов, но он идентифицирует выбросы как объекты, которые не удовлетворяли критериям для кластера, двоично обозначаемым как объекты шума. Следовательно, использование только подходов кластеризации для выявления пространственных выбросов имеет как минимум два недостатка. Во-первых, подходы кластеризации изначально ориентированы на определение и идентификацию кластеров, а не выбросов. Во-вторых, определение выбросов часто выполняется бинарным способом, без допусков или количественных уровней того, насколько наблюдение является выбросом.

Фактор локальных выбросов (LOF) устраняет эти недостатки, фокусируясь на выявлении выбросов и обеспечивая измерение того, насколько сильно объект отброшен. Кроме того, этот подход использует образцы локальной плотности для сравнения плотности окрестности объекта по отношению к окрестностям других объектов в его окрестностях. Это позволяет различать глобальные выбросы, точки, которые являются аномальными в контексте всей области исследования, и локальные выбросы, точки, которые являются аномальными в контексте их непосредственной близости. Акцент на локальных выбросах помогает пролить свет на более сложные локальные явления, требующие более тщательного изучения, такие как ранее упомянутый сценарий истории транзакций.

Определение критериев для обнаружения локальных пространственных выбросов

Чтобы инструмент мог измерять и идентифицировать пространственные выбросы, ему требуется значение параметра Число соседей, оцениваемое для каждого объекта, и значение параметра Процент местоположений, считающихся выбросами в области исследования; эти критерии важны при определении размера окрестности при вычислении LOF и порогового значения для обозначения выбросов и отклонений.

  • Параметр Число соседей устанавливает окрестность для каждого объекта. При расчете LOF используется эта окрестность для расчета расстояния достижимости и локальной плотности достижимости, что составляет основу сравнения для оценки того, насколько пространственно удален объект от объектов в его непосредственной близости.
  • Параметр Процент местоположений, считающихся выбросами устанавливает порог для обозначения объектов как выбросов или отклонений. Этот порог использует вычисленные значения LOF для всех объектов во входных данных, устанавливая количество объектов с наивысшими значениями LOF, которые обозначаются как выбросы.

По возможности, для базового знания предмета, чтобы помочь вам, рекомендуется установить значения этих параметров, так, как показано в следующих примерах:

  • Инженер транспорта может иметь базовые знания о том, сколько аварий на перекрестке указывает на системную проблему безопасности, и может использовать это значение в качестве числа соседей, оцениваемых при обнаружении пространственных выбросов.
  • У координатора кампании по сдаче крови есть список потенциальных добровольцев. У координатора есть бюджет, чтобы стимулировать 10% наиболее удаленных добровольцев и компенсировать им время поездки к месту сдачи крови, и он используют 10% как процент местоположений, считающихся выбросами, чтобы помочь спланировать места и стимулы для кампании по сдаче крови.

Кроме того, если Число соседей и Процент местоположений, считающихся выбросами, неизвестны или если вы хотите изучить управляемые данными значения для этих параметров, инструмент может использовать поиск значения параметра с использованием пространственного распределения данных. Для получения дополнительной информации об этом подходе см. раздел Выбор параметров на основе данных, расположенный ниже, в нем приводится подробное объяснение.

Фактор локального выброса

Расчет фактора локальных выбросов является основным механизмом выявления и описания пространственных выбросов. Он характеризуется четырьмя основными этапами: установление окрестности, определение расстояния достижимости, вычисление локальной плотности достижимости и вычисление самого фактора локального выброса. Каждый шаг описан в следующих разделах.

Определите окрестности и нахождение расстояния достижимости

Локальная окрестность устанавливается для каждого местоположения с использованием указанного минимального количества объектов. Этот подход обычно называют K-ближайшая окрестность, где K соответствует указанному минимальному количеству объектов в непосредственной близости от анализируемого объекта. В качестве примера на рисунке ниже показан сценарий для объекта A, где количество соседей k равно 4.

Окрестность объекта A

Объекты 1, 2, 3 и 4 образуют окрестность объекта A и теперь обозначаются B.

Как только окрестность объекта установлена, расстояние достижимости соответствует большему из расстояния между A и B и расстояния от B до его k-го ближайшего соседа.

Формула расстояния достижимости

На следующем рисунке показано расстояние достижимости для точки A в сценарии, где k = 4.

Расстояние достижимости объекта A

Таким же образом каждый объект имеет расстояние достижимости, определяемое его K-ближайшими соседями.

Нахождение локальной плотности достижимости

После нахождения расстояния достижимости для каждого объекта вычисляется среднее значение расстояний достижимости для всех объектов в окрестности. Это среднее значение используется для определения локальной плотности достижимости, которая является мерой пространственной плотности для окрестности объекта. Расчет локальной плотности достижимости соответствует обратной величине среднего расстояния достижимости для всех объектов в окрестности.

Формула плотности локальной достижимости

Другой способ концептуализировать локальную плотность достижимости - это вычислить расстояние достижимости для всех объектов с B1 по B4, которые принадлежат окрестности объекта A, как показано на изображении ниже.

Расстояние достижимости каждого соседа

Затем разделите общее расстояние на количество объектов (в данном случае 4) и возьмите обратное (разделите 1 на это общее количество).

Вы также можете представить себе, что по мере увеличения среднего расстояния достижимости для объектов плотность локальной достижимости уменьшается. Следовательно, по мере того, как среднее расстояние достижимости объектов уменьшается, плотность локальной достижимости увеличивается.

Сравнение плотностей локальной достижимости

Вычисление фактора локального выброса

После расчета плотности локальной достижимости для всех объектов последним шагом в вычислении локального коэффициента выброса является вычисление соотношений между локальной плотностью достижимости объекта и локальной плотностью достижимости каждого из его соседей. Среднее значение этих отношений является локальным выбросом.

Формула фактора локального выброса

Чтобы понять, как это помогает определить, является ли объект пространственным выбросом, необходимо учесть, что по мере того, как плотность локальной достижимости объекта уменьшается (другими словами, окрестность объекта становится разреженным), а плотность локальной достижимости его соседей увеличивается (другими словами, окрестность соседнего объекта более плотная), фактор локального выброса увеличивается: объект более удален, потому что его пространственная плотность мала, а пространственная плотность соседних объектов выше.

После того как локальные факторы выбросов рассчитываются для всех объектов, инструмент использует значение параметра процент местоположений, которые должны быть обозначены как выбросы, чтобы обозначить объекты как выбросы и отклонения. Следовательно, выбор подходящего процента является одним из важных критериев при определении и интерпретации результатов анализа.

Выбор параметров на основе данных

Параметры Число соседей и Процент местоположений, считающихся выбросами имеют важное влияние на результат расчета LOF и обнаруженные пространственных выбросов. Хотя рекомендуется, выбирать значения этих параметров основываясь на знаниях предметной области, очевидно, что не каждый вопрос анализа включает четкое значение этих критериев.

Если логические значения количества соседей и/или процента местоположений, считающихся выбросами, неизвестны до выполнения анализа, или если вы хотите оценить результаты на основе данных, инструмент может автоматически найти значения параметров на основе пространственного распределения входных объектов. Для этого инструмент выполняет поиск, сравнивая комбинации параметра количества соседей k и процента местоположений, считающихся выбросами, обозначенного как c, которые преобразуется в количество местоположений, считающихся выбросами, параметром поиска, обозначенным как n.

Для каждой пары значений параметра [(c1, k1), (c2, k2),…] вычисляется фактор локального выброса. Результирующие значения LOF ранжируются от наивысшего к наименьшему, а среднее значение журнала (LOF) n верхних выбросов сравнивается со средним значением журнала (LOF) следующих n отклонений (второй по величине LOF) с использованием t-статистики Tci, kj.

Оптимальное количество соседей и порог LOF находятся с помощью оптимизированного поиска по сетке.

Для каждого c, находится лучший k: Tc1,k2, Tc2,k3, Tc3,k2. Затем среди них находятся лучшие c, k.

При обработке следует учитывать следующее:

  • При наличии значения c инструмент определяет k, который максимизирует значимость t-статистики. То есть значение ближайших соседей, которое максимизирует разницу в LOF между группой выбросов и группой отклонений.
  • Инструмент определяет значение c, которое максимизирует t-статистику после корректировки размера n.

Выбросы сравниваются с отклонениями

T-тест выполняется между средними значениями групп выбросов и отклонений.

Поиск происходит в области значений k и c, установленных количеством входных точек, и каждое решение, которое инструмент принимает для выбранных значений параметров, выводится в виде сообщения после его выполнения.

Примечание:

Для входных наборов данных с большим количеством объектов инструмент проверяет только подмножество значений числа соседей и порога LOF.

Обсуждение и интерпретация результатов

При интерпретации результатов работы этого инструмента необходимо учитывать несколько важных моментов.

  • Значения LOF, рассчитанные для входного набора данных, нельзя использовать для сравнения с рассчитанными значениями LOF в другом наборе данных. Расчеты LOF зависят от пространственного распределения входных объектов в наборе данных; следовательно, любые различия в отдельных наборах данных приведут к разным расчетным плотностям локальной достижимости и значениям LOF.
  • Вычисленные результаты LOF могут отличаться для точки в выходных объектах и ячейки в выходном растре прогноза, совпадающей с точкой. Причина этого различия в том, что окрестность точки включает соседей в ее окрестности, но не включает себя; однако ячейка растра, совпадающая с точкой, включает точку в качестве одного из своих соседей.
  • Небольшие различия в значениях, представленных в параметре Процент местоположений, считающихся выбросами может привести к тому же выходному проценту местоположений, считающихся выбросами. Это может произойти, когда сходство в пространственном распределении для объектов приводит к одинаковому значению LOF для нескольких объектов и устанавливается один и тот же порог LOF, даже если процентное значение отличается с небольшим запасом.
    • Рассмотрим простой набор данных с 10 объектами, расчет LOF которых дает следующие значения LOF: [0, 1, 2, 3, 4, 5, 9, 9, 9, 9]. В этом примере значение 10 процентов для процента местоположений, считающихся выбросами, приведет к выбору верхних 10 процентов значений LOF, что соответствует пороговому значению LOF, равному 9. Точно так же установка значения 40 процентов для процента местоположений, считающихся выбросами, приведет к выбору верхних 40 процентов значений LOF, хотя при этом все равно будет установлено пороговое значение LOF, равное 9. Следовательно, выходное количество выбросов, обозначенных как выбросы, будет одинаковым для процентов от 10 до 40 процентов.

Дополнительные ссылки

Для получения дополнительной информации о локальном факторе выброса и параметрах оптимизации см. в:

  • Breunig, M. M., Kriegel, H. P., Ng, R. T., Sander, J. (2000). "LOF: identifying density-based local outliers." Материалы международной конференции 2000 ACM SIGMOD, посвященной управлению данными. (pp. 93-104).
  • Xu, Z., Kakde, D., Chaudhuri, A. (2019). "Automatic Hyperparameter Tuning Method for Local Outlier Factor, with Applications to Anomaly Detection." 2019 IEEE Международная конференция по Большим данным (pp. 4201-4207)