Как работает Определение пространственных выбросов

Инструмент Определение пространственных выбросов при работе определяет Локальный фактор выбросов (LOF) для измерения степени, в которой точки в изучаемой области выброшены относительно других точек в их окрестностях. Помимо классификации входных точек, как выбросов или отклонений, инструмент может создавать растровую поверхность с вычисленным локальным фактором выброса по исследуемой области, что может помочь в определении того, как новые наблюдения будут классифицироваться с учетом пространственного распределения ваших данных. Кроме того, инструмент может оптимизировать выбор необходимых параметров, таких как число соседей и процент местоположений, считающихся выбросами.

Возможное применение

Возможные применения этого инструмента включают следующие сценарии:

  • Организация поддерживает станции мониторинга качества воздуха, которые используются для интерполяции качества воздуха на поверхности, и она хочет определить наиболее изолированные точки мониторинга, чтобы определить, где необходим сбор дополнительных данных.
  • Акции по сдаче крови часто организуются рядом с группами потенциальных доноров, чтобы свести к минимуму поездки, необходимые каждому донору, однако важным донорам, живущим далеко, могут потребоваться дополнительные взаимодействия и стимулы, чтобы поощрять добровольную сдачу крови. Координатор может идентифицировать этих кандидатов-доноров, которые считаются пространственными отклонениями, и отправить почтовую рассылку с дополнительными стимулами для поощрения дальнейших поездок на мероприятия по сдаче крови.

Определение критериев для обнаружения пространственных выбросов

Чтобы инструмент мог измерять и идентифицировать пространственные выбросы, ему требуется значение параметра Число соседей, оцениваемое для каждого объекта, и значение параметра Процент местоположений, считающихся выбросами в области исследования; эти критерии важны при определении размера окрестности при вычислении LOF и порогового значения для обозначения выбросов и отклонений.

  • Параметр Число соседей устанавливает окрестность для каждого объекта. При расчете LOF используется эта окрестность для расчета расстояния достижимости и локальной плотности достижимости, что составляет основу сравнения для оценки того, насколько пространственно удален объект от объектов в его непосредственной близости.
  • Параметр Процент местоположений, считающихся выбросами устанавливает порог для обозначения объектов как выбросов или отклонений. Этот порог использует вычисленные значения LOF для всех объектов во входных данных, устанавливая количество объектов с наивысшими значениями LOF, которые обозначаются как выбросы.

По возможности, для базового знания предмета, чтобы помочь вам, рекомендуется установить значения этих параметров, так, как показано в следующих примерах:

  • Инженер транспорта может иметь базовые знания о том, сколько аварий на перекрестке указывает на системную проблему безопасности, и может использовать это значение в качестве числа соседей, оцениваемых при обнаружении пространственных выбросов.
  • У координатора кампании по сдаче крови есть список потенциальных добровольцев. У координатора есть бюджет, чтобы стимулировать 10% наиболее удаленных добровольцев и компенсировать им время поездки к месту сдачи крови, и он используют 10% как процент местоположений, считающихся выбросами, чтобы помочь спланировать места и стимулы для кампании по сдаче крови.

Выходные данные инструмента

Инструмент предоставляет выходной векторный слой, выделяющий объекты, обозначенные как пространственные выбросы. Выбросы обозначаются оранжевым, а отклонения – полупрозрачным серым, что позволяет визуально оценивать пространственную плотность вставок.

Найденные пространственные выбросы

Слой объектов включает две диаграммы: столбчатую диаграмму, показывающую количество выбросов и отклонений, и гистограмму, показывающую распределение значений LOF.

Столбчатая диаграмма, показывающая количество выбросов, позволяет мгновенно подсчитать выбросы и может быть эффективным способом выбора всех выбросов из выходного анализа.

Столбчатая диаграмма количества выбросов

Гистограмма, показывающая распределение значений LOF, включает среднее значение LOF и пороговое значение LOF, используемое для различения выбросов и отклонений.

Гистограмма значений LOF

Кроме того, если значение введено в параметр Выходной прогнозный растр, создается выходной растр, показывающий рассчитанное значение LOF для каждой ячейки в области исследования.

Выходная растровая поверхность

Выходной растр отображает значения LOF в виде непрерывной поверхности.

Понимание Определения пространственных выбросов

Выявление аномальных или отдаленных местоположений часто более важно, чем определение типичных или сгруппированных местоположений. Примером может служить расследование потенциально мошеннических финансовых транзакций, которые часто происходят в ненормальных местах, которые отличаются от типичных пространственных схем транзакций.

Несмотря на эту задачу, большинство подходов, которые пытаются идентифицировать выбросы, сосредотачиваются на том, чтобы сначала идентифицировать кластеры, а затем использовать оставшиеся объекты как последствия пространственных выбросов. Например, инструмент Кластеризация на основе плотности эффективен для определения и идентификации пространственной кластеризации с использованием различных подходов, но он идентифицирует выбросы как объекты, которые не удовлетворяли критериям для кластера, двоично обозначаемым как шумовые объекты. Следовательно, использование только подходов кластеризации для выявления пространственных выбросов имеет как минимум два недостатка. Во-первых, подходы кластеризации изначально ориентированы на определение и идентификацию кластеров, а не выбросов. Во-вторых, определение выбросов часто выполняется бинарным способом, без допусков или количественных уровней того, насколько наблюдение является выбросом.

Фактор локальных выбросов (LOF) устраняет эти недостатки, фокусируясь на выявлении выбросов и обеспечивая измерение того, насколько сильно объект отброшен. Кроме того, этот подход использует образцы локальной плотности для сравнения плотности окрестности объекта по отношению к окрестностям других объектов в его окрестностях. Это позволяет различать глобальные выбросы, точки, которые являются аномальными в контексте всей области исследования, и локальные выбросы, точки, которые являются аномальными в контексте их непосредственной близости. Акцент на локальных выбросах помогает пролить свет на более сложные локальные явления, требующие более тщательного изучения, такие как ранее упомянутый сценарий истории транзакций.

Фактор локального выброса

Расчет фактора локальных выбросов является основным механизмом выявления и описания пространственных выбросов. Он характеризуется четырьмя основными этапами: установление окрестности, определение расстояния достижимости, вычисление локальной плотности достижимости и вычисление самого фактора локального выброса. Каждый шаг описан в следующих разделах.

Определите окрестности и нахождение расстояния достижимости

Локальная окрестность устанавливается для каждого местоположения с использованием указанного минимального количества объектов. Этот подход обычно называют K-ближайшая окрестность, где K соответствует указанному минимальному количеству объектов в непосредственной близости от анализируемого объекта. В качестве примера на рисунке ниже показан сценарий для объекта A, где количество соседей k равно 4.

Окрестность объекта A

Объекты 1, 2, 3 и 4 образуют окрестность объекта A и теперь обозначаются B.

Как только окрестность объекта установлена, расстояние достижимости соответствует большему из расстояния между A и B и расстояния от B до его k-го ближайшего соседа.

Формула расстояния достижимости

На следующем рисунке показано расстояние достижимости для точки A в сценарии, где k = 4.

Расстояние достижимости объекта A

Таким же образом каждый объект имеет расстояние достижимости, определяемое его K-ближайшими соседями.

Нахождение локальной плотности достижимости

После нахождения расстояния достижимости для каждого объекта вычисляется среднее значение расстояний достижимости для всех объектов в окрестности. Это среднее значение используется для определения локальной плотности достижимости, которая является мерой пространственной плотности для окрестности объекта. Расчет локальной плотности достижимости соответствует обратной величине среднего расстояния достижимости для всех объектов в окрестности.

Формула плотности локальной достижимости

Другой способ концептуализировать локальную плотность достижимости - это вычислить расстояние достижимости для всех объектов с B1 по B4, которые принадлежат окрестности объекта A, как показано на изображении ниже.

Расстояние достижимости каждого соседа

Затем разделите общее расстояние на количество объектов (в данном случае 4) и возьмите обратное (разделите 1 на это общее количество).

Вы также можете представить себе, что по мере увеличения среднего расстояния достижимости для объектов плотность локальной достижимости уменьшается. Следовательно, по мере того, как среднее расстояние достижимости объектов уменьшается, плотность локальной достижимости увеличивается.

Сравнение плотностей локальной достижимости

Вычисление фактора локального выброса

После расчета плотности локальной достижимости для всех объектов, последний шаг в вычислении локального коэффициента выброса – вычисление соотношений между локальной плотностью достижимости объекта и локальной плотностью достижимости каждого из его соседей. Среднее значение этих отношений является локальным выбросом.

Формула фактора локального выброса

Чтобы понять, как это помогает определить, является ли объект пространственным выбросом, необходимо учесть, что по мере того, как плотность локальной достижимости объекта уменьшается (другими словами, окрестность объекта становится разреженным), а плотность локальной достижимости его соседей увеличивается (другими словами, окрестность соседнего объекта более плотная), фактор локального выброса увеличивается: объект более удален, потому что его пространственная плотность мала, а пространственная плотность соседних объектов выше.

После того как локальные факторы выбросов рассчитываются для всех объектов, инструмент использует значение параметра процент местоположений, которые должны быть обозначены как выбросы, чтобы обозначить объекты как выбросы и отклонения. Следовательно, выбор подходящего процента является одним из важных критериев при определении и интерпретации результатов анализа.

Обсуждение и интерпретация результатов

При интерпретации результатов работы этого инструмента необходимо учитывать несколько важных моментов.

  • Значения LOF, рассчитанные для входного набора данных, нельзя использовать для сравнения с рассчитанными значениями LOF в другом наборе данных. Расчеты LOF зависят от пространственного распределения входных объектов в наборе данных; следовательно, любые различия в отдельных наборах данных приведут к разным расчетным плотностям локальной достижимости и значениям LOF.
  • Вычисленные результаты LOF могут отличаться для точки в выходных объектах и ячейки в выходном растре прогноза, совпадающей с точкой. Причина этого различия в том, что окрестность точки включает соседей в ее окрестности, но не включает себя; однако ячейка растра, совпадающая с точкой, включает точку в качестве одного из своих соседей.
  • Небольшие различия в значениях, представленных в параметре Процент местоположений, считающихся выбросами может привести к тому же выходному проценту местоположений, считающихся выбросами. Это может произойти, когда сходство в пространственном распределении для объектов приводит к одинаковому значению LOF для нескольких объектов и устанавливается один и тот же порог LOF, даже если процентное значение отличается с небольшим запасом.
    • Рассмотрим простой набор данных с 10 объектами, расчет LOF которых дает следующие значения LOF: [0, 1, 2, 3, 4, 5, 9, 9, 9, 9]. В этом примере значение 10 процентов для процента местоположений, считающихся выбросами, приведет к выбору верхних 10 процентов значений LOF, что соответствует пороговому значению LOF, равному 9. Точно так же установка значения 40 процентов для процента местоположений, считающихся выбросами, приведет к выбору верхних 40 процентов значений LOF, хотя при этом все равно будет установлено пороговое значение LOF, равное 9. Следовательно, выходное количество выбросов, обозначенных как выбросы, будет одинаковым для процентов от 10 до 40 процентов.

Дополнительные ссылки

Для получения дополнительной информации о локальном факторе выброса и см. дополнительную литературу:

  • Breunig, M. M., Kriegel, H. P., Ng, R. T., Sander, J. (2000). "LOF: identifying density-based local outliers." Материалы международной конференции 2000 ACM SIGMOD, посвященной управлению данными. (pp. 93-104).