Cómo funciona Detección de valores atípicos espaciales

La herramienta Detección de valores atípicos espaciales identifica valores atípicos espaciales globales o locales en entidades de puntos. Un valor atípico global es un punto que está lejos de todos los demás puntos de la clase de entidad. Un valor atípico local es un punto que está más lejos de sus vecinos de lo esperado por la densidad de puntos del área local. Además de clasificar los puntos de entrada como valores atípicos o inliers, la herramienta es capaz de producir una superficie ráster con el factor de valor atípico local (LOF) calculado en el área de estudio, lo que puede ayudar a determinar cómo se clasificarán las nuevas observaciones dada la distribución espacial de sus datos. Además, la herramienta puede optimizar la selección de los parámetros necesarios, como el número de vecinos y el porcentaje de ubicaciones que se consideran valores atípicos.

Potenciales aplicaciones

Entre las aplicaciones potenciales de esta herramienta están los siguientes escenarios:

  • Una organización mantiene las estaciones de monitorización de la calidad del aire que se utilizan para la interpolación de la superficie de calidad del aire; la organización desea identificar los monitores más aislados para identificar dónde será necesario recopilar datos complementarios.
  • A menudo, los eventos de captación de donantes de sangre se celebran cerca de clústeres de donantes potenciales para así minimizar el viaje necesario de cada donante, pero los donantes importantes que viven lejos pueden requerir una mayor comunicación y mayores incentivos para impulsar el número de donaciones. Un coordinador puede identificar a aquellos donantes candidatos que se consideran valores atípicos espaciales y hacer un mailing con incentivos adicionales para desplazarse a una distancia mayor hasta un evento de captación de donantes de sangre.

Valores atípicos espaciales globales y locales

Los valores atípicos en el espacio se definen como puntos cuyas ubicaciones no son típicas de los patrones del resto de los puntos del dataset. En el caso más simple, esto significa que un punto está lejos del resto de los puntos, y esto se denomina valor atípico global. Por ejemplo, un mapa de salas de urgencias en un estado puede identificar salas de urgencias en áreas de baja población como valores atípicos globales, porque hay distancias más grandes entre ellas en comparación con las áreas de población alta. Sin embargo, a veces es más significativo detectar puntos cuya ubicación difiera de los patrones de los puntos de su área, y esto se denomina valor atípico local. Utilizando el mismo ejemplo de las salas de urgencias en un estado, un valor atípico espacial local es un hospital que está lejos de otras salas de urgencias, teniendo en cuenta la densidad cambiante de las salas de urgencias en todo el estado. Esto podría identificar las salas de urgencias en áreas de alta población que prestan servicio a más personas que las salas de urgencias circundantes, lo que podría identificar las áreas con un menor acceso cuidados de urgencia.

La siguiente imagen muestra un resultado típico de la detección de valores atípicos espaciales con valores atípicos en color naranja y los inliers en gris. Los valores atípicos globales se muestran a la derecha y los valores atípicos locales de una sección pequeña del estado de Washington se muestran a la izquierda. Los puntos locales no parecen ser valores atípicos al examinar todos los puntos del país, pero están significativamente alejados de un clúster local de puntos de su área local.

Valores atípicos espaciales globales y locales

Los valores atípicos globales se muestran a la derecha y los valores atípicos locales de un área pequeña se muestran a la izquierda.

Salidas de la herramienta

La herramienta proporciona una capa de entidades de salida que resalta las entidades designadas como valores atípicos espaciales. Los valores atípicos se simbolizan en naranja, y los inliers se simbolizan en gris semitransparente, lo que permite evaluar visualmente la densidad espacial de los inliers.

Valores atípicos espaciales identificados

La capa de entidades contiene dos gráficos: un gráfico de barras que muestra el recuento de valores atípicos e inliers y un histograma que muestra la distribución de los valores LOF (para los valores atípicos locales) o los valores de distancia a vecinos (para los valores atípicos globales).

El gráfico de barras que muestra el recuento de valores atípicos proporciona un recuento inmediato de valores atípicos y puede ser una forma eficaz de seleccionar todos los valores atípicos del análisis de salida.

Histograma de recuento de valores atípicos

El histograma que muestra la distribución de los valores LOF o los valores de distancia a vecinos contiene el valor promedio y el umbral utilizados para distinguir los valores atípicos e inliers.

Histograma de valores LOF

Además, si se introduce un valor en el parámetro Ráster de predicción de salida, se produce un ráster de salida que muestra los valores LOF o de distancia a vecinos calculados para cada celda del área de estudio.

Superficie de ráster de salida

El ráster de salida muestra los valores LOF como una superficie continua.

Detectar valores atípicos espaciales globales

Los valores atípicos globales son más simples que los valores atípicos locales. Para la detección de valores atípicos globales, los valores atípicos se determinan calculando la distancia a uno de sus vecinos más cercanos, denominada distancia a vecinos. De forma predeterminada, se utiliza el vecino más cercano, pero puede cambiar el número mediante el parámetro Cantidad de vecinos. Si proporciona un valor de tres, por ejemplo, se calculará la distancia al tercer vecino más cercano para cada punto. Los puntos con distancias de vecino más grandes están más alejados de sus vecinos más cercanos y cualquier punto con una distancia a vecinos por encima de cierto umbral se detectará como un valor atípico global.

El umbral para la detección se determina mediante la distribución de las distancias a vecinos y el valor del parámetro Sensibilidad de detección. Puede visualizar el umbral mediante un diagrama de caja agregando un número de rangos intercuartil (el rango del 50 por ciento central de los datos) al tercer cuartil. Para la opción de sensibilidad Alta, se agrega un rango intercuartil al tercer cuartil. Para la sensibilidad Media, se agregan 1,5 rangos intercuartiles. Para la sensibilidad Baja, se agregan 2 rangos intercuartiles. Tenga en cuenta que unas intensidades más altas dan como resultado umbrales más bajos, lo que permite que las distancias a vecinos más cortas se detecten como valores atípicos globales.

Regla de diagrama de caja para valores atípicos globales

Los umbrales para la sensibilidad baja, media y alta se muestran para el diagrama de caja azul de las distancias a vecinos.

Detectar valores atípicos espaciales locales

Identificar las ubicaciones típicas o agrupadas es a menudo más importante que identificar las ubicaciones típicas o agrupadas en clústeres. Un ejemplo es la investigación de transacciones financieras potencialmente fraudulentas que, con frecuencia, se producen en ubicaciones anormales que difieren de los patrones espaciales típicos de las transacciones.

A pesar de esta necesidad, la mayoría de los enfoques que intentan identificar valores atípicos se centran en la primera identificación de clústeres y, a continuación, el uso de las entidades restantes como corolarios de los valores atípicos espaciales. Por ejemplo, la herramienta Clustering basado en densidad es eficaz a la hora de definir e identificar el clustering espacial utilizando una variedad de planteamientos, pero su identificación de valores atípicos se relega a las entidades que no cumplen los criterios de un clúster, lo cual se designa en bins como entidades de ruido. Por lo tanto, el único uso de los planteamientos de clustering para identificar valores atípicos espaciales cuenta al menos con dos vulnerabilidades. En primer lugar, los planteamientos de clustering, por diseño, se centran en definir e identificar clústeres, no en valores atípicos. En segundo lugar, la designación de un valor atípico se realiza a menudo de forma binaria, sin tolerancias ni niveles cuantificados de en qué medida una observación es un valor atípico.

El factor de valor atípico local (LOF) soluciona estas distinciones al centrarse en la identificación de valores atípicos y al proporcionar una medida del grado en que una entidad es un valor atípico. Además, este planteamiento utiliza patrones de densidad local para comparar la densidad de vecindad de una entidad en relación con las vecindades de otras entidades en su entorno. Permite una distinción entre los valores atípicos globales, los puntos que se resaltan en el contexto de toda el área de estudio y los valores atípicos locales, los puntos que se resaltan en el contexto de sus elecciones inmediatas. El énfasis en los valores atípicos locales ayuda a arrojar luz sobre los fenómenos locales más complejos que requieren una investigación más cercana, como el escenario del historial de transacciones que se ha mencionado anteriormente.

Definir criterios para detectar valores atípicos espaciales locales

Para que la herramienta mida e identifique valores atípicos espaciales, requiere un valor para el parámetro Número de vecinos evaluado para cada entidad y un valor para el parámetro Porcentaje de ubicaciones consideradas valores atípicos en el área de estudio; estos criterios son importantes a la hora de determinar el tamaño de la vecindad en el cálculo del factor de valor atípico (LOF) y el umbral para designar valores atípicos e inliers.

  • El parámetro Número de vecinos establece una vecindad para cada entidad. El cálculo del LOF utiliza esta vecindad para calcular una distancia de alcanzabilidad y una densidad de alcanzabilidad local, que constituye la base de comparación para estimar la extensión espacial de una entidad a partir de las entidades de su vecindad inmediata.
  • El parámetro Porcentaje de ubicaciones consideradas valores atípicos establece un umbral para designar a las entidades como valores atípicos (outliers) o como inliers. Este umbral utiliza los valores de LOF calculados para todas las entidades de los datos de entrada, estableciendo la cantidad de entidades con los valores LOF más altos que se designan como valores atípicos.

Siempre que sea posible, y por motivos de conocimiento del dominio, se le recomienda que ayude a establecer el valor de estos parámetros, como en los siguientes ejemplos:

  • Un técnico de transporte puede tener conocimientos inherentes del dominio sobre cuántas colisiones en una misma intersección indican un problema de seguridad sistémico y puede utilizar este valor como el número de vecinos evaluado al detectar valores atípicos espaciales.
  • Un coordinador de un evento de donación de sangre tiene una lista de posibles voluntarios para la donación. El coordinador tiene presupuesto para incentivar al 10 por ciento de los voluntarios más remotos para compensarles por el tiempo de desplazamiento hasta un centro de donación de sangre, y destina el 10 por ciento al porcentaje de ubicaciones consideradas atípicas y ayudar a planificar los emplazamientos e incentivos para el evento de donación de sangre.

Además, si no se conocen los valores de los parámetros Cantidad de vecinos o Porcentaje de ubicaciones consideradas valores atípicos, o si desea explorar valores basados en datos para estos parámetros, la herramienta puede utilizar una búsqueda de valor de parámetro utilizando la distribución espacial de los datos. Para obtener más información sobre este planteamiento, la sección Selección de parámetros basada en datos que aparece a continuación proporciona una explicación detallada.

Factor de valor atípico local

El cálculo del factor de valor atípico local es el mecanismo principal a la hora de identificar y describir valores atípicos espaciales. Se caracteriza por cuatro pasos principales: establecer una vecindad, determinar la distancia de alcanzabilidad, calcular la densidad de alcanzabilidad local y calcular el propio factor de valor atípico local. Estas acciones se describen en las secciones que aparecen a continuación.

Establecer un vecindario y determinar la distancia de alcanzabilidad

Se establece una vecindad local para cada ubicación utilizando un número mínimo de entidades especificado. Este planteamiento se conoce comúnmente como K-vecinos más cercanos, donde K corresponde a la cantidad mínima especificada de entidades en las proximidades de la entidad analizada actualmente. Por ejemplo, la siguiente ilustración muestra un escenario para la entidad A, en el cual el número de vecinos, k, es igual a 4

Vecindad de la entidad A

Las entidades 1, 2, 3 y 4 forman la vecindad de la entidad A y ahora se consideran B.

Una vez que se establece la vecindad de una entidad, la distancia de alcanzabilidad corresponde al valor mayor de la distancia entre A y B y la distancia entre B y su k-vecino más cercano.

Fórmula de distancia de alcanzabilidad

La siguiente ilustración muestra la distancia de alcanzabilidad del punto A en un escenario en el que k = 4.

Distancia de alcanzabilidad de la entidad A

Del mismo modo, cada entidad tiene una distancia de alcanzabilidad definida por sus K-vecinos más cercanos.

Determinar la densidad de alcanzabilidad local

Una vez que se determina una distancia de alcanzabilidad para cada entidad, se calcula el promedio de las distancias de alcanzabilidad de todas las entidades en la vecindad de la entidad. Esta media se utiliza para determinar la densidad de alcanzabilidad local, que es una medición de la densidad espacial para la vecindad de la entidad. El cálculo de la densidad de alcanzabilidad local corresponde a la distancia de alcanzabilidad media de todas las entidades de la vecindad de una entidad.

Fórmula de densidad de alcanzabilidad local

Otra forma de conceptualizar la densidad de alcanzabilidad local es calcular la distancia de alcanzabilidad de todas las entidades, B1 a B4, que pertenecen a la vecindad de la entidad A, como se muestra en la siguiente imagen.

Distancia de alcanzabilidad de cada vecino

A continuación, divida la distancia total entre el número de entidades (4, en este caso) y tome la inversa (división 1 por este total).

Asimismo, es posible conceptualizar que, a medida que aumenta la distancia media de alcanzabilidad de las entidades, la densidad de alcanzabilidad local disminuye. Por lo tanto, a medida que disminuye la distancia de alcanzabilidad media para las entidades, aumenta la densidad de alcanzabilidad local.

Comparación de densidades de alcanzabilidad local

Calcular el factor de valor atípico local

Con densidades de alcanzabilidad locales calculadas para todas las entidades, el paso final del cálculo del factor de valor atípico local es calcular las relaciones entre la densidad de alcanzabilidad local de una entidad y la densidad de alcanzabilidad local de cada uno de sus vecinos. El promedio de estos ratios es el factor de valor atípico local.

Fórmula del factor de valor atípico local

Para conceptualizar cómo esto ayuda a detectar si una entidad es un valor atípico espacial, considere que, a medida que la densidad de alcanzabilidad local de una entidad disminuye (en otras palabras, la vecindad de una entidad está dispersa) y la densidad de alcanzabilidad local de sus vecinos aumenta (en otras palabras, la vecindad del vecino de una entidad es más densa), el factor de valor atípico local aumenta más: la entidad es más densa porque su densidad espacial es baja y las densidades espaciales de sus entidades vecinas son más altas.

Con los factores de valores atípicos locales calculados para todas las entidades, la herramienta utiliza el porcentaje de ubicaciones que se van a designar como valor atípico para designar entidades como valores atípicos e inliers. Por lo tanto, la selección de un porcentaje adecuado está entre los criterios importantes al definir e interpretar los resultados del análisis.

Selección de parámetros controlada por datos

Los parámetros Número de vecinos y Porcentaje de ubicaciones consideradas valores atípicos tienen una influencia importante en el cálculo del LOF y los valores atípicos espaciales detectados. Aunque se recomienda que el conocimiento de dominio control controle la selección de estos valores de parámetros, se reconoce que no todas las preguntas de análisis pueden incluir un valor claro para estos criterios.

Si no se conocen los valores lógicos para el número de vecinos o el porcentaje de ubicaciones que se consideran valores atípicos antes de ejecutar el análisis, o si desea evaluar los resultados basados en datos, la herramienta puede buscar automáticamente valores de parámetro adecuados basados en la distribución espacial de las entidades de entrada. Para ello, la herramienta realiza una búsqueda comparando combinaciones del parámetro de número de vecinos, k y el porcentaje de ubicaciones que se consideran valores atípicos, considerado como c, que se convierte en un número de ubicaciones que se consideran parámetros de búsqueda de valores atípicos, considerado comon.

Para cada par de valores de parámetros, se calcula [(c1, k1), (c2, k2), el factor de valor atípico local. Los valores de LOF resultantes se clasifican de mayor a menor, y el valor medio del log(LOF) de los valores atípicos n superiores se compara con el valor medio del log(LOF) de los siguientes n inliers (segundo LOF más alto) utilizando una estadística Tci,kj.

El número óptimo de vecinos y el umbral de LOF se determinan con una búsqueda de cuadrícula optimizada.

Dada cada c, se determina la mejor k: Tc1,k2, Tc2,k3, Tc3,k2. A continuación, se determina el mejor c, k entre ellos.

Antes de continuar, tenga en cuenta lo siguiente:

  • Dado un valor de c, la herramienta identifica el k que maximiza la importancia de la estadística t. Es decir, el valor de los vecinos más cercanos que maximiza la diferencia en LOF entre el grupo de valores atípicos y el grupo de inliers.
  • La herramienta identifica el valor de c que maximiza las estadísticas t después de ajustar el tamaño de n.

Valores atípicos comparados con los inliers.

La prueba T se realiza entre los valores medios de los grupos de valores atípicos e inliers.

La búsqueda se produce sobre un dominio de valores k y c establecidos por el número de puntos de entrada, y cada una de las decisiones que toma la herramienta para los valores de parámetro elegidos se informa como un mensaje después de la ejecución de la herramienta.

Nota:

Para los datasets de entrada con muchas entidades, la herramienta solo verifica un subconjunto de los valores del número de vecinos y el umbral de LOF.

Consideraciones e interpretaciones de salidas

Existen varias consideraciones importantes a la hora de interpretar la salida de esta herramienta.

  • Los valores de LOF calculados para un dataset de entrada no se pueden utilizar para comparar con los valores de LOF calculados en un dataset diferente. Los cálculos de LOF dependen de la distribución espacial de las entidades de entrada de un dataset; por lo tanto, cualquier diferencia en datasets separados dará como resultado diferentes densidades de alcanzabilidad local calculadas y valores de LOF.
  • Los resultados de LOF calculados pueden diferir entre un punto de las entidades de salida y una celda del ráster de predicción de salida que varía con el punto. La razón para esta diferencia es que la vecindad del punto incluye los vecinos en sus proximidades y no se incluye a sí misma; sin embargo, la celda ráster que reside con el punto incluye el punto como uno de sus vecinos.
  • Las pequeñas diferencias en los valores enviados para el parámetro Porcentaje de ubicaciones consideradas valores atípicos pueden dar como resultado el mismo porcentaje de salida de las ubicaciones que se consideran valores atípicos. Esto puede ocurrir cuando las similitudes en la distribución espacial para las entidades dan como resultado el mismo valor de LOF para varias entidades y se establece el mismo umbral de LOF incluso si el porcentaje es diferente por un margen pequeño.
    • Considere un dataset simple con 10 entidades cuyo cálculo de LOF da como resultado los siguientes valores de LOF: [0, 1, 2, 3, 4, 5, 9, 9, 9, 9]. En este ejemplo, un valor del 10 por ciento para el porcentaje de ubicaciones que se consideran valores atípicos podría dar lugar a la selección de los valores superiores del 10 por ciento de LOF, que corresponde a un umbral de LOF de 9. Del mismo modo, al entregar un valor del 40 por ciento para el porcentaje de ubicaciones que se consideran valores atípicos, se seleccionarían los valores superiores del 40 por ciento de LOF, aunque seguirá estableciendo un umbral de LOF de 9. Por lo tanto, el recuento de valores atípicos de salida designado como valores atípicos será el mismo para los porcentajes del 10 al 40 por ciento.

Referencias adicionales

Para obtener más información sobre el factor de valor atípico local y la optimización de parámetros, consulte las siguientes referencias:

  • Breunig, M. M., Kriegel, H. P., Ng, R. T., Sander, J. (2000). "LOF: identifying density-based local outliers." Proceedings of the 2000 ACM SIGMOD international conference on Management of data. (pp. 93-104).
  • Xu, Z., Kakde, D., Chaudhuri, A. (2019). "Automatic Hyperparameter Tuning Method for Local Outlier Factor, with Applications to Anomaly Detection." 2019 IEEE International Conference on Big Data (pp. 4201-4207)