Cómo funciona Detección de valores atípicos espaciales—Nuevas características y mejoras que se han agregado en esta versión.

La herramienta Detección de valores atípicos espaciales funciona calculando un factor de valor atípico local (LOF) para medir el grado en el que los puntos de un área de estudio son valores atípicos respecto de otros puntos de su vecindad local. Además de clasificar los puntos de entrada como valores atípicos o inliers, la herramienta es capaz de producir una superficie ráster con el factor de valor atípico local calculado en el área de estudio, lo que puede ayudar a determinar cómo se clasificarán las nuevas observaciones dada la distribución espacial de sus datos. Además, la herramienta puede optimizar la selección de los parámetros necesarios, como el número de vecinos y el porcentaje de ubicaciones que se consideran valores atípicos.

Aplicaciones potenciales

Entre las aplicaciones potenciales de esta herramienta están los siguientes escenarios:

Una organización mantiene las estaciones de monitorización de la calidad del aire que se utilizan para la interpolación de la superficie de calidad del aire; la organización desea identificar los monitores más aislados para identificar dónde será necesario recopilar datos complementarios.
A menudo, los eventos de captación de donantes de sangre se celebran cerca de clústeres de donantes potenciales para así minimizar el viaje necesario de cada donante, pero los donantes importantes que viven lejos pueden requerir una mayor comunicación y mayores incentivos para impulsar el número de donaciones. Un coordinador puede identificar a aquellos donantes candidatos que se consideran valores atípicos espaciales y hacer un mailing con incentivos adicionales para desplazarse a una distancia mayor hasta un evento de captación de donantes de sangre.

Definir criterios para detectar valores atípicos espaciales

Para que la herramienta mida e identifique valores atípicos espaciales, requiere un valor para el parámetro Número de vecinos evaluado para cada entidad y un valor para el parámetro Porcentaje de ubicaciones consideradas valores atípicos en el área de estudio; estos criterios son importantes a la hora de determinar el tamaño de la vecindad en el cálculo del factor de valor atípico (LOF) y el umbral para designar valores atípicos e inliers.

El parámetro Número de vecinos establece una vecindad para cada entidad. El cálculo del LOF utiliza esta vecindad para calcular una distancia de alcanzabilidad y una densidad de alcanzabilidad local, que constituye la base de comparación para estimar la extensión espacial de una entidad a partir de las entidades de su vecindad inmediata.
El parámetro Porcentaje de ubicaciones consideradas valores atípicos establece un umbral para designar a las entidades como valores atípicos (outliers) o como inliers. Este umbral utiliza los valores de LOF calculados para todas las entidades de los datos de entrada, estableciendo la cantidad de entidades con los valores LOF más altos que se designan como valores atípicos.

Siempre que sea posible, y por motivos de conocimiento del dominio, se le recomienda que ayude a establecer el valor de estos parámetros, como en los siguientes ejemplos:

Un técnico de transporte puede tener conocimientos inherentes del dominio sobre cuántas colisiones en una misma intersección indican un problema de seguridad sistémico y puede utilizar este valor como el número de vecinos evaluado al detectar valores atípicos espaciales.
Un coordinador de un evento de donación de sangre tiene una lista de posibles voluntarios para la donación. El coordinador tiene presupuesto para incentivar al 10 por ciento de los voluntarios más remotos para compensarles por el tiempo de desplazamiento hasta un centro de donación de sangre, y destina el 10 por ciento al porcentaje de ubicaciones consideradas atípicas y ayudar a planificar los emplazamientos e incentivos para el evento de donación de sangre.

Salidas de la herramienta

La herramienta proporciona una capa de entidades de salida que resalta las entidades designadas como valores atípicos espaciales. Los valores atípicos se simbolizan en naranja, y los inliers se simbolizan en gris semitransparente, lo que permite evaluar visualmente la densidad espacial de los inliers.

Valores atípicos espaciales identificados

La capa de entidades contiene dos gráficos: un gráfico de barras que muestra el recuento de valores atípicos e inliers y un histograma que muestra la distribución de los valores LOF.

El gráfico de barras que muestra el recuento de valores atípicos proporciona un recuento inmediato de valores atípicos y puede ser una forma eficaz de seleccionar todos los valores atípicos del análisis de salida.

Histograma de recuento de valores atípicos

El histograma que muestra la distribución de los valores LOF contiene el valor medio de LOF y el umbral LOF utilizado para distinguir los valores atípicos e inliers.

Histograma de valores LOF

Además, si se introduce un valor en el parámetro Ráster de predicción de salida, se produce un ráster de salida que muestra el valor LOF calculado para cada celda del área de estudio.

Superficie de ráster de salida

El ráster de salida muestra los valores LOF como una superficie continua.

Información sobre la detección de valores atípicos espaciales

Identificar las ubicaciones típicas o agrupadas es a menudo más importante que identificar las ubicaciones típicas o agrupadas en clústeres. Un ejemplo es la investigación de transacciones financieras potencialmente fraudulentas que, con frecuencia, se producen en ubicaciones anormales que difieren de los patrones espaciales típicos de las transacciones.

A pesar de esta necesidad, la mayoría de los enfoques que intentan identificar valores atípicos se centran en la primera identificación de clústeres y, a continuación, el uso de las entidades restantes como corolarios de los valores atípicos espaciales. Por ejemplo, la herramienta Clustering basado en densidad es eficaz a la hora de definir e identificar el clustering espacial utilizando una variedad de planteamientos, pero su identificación de valores atípicos se relega a las entidades que no cumplen los criterios de un clúster, lo cual se designa en bins como entidades de ruido. Por lo tanto, el único uso de los planteamientos de clustering para identificar valores atípicos espaciales cuenta al menos con dos vulnerabilidades. En primer lugar, los planteamientos de clustering, por diseño, se centran en definir e identificar clústeres, no en valores atípicos. En segundo lugar, la designación de un valor atípico se realiza a menudo de forma binaria, sin tolerancias ni niveles cuantificados de en qué medida una observación es un valor atípico.

El factor de valor atípico local (LOF) soluciona estas distinciones al centrarse en la identificación de valores atípicos y al proporcionar una medida del grado en que una entidad es un valor atípico. Además, este planteamiento utiliza patrones de densidad local para comparar la densidad de vecindad de una entidad en relación con las vecindades de otras entidades en su entorno. Permite una distinción entre los valores atípicos globales, los puntos que se resaltan en el contexto de toda el área de estudio y los valores atípicos locales, los puntos que se resaltan en el contexto de sus elecciones inmediatas. El énfasis en los valores atípicos locales ayuda a arrojar luz sobre los fenómenos locales más complejos que requieren una investigación más cercana, como el escenario del historial de transacciones que se ha mencionado anteriormente.

Factor de valor atípico local

El cálculo del factor de valor atípico local es el mecanismo principal a la hora de identificar y describir valores atípicos espaciales. Se caracteriza por cuatro pasos principales: establecer una vecindad, determinar la distancia de alcanzabilidad, calcular la densidad de alcanzabilidad local y calcular el propio factor de valor atípico local. Estas acciones se describen en las secciones que aparecen a continuación.

Establecer un vecindario y determinar la distancia de alcanzabilidad

Se establece una vecindad local para cada ubicación utilizando un número mínimo de entidades especificado. Este planteamiento se conoce comúnmente como K-vecinos más cercanos, donde K corresponde a la cantidad mínima especificada de entidades en las proximidades de la entidad analizada actualmente. Por ejemplo, la siguiente ilustración muestra un escenario para la entidad A, en el cual el número de vecinos, k, es igual a 4

Vecindad de la entidad A

Las entidades 1, 2, 3 y 4 forman la vecindad de la entidad A y ahora se consideran B.

Una vez que se establece la vecindad de una entidad, la distancia de alcanzabilidad corresponde al valor mayor de la distancia entre A y B y la distancia entre B y su k-vecino más cercano.

Fórmula de distancia de alcanzabilidad

La siguiente ilustración muestra la distancia de alcanzabilidad del punto A en un escenario en el que k = 4.

Distancia de alcanzabilidad de la entidad A

Del mismo modo, cada entidad tiene una distancia de alcanzabilidad definida por sus K-vecinos más cercanos.

Determinar la densidad de alcanzabilidad local

Una vez que se determina una distancia de alcanzabilidad para cada entidad, se calcula el promedio de las distancias de alcanzabilidad de todas las entidades en la vecindad de la entidad. Esta media se utiliza para determinar la densidad de alcanzabilidad local, que es una medición de la densidad espacial para la vecindad de la entidad. El cálculo de la densidad de alcanzabilidad local corresponde a la distancia de alcanzabilidad media de todas las entidades de la vecindad de una entidad.

Fórmula de densidad de alcanzabilidad local

Otra forma de conceptualizar la densidad de alcanzabilidad local es calcular la distancia de alcanzabilidad de todas las entidades, B1 a B4, que pertenecen a la vecindad de la entidad A, como se muestra en la siguiente imagen.

Distancia de alcanzabilidad de cada vecino

A continuación, divida la distancia total entre el número de entidades (4, en este caso) y tome la inversa (división 1 por este total).

Asimismo, es posible conceptualizar que, a medida que aumenta la distancia media de alcanzabilidad de las entidades, la densidad de alcanzabilidad local disminuye. Por lo tanto, a medida que disminuye la distancia de alcanzabilidad media para las entidades, aumenta la densidad de alcanzabilidad local.

Comparación de densidades de alcanzabilidad local

Calcular el factor de valor atípico local

Con densidades de alcanzabilidad locales calculadas para todas las entidades, el paso final del cálculo del factor de valor atípico local es calcular las relaciones entre la densidad de alcanzabilidad local de una entidad y la densidad de alcanzabilidad local de cada uno de sus vecinos. El promedio de estos ratios es el factor de valor atípico local.

Fórmula del factor de valor atípico local

Para conceptualizar cómo esto ayuda a detectar si una entidad es un valor atípico espacial, considere que, a medida que la densidad de alcanzabilidad local de una entidad disminuye (en otras palabras, la vecindad de una entidad está dispersa) y la densidad de alcanzabilidad local de sus vecinos aumenta (en otras palabras, la vecindad del vecino de una entidad es más densa), el factor de valor atípico local aumenta más: la entidad es más densa porque su densidad espacial es baja y las densidades espaciales de sus entidades vecinas son más altas.

Con los factores de valores atípicos locales calculados para todas las entidades, la herramienta utiliza el porcentaje de ubicaciones que se van a designar como valor atípico para designar entidades como valores atípicos e inliers. Por lo tanto, la selección de un porcentaje adecuado está entre los criterios importantes al definir e interpretar los resultados del análisis.

Consideraciones e interpretaciones de salidas

Existen varias consideraciones importantes a la hora de interpretar la salida de esta herramienta.

Los valores de LOF calculados para un dataset de entrada no se pueden utilizar para comparar con los valores de LOF calculados en un dataset diferente. Los cálculos de LOF dependen de la distribución espacial de las entidades de entrada de un dataset; por lo tanto, cualquier diferencia en datasets separados dará como resultado diferentes densidades de alcanzabilidad local calculadas y valores de LOF.
Los resultados de LOF calculados pueden diferir entre un punto de las entidades de salida y una celda del ráster de predicción de salida que varía con el punto. La razón para esta diferencia es que la vecindad del punto incluye los vecinos en sus proximidades y no se incluye a sí misma; sin embargo, la celda ráster que reside con el punto incluye el punto como uno de sus vecinos.
Las pequeñas diferencias en los valores enviados para el parámetro Porcentaje de ubicaciones consideradas valores atípicos pueden dar como resultado el mismo porcentaje de salida de las ubicaciones que se consideran valores atípicos. Esto puede ocurrir cuando las similitudes en la distribución espacial para las entidades dan como resultado el mismo valor de LOF para varias entidades y se establece el mismo umbral de LOF incluso si el porcentaje es diferente por un margen pequeño.
- Considere un dataset simple con 10 entidades cuyo cálculo de LOF da como resultado los siguientes valores de LOF: [0, 1, 2, 3, 4, 5, 9, 9, 9, 9]. En este ejemplo, un valor del 10 por ciento para el porcentaje de ubicaciones que se consideran valores atípicos podría dar lugar a la selección de los valores superiores del 10 por ciento de LOF, que corresponde a un umbral de LOF de 9. Del mismo modo, al entregar un valor del 40 por ciento para el porcentaje de ubicaciones que se consideran valores atípicos, se seleccionarían los valores superiores del 40 por ciento de LOF, aunque seguirá estableciendo un umbral de LOF de 9. Por lo tanto, el recuento de valores atípicos de salida designado como valores atípicos será el mismo para los porcentajes del 10 al 40 por ciento.

Referencias adicionales

Para obtener más información sobre el factor de valor atípico local, consulte las siguientes referencias:

Breunig, M. M., Kriegel, H. P., Ng, R. T., Sander, J. (2000). "LOF: identifying density-based local outliers." Proceedings of the 2000 ACM SIGMOD international conference on Management of data. (pp. 93-104).

¿Algún comentario sobre este tema?