Cómo funciona el análisis de valores atípicos locales

La herramienta Análisis de valores atípicos locales identifica clústeres y valores atípicos significativos en los datos. Buscará las ubicaciones de su área de estudio que, desde el punto de vista estadístico, han sido diferentes de sus vecinos tanto en espacio como en tiempo. Utiliza como entrada un cubo de espacio-tiempo NetCDF creado utilizando la herramienta Crear cubo de espacio-tiempo agregando puntos o la herramienta Crear cubo de espacio-tiempo a partir de ubicaciones definidas. A continuación, utiliza los valores de Conceptualización de las relaciones espaciales para calcular una implementación de espacio-tiempo de la estadística de I Anselin local de Moran (Análisis de clúster y de valor atípico) para cada bin. Para ello, la herramienta calcula un índice I de Moran local, un pseudo valor P y un tipo de código (CO_TYPE) que representa el tipo de categoría del clúster o del valor atípico para cada bin estadísticamente significativo del Cubo de espacio-tiempo de entrada. Los pseudo valores P representan la importancia estadística de los valores de índice calculados y su precisión depende del número de permutaciones.

Aplicaciones potenciales

Las aplicaciones para la herramienta Análisis de valores atípicos locales se pueden encontrar en muchos campos que incluyen economía, administración de recursos, geografía política, información demográfica, salud pública y prevención del fraude. Estas son algunas de las preguntas a las que puede dar respuesta mediante el uso de esta herramienta:

  • ¿Existen ubicaciones en mi área de estudio con patrones de gastos anómalos?
  • ¿Ha habido algún período con tasas altas no esperadas del brote de la enfermedad en el área de estudio?
  • ¿Existen áreas suburbanas donde los residentes utilizan considerablemente más agua que sus vecinos? O buscar las áreas suburbanas en las que se utiliza menos agua regularmente para desarrollar prácticas recomendadas para el ahorro de agua.
  • ¿Existen ubicaciones en mi región con saltos considerables en el número de reclamaciones al seguro interpuestas durante el último mes?

Salidas de la herramienta

Esta herramienta crea un número de salidas. La salida más importante es un mapa bidimensional en el que se resume cada ubicación que con el tiempo se ha agregado al mapa una vez completada la herramienta. Estas son las categorías:

Nombre de tipoDefinición
Nunca significativo

Never Significant

Una ubicación donde nunca ha habido un CO_TYPE estadísticamente significativo.

Solo clúster alto-alto

Only High-High Cluster

Una ubicación donde, con el tiempo, el único tipo estadísticamente significativo han sido los clústeres altos-altos.

Solo clúster alto-bajo

Only High-Low Outlier

Una ubicación donde, con el tiempo, el único tipo estadísticamente significativo han sido los valores atípicos altos-bajos.

Solo clúster bajo-alto

Only Low-High Outlier

Una ubicación donde, con el tiempo, el único tipo estadísticamente significativo han sido los valores atípicos bajos-altos.

Solo clúster bajo-bajo

Only Low-Low Cluster

Una ubicación donde, con el tiempo, el único tipo estadísticamente significativo han sido los clústeres bajos-bajos.

Tipos múltiples

Multiple Types

Una ubicación donde, con el tiempo, ha habido varios tipos de clúster y valores atípicos estadísticamente significativos (por ejemplo, durante algunos períodos, la ubicación ha sido un valor atípico bajo-alto y durante otros períodos, ha sido un clúster alto-alto).

Además, se escriben mensajes en los que se resumen los resultados del análisis en la parte inferior del panel Geoprocesamiento durante la ejecución de la herramienta. Puede acceder a los mensajes pasando el ratón por encima de la barra de progreso, haciendo clic en el Ventana emergente o ampliando la sección de mensajes en el panel Geoprocesamiento. También puede acceder a los mensajes de una herramienta ejecutada anteriormente a través del Historial de geoprocesamiento.

Estos mensajes incluyen información sobre el Cubo de espacio-tiempo de entrada, como el intervalo de tiempo, el sesgo temporal y el número de bins y ubicaciones que se han analizado. También incluyen información importante sobre los valores atípicos que se han producido en el período de tiempo más reciente, así como un resumen de los períodos de tiempo clave que puedan resultar de interés. Por ejemplo, si su pregunta está relacionada con buscar áreas de su territorio de ventas con un bajo rendimiento y está buscando valores atípicos bajos-altos, los mensajes le indicarán el período de tiempo clave que tuvo el mayor número de valores atípicos bajos-altos.

Ejemplo de mensajes del análisis de valores atípicos locales

Esta herramienta crea una nueva clase de entidad de salida con los campos siguientes donde se resumen los bins en cada ubicación del Cubo de espacio-tiempo de entrada:

AliasNombre de campo
Number of OutliersNUM_OUT
Percentage of OutliersPERC_OUT
Number of Low ClustersN_LOW_CLS
Percentage of Low ClustersP_LOW_CLS
Number of Low OutliersN_LOW_OUT
Percentage of Low OutliersP_LOW_OUT
Number of High ClustersN_HIGH_CLS
Percentage of High ClustersP_HIGH_CLS
Number of High OutliersN_HIGH_OUT
Percentage of High OutliersP_HIGH_OUT

Ubicaciones con No Spatial Neighbors que solo se basan en vecinos temporales para los cálculos del análisis

NO_SP_NBR

Ubicaciones con un Outlier in the Most Recent Time Step

OUT_R_TIME
Cluster Outlier Type

CO_TYPE

Estadísticas de resumen adicionales, que incluyen la suma, el valor mínimo, el valor máximo, la media, la desviación estándar y el valor de mediana de la variable analizada.

SUM_VALUE, MIN_VALUE, MAX_VALUE, MEAN_VALUE, STD_VALUE y MED_VALUE

Finalmente, la herramienta Análisis de valores atípicos locales agrega una serie de variables nuevas al Cubo de espacio-tiempo de entrada. Si estas variables ya existen (si ejecutó la herramienta Análisis de valores atípicos locales para la misma Variable de análisis varias veces), se sobrescribirán para que el cubo siempre contenga los resultados de los análisis más recientes.

Puede visualizar estas variables con ArcGIS Pro. Consulte Visualización del cubo de espacio-tiempo para obtener estrategias.

Interpretación

Para facilitar la interpretación de los resultados de la herramienta Análisis de valores atípicos locales, se puede utilizar la herramienta Visualizar el cubo de espacio-tiempo en 3D para visualizar las variables del resultado que se han agregado al cubo. Se puede visualizar el índice, el valor P y el Cluster Outlier Analysis Type para cada bin seleccionando el Cluster and outlier results Tema de visualización. Un índice con un valor positivo indica que un bin tiene bins vecinos con valores de atributo altos o bajos similares; este bin forma parte de un clúster. Un índice con un valor negativo indica que un bin tiene bins vecinos con valores diferentes; este bin es un valor atípico. En ambas instancias, el pseudo valor P o valor P para la entidad debe ser lo suficientemente pequeño para que el clúster o el valor atípico se consideren estadísticamente significativos. Para obtener más información sobre cómo determinar la significancia estadística, consulte¿Qué es una puntuación z? ¿Qué es un valor P?. Tenga en cuenta que el índice I de Moran local (I) es una medida relativa y que solo se puede interpretar dentro del contexto de su distribución de referencia generada y su pseudo valor P o valor P calculado. El pseudo valor P o los valores P indicados en la clase de entidades de salida están corregidos para la dependencia espacial y la realización de varias pruebas.

El tipo de clúster o valor atípico distingue entre un clúster estadísticamente significativo de valores altos (Alto-Alto), un clúster de valores bajos (Bajo-Bajo), un valor atípico en el que un valor alto está rodeado principalmente por valores bajos (Alto-Bajo) y un valor atípico en el que un valor bajo está rodeado principalmente por valores altos (Bajo-Alto). La importancia estadística está establecida en un nivel de confianza del 95 por ciento. La importancia representa una Corrección FDR que ajusta el umbral del valor P de 0,05 a un valor que refleja mejor el nivel de confianza del 95 por ciento teniendo en cuenta varias pruebas.

Valores predeterminados de vecindad

Para determinar si el valor del bin en el espacio y tiempo de una ubicación forma parte de un valor atípico o de un punto caliente o frío estadísticamente significativo, se evalúa cada bin dentro del contexto de los bins de espacio-tiempo vecinos. El valor predeterminado para esta herramienta es utilizar el método Distancia fija para definir relaciones entre bins. Los valores de los parámetros Distancia de vecindad y Período de tiempo de vecindad definen la extensión de la vecindad de cada bin (el contexto para el análisis de cada bin). Supongamos que las dimensiones de un bin son de 400 x 400 metros x 1 día. Si establece la Distancia de vecindad a 801 metros y el Periodo de tiempo de vecindad a 2, los vecinos espaciales se extenderán dos bins en sentido horizontal y vertical, y un bin en sentido diagonal, tal y como se muestra:

Ejemplo de vecinos espaciales

Además, habrá vecinos temporales. Se incluirán como vecinos todos los bins de la misma ubicación que los vecinos de destino y espaciales (mostrados anteriormente) para los períodos de tiempo coincidentes o los dos anteriores (un total de tres días, en este ejemplo). Observe que los vecinos temporales solo son retroactivos y que un Período de tiempo de vecindad de 2 engloba tres intervalos de períodos de tiempo. Para asegurarse de que al menos hay 1 vecino temporal para cada ubicación, no se calcula el índice de Moran local para los bins en el primer segmento de tiempo. No obstante, los valores de bin en el primer segmento de tiempo se incluyen en el cálculo de la media global.

Cuando no se indica un valor para el parámetro Distancia de vecindad, se calcula uno automáticamente. La fórmula se adapta del cálculo utilizado para determinar un radio de búsqueda de densidad kernel predeterminado. Cuando no se indica un valor para el parámetro Período de tiempo de vecindad, el valor predeterminado se establece en 1.

Hay opciones adicionales para definir las relaciones de vecindario utilizando el parámetro Conceptualización de relaciones espaciales. Para cada una de las opciones, la herramienta primero busca vecinos espaciales y, después, encuentra bins en las mismas ubicaciones a partir de los N pasos anteriores en el tiempo, donde N es el valor de Periodo de tiempo de vecindario especificado.

Su elección del parámetro Conceptualización de relaciones espaciales deberá reflejar relaciones inherentes entre las entidades que analiza. Cuanto más pueda modelar de manera realista cómo interactúan mutuamente las entidades en el espacio, más precisos serán sus resultados. Las recomendaciones se describen en Seleccionar una conceptualización de relaciones espaciales.

Permutaciones

Las permutaciones se utilizan para determinar la probabilidad de encontrar la distribución espacial real de los valores que está analizando mediante la comparación de los valores con un conjunto de valores generados aleatoriamente. Incluso con la aleatoriedad espacial completa (CSR), siempre se observará cierto grado de clustering debido, simplemente, a la aleatoriedad. Las permutaciones generarán muchos datasets aleatorios y estos valores se compararán con el índice I de Moran local de sus datos originales. Para hacerlo, cada permutación reorganiza aleatoriamente los valores de vecindad alrededor de cada bin y calcula el valor I de Moran local de estos datos aleatorios. Si observamos la distribución del I de Moran local generado a partir de las permutaciones, podrá ver el rango de valores I de Moran local que podrían darse razonablemente debido a la aleatoriedad. Si sus datos contienen un patrón espacial estadísticamente significativo, espera que los valores I de Moran local generados a partir de las permutaciones muestren menos clustering que el valor I de Moran local de sus datos originales. A continuación se calcula un pseudo valor P determinando la proporción de los valores I de Moran local generados a partir de las permutaciones que muestran más clustering que sus datos originales. Si esta proporción (el pseudo valor P) es pequeña (inferior a 0,05), puede concluir que sus datos muestran clustering estadísticamente significativo.

Elegir el número de permutaciones es un equilibrio entre la precisión y un mayor tiempo de procesamiento. Al aumentar el número de permutaciones se incrementa la precisión porque aumenta el rango de posibles valores para el pseudo P. Por ejemplo, con 99 permutaciones, la precisión del pseudo valor P es de 0,01 (1/99+1) y para 999 permutaciones, la precisión es de 0,001 (1/999+1). Se puede utilizar un número inferior de permutaciones al explorar un problema por primera vez, pero resulta conveniente aumentar las permutaciones al número más alto viable de cara a los resultados finales.

Recursos adicionales

Anselin, Luc. "Local Indicators of Spatial Association—LISA," Geographical Analysis 27(2): 93–115, 1995.

Mitchell, Andy. La Guía de Esri para el análisis SIG, Volumen 2. Esri Press, 2005.