Cómo funciona Análisis de clúster y de valor atípico (I Anselin local de Moran)

Dado un conjunto de entidades (Clase de entidad de entrada) y un campo de análisis (Campo de entrada), la herramienta Análisis de clúster y de valor atípico identifica clústeres espaciales de las entidades con valores altos o bajos. La herramienta también identifica los valores atípicos espaciales. Para realizar esto, la herramienta calcula un valor I de Moran local, una puntuación z, un pseudovalor P y un código que representa el tipo de clúster para cada entidad estadísticamente significativa. Las puntuaciones z y los pseudovalores P representan la significancia estadística de los valores de índice calculados.

Cálculos

Cálculos matemáticos de I de Moran local

Ver los cálculos matemáticos adicionales para la estadística de I de Moran local.

Interpretación

Un valor positivo para I indica que una entidad tiene entidades vecinas con valores de atributo altos o bajos similares; esta entidad es parte de un clúster. Un valor negativo para I indica que una entidad tiene entidades vecinas con valores diferentes; esta entidad es un valor atípico. En ambas instancias, el valor P para la entidad debe ser lo suficientemente pequeño para que el clúster o el valor atípico se consideren estadísticamente significativos. Para obtener más información sobre cómo determinar la significancia estadística, consulte¿Qué es una puntuación z? ¿Qué es un valor p? Tenga en cuenta que el índice I de Moran local (I) es una medida relativa y que solo se puede interpretar dentro del contexto de su puntuación z o valor P calculado. Las puntuaciones z y los valores p indicados en la clase de entidades de salida no están corregidos para la dependencia espacial o la realización de varias pruebas.

El campo de tipo clúster/valor atípico (COType) distingue entre un clúster estadísticamente significativo de valores altos (HH), un clúster de valores bajos (LL), un valor atípico en el que un valor alto está rodeado principalmente por valores bajos (HL) y un valor atípico en el que un valor bajo está rodeado principalmente por valores altos (LH). La importancia estadística está establecida en un nivel de confianza del 95 por ciento. Cuando no se aplica la corrección FDR, las entidades con valores p inferiores a 0,05 se consideran estadísticamente significativas. La corrección FDR reduce este umbral del valor p de 0,05 a un valor que se ajusta mejor al nivel de confianza del 95 por ciento en el caso de la realización de varias pruebas.

Output

Esta herramienta crea una nueva clase de entidad de salida con los siguientes atributos para cada entidad en la clase de entidad de entrada: índice I de Moran local, puntuación z, valor P y COType.

Cuando se ejecuta esta herramienta, la clase de entidad de salida se agrega automáticamente a la tabla de contenido (TOC) con una representación en pantalla predeterminada aplicada al campo COType. La representación aplicada está definida por un archivo de capas en <ArcGIS Pro>\Resources\ArcToolBox\Templates\Layers. Puede volver a aplicar la representación predeterminada, si es necesario, utilizando la herramienta Aplicar simbología de capa.

Permutaciones

Las permutaciones se utilizan para determinar la probabilidad de encontrar la distribución espacial real de los valores que está analizando mediante la comparación de los valores con un conjunto de valores generados aleatoriamente. Incluso con la aleatoriedad espacial completa (CSR), siempre se observará cierto grado de clustering debido, simplemente, a la aleatoriedad. Las permutaciones generarán muchos datasets aleatorios y estos valores se compararán con el índice I de Moran local de sus datos originales. Para hacerlo, cada permutación reorganiza aleatoriamente los valores de vecindad alrededor de cada entidad y calcula el valor I de Moran local de estos datos aleatorios. Si observamos la distribución del I de Moran local generado a partir de las permutaciones, podrá ver el rango de valores I de Moran local que podrían darse razonablemente debido a la aleatoriedad. Si sus datos contienen un patrón espacial estadísticamente significativo, espera que los valores I de Moran local generados a partir de las permutaciones muestren menos clustering que el valor I de Moran local de sus datos originales. A continuación se calcula un pseudo valor P determinando la proporción de los valores I de Moran local generados a partir de las permutaciones que muestran más clustering que sus datos originales. Si esta proporción (el pseudo valor P) es pequeña (inferior a 0,05), puede concluir que sus datos muestran clustering estadísticamente significativo.

Elegir el número de permutaciones es un equilibrio entre la precisión y un mayor tiempo de procesamiento. Al aumentar el número de permutaciones se incrementa la precisión porque aumenta el rango de posibles valores para el pseudo P. Por ejemplo, con 99 permutaciones, la precisión del pseudo valor P es de 0,01 y para 999 permutaciones, la precisión es de 0,001. Estos valores se calculan al dividir uno entre la cantidad de permutaciones más uno: 1/(1+99) y 1/(1+999). Se puede utilizar un número inferior de permutaciones al explorar un problema por primera vez, pero resulta conveniente aumentar las permutaciones al número más alto viable de cara a los resultados finales.

Pautas de mejores prácticas

  • Los resultados son confiables solo si la clase de entidad de entrada contiene un mínimo de 30 entidades.
  • Esta herramienta requiere un campo de entrada como conteo, tasa u otras medidas numéricas. Si analiza datos de punto, donde cada punto presenta un evento o un incidente único, es probable que no tenga un atributo numérico específico para evaluar (una clasificación de gravedad, un conteo u otra medida). Si está interesado en buscar ubicaciones con muchos incidentes (puntos calientes) o ubicaciones con muy pocos incidentes (puntos fríos), deberá agregar los datos de incidentes antes del análisis. La herramienta Análisis de puntos calientes (Gi* de Getis-Ord) también es efectiva para buscar puntos calientes y puntos fríos. Sin embargo, solo la herramienta Análisis de clúster y de valor atípico (I Anselin local de Moran) identificará los valores atípicos espaciales estadísticamente significativos (un valor alto rodeado por valores bajos o un valor bajo rodeado por valores altos).
  • Seleccione una conceptualización de relaciones espaciales adecuada.
  • Cuando selecciona la conceptualización Ventana de espacio-tiempo, puede identificar los clústeres de espacio-tiempo y los valores atípicos. Consulte Análisis clúster de espacio-tiempo para obtener más información.
  • Seleccione una banda de distancia o una distancia de umbral adecuada.
    • Todas las entidades deben tener al menos un vecino.
    • Ninguna entidad debe tener todas las otras entidades como un vecino.
    • Especialmente si los valores para el campo de entrada están sesgados, cada entidad debe tener aproximadamente ocho vecinos.

Aplicaciones potenciales

La herramienta Análisis de clúster y de valor atípico (I Anselin local de Moran) identifica concentraciones de valores altos, concentraciones de valores bajos y valores atípicos espaciales. Le puede ayudar a responder preguntas como las siguientes:

  • ¿Dónde están los límites más nítidos entre prosperidad y pobreza en un área de estudio?
  • ¿Existen ubicaciones en un área de estudio con patrones de gastos anómalos?
  • ¿Dónde están las tasas de diabetes altas no esperadas en el área de estudio?

Las aplicaciones se pueden encontrar en muchos campos que incluyen economía, administración de recursos, biogeografía, geografía política y demografía.

Recursos adicionales

Anselin, Luc. "Local Indicators of Spatial Association—LISA," Geographical Analysis 27(2): 93–115, 1995.

Mitchell, Andy. La Guía de Esri para el análisis SIG, Volumen 2. Esri Press, 2005.