Cómo funciona Análisis de clúster y de valor atípico (I Anselin local de Moran)

Dado un conjunto de entidades (valor del parámetro Clase de entidad de entrada) y un campo de análisis (valor del parámetro Campo de entrada), la herramienta Análisis de clúster y de valor atípico (I Anselin local de Moran) identifica clústeres espaciales de las entidades con valores altos o bajos. La herramienta también identifica los valores atípicos espaciales. Para realizar esto, la herramienta calcula un valor I de Moran local, una puntuación z, un pseudovalor P y un código que representa el tipo de clúster para cada entidad estadísticamente significativa. Las puntuaciones z y los pseudovalores P representan la significancia estadística de los valores de índice calculados.

Cálculos

Cálculos matemáticos de I de Moran local

Ver los cálculos matemáticos adicionales para la estadística de I de Moran local.

Interpretación

Un valor positivo para el índice (I) indica que una entidad tiene entidades vecinas con valores de atributo altos o bajos similares; esta entidad es parte de un clúster. Un valor negativo para el índice indica que una entidad tiene entidades vecinas con valores diferentes; esta entidad es un valor atípico. En ambas instancias, el valor P para la entidad debe ser lo suficientemente pequeño para que el clúster o el valor atípico se consideren estadísticamente significativos. Para obtener más información sobre cómo determinar la importancia estadística, consulte ¿Qué es una puntuación z? ¿Qué es un valor p? El índice I de Moran local (I) es una medida relativa y solo se puede interpretar en el contexto de su puntuación z o valor P calculado. Las puntuaciones z y los valores p indicados en la clase de entidades de salida no están corregidos para la dependencia espacial o la realización de varias pruebas.

El campo tipo de clúster/valor atípico (COType) distingue entre un clúster estadísticamente significativo de valores altos (HH), un clúster de valores bajos (LL), un valor atípico en el que un valor alto está rodeado principalmente por valores bajos (HL) y un valor atípico en el que un valor bajo está rodeado principalmente por valores altos (LH). La importancia estadística está establecida en un nivel de confianza del 95 por ciento. Cuando no se aplica la corrección FDR, las entidades con valores p inferiores a 0,05 se consideran estadísticamente significativas. La corrección FDR reduce este umbral del valor p de 0,05 a un valor que se ajusta mejor al nivel de confianza del 95 por ciento en el caso de la realización de varias pruebas. Las entidades sin vecinos tendrán un valor de campo NN, y las entidades que no son significativas tendrán texto vacío en el campo.

Salida

Esta herramienta crea una nueva clase de entidad de salida con los siguientes atributos para cada entidad de la clase de entidad de entrada: índice I de Moran local, puntuación z, valor P y el tipo de clúster/valor atípico.

Cuando se ejecuta esta herramienta, la clase de entidad de salida se agrega automáticamente a la tabla de contenido con una representación en pantalla predeterminada aplicada al campo COType. La representación aplicada está definida por un archivo de capas en <ArcGIS Pro>\Resources\ArcToolBox\Templates\Layers. Puede volver a aplicar la representación predeterminada, si es necesario, utilizando la herramienta Aplicar simbología de capa.

Permutaciones

Las permutaciones se utilizan para determinar la probabilidad de encontrar la distribución espacial real de los valores que está analizando mediante la comparación de los valores con un conjunto de valores generados aleatoriamente. Incluso con la aleatoriedad espacial completa (CSR), siempre se observará cierto grado de clustering debido, simplemente, a la aleatoriedad. Las permutaciones generarán muchos datasets aleatorios, y debería comparar estos valores con el índice I de Moran local de los datos originales. Para hacerlo, cada permutación reorganiza aleatoriamente los valores de vecindad alrededor de cada entidad y calcula el valor I de Moran local de estos datos aleatorios. Si revisa la distribución de los valores I de Moran local generados a partir de las permutaciones, podrá determinar el rango de valores I de Moran local que podrían darse razonablemente debido a la aleatoriedad. Si los datos contienen un patrón espacial estadísticamente significativo, espera que los valores I de Moran local generados a partir de las permutaciones muestren menos clustering que el valor I de Moran local de los datos originales. A continuación se calcula un pseudo valor P determinando la proporción de los valores I de Moran local generados a partir de las permutaciones que muestran más clustering que los datos originales. Si esta proporción (el pseudo valor P) es pequeña (inferior a 0,05), puede concluir que los datos muestran clustering estadísticamente significativo.

Elegir el número de permutaciones es un equilibrio entre la precisión y un mayor tiempo de procesamiento. Al aumentar el número de permutaciones se incrementa la precisión porque aumenta el rango de posibles valores para el pseudo P. Por ejemplo, con 99 permutaciones, la precisión del pseudo valor P es de 0,01 y para 999 permutaciones, la precisión es de 0,001. Estos valores se calculan al dividir 1 entre la cantidad de permutaciones más uno: 1/(1+99) y 1/(1+999). Se puede utilizar un número inferior de permutaciones al explorar un problema por primera vez, pero la práctica recomendada es aumentar las permutaciones al número más alto viable de cara a los resultados finales.

Pautas de mejores prácticas

Tenga en cuenta lo siguiente al utilizar la herramienta Análisis clúster y de valor atípico(I Anselin local de Moran):

  • Los resultados son confiables solo si la clase de entidad de entrada contiene un mínimo de 30 entidades.
  • Esta herramienta requiere un campo de entrada como conteo, tasa u otras medidas numéricas. Si analiza datos de punto, donde cada punto presenta un evento o un incidente único, es posible que no tenga un atributo numérico específico para evaluar (una clasificación de gravedad, un conteo u otra medida). Si desea buscar ubicaciones con muchos incidentes (puntos calientes) o ubicaciones con muy pocos incidentes (puntos fríos), debe agregar los datos de incidentes antes del análisis. La herramienta Análisis de puntos calientes (Gi* de Getis-Ord) también es efectiva para buscar puntos calientes y puntos fríos. Sin embargo, solo la herramienta Análisis de clúster y de valor atípico (I Anselin local de Moran) identificará los valores atípicos espaciales estadísticamente significativos (un valor alto rodeado por valores bajos o un valor bajo rodeado por valores altos).
  • Seleccione una conceptualización de relaciones espaciales adecuada.
  • Cuando selecciona la conceptualización Ventana de espacio-tiempo, puede identificar los clústeres de espacio-tiempo y los valores atípicos. Consulte Análisis clúster de espacio-tiempo para obtener más información.
  • Seleccione una banda de distancia o una distancia de umbral adecuada.
    • Todas las entidades deben tener al menos un vecino.
    • Ninguna entidad debe tener todas las otras entidades como un vecino.
    • Especialmente si los valores para el campo de entrada están sesgados, cada entidad debe tener aproximadamente ocho vecinos.

Potenciales aplicaciones

La herramienta Análisis de clúster y de valor atípico (I Anselin local de Moran) identifica concentraciones de valores altos, concentraciones de valores bajos y valores atípicos espaciales. Puede ayudarle a responder a preguntas como las siguientes:

  • ¿Dónde están los límites más nítidos entre prosperidad y pobreza en un área de estudio?
  • ¿Existen ubicaciones en un área de estudio con patrones de gastos anómalos?
  • ¿Dónde están las tasas de diabetes altas no esperadas en el área de estudio?

Las aplicaciones se pueden encontrar en muchos campos que incluyen economía, administración de recursos, biogeografía, geografía política y demografía.

Recursos adicionales

Anselin, Luc. "Local Indicators of Spatial Association—LISA," Geographical Analysis 27(2): 93–115, 1995.

Mitchell, Andy. La Guía de Esri para el análisis SIG, Volumen 2. Esri Press, 2005.