Cómo funciona el Análisis de puntos calientes optimizado

Análisis de puntos calientes optimizado ejecuta la herramienta Análisis de puntos calientes (Gi* de Getis-Ord) utilizando parámetros derivados de características de los datos de entrada. Al igual que la configuración automática de una cámara digital utiliza la iluminación y el sujeto frente a las lecturas del terreno para determinar una apertura, velocidad de obturador y enfoque apropiados, la herramienta Análisis de puntos calientes optimizado interroga los datos para obtener la configuración que proporcionará unos resultados óptimos de puntos calientes. Si, por ejemplo, el dataset Entidades de entrada contiene datos de puntos de incidentes, la herramienta agregará los incidentes a las entidades ponderadas. Mediante el uso de la distribución de las entidades ponderadas, la herramienta identificará una escala apropiada de análisis. La transcendencia estadística notificada en las Entidades de salida se ajustará automáticamente para la realización de varias pruebas y para la dependencia espacial mediante el método de corrección False Discovery Rate (FDR).

Todas las decisiones que toma la herramienta para proporcionar los mejores resultados posibles se notifican como mensajes durante la ejecución de la herramienta, y encontrará una explicación de estos cálculos a continuación.

Al igual que una cámara tiene un modo manual que permite invalidar la configuración automática, la herramienta Análisis de puntos calientes (Gi* de Getis-Ord) proporciona el control total sobre todas las opciones de parámetros. La ejecución de la herramienta Análisis de puntos calientes optimizado y la anotación de la configuración de parámetros que utiliza puede ayudar a refinar los parámetros que se proporcionan a la herramienta Análisis de puntos calientes (Gi* de Getis-Ord) para el control total.

El flujo de trabajo de la herramienta Análisis de puntos calientes optimizado incluye los componentes que se describen a continuación. También se proporcionan los cálculos y algoritmos que se utilizan con cada uno de estos componentes.

Evaluación inicial de datos

En este componente, las Entidades de entrada y el Campo de análisis opcional, Polígonos de delimitación que definen dónde es posible que se produzcan incidentes y Método de agregación de datos de incidentes se examinan para garantizar que haya entidades suficientes y una variación adecuada en los valores que se van a analizar. Si la herramienta encuentra registros con ausencia de geometría o geometría corrupta, o si se especifica un Campo de análisis y hay valores nulos presentes, los registros asociados se enumerarán como registros incorrectos y se excluirán del análisis.

La herramienta Análisis de puntos calientes optimizado usa la estadística Gi* de Getis-Ord (pronunciada como Gee Eye Star) y, al igual que sucede en muchos métodos estadísticos, los resultados no son fiables cuando hay menos de 30 entidades. Si proporciona Entidades de entrada de polígono o Entidades de entrada de punto y un Campo de análisis, necesitará un mínimo de 30 entidades para usar esta herramienta. La cantidad mínima de Polígonos para agregar incidentes a puntos también es 30. La capa de entidades que representa los Polígonos de delimitación que definen dónde es posible que se produzcan incidentes puede incluir uno o varios polígonos.

La estadística Gi* también requiere los valores que se van a asociar a cada entidad que analiza. Cuando las Entidades de entrada que se proporcionan representan datos de incidentes (cuando no se proporciona un Campo de análisis), la herramienta agregará los incidentes y los recuentos de incidentes se emplearán como los valores que se van a analizar. Después de completarse el proceso de agregación, todavía debe haber un mínimo de 30 entidades, de modo que, con los datos de incidentes, comenzará con más de 30 entidades. En la tabla siguiente se documenta el número mínimo de entidades para cada Método de agregación de datos de incidentes:

Número mínimo de incidentes:Método de agregaciónNúmero mínimo de entidades después de la agregación

60

Contar incidentes dentro de cuadrícula de red y Contar incidentes dentro de cuadrícula hexagonal, sin especificar Polígonos de delimitación que definen dónde es posible que se produzcan incidentes

30

30

Contar incidentes dentro de cuadrícula de red y Contar incidentes dentro de cuadrícula hexagonal cuando se proporciona una clase de entidad para el parámetro Polígonos de delimitación que definen dónde es posible que se produzcan incidentes

30

30

Contar incidentes dentro de polígonos de agregación

30

60

Alinear incidentes próximos para crear puntos ponderados

30

La estadística Gi* también se ha diseñado para un Campo de análisis con una variedad de valores diferentes. Por ejemplo, la estadística no es adecuada para los datos binarios. La herramienta Análisis de puntos calientes optimizado comprobará el Campo de análisis para confirmar que los valores tienen al menos alguna variación.

Los valores atípicos de ubicación son entidades que están mucho más lejos de las entidades vecinas que la mayoría de entidades del dataset. Piense en un entorno urbano con grandes ciudades de alta densidad de población en el centro y ciudades más pequeñas y con menos densidad de población en la periferia. Si calculara la distancia promedio del vecino más cercano para estas ciudades, encontraría que el resultado sería menor si excluyese los valores atípicos de ubicación periféricos y se centrase solo en las ciudades próximas al centro urbano. Este es un ejemplo de cómo los valores atípicos de ubicación pueden tener mayor impacto en estadísticas espaciales, tales como Promedio de vecinos más cercanos. Como la herramienta Análisis de puntos calientes optimizado utiliza los cálculos de distancias promedio y mediana de vecinos más cercanos para la agregación y también para identificar una escala apropiada de análisis, el componente Evaluación inicial de datos de la herramienta también identificará los valores atípicos de ubicación en las Entidades de entrada o los Polígonos para agregar incidentes a puntos y notificará el número que resulte. Para ello, la herramientas calcula la distancia promedio del vecino más cercano de cada entidad y evalúa la distribución de todas estas distancias. Las entidades que están a una distancia mayor que tres veces la desviación estándar del vecino más cercano no coincidente se consideran valores atípicos de ubicación.

Agregación de incidentes

Para los datos de incidentes, el componente siguiente del flujo de trabajo agrega los datos. Hay tres enfoques posibles basados en el Método de agregación de datos de incidentes que seleccione. Los algoritmos para cada uno de estos enfoques se describen a continuación.

  • Contar incidentes dentro de cuadrícula de red o Contar incidentes dentro de cuadrícula hexagonal:
    1. Contraiga los puntos coincidentes produciendo un solo punto en cada ubicación única del dataset, utilizando el mismo método empleado por la herramienta Recopilar eventos.
    2. Compare la densidad de las N Entidades de entrada con la densidad de N entidades aleatorias basándose en el polígono de delimitación mínimo de las Entidades de entrada (en metros geodésicos). Se calcula la distancia promedio del vecino más cercano para un conjunto aleatorio de N puntos en el polígono de delimitación mínimo. Si el doble de esta distancia promedio del vecino más cercano para la distribución aleatoria de las entidades es inferior a la extensión máxima del área de estudio dividida entre 100, se considera que el dataset es denso y el Tamaño de celda de la cuadrícula que se utiliza es la extensión máxima dividida entre 100.
    3. Si el dataset no se considera denso utilizando el método anterior, la distancia del Tamaño de celda que se utiliza es 2 veces mayor que el promedio o que la distancia mediana del vecino más cercano. La distancia promedio del vecino más cercano (ANN) para todos los puntos de ubicación únicos, excluidos los valores atípicos de ubicación, se calcula sumando la distancia al vecino más cercano de cada entidad y dividiendo el resultado entre el número de entidades (N). La distancia mediana del vecino más cercano (MNN) se calcula ordenando de menor a mayor las distancias de vecinos más cercanos y seleccionando la distancia que cae en la mitad de la lista ordenada (excluyendo también los valores atípicos de ubicación). La distancia que sea superior (ANN o MNN) se multiplica por 2 y se utiliza como Tamaño de celda de la cuadrícula.
    4. Cree una cuadrícula de polígonos de red o hexagonales utilizando el Tamaño de celda optimizado y superponga la cuadrícula con los puntos de incidentes.
    5. Realice el recuento de los incidentes en cada celda de polígono.
    6. Cuando se proporciona el parámetro Polígonos de delimitación que definen dónde es posible que se produzcan incidentes, todas las celdas de polígono que caen dentro de los polígonos de delimitación se conservan. Cuando no se proporciona el parámetro Polígonos de delimitación que definen dónde es posible que se produzcan incidentes, las celdas de polígono con cero incidentes se eliminan.
    7. Si el resultado del proceso de agregación es menor que 30 celdas de polígono o si los recuentos de todas las celdas de polígono son idénticos, aparece un mensaje que indica que las Entidades de entrada proporcionadas no son adecuadas para el Método de agregación de datos de incidentes seleccionado; de lo contrario, el componente de agregación de este método se completará correctamente.
  • Contar incidentes dentro de polígonos de agregación:
    1. Para este Método de agregación de datos de incidentes se requiere una capa de entidades Polígonos para agregar incidentes a puntos. Estos polígonos de agregación se superponen a los puntos de incidentes.
    2. Realice el recuento de los incidentes dentro de cada polígono.
    3. Asegúrese de que exista suficiente variación en los recuentos de incidentes para el análisis. Si el resultado del proceso de agregación es que todos los polígonos tienen el mismo número de incidentes, aparece un mensaje que indica que los datos no son apropiados para el Método de agregación de datos de incidentes seleccionado.
  • Alinear incidentes próximos para crear puntos ponderados:
    1. Contraiga los puntos coincidentes produciendo un solo punto en cada ubicación única del dataset, utilizando el mismo método empleado por la herramienta Recopilar eventos. Realice el recuento del número de entidades de ubicación única (UL).
    2. Calcule las distancias promedio y mediana de vecinos más cercanos en todos los puntos de ubicación única, excluyendo los valores atípicos de ubicación. La distancia promedio de vecinos más cercanos (ANN) se calcula sumando la distancia al vecino más cercano de cada entidad y dividiendo el resultado por el número de entidades (N). La distancia mediana de vecinos más cercanos (MNN) se calcula ordenando de menor a mayor las distancias de vecinos más cercanos y seleccionando la distancia que cae en la mitad de la lista ordenada.
    3. Establezca la distancia de alineación (SD) inicial en el valor de ANN o MNN más pequeño.
    4. Ajuste la distancia de alineación para considerar los puntos coincidentes. Escalar = (UL/N), donde N es el número de entidades de la capa Entidades de entrada. La distancia de alineación ajustada es igual a SD * Escalar.
    5. Integre los puntos de incidentes en tres iteraciones usando primero la distancia de alineación ajustada multiplicada por 0,10, usando a continuación la distancia de alineación ajustada multiplicada por 0,25 e integrando finalmente con una distancia de alineación igual a la distancia de alineación totalmente ajustada. La realización del paso de integración en tres fases minimiza la distorsión de las ubicaciones de puntos originales.
    6. Contraiga los puntos alineados produciendo un solo punto en cada ubicación con un peso para indicar el número de incidentes que se alinearon juntos. Esta parte del proceso de agregación utiliza el método Recopilar eventos.
    7. Si el resultado del proceso de agregación es menor que 30 puntos ponderados o si los recuentos en todos los puntos son idénticos, recibirá un mensaje indicando que las Entidades de entrada proporcionadas no son adecuadas para el Método de agregación de datos de incidentes seleccionado; de lo contrario, el componente de agregación para este método se completará correctamente.

Escala de análisis

Este siguiente componente del flujo de trabajo de Análisis de puntos calientes optimizado se aplica a las entidades ponderadas, ya sea porque ha proporcionado Entidades de entrada con un Campo de análisis o porque el Método de agregación de datos de incidentes ha creado pesos a partir de recuentos de incidentes. El paso siguiente es identificar una escala apropiada de análisis. La escala de análisis ideal es una distancia que coincida con la escala de la pregunta que se está planteando (si está buscando puntos calientes del brote de una enfermedad y sabe que, por ejemplo, el vector del mosquito tiene un rango de 10 millas, lo más apropiado sería el uso de una distancia de 10 millas). Si no puede justificar ninguna distancia específica para utilizarla en su escala de análisis, existen estrategias que sirven de ayuda. La herramienta Análisis de puntos calientes optimizado utiliza estas estrategias.

La primera estrategia que se intenta es la Autocorrelación espacial incremental. Siempre que vea clustering espacial en el apaisado, ve evidencia de procesos espaciales subyacentes en el trabajo. La herramienta Autocorrelación espacial incremental lleva a cabo el método estadístico I de Moran global para una serie de distancias en aumento, midiendo la intensidad del clustering espacial para cada distancia. Los valores atípicos de ubicación se excluyen de los cálculos de las distancias iniciales e incrementales en la Autocorrelación espacial incremental. La intensidad del clustering está determinado por la puntuación z que se devuelve. Generalmente, a medida que aumenta la distancia, también aumenta la puntuación z, que indica la intensificación del clustering. Sin embargo, en una distancia específica, la puntuación z por lo general aumenta. Los picos reflejan las distancias donde los procesos espaciales que promueven el clustering son más pronunciados. La herramienta Análisis de puntos calientes optimizado identifica las distancias pico utilizando la Autocorrelación espacial incremental. Si se encuentra una distancia pico, esta distancia pasa a ser la escala del análisis. Si se encuentran varias distancias pico, se selecciona la primera distancia pico.

Si no se encuentra ninguna distancia pico, el Análisis de puntos calientes optimizado examina la distribución espacial de las entidades y calcula la distancia promedio que produciría K vecinos para cada entidad. K se calcula como 0,05 * N, donde N es el número de entidades de la capa Entidades de entrada. K se ajustará de manera que nunca sea menor que 3 o mayor que 30. Si la distancia promedio que produciría K vecinos supera una distancia estándar, la escala de análisis se establecerá en una distancia estándar; de lo contrario, reflejaría la distancia promedio de K vecinos.

La finalización de Autocorrelación espacial incremental puede llevar mucho tiempo en el caso de datasets grandes y densos. Por consiguiente, cuando se encuentra una entidad con 500 o más vecinos, se omite el análisis incremental, y la distancia promedio que produciría 30 vecinos se calcula y utiliza para la escala del análisis.

La distancia que refleja la escala del análisis se mostrará en forma de mensajes durante la ejecución de la herramienta y se utilizará para realizar el análisis de puntos calientes. Esta distancia corresponde al parámetro Banda de distancia o distancia de umbral utilizado por la herramienta Análisis de puntos calientes (Gi* de Getis-Ord).

Análisis de puntos calientes

En este punto del flujo de trabajo de Análisis de puntos calientes optimizado se han realizado todas las verificaciones y ajustes de parámetros. El siguiente paso consiste en ejecutar la estadística Gi* de Getis-Ord. Los detalles de los cálculos matemáticos para esta estadística se describen en Cómo funciona Análisis de puntos calientes (Gi* de Getis-Ord). Los resultados de la estadística Gi* se corregirán automáticamente para la realización de varias pruebas y para la dependencia espacial utilizando el método de corrección Índice de descubrimientos falsos (FDR). Los mensajes escritos durante la ejecución de la herramienta resumen el número de entidades identificadas como puntos calientes o fríos estadísticamente significativos, después de aplicar la corrección FDR.

Output

El último componente de la herramienta Análisis de puntos calientes optimizado consiste en crear las Entidades de salida. Si las Entidades de entrada representan datos de incidentes que requieren agregación, las Entidades de salida reflejarán las entidades ponderadas agregadas (celdas de polígono de red o hexagonal o los polígonos de agregación que haya proporcionado para el parámetro Polígonos para agregar incidentes a puntos o puntos ponderados). Cada entidad tendrá una puntuación z, valor P, resultado de Gi Bin, así como la cantidad de vecinos que cada entidad incluyó en sus cálculos.

Recursos adicionales

Getis, A. y J.K. Ord. 1992. "The Analysis of Spatial Association by Use of Distance Statistics" en Geographical Analysis 24(3).

Ord, J.K. and A. Getis. 1995. "Local Spatial Autocorrelation Statistics: Distributional Issues and an Application" en Geographical Analysis 27(4).

La página de recursos de estadística espacial contiene vídeos cortos, tutoriales, seminarios web, artículos y muchos materiales más para ayudarle a empezar a trabajar con las estadísticas espaciales.