Cómo funciona la comparación de análisis de puntos calientes

La herramienta Comparación de análisis de puntos calientes compara dos capas de resultados de análisis de puntos calientes y calcula su similitud y asociación. La similitud y la asociación entre las capas de resultados de puntos calientes se determinan comparando las categorías de nivel de significancia (99% caliente, 95% caliente, 90% caliente, no significativo, 90% frío, 95% frío y 99% frío) entre las entidades correspondientes (y sus vecinos) de ambas capas de entrada.

Comparación de los resultados de dos análisis de puntos calientes

La herramienta calcula una similitud global y un valor kappa global para medir la similitud y la asociación generales entre los resultados de los puntos calientes. Las versiones locales de los valores kappa y similitud también se calculan para cada par de entidades correspondientes. Así, puede asignar las comparaciones para explorar áreas con una similitud o asociación mayor o menor que los valores globales. Las entidades de salida también incluyen gráficos y simbología personalizada que resaltan las áreas en las que los resultados de puntos calientes son menos similares y resumen los pares de nivel de significancia de todas las entidades correspondientes.

Las capas de resultados de puntos calientes de entrada deben ser las entidades de salida de las herramientas Análisis de puntos calientes (Gi* de Getis-Ord) o Análisis de puntos calientes optimizado. Cada entidad de cada resultado debe estar emparejada con una sola entidad correspondiente del otro resultado para poder comparar sus categorías de nivel de significancia. Si las entidades de los dos resultados de puntos calientes de entrada no se alinean espacialmente (como los polígonos que no tienen los mismos bordes), las dos capas de entidades se intersecarán antes del análisis y las comparaciones se realizarán en las intersecciones de las entidades.

Similitud y asociación

La similitud de los resultados de los puntos calientes es la medida en que los puntos calientes, los puntos fríos y las áreas no significativas de los resultados de ambos puntos calientes se alinean espacialmente; la asociación (o dependencia) entre los resultados es el grado de dependencia estadística entre las variables de análisis de los puntos calientes subyacentes. La distinción es sutil, pero importante porque es habitual que dos resultados de puntos calientes sean muy similares (muchas entidades correspondientes tienen el mismo nivel de significancia) a pesar de que sigan teniendo poca asociación o dependencia. Esto se muestra en las dos capas de resultados de puntos calientes de la imagen siguiente.

Como 23 de los 25 polígonos de cada resultado coinciden en cuanto a categoría, los dos resultados son muy similares. Sin embargo, debido a que 24 de los 25 polígonos de cada resultado son puntos fríos, puede esperarse que haya al menos 23 polígonos coincidentes aunque los resultados de los puntos calientes subyacentes sean independientes y no estén relacionados. Esto significa que, a pesar de que la categoría coincida en prácticamente todos los polígonos, no hay constancia de que los resultados estén asociados estadísticamente. Puede concluirse que ambas variables son casi por completo puntos fríos con un solo punto caliente aislado, pero no existe constancia de una relación o relación entre ellos.

Resultados similares, pero no asociados
En las dos capas de resultados de puntos calientes, el polígono rojo de cada capa es un punto caliente y los polígonos azules son puntos fríos.

En los dos resultados de los puntos calientes de la imagen siguiente, 23 de los 25 polígonos también coinciden, por lo que su similitud es la misma que la del primer conjunto de resultados. No obstante, 22 de las coincidencias corresponden a puntos fríos y una, a un punto caliente. Con solo dos puntos calientes en cada resultado, es poco probable que los puntos calientes se alineen tan bien por casualidad. Esto prueba la existencia de una relación y asociación subyacente entre los resultados. Aunque la relación no sea necesariamente casual, puede influir en los valores de un resultado cambiando los valores del otro. Por ejemplo, si el resultado de un punto caliente representa puntos calientes y fríos de mortalidad infantil y el otro representa puntos calientes y fríos de contaminación, una relación estrecha entre las variables sugiere que la mortalidad infantil puede disminuir si se reducen los niveles de contaminación. En otro ejemplo, si los dos resultados de los puntos calientes representan los niveles de contaminación en años sucesivos, la asociación puede interpretarse como el movimiento de los niveles de contaminación al norte y el este.

Resultados similares y asociados

La similitud entre los resultados de puntos calientes se mide mediante un valor de similitud entre 0 y 1. Si muchas entidades correspondientes de ambos resultados tienen el mismo nivel de significancia, el valor estará cerca de 1 y si muchas entidades correspondientes no tienen niveles de significancia coincidentes, el valor estará cerca de 0. La asociación se mide mediante un valor kappa: los resultados estrechamente asociados tendrán valores kappa cercanos a 1 y los resultados no asociados (independientes) tendrán valores kappa cercanos a 0 (o ligeramente negativos). El valor kappa es una versión reescalada del valor de similitud que tiene en cuenta el clustering espacial y las frecuencias de categoría para aislar la asociación estadística entre los resultados de puntos calientes. A modo de referencia, los valores kappa aproximados son 0 y 0,6 en el caso del primer conjunto de resultados de puntos calientes anterior y del segundo conjunto de resultados, respectivamente.

Excluir entidades no significativas

Cuando los resultados de los puntos calientes están dominados por una única categoría como en los ejemplos anteriores, es más habitual que se trate de la categoría no significativos. Sin embargo, si las entidades no significativas no son de interés para la investigación, es posible que no desee que los valores de similitud y kappa reflejen simplemente la abundancia de áreas no significativas en ambos resultados. Para evitarlo, puede utilizar el parámetro Excluir entidades no significativas para excluir cualquier par de entidades correspondientes de las comparaciones si ambos resultados de puntos calientes no son estadísticamente significativos. Si se excluye, la herramienta calcula los valores de similitud y kappa condicionales que comparan solo los puntos calientes y fríos estadísticamente significativos para que reflejen de forma precisa su similitud y asociación. Los números y las proporciones generales de las categorías de nivel de significancia afectan a los valores kappa y de similitud, por lo que es preciso tener en cuenta el resultado antes de excluir grandes cantidades de entidades no significativas.

Similitud parcial

Al comparar dos entidades correspondientes, el resultado de si las entidades tienen la misma categoría de nivel de significancia puede ser más que un simple binario (sí o no). Los cálculos de similitud y asociación utilizan la pertenencia a conjunto parcial para permitir coincidencias parciales entre entidades correspondientes en función de la similitud del nivel de significancia y las vecindades espaciales. Por ejemplo, el 99% de los puntos calientes se pueden considerar coincidencias perfectas con otro 99% de puntos calientes, coincidencias parciales con el 95% de puntos calientes y falta de coincidencia total con el 99% de puntos fríos. Además, dos entidades correspondientes pueden considerarse coincidencias parciales en función de la similitud de distancia si las entidades no tienen el mismo nivel de significancia, pero sus entidades vecinas sí los tienen. La similitud general entre dos entidades correspondientes cualesquiera es su similitud categórica multiplicada por la similitud de distancia. Consulte los detalles de los cálculos en la sección Kappa parcial espacial situada a continuación.

Similitud de categoría

Existen siete posibles categorías de nivel de significancia en cada resultado de punto caliente. Las categorías tienen un orden natural que va del 99% caliente al 99% frío, y algunas categorías son más parecidas entre sí que otras. Los pesos de similitud de categoría permiten definir cuán similares se considera que son las diferentes categorías de nivel de significancia. Cada combinación de resultados (por ejemplo, 90% frío frente a 95% caliente) debe tener un peso de categoría entre 0 y 1 que indique su similitud. Las combinaciones con pesos equivalentes a 1 se consideran coincidencias exactas y las combinaciones con pesos 0 se considera que son completamente diferentes. Los valores entre 0 y 1 indican grados de similitud parcial entre las categorías. Los pesos deben ser simétricos; por ejemplo, el peso entre 99% caliente y 95% caliente debe equivaler al peso entre 95% caliente y 99% caliente.

Si dos categorías tienen un peso de similitud igual a 1, los cálculos de similitud y asociación las tratarán como si fuesen la misma categoría, por lo que puede utilizar los pesos para combinar categorías diferentes. Por ejemplo, para realizar dos análisis de puntos calientes con un nivel de confianza del 95%, puede combinar las categorías 90% frío, no significativo, y 90% caliente usando un peso equivalente a 1 para todas las combinaciones de categorías. Los valores de similitud y kappa tratarán las categorías 90% frío y 90% caliente como si no fuesen significativas. Asimismo, si excluye entidades no significativas, también se excluirán las categorías combinadas con la categoría no significativa.

También puede invertir las relaciones de calientes y fríos facilitando grandes pesos entre puntos calientes y fríos. Se recomienda invertir las relaciones cuando los resultados de los puntos calientes tienen una relación negativa, como puntos fríos de ingresos promedio que se alinean con puntos calientes de diabetes.

Precaución:

Los pesos de similitud de categoría solo afectan al cálculo de los valores de similitud y kappa. Incluso si las categorías de nivel de significancia se combinan utilizando pesos de similitud, las tablas de mensajes, la simbología de la capa de salida y los gráficos los tratarán como categorías separadas. Consulte la sección Salidas de herramientas que aparece a continuación para obtener más información.

Los pesos de similitud de categoría se especifican mediante el uso del parámetro Método de ponderación de similitud. Las siguientes opciones están disponibles:

  • Pesos parciales: los pesos de similitud serán parciales (no binarios) y se determinarán por la cercanía de los niveles de significancia. Todos los puntos calientes serán totalmente diferentes a todos los puntos fríos y entidades no significativas (y viceversa). Los pesos entre el 90%, 95% y 99% de puntos calientes y fríos se determinan mediante índices de valores críticos de las regiones superiores de rechazo parcial de la distribución normal; por ejemplo, el peso entre 95% caliente y 99% caliente es 1,645/2,33 = 0,71. Consulte todos los demás pesos entre categorías en la primera imagen de la sección Matriz de ponderaciones emergente incluida a continuación. Esta es la opción predeterminada.
  • Coincidencia exacta de nivel de significancia: las entidades deben tener el mismo nivel de significancia para que se consideren similares. Por ejemplo, un 99% de puntos calientes se considerará completamente diferente a un 95% y 90% de puntos calientes significativos.
  • Combinar 90%, 95% y 99% de significancia: las entidades que sean 90%, 95% y 99% de puntos calientes se considerarán perfectamente similares entre sí, y todas las entidades que sean 90%, 95% y 99% de puntos fríos se considerarán perfectamente similares entre sí. Esta opción trata todas las entidades con el 90% de significancia o superior como iguales (estadísticamente significativas) y todas las entidades por debajo del 90% de confianza como iguales (no significativas).
  • Combinar 95% y 99% de significancia: las entidades que sean 95% y 99% de puntos calientes se considerarán perfectamente similares, y las entidades que sean 95% y 99% de puntos fríos se considerarán perfectamente similares. Por ejemplo, el 90% calientes y el 90% de puntos fríos se considerarán completamente diferentes a niveles de significancia mayores. Esta opción trata todas las entidades con el 95% de significancia o superior como iguales (estadísticamente significativas) y todas las entidades por debajo del 95% de significancia como iguales (no significativas).
  • Usar solo 99% de significancia: solo las entidades que sean un 99% de puntos calientes (o fríos) se considerarán perfectamente similares entre sí. Esta opción trata todas las entidades por debajo del 99% de significancia como no significativas.
  • Invertir relaciones de calientes y fríos: se utilizarán los pesos parciales predeterminados, pero los puntos calientes del primer resultado de puntos calientes se considerarán similares a los puntos fríos del segundo punto caliente. Por ejemplo, un 99% de puntos calientes en un resultado se considerará perfectamente similar a un 99% de puntos fríos en el otro resultado y parcialmente similar a un 95% y 90% de puntos fríos en el otro resultado.
  • Obtener pesos de tabla: se utilizarán los pesos definidos por los campos de una capa de tablas. La tabla se proporciona en el parámetro Tabla de pesos de entrada y debe contener los campos CATEGORY1, CATEGORY2 y WEIGHT. Proporcione las categorías del nivel de significancia del par (los valores de campo Gi_Bin de las capas de entrada) en los campos de categoría y el peso de similitud entre ellos en el campo de peso. Por ejemplo, la fila [-3, -2, 0.6] asigna el valor de peso de similitud 0,6 al 99% frío frente a la combinación del 95% frío. Si no se proporciona una combinación en la tabla, se asume que el peso es 0. La tabla puede exportarse desde el cuadro emergente de la matriz de ponderaciones.
  • Pesos personalizados: se utilizarán los pesos de similitud personalizados proporcionados en el parámetro Pesos de similitud de categoría.

Cuadro emergente de la matriz de ponderaciones

El parámetro Pesos de similitud de categoría permite ver y editar los pesos de forma interactiva mediante el cuadro emergente de la matriz de ponderaciones. Los pesos mostrados se actualizan al elegir opciones diferentes del parámetro Método de ponderación de similitud para que pueda ver los pesos asociados a cada opción y realizar modificaciones. Para abrir el cuadro emergente, haga clic en el botón Personalizar que aparece al lado del parámetro.

Cuadro emergente de la matriz Pesos de similitud de categoría

Para asignar un peso personalizado entre una combinación de niveles de significancia, haga clic en la celda asociada, escriba el valor de peso entre 0 y 1 y pulse Intro. Para mantener la simetría de los pesos, solo puede editar las celdas de la mitad inferior izquierda de la matriz; el peso se reflejará en la celda equivalente de la parte superior derecha. En la imagen siguiente se muestra un ejemplo de pesos personalizados que emplean la coincidencia de nivel de significancia exacta con relaciones de caliente y frío invertidas (por ejemplo, 95% caliente es perfectamente similar al 95% frío y completamente diferente de los demás niveles de significancia):

Coincidencia exacta de nivel de significancia con relaciones caliente y frío invertidas

Tras proporcionar los pesos, haga clic en Aceptar o fuera del cuadro emergente para que se apliquen los pesos. Si se altera cualquier peso, el valor del parámetro Método de ponderación de similitud cambia a Pesos personalizados. También puede hacer clic en Cancelar o en el botón Cerrar para cerrar el cuadro emergente sin que se apliquen los cambios.

Con el botón Exportar se abre un cuadro de diálogo que permite guardar los valores de peso en formato de tabla para que puedan utilizarse más adelante con la opción Obtener pesos desde tabla. Para volver a utilizar los pesos personalizados en el futuro, se recomienda crear el archivo de pesos mediante el uso del cuadro emergente de matriz de pesos y luego usar la tabla de pesos en comparaciones futuras.

Similitud de distancia

Además de la similitud categórica, la similitud de distancia permite las coincidencias parciales cuando las entidades no tienen el mismo nivel de significancia, pero otras entidades de su vecindad sí tienen niveles de significancia coincidentes. Debido a que el análisis de puntos calientes es un método espacial que utiliza vecindades locales, el nivel de significancia de cada entidad es una caracterización de los valores de la entidad y sus vecinos más cercanos, no solo la entidad. En este sentido, si alguna entidad vecina es similar, debería contribuir de algún modo a la similitud de sus vecinos.

El parámetro Cantidad de vecinos especifica el número de entidades vecinas adicionales que se utilizarán en la comparación. La similitud parcial se incorpora mediante el uso de un peso de distancia basado en el orden de los vecinos. La entidad recibe un peso de distancia equivalente a 1 y los pesos disminuyen de forma sistemática para cada vecino adicional usando la siguiente fórmula:

Fórmula de peso de distancia

La jerarquía en la fórmula es el orden de los vecinos y los rangos desde 0 (para la entidad que se compara) hasta el número de vecinos (para el vecino más lejano). Por ejemplo, con cuatro vecinos (cinco si se incluye la entidad que se compara), se utilizan los cinco pesos de distancia siguientes: 5/5 (1), 4/5 (0,8), 3/5 (0,6), 2/5 (0,4) y 1/5 (0,2).

Nota:

Para los polígonos y las líneas se emplean distancias euclidianas entre centroides para determinar el orden de los vecinos más próximos. Si la referencia espacial de salida es un sistema de coordenadas geográficas, se utilizan las distancias cordales entre centroides. La clasificación de los vecinos (en lugar de las distancias brutas) se utiliza para los pesos de distancia con el fin de mantener el mismo valor de similitud previsto para todas las entidades, aunque los vecinos tengan distancias diferentes de las entidades que se comparan.

Salidas de la herramienta

Los resultados de las comparaciones se devuelven mediante mensajes de geoprocesamiento, una capa de grupo de las entidades de salida y gráficos.

Mensajes de geoprocesamiento

Los mensajes muestran información sobre comparaciones globales entre los resultados de puntos calientes. Los mensajes muestran la siguiente información:

  • Valor de similitud: un valor entre 0 y 1 que mide la similitud general entre las capas de resultados de puntos calientes. El valor se puede interpretar como una probabilidad difusa de que cualquier par de entidades correspondientes tenga la misma categoría de nivel de significancia. El valor es equivalente al promedio de todos los valores de similitud locales.
  • Valor de similitud esperado: el valor esperado de la similitud bajo la suposición de que las dos capas de resultados de puntos calientes no están asociadas (independientes). Un valor de similitud mayor de lo previsto sugiere una dependencia subyacente entre los dos mapas. El valor es principalmente informativo y se utiliza para escalar el valor de similitud al calcular el valor kappa. El valor es igual que el promedio de los valores de similitud locales previstos.
  • Kappa difusos espaciales: medida de la asociación entre las variables de análisis de puntos calientes que se calcula escalando el valor de similitud según el valor esperado. Los resultados de puntos calientes que estén perfectamente asociados tendrán el valor 1 y los resultados no asociados (independientes) tendrán un valor cercano a 0. Los valores negativos indican una relación negativa entre las variables de análisis de puntos calientes. Si bien el valor no tiene límite inferior, los valores rara vez son menores que -3 en la práctica. No existen normas estrictas para interpretar los valores kappa, pero las comendaciones habituales son interpretar los valores por encima de 0,8 como asociación casi perfecta, los valores entre 0,6 y 0,8 como asociación estrecha, los valores entre 0,4 y 0,6 como asociación moderada, los valores entre 0,2 y 0,4 como asociación justa, los valores entre 0 y 0,2 como asociación mínima y los valores negativos como ausencia de asociación (o asociación negativa para valores negativos altos).
  • Número de entidades no significativas: el número de pares de nivel de significancia de puntos calientes en los que ambas entidades no son significativas desde el punto de vista estadístico.
    Nota:

    Si se excluyen las entidades no significativas, estas no se incluirán en la similitud, la similitud prevista o los cálculos de valores kappa espaciales parciales. Las etiquetas cambiarán a Valor de similitud condicional, Valor de similitud condicional esperado, Kappa difuso espacial condicional y Número de rasgos no significativos excluidos para indicar que los valores están condicionados a las entidades estadísticamente significativas.

  • La tabla de mensajes Tabla de pesos categóricos muestra los pesos de categoría entre cada par de niveles de significancia de puntos calientes. Por ejemplo, la imagen siguiente muestra la tabla de pesos categóricos correspondiente al método de ponderación de similitud categórica predeterminado:

    Mensajes de la Tabla de pesos categóricos

  • La tabla de mensajes Par de niveles de significancia de puntos calientes (Recuentos) muestra recuentos de cada par de niveles de significancia de puntos calientes. Por ejemplo, en la imagen siguiente, el valor 440 de la primera fila y la segunda columna indica que 440 pares de entidades fueron 99% frías en el primer resultado de puntos calientes y 95% frías en el segundo resultado. Los totales de filas y columnas en los márgenes indican los recuentos totales de cada nivel de significancia entre cada resultado de punto caliente.

    Mensajes Par de niveles de significancia de puntos calientes (Recuentos)

  • En la tabla de mensajes Par de niveles de significancia de puntos calientes (Porcentajes) se muestra la misma información que la tabla de recuentos, pero los recuentos se convierten en porcentajes del total de filas. Por ejemplo, en la imagen siguiente, la celda que muestra 440 en la imagen anterior ahora presenta 5,57 (440/7904 = 0,0557). Esta tabla resulta especialmente útil cuando los dos resultados de puntos calientes representan la misma variable medida en diferentes momentos. En este caso, la tabla le permite ver cómo se realizó la transición de las categorías en el tiempo entre las mediciones. Por ejemplo, en la imagen siguiente se muestra que entre las entidades con 99% de puntos fríos en el primer resultado, el 89,26 por ciento se mantuvo como 99% de puntos fríos, el 5,57 por ciento cambió a 95% de puntos fríos y así sucesivamente.

    Mensajes Recuentos de pares de niveles de significancia de puntos calientes (Porcentajes)

Entidades de salida y capa de grupo

Las entidades de salida serán las intersecciones de las capas de resultados de los puntos calientes de entrada y contendrán campos en los que se resumen los valores locales de similitud y asociación de cada par de entidades correspondientes. La clase de entidad tendrá los campos siguientes:

  • Valor de entrada de punto caliente 1 (GI_BIN_1): entero que representa la categoría de nivel de significancia de la entidad a partir del resultado del primer punto caliente. El valor oscila entre -3 (99% frío) y 3 (99% caliente). El campo será de tipo largo.
  • Valor de entrada de punto caliente 2 (GI_BIN_2): entero que representa la categoría de nivel de significancia de la entidad a partir del resultado del segundo punto caliente. El campo será de tipo largo.
  • Nivel de significancia de punto caliente 1 (GI_SIG_1): categoría de nivel de significancia de la entidad a partir del resultado del primer punto caliente. Los valores posibles son: frío 99%, frío 95%, frío 90%, No significativo, caliente 90%, caliente 95% y caliente 99%. El campo será de tipo texto.
  • Nivel de significancia de punto caliente 2 (GI_SIG_2): categoría de nivel de significancia de la entidad a partir del resultado del segundo punto caliente. El campo será de tipo texto.
  • Valor de similitud (SIM_VALUE): valor de similitud local del par de entidades. Será un valor entre 0 y 1. El campo será de tipo doble.
  • Valor de similitud previsto (EXP_SIM): valor previsto de similitud del par de entidades. Será un valor entre 0 y 1. El campo será de tipo doble.
  • Kappa espacial parcial (KAPPA): valor kappa espacial parcial del par de entidades. El campo será de tipo doble.
  • Combinaciones de niveles de significancia (CAT_PAIR): combinación de categorías de nivel de significancia de los resultados de los puntos calientes. Este campo es la base de los dos gráficos siguientes. El campo será de tipo texto.

Cuando la herramienta se ejecuta en un mapa, se agregarán tres capas a una capa de grupo que permite explorar la similitud, la asociación y los pares de niveles de significancia espacialmente. La primera capa muestra los valores de similitud clasificados en cinco intervalos equivalentes entre 0 y 1 y los valores de similitud más bajos están en colores más oscuros para enfatizar las áreas menos similares. La segunda capa muestra los valores kappa difusos espaciales simbolizados con intervalos equivalentes y seis clases. La tercera capa muestra cada combinación de nivel de significancia con simbología personalizada para identificar las entidades donde el resultado de un punto caliente de entrada era un punto caliente estadísticamente significativo y el otro era un punto frío estadísticamente significativo (en la simbología personalizada, 90%, 95% y 99% de significancia no se distingue para reducir el número de combinaciones). La primera capa está habilitada y las dos últimas están deshabilitadas de forma predeterminada.

Capa de grupo de resultados de comparación

Gráficos

La capa final incluye dos gráficos para seguir investigando las combinaciones de niveles de significancia entre los resultados. Estos gráficos muestran la misma información que las tablas de los mensajes, pero los gráficos están coloreados por los recuentos y porcentajes para facilitar la interpretación. También puede utilizar selecciones entre los gráficos y el mapa para, por ejemplo, seleccionar todas las entidades que fueron un 99% de puntos calientes en un resultado y un 99% de puntos fríos en el otro, lo que indica las mayores diferencias posibles.

El gráfico de calor Pares de niveles de significancia de puntos calientes (Recuentos) muestra los recuentos de cada combinación de niveles de significancia con los recuentos más altos en tonos de azul más oscuros. Por ejemplo, en la imagen siguiente, los pares con los recuentos más grandes tenían 99% de frío a 99% de frío (parte superior izquierda), no significativos a no significativos (centro) y 99% de calor a 99% de calor (parte inferior derecha).

Gráfico de calor Pares de niveles de significancia de puntos calientes (Recuentos)

En los recuentos de niveles del punto caliente 2 del gráfico de barras Categorías de nivel de punto caliente 1, los recuentos de cada categoría de nivel de significancia del resultado del segundo punto caliente se visualizan como barras horizontales apiladas en las categorías del primer resultado. Por ejemplo, en la imagen siguiente, la gran mayoría de los puntos calientes y fríos del 99% también eran puntos calientes y fríos significativos (las barras superior e inferior son principalmente azules y rojas, respectivamente). Sin embargo, entre las entidades no significativas en el primer resultado, había más puntos calientes coincidentes que puntos fríos en el segundo resultado (la barra central tiene más rojo que azul). Si las dos capas de resultados de puntos calientes representan temperaturas medidas en diferentes momentos, esto puede indicar un calentamiento general del área de estudio entre los tiempos de medición.

Recuentos de niveles de punto caliente 2 dentro del gráfico de barras de categorías de nivel de punto caliente 1

Kappa espacial parcial

La asociación entre las capas de resultados de los puntos calientes se mide mediante un valor kappa que cuantifica la similitud de los resultados en comparación con lo similar que esperaría que sean si los dos resultados fueran independientes. El valor de similitud puede ser alto debido al gran número de categorías particulares y a la agrupación espacial de las categorías. El valor kappa corrige las frecuencias de las categorías y la agrupación espacial para medir de forma más exacta la asociación subyacente entre las capas de resultados de puntos calientes.

El valor kappa se calcula reajustando el valor de similitud según el valor previsto mediante la fórmula siguiente:

Fórmula kappa

Si las capas de resultados de puntos calientes son perfectamente similares (valor de similitud igual a 1), el valor kappa también será 1, lo que indica una asociación perfecta. Si el valor de similitud es igual que el valor previsto, el valor kappa será 0, lo que indica que los resultados no están asociados y son independientes. Si el valor de similitud es menor que el valor previsto, el valor kappa será negativo, lo que indica que existe una asociación negativa entre los resultados de los puntos calientes.

En sus inicios, las estadísticas kappa se desarrollaron para probar la coherencia y fiabilidad de los rásteres mediante el uso de una escala Likert (Cohen 1960). En la primera versión de las estadísticas kappa se corrigieron las frecuencias de categoría (algunas clasificaciones Likert son más comunes que otras), pero se suponía que cada clasificación era independiente. A principios de la década de 2000 se efectuaron mejoras para incorporar la similitud categórica y de distancia para comparar rásteres categóricos (Hagen 2003, 235-249) (Hagen-Zanker, Straatman y Uljee 2005, 769-785) (Hagen-Zanker 2009, 61-73) (Dou et. al. 2007, 726-734). Sin embargo, estas mejoras seguían dando por sentado que las categorías no se agrupan espacialmente, lo que no es cierto en el caso de los resultados de los análisis de puntos calientes y de la mayoría de las demás variables categóricas espaciales. La herramienta Comparación de análisis de puntos calientes mejora las estadísticas kappa para que sean estadísticas kappa espaciales parciales en las que se tienen en cuenta las agrupaciones categóricas (autocorrelación) de las categorías de nivel de significancia en cada resultado de puntos calientes.

Cálculo del valor de similitud

Los valores de similitud locales se calculan para cada par de entidades correspondientes de los resultados de los análisis de puntos calientes. El valor de similitud global es el promedio de todos los valores de similitud locales.

El valor de similitud del par de entidades será 1 cuando todas las entidades correspondientes tengan la misma categoría de nivel de significancia (o tengan categorías que se hayan combinado por pesos de similitud). El valor de similitud será 0 cuando todos los vecinos del primer resultado tengan categorías de nivel de significancia completamente diferentes como todos los vecinos del segundo resultado (por ejemplo, todos los puntos calientes del primer resultado y todos los puntos fríos del segundo resultado). En todas las demás situaciones, los valores de similitud estarán entre 0 y 1.

Para cada par de entidades, el valor de similitud implica calcular dos valores de similitud direccionales y tomar el más pequeño de los dos. La primera similitud direccional es la similitud del primer resultado con el segundo, y la segunda similitud direccional es la similitud del segundo resultado con el primero. Cada cálculo conlleva comparar la categoría de la entidad de un resultado con la entidad correspondiente del otro resultado y cada uno de sus vecinos. Para la entidad correspondiente y cada vecino, el peso de categoría se multiplica por el peso de distancia y el resultado mayor es el valor de similitud direccional.

Por ejemplo, en la imagen siguiente se muestran dos resultados de puntos calientes: A y B. A y B tienen cada uno tres entidades: un punto caliente (rojo), un punto frío (azul) y una entidad no significativa (gris claro). Los polígonos más grandes son el primer par de entidades y los polígonos más pequeños y medianos son el segundo y el tercer par de entidades, respectivamente. Los centroides de los polígonos se muestran para ayudar a determinar qué polígonos están más cerca que otros; el primer polígono está un poco más cerca del segundo que del tercer polígono.

Ejemplo de cálculo de similitud

En este ejemplo, se supone que el peso de categoría entre categorías coincidentes (caliente a caliente, frío a frío y no significativo a no significativo) es 1, el peso entre los puntos calientes y fríos es 0 y las entidades no significativas tienen la mitad de peso con puntos calientes y fríos.

En la tabla siguiente se muestran los pesos de categoría, los pesos de distancia y la similitud de la similitud direccional del resultado A con el resultado B. El valor de similitud de la última columna se calcula multiplicando el peso de distancia y el peso de categoría:

CombinaciónPeso de distanciaPeso de categoríaSimilitud

A1 a B1

1 (entidad correspondiente)

0 (frío a caliente)

0

A1 a B2

2/3 (primer vecino)

1/2 (frío a no significativo)

1/3 = 0,33

A1 a B3

1/3 (segundo vecino)

1 (frío a frío)

1/3 = 0,33

La mayor similitud del resultado A con el resultado B es 0,33 y ocurre con dos combinaciones de vecinos. En la tabla siguiente se muestran la similitud direccional del resultado B con el resultado A.

CombinaciónPeso de distanciaPeso de categoríaSimilitud

B1 a A1

1 (entidad correspondiente)

0 (caliente a frío)

0

B1 a A2

2/3 (primer vecino)

1 (caliente a caliente)

2/3 = 0,67

B1 a A3

1/3 (segundo vecino)

1/2 (caliente a no significativo)

1/6 = 0,17

La mayor similitud del resultado B con el resultado A es 0,67.

El valor de similitud local del par de entidades es el menor de las dos similitudes direccionales (A con B y B con A), por lo que el valor de similitud del primer par de entidades es 0,33. Se utiliza el mismo proceso para calcular el valor de similitud del segundo y el tercer par de entidades; en este ejemplo, ambos tienen valores de similitud de 0,5. El valor de similitud global es el promedio de los valores de similitud de todos los pares de entidades; en este ejemplo, el valor de similitud global es 4/9 = 0,44.

Si se excluyen entidades no significativas, sus valores de similitud no se calcularán y no se incluirán en el promedio para el valor de similitud global; sin embargo, se seguirán utilizando como vecinos al calcular el valor de similitud de las entidades que no se excluyen.

Nota:

En este ejemplo se utilizaron resultados de puntos calientes con solo tres pares de entidades y tres categorías de nivel de significancia para reducir el número de combinaciones. Sin embargo, se necesitan al menos 20 pares de entidades para utilizar la herramienta, y deben proporcionarse pesos de categoría entre las siete categorías de nivel de significancia.

Cálculo del valor de similitud previsto

En el cálculo del valor de similitud previsto correspondiente a cada entidad se utiliza el mismo procedimiento que en el cálculo del valor de similitud; sin embargo, la entidad del primer resultado se empareja con entidades aleatorias del segundo resultado en lugar de con su entidad correspondiente.

Vecindades aleatorias
Cada entidad del primer resultado de puntos calientes se empareja aleatoriamente con varias entidades del segundo resultado.

Al comparar vecindades aleatorias, el valor previsto tiene en cuenta la frecuencia de la categoría (es más probable que las categorías más comunes se elijan aleatoriamente) y la agrupación de categorías en vecindades (es probable que las vecindades aleatorias contenga clústeres de entidades con categorías de nivel de significancia similares). El valor de similitud de cada emparejamiento aleatorio es una estimación única del valor de similitud suponiendo que los dos resultados de puntos calientes son independientes. Para calcular el valor de similitud previsto de una entidad, cada entidad del primer resultado se empareja con muchos vecinos aleatorios y los valores de similitud aleatorios se promedian. El parámetro Número de permutaciones especifica el número de emparejamientos aleatorios correspondientes a cada entidad. Los números de permutaciones más altos aumentarán el tiempo de ejecución de la herramienta y la precisión de los valores kappa y de similitud previstos.

El valor de similitud global previsto es la media de los valores de similitud previstos de todos los pares de entidades. Si se excluyen las entidades no significativas, las entidades excluidas nunca se elegirán para que actúen como vecinos aleatorios y su valor de similitud previsto no se calculará; no obstante, todavía podrán incluirse como vecinos de las entidades seleccionadas aleatoriamente.

Nota:

El valor de similitud global previsto es una estimación imparcial del valor previsto global real suponiendo que no existe ninguna dependencia entre los dos resultados. Sin embargo, no es lo mismo la varianza del valor global previsto que la varianza del valor de similitud global debido a las correlaciones entre vecindades superpuestas. Esto significa que los valores p de permutación basados en la clasificación tradicionales correspondientes al valor de similitud global no son válidos en este procedimiento. La mejora de la metodología para respaldar las pruebas de significancia es un área de investigación activa.

Prácticas recomendadas y limitaciones

Tenga en cuenta lo siguiente cuando utilice la herramienta:

  • La elección de los pesos de similitud de categoría y la decisión de excluir las entidades no significativas deben basarse en las preguntas que debe responder al realizar las comparaciones. No debería elegir valores y opciones solamente para maximizar o minimizar la similitud o asociación entre los resultados de los puntos calientes. Por ejemplo, aunque puede utilizar pesos de similitud de categoría para combinar las categorías 99% caliente y 90% frío, es probable que la comparación no responda ninguna pregunta significativa a menos que exista algún motivo para creer que el 99% de puntos calientes en un resultado debe considerarse similar al 90% de puntos fríos en otro resultado. De forma similar, la exclusión o inclusión de entidades no significativas debe determinarse en función de si las áreas no significativas representan áreas de interés investigador.
  • Si cualquiera de las capas de resultados de puntos calientes de entrada contiene polígonos superpuestos, las superposiciones formarán una intersección dentro de entidades nuevas. Esto puede dar lugar a valores de similitud que sean distintos de 1 incluso para capas de resultados con categorías de nivel de significancia idénticas. El entorno Tolerancia XY puede utilizarse para eliminar superposiciones no deseadas, como errores de geocodificación. Se recomienda revisar el número de entidades de las entidades de salida para determinar si hay más intersecciones de las previstas.
  • Si los dos resultados de puntos calientes son polígonos de diferentes tamaños, la intersección subdividirá polígonos grandes en muchos polígonos más pequeños. Esto hace que cambien los recuentos de las categorías de nivel de significancia y afecta a la similitud y la asociación. Debe haber al menos 20 intersecciones de entidades para utilizar la herramienta.
  • Cambiar el orden de los resultados de puntos calientes de entrada no afectará a los valores de similitud, pero los valores de similitud y kappa esperados cambiarán ligeramente debido a la aleatoriedad de las permutaciones. Los ejes de las tablas y los gráficos del mensaje también se invertirán, lo que facilitará la interpretación en algunos casos. Dado que los mensajes y los gráficos muestran recuentos de las categorías de nivel de significancia del segundo resultado de puntos calientes dentro de las categorías del primer resultado, en su lugar puede mostrar las categorías del primer resultado en las categorías del segundo resultado invirtiendo el orden de las capas de entrada.

Referencias

Cohen, Jacob. 1960. "A coefficient of agreement for nominal scales". Educational and Psychological Measurement. 20:1, 37-46. https://doi.org/10.1177/001316446002000104.

Dou, Weibei, Yuan Ren, Qian Wu, Su Ruan, Yanping Chen, Daniel Bloyet y Jean-Marc Constans. 2007. "Fuzzy kappa for the agreement measure of fuzzy classifications". Neurocomputing. 70, 726-734. https://dx.doi.org/10.1016/j.neucom.2006.10.007.

Hagen, Alex. 2003. "Fuzzy set approach to assessing similarity of categorical maps". International Journal of Geographical Information Science. 17:3, 235-249. https://doi.org/10.1080/13658810210157822.

Hagen-Zanker, Alex, Bas Straatman e Inge Uljee. 2005. "Further developments of a fuzzy set map comparison approach". International Journal of Geographical Information Science. 19:7, 769-785. https://doi.org/10.1080/13658810500072137.

Hagen-Zanker, Alex. 2009. "An improved Fuzzy Kappa statistic that accounts for spatial autocorrelation". International Journal of Geographical Information Science. 23:1, 61-73. https://doi.org/10.1080/13658810802570317.

Temas relacionados