Cómo funciona Regresión ponderada geográficamente

La herramienta Regresión ponderada geográficamente utiliza regresión ponderada geográficamente (GWR), que es una de las tantas técnicas de regresión espacial, que se utiliza en geografía y otras disciplinas. GWR evalúa un modelo local de la variable o el proceso que trata de comprender o predecir ajustando una ecuación de regresión a todas las entidades del dataset. GWR construye estas ecuaciones individuales mediante la incorporación de las variables dependiente y explicativa de las entidades que caen dentro de la vecindad de cada entidad de destino. Cuando se utiliza la herramienta Regresión ponderada geográficamente, la forma y extensión de todas las vecindades que se analizan se basan en los valores de los parámetros Tipo de vecindad y Método de selección de vecindad. Esta herramienta permite datos continuos (gausianos), binarios (binomiales) o de recuento (Poisson) como variable dependiente. Utilice la GWR en datasets con al menos varios cientos de entidades.

Nota:

La herramienta Regresión ponderada geográficamente multiescala se puede utilizar para realizar GWR en datos con escalas variables de relaciones entre las variables dependiente y explicativa.

Aplicaciones potenciales

La herramienta Regresión ponderada geográficamente se puede utilizar para responder una variedad de preguntas, incluidas las siguientes:

  • ¿La relación entre resultados académicos e ingresos es uniforme en toda el área de estudio?
  • ¿La aparición de determinadas enfermedades aumenta con la proximidad a entidades de agua?
  • ¿Cuáles son las variables clave que explican la alta frecuencia de incendio forestal?
  • ¿Qué hábitats se deben proteger para alentar la reintroducción de una especie en peligro?
  • ¿Dónde se encuentran los distritos en los que los niños están alcanzando las notas de examen más altas? ¿Qué características parecen estar asociadas? ¿Dónde es más importante cada característica?
  • ¿Los factores que influyen en las tasas de cáncer más elevadas son uniformes en toda el área de estudio?

Entradas

Para ejecutar la herramienta Regresión ponderada geográficamente, proporcione al parámetro Entidades de entrada un campo que represente la variable dependiente y uno o varios campos que representen las variables explicativas. Estos campos deben ser numéricos y tener un rango de valores. Las entidades que contienen valores que faltan en la variable explicativa o dependiente se excluirán del análisis; sin embargo, es posible usar la herramienta Rellenar valores que faltan para completar el dataset antes de ejecutar la herramienta Regresión ponderada geográficamente. A continuación, debe elegir un tipo de modelo en base a los datos que esté analizando. Es importante que utilice un modelo adecuado para los datos. A continuación, puede encontrar las descripciones de los tipos de modelos y cómo determinar cuál es el adecuado para los datos.

Tipos de modelo

La herramienta Regresión ponderada geográficamente proporciona tres tipos de modelos de regresión: continuo, binario y recuento. Estos tipos de regresión se conocen como mínimos cuadrados ordinarios, logística y Poisson, respectivamente. Base el valor del parámetro Tipo de modelo para el análisis en cómo se midió o resumió la variable dependiente, así como en el rango de valores que contiene.

Continuo (gausiano)

Utilice la opción Continuo (gausiano) si la variable dependiente puede obtener un amplio rango de valores, por ejemplo, temperatura o ventas totales. Lo ideal sería que la variable dependiente presentara una distribución normal. Puede crear un histograma de la variable dependiente para verificar que presenta una distribución normal. Si el histograma es una curva de campana simétrica, utilice el tipo de modelo gaussiano. La mayoría de los valores se agrupará cerca del valor medio, con unos pocos valores separados radicalmente del valor medio. Deberían existir tantos valores en el lado izquierdo del valor medio como en el lado derecho (el valor medio y la mediana de la distribución son iguales). Si la variable dependiente no presenta una distribución normal, plantéese volver a clasificarla como una variable binaria. Por ejemplo, si la variable dependiente es la media de ingresos por hogar, puede volver a codificarla como una variable binaria en la que 1 indica los valores superiores a la mediana nacional de ingresos y 0 (cero) indica los valores inferiores a la mediana nacional de ingresos. Puede volver a clasificar un campo continuo como un campo binario utilizando la función de ayuda Reclasificar de la herramienta Calcular campo.

Binario (logístico)

Utilice la opción Binario (logístico) utilícelo si la variable dependiente puede obtener uno de dos valores posibles, por ejemplo, éxito y fracaso o presencia y ausencia. El campo que contiene la variable dependiente debe ser numérico y solo debe contener unos y ceros. Será más fácil interpretar los resultados si codifica el evento de interés, por ejemplo, éxito o presencia de un animal, como 1, ya que la regresión modelará la probabilidad de 1. Debe existir una variación de los unos y los ceros de los datos tanto global como localmente. Puede utilizar la herramienta Estadísticas de resumen de vecindad para calcular las desviaciones estándar de las vecindades locales para ubicar áreas que contengan el mismo valor.

Recuento (Poisson)

Utilice la opción Recuento (Poisson) si la variable dependiente es discreta y representa el número de ocurrencias de un evento, por ejemplo, un recuento de delitos. Los modelos de recuento también se pueden utilizar si la variable dependiente representa una tasa y el denominador de esta es un valor fijo como, por ejemplo, las ventas mensuales o el número de gente con cáncer por cada 10.000 habitantes. Los valores de la variable dependiente no pueden ser negativos ni contener decimales.

Tipos de vecindad

La vecindad es la banda de distancia o la cantidad de vecinos utilizadas para cada ecuación de regresión local y puede que sea el parámetro más importante para la herramienta Regresión ponderada geográficamente, ya que controla el modo en que se estimarán localmente los modelos. La forma y extensión de las vecindades que se analizan se basan en los valores de los parámetros Tipo de vecindad y Método de selección de vecindad.

Puede elegir uno de dos tipos de vecindario: un número fijo de vecinos o una banda de distancia. Para un número fijo de vecinos, el área de cada vecindad depende de la densidad de los puntos cercanos: las vecindades son más pequeñas donde las entidades son densas y más grandes donde las entidades son escasas. Cuando se utiliza una banda de distancia, el tamaño del vecindario permanece constante para cada característica en el área de estudio, lo que resulta en más características por vecindario donde las características son densas y menos por vecindario donde son escasas.

El método de selección de vecindad especifica cómo se determina el tamaño de la vecindad (la distancia o la cantidad de vecinos utilizados en realidad). La vecindad seleccionada mediante la opción Búsqueda dorada o Intervalos manuales se basan en minimizar el valor del criterio de información de Akaike corregido (AICc). De forma alternativa, puede establecer una distancia de vecindad o una cantidad de vecinos específicas mediante la opción Definido por el usuario.

Para el método de selección Búsqueda dorada, la herramienta determina los mejores valores para la banda de distancia o el número de vecinos utilizando el método de búsqueda por sección dorada. Este método primero busca las distancias máxima y mínima y evalúa el AICc a varias distancias que incrementan entre ellas. La distancia máxima es la distancia a la que todas las entidades tienen la mitad de las entidades de entrada como vecinos, y la distancia mínima es la distancia a la que todas las entidades tienen al menos el 5 por ciento de las entidades del dataset como vecinos.

Los parámetros Distancia mínima de búsqueda y Distancia máxima de búsqueda (para banda de distancia) y los parámetros Cantidad mínima de vecinos y Cantidad máxima de vecinos (para cantidad de vecinos) se pueden utilizar para limitar el rango de búsqueda de la búsqueda dorada.

Nota:

Si los parámetros de vecindad dan como resultado más de 1000 vecinos para una vecindad, solo se utilizarán los 1000 vecinos más cercanos.

Esquema de ponderación local

El poder de GWR es que aplica una ponderación geográfica a las entidades utilizadas en cada una de las ecuaciones de regresión local. A las entidades que están más alejadas del punto de regresión se les da menos peso y tienen menos influencia en los resultados de regresión para la entidad de destino; las entidades más cercanas tienen más peso en la ecuación de regresión. Los pesos se determinan utilizando un kernel, que es una función que determina la rapidez con la que los pesos disminuyen a medida que aumentan las distancias. La herramienta Regresión ponderada geográficamente proporciona dos opciones de kernel para el parámetro Esquema de ponderación local: Gausiano y Bicuadrado.

El esquema de ponderación gausiano asigna un peso de uno a la entidad focal y los pesos de las entidades vecinas disminuyen gradualmente a medida que aumenta la distancia desde la entidad focal. Por ejemplo, si dos entidades están alejadas 0,25 anchos de banda, el peso resultante en la ecuación será 0,88 aproximadamente. Si las entidades están alejadas 0,75 anchos de banda, el peso resultante solo será 0,32 aproximadamente. Un esquema de ponderación Gaussiano nunca llega a cero, pero los pesos para las entidades alejadas de la entidad de regresión pueden ser bastante pequeños y apenas tener impacto en la regresión. Al utilizar un esquema de ponderación Gaussiano, todas las entidades de los datos de entrada son una entidad vecina y se les asignará un peso. Sin embargo, para una mayor eficiencia informática, cuando la cantidad de entidades vecinas supere las 1000, solo las 1000 entidades más cercanas se incorporan en cada regresión local. Un esquema de ponderación Gaussiano garantiza que cada entidad de regresión tenga varios vecinos y aumenta las probabilidades de que existan variaciones en los valores de esos vecinos. Esto evita un problema habitual en la regresión ponderada geográficamente, denominado colinealidad local. Utilice un esquema de ponderación Gaussiano cuando la influencia de las entidades vecinas se vuelva fluida y gradualmente menos importante, pero esté siempre presente con independencia de la lejanía de las entidades circundantes.

El esquema de ponderación bicuadrado es similar al Gaussiano. Asigna un peso de uno a la entidad focal y los pesos de las entidades vecinas disminuyen gradualmente a medida que aumenta la distancia desde la entidad focal. Sin embargo, a todas las entidades que quedan fuera de la vecindad especificada se les asigna cero y no afectan a la regresión local para la entidad de destino. Si se compara un esquema de ponderación bicuadrado con un esquema de ponderación Gaussiano con las mismas especificaciones de vecindad, los pesos disminuirán más rápidamente con el bicuadrado. Utilizar un esquema de ponderación bicuadrado permite especificar una distancia tras la cual las entidades no afectarán a los resultados de regresión. Dado que bicuadrado excluye las entidades situadas más allá de cierta distancia, no existen garantías de que haya suficientes entidades (con influencia) en la vecindad circundante para producir un buen análisis de regresión local. Utilice un esquema de ponderación Gaussiano cuando la influencia de las entidades vecinas se vuelva gradualmente menos importante y exista una distancia tras la cual dicha influencia no esté presente. Por ejemplo, la regresión se utiliza con frecuencia para modelar los precios de las viviendas y los precios de venta de las viviendas circundantes son una variable explicativa habitual. Dichas viviendas circundantes se denominan propiedades comparables. En algunas ocasiones, las agencias de préstamos establecen reglas que requieren que haya una vivienda comparable dentro de una distancia máxima. En este ejemplo, se puede utilizar un esquema de ponderación bicuadrado con una vecindad igual a la distancia máxima especificada por la institución crediticia.

Predicción

Puede utilizar el modelo de regresión que se ha creado para realizar predicciones para otras entidades (puntos o polígonos) en la misma área de estudio proporcionando las entidades en el parámetro Ubicaciones de predicción. Las ubicaciones de predicción deben tener campos coincidentes para cada una de las variables explicativas en las entidades de entrada. Si los nombres de los campos de las entidades de entrada y las ubicaciones de predicción no son los mismos, debe hacer coincidir los campos correspondientes en el parámetro Variables explicativas para combinar. Al combinarlas, los campos deben ser del mismo tipo (por ejemplo, los campos de tipo doble no pueden coincidir con campos de tipo entero).

Rásteres de coeficiente

Un beneficio principal de la GWR en comparación con la mayoría de los modelos de regresión es que le permite explorar relaciones que varían espacialmente. Un modo de visualizar cómo varían las relaciones entre las variables explicativas y la variable dependiente en el espacio es crear rásteres de coeficientes. Cuando proporciona un nombre de ruta como valor del parámetro Espacio de trabajo de ráster de coeficiente, la herramienta Regresión ponderada geográficamente creará superficies ráster de coeficiente para la intersección del modelo y cada variable explicativa. El entorno Tamaño de celda controla la resolución de los rásteres. Se construye una vecindad alrededor de cada celda ráster según el tipo de vecindad y el esquema de ponderación. Las ponderaciones se calculan desde el centro de la celda ráster hasta todas las entidades de entrada dentro de la vecindad, y estas ponderaciones se utilizan para calcular una ecuación de regresión única para esa celda ráster. Los coeficientes varían de una celda ráster a otra porque los vecinos y las ponderaciones cambian de una celda a otra.

Nota:

Actualmente, no existe un consenso sobre cómo evaluar la confianza en los coeficientes de un modelo GWR. Mientras que las pruebas t se han utilizado para basar una inferencia en si el valor estimado de los coeficientes es significativamente diferente a cero, la validez de este enfoque es todavía un área en la que se está investigando activamente. Un enfoque para evaluar de manera informal los coeficientes es dividir el coeficiente entre el error estándar proporcionado para cada entidad, como una forma de escalar la magnitud de la estimación con el error estándar asociado y visualizar esos resultados, buscando clústeres de errores estándar elevados relativos a sus coeficientes.

Salidas

La herramienta Regresión ponderada geográficamente produce una variedad de salidas. El resumen del modelo GWR y los resúmenes estadísticos se devuelven como mensajes. La herramienta también genera una clase de entidad de salida, gráficos y, de forma opcional, entidades de predicción y superficies ráster de coeficientes. Las entidades de salida y gráficos asociados se agregan automáticamente al panel Contenido con un esquema de representación de cálido a frío que se aplica a los residuales del modelo. Los diagnósticos y gráficos generados dependen del tipo de modelo especificado.

Continuo (gausiano)

El tipo de modelo gausiano supone que los valores de la variable dependiente son continuos.

Entidades de salida

Además de los residuales de regresión, las entidades de salida incluyen campos para los valores de variable dependiente observados y previstos, número de condición, R cuadrado local, coeficientes de variable explicativa y errores estándar. En un mapa, las entidades de salida se agregan como una capa y se simbolizan mediante residuales estandarizados. Un residual estandarizado positivo significa que el valor de la variable dependiente es mayor que el valor predicho (subpredicción), y un residual estandarizado negativo significa que el valor es menor que el valor predicho (sobrepredicción).

También se reportan los valores Intercepción, Error estándar de la intercepción, Coeficientes, Errores estándar de las variables explicativas, Predicho, Residual, Residual estandarizado, Influencia, Cook's D, R cuadrado local y Número de condición. Muchos de estos campos se analizan en Cómo funciona la regresión de OLS. Los valores de Influencia y Cook's D miden la influencia de la entidad en la estimación de los coeficientes de regresión. Puede utilizar un gráfico de histograma para determinar si algunas entidades son más influyentes que el resto del dataset. Con frecuencia, estas entidades son valores atípicos que distorsionan la estimación de los coeficientes y los resultados del modelo pueden mejorarse eliminándolos y volviendo a ejecutar la herramienta. El valor R cuadrado local va de 0 a 1 y representa la fuerza de las correlaciones del modelo local de la entidad. El número de condición es una medida de la estabilidad de los coeficientes estimados. Los números de condición superiores a aproximadamente 1000 indican inestabilidad en el modelo; se suele deber a la existencia de variables explicativas que están altamente correlacionadas entre sí.

Interpretar mensajes y diagnósticos

Los mensajes muestran detalles del análisis, incluidas la cantidad de entidades analizadas, las variables dependientes y explicativas y la cantidad de vecinos especificada. Además, se reportan varios diagnósticos de modelo.

Diagnóstico de modelo para el tipo de modelo Continuo
  • R2: R cuadrado es una medida de la bondad de ajuste. Su valor varía de 0,0 a 1,0; se prefieren los valores más altos. Se puede interpretar como la proporción de varianza de la variable dependiente que da cuenta el modelo de regresión. El denominador para el cálculo de R2 es la suma de los valores de la variable dependiente cuadrada. Agregar una variable explicativa extra al modelo no altera el denominador, pero sí altera el numerador; esto brinda la impresión de mejora en el ajuste del modelo que puede no ser real. Consulte AdjR2 a continuación.
  • AdjR2: debido al problema descrito más arriba para el valor R2, los cálculos para el valor R cuadrado ajustado normalizan el numerador y denominador mediante los grados de libertad. Esto tiene el efecto de compensar el número de variables en un modelo y, por consiguiente, el valor R2 ajustado es casi siempre menor que el valor R2. Sin embargo, al realizar este ajuste, pierde la interpretación del valor como una proporción de la varianza explicada. En GWR, el número efectivo de grados de libertad es una función de la vecindad utilizada; por lo tanto, el ajuste puede estar marcado en comparación con un modelo global como, por ejemplo, el utilizado por la herramienta Regresión lineal generalizada. Por esta razón, se prefiere el AICc como medio de comparación de los modelos.
  • AICc: es una medida del rendimiento del modelo y se puede utilizar para comparar modelos de regresión. Teniendo en cuenta la complejidad del modelo, el modelo con el valor AICc más bajo proporciona un mejor ajuste para los datos observados. AICc no es una medida absoluta de la bondad de ajuste, pero es útil para comparar los modelos con distintas variables explicativas siempre y cuando se apliquen a la misma variable dependiente. Si los valores AICc para los dos modelos difieren por más de 3, se considera que el modelo con el valor AICc más bajo es el mejor. Comparar el valor AICc de GWR con el valor AICc de la regresión lineal generalizada (GLR) es una forma de evaluar los beneficios de cambiar de un modelo global (GLR) a un modelo de regresión local (GWR).

    Consulte Gollini et al. en la sección Recursos adicionales para las fórmulas utilizadas para calcular el AICc para todos los tipos de modelo.

  • Sigma cuadrado: es la estimación de mínimos cuadrados de la varianza (desviación estándar cuadrada) para los residuales. Se prefieren los valores más pequeños de esta estadística. Este valor es la suma residual normalizada de cuadrados, en los que la suma residual de los cuadrados se divide entre los grados de libertad efectivos de los residuales. Sigma cuadrado se utiliza para cómputos de AICc.
  • Sigma cuadrado MLE: es la estimación de máxima probabilidad (MLE) de la varianza (desviación estándar cuadrada) de los residuales. Se prefieren los valores más pequeños de esta estadística. Este valor se calcula dividiendo la suma residual de los cuadrados entre el número de entidades de entrada.
  • Grados de libertad efectivos: este valor refleja un equilibrio entre la varianza de los valores ajustados y la influencia en las estimaciones de coeficiente, y se relaciona con la opción de tamaño de vecindad. Debido a que la vecindad se acerca al infinito, los pesos geográficos para cada entidad se acercan a 1 y las estimaciones de coeficiente estarán muy cerca de aquellos para un modelo GLR global. Para vecindades muy grandes, el número efectivo de coeficientes se acerca al número real; las estimaciones de coeficiente local tendrán una pequeña varianza, pero estarán influenciadas. Por el contrario, a medida que la vecindad se acerca a cero, los pesos geográficos para cada entidad se acercan a cero con la excepción del punto de regresión. Para las vecindades extremadamente pequeñas, el número efectivo de coeficientes es el número de observaciones, y las estimaciones de coeficiente local tendrán una varianza grande pero una baja influencia. El número efectivo se utiliza para calcular muchas otras medidas de diagnóstico.
  • Valor crítico ajustado de estadísticas pseudo t: este es el valor crítico ajustado utilizado para evaluar la importancia estadística de los coeficientes en una prueba T de dos lados con una confianza del 95 por ciento. El valor corresponde a un nivel de significancia (alfa) de 0,05 dividido entre los grados de libertad efectivos. Este ajuste controla la tasa de error por familia (FWER) de la importancia de las variables explicativas.

Gráficos de salida

La herramienta genera una matriz de gráficos de dispersión y un histograma en el panel Contenido. La matriz de gráficos de dispersión incluye una variable dependiente y hasta nueve variables explicativas. El histograma muestra la desviación residual y una curva de distribución normal.

Binario (logístico)

El tipo de modelo binario supone que los valores de la variable dependiente son valores binarios (0 o 1).

Clase de entidades y campos agregados

Las entidades de salida contienen campos de Intercepción (INTERCEPT), Error estándar de la intercepción (SE_INTERCEPT), Coeficientes y Errores estándar para cada una de las variables explicativas, y se reportan los valores Probabilidad de ser 1, Predicho, Desviación residual, Influencia G y Desviación porcentual local.

Interpretar mensajes y diagnósticos

Los mensajes muestran detalles del análisis, incluidas la cantidad de entidades analizadas, las variables dependientes y explicativas y la cantidad de vecinos especificada. Además, se informa de los siguientes diagnósticos:

  • % de desviación explicado por el modelo global (no espacial): es una medida de bondad de ajuste y cuantifica el rendimiento de un modelo global (GLR). Su valor varía de 0,0 a 1,0; se prefieren los valores más altos. Se puede interpretar como la proporción de varianza de la variable dependiente que da cuenta el modelo de regresión.
  • % de desviación explicado por el modelo local: es una medida de bondad de ajuste y cuantifica el rendimiento de un modelo local (GWR). Su valor varía de 0,0 a 1,0; se prefieren los valores más altos. Se puede interpretar como la proporción de varianza de la variable dependiente que da cuenta el modelo de regresión local.
  • % de desviación explicado por el modelo local frente al modelo global: esta proporción es una forma de evaluar los beneficios de cambiar de un modelo global (GLR) a un modelo de regresión local (GWR), comparando la suma residual de cuadrados del modelo local con la suma residual de cuadrados del modelo global. Su valor varía de 0,0 a 1,0, donde los valores más altos indican que el modelo de regresión local rindió mejor que un modelo global.
  • AICc: es una medida del rendimiento del modelo y se puede utilizar para comparar modelos de regresión. Teniendo en cuenta la complejidad del modelo, el modelo con el valor AICc más bajo proporciona un mejor ajuste para los datos observados. AICc no es una medida absoluta de la bondad de ajuste, pero es útil para comparar los modelos con distintas variables explicativas siempre y cuando se apliquen a la misma variable dependiente. Si los valores AICc para los dos modelos difieren por más de 3, se considera que el modelo con el valor AICc más bajo es el mejor. Comparar el valor AICc de GWR con el valor AICc de mínimos cuadrados ordinarios (OLS) es una forma de evaluar los beneficios de cambiar de un modelo global (OLS) a un modelo de regresión local (GWR).
  • Sigma cuadrado: este valor es la suma residual normalizada de cuadrados, en la que la suma residual de los cuadrados se divide entre los grados de libertad efectivos del residual. Es la estimación de mínimos cuadrados de la varianza (desviación estándar cuadrada) de los residuales. Se prefieren los valores más pequeños de esta estadística. Sigma cuadrado se utiliza para cómputos de AICc.
  • Sigma cuadrado MLE: es la MLE de la varianza (desviación estándar cuadrada) de los residuales. Se prefieren los valores más pequeños de esta estadística. Este valor se calcula dividiendo la suma residual de los cuadrados entre el número de entidades de entrada.
  • Grados de libertad efectivos: este valor refleja un equilibrio entre la varianza de los valores ajustados y la influencia en las estimaciones de coeficiente, y se relaciona con la opción de tamaño de vecindad. Debido a que la vecindad se acerca al infinito, los pesos geográficos para cada entidad se acercan a 1 y las estimaciones de coeficiente estarán muy cerca de aquellos para un modelo GLR global. Para vecindades muy grandes, el número efectivo de coeficientes se acerca al número real; las estimaciones de coeficiente local tendrán una pequeña varianza, pero estarán influenciadas. Por el contrario, a medida que la vecindad se acerca a cero, los pesos geográficos para cada entidad se acercan a cero con la excepción del punto de regresión. Para las vecindades extremadamente pequeñas, el número efectivo de coeficientes es el número de observaciones, y las estimaciones de coeficiente local tendrán una varianza grande pero una baja influencia. El número efectivo se utiliza para calcular muchas otras medidas de diagnóstico.
  • Valor crítico ajustado de estadísticas pseudo t: este es el valor crítico ajustado utilizado para evaluar la importancia estadística de los coeficientes en una prueba T de dos lados con una confianza del 95 por ciento. El valor corresponde a un nivel de significancia (alfa) de 0,05 dividido entre los grados de libertad efectivos. Este ajuste controla la FWER de la importancia de las variables explicativas.

Gráficos de salida

Se proporciona una matriz de gráficos de dispersión, así como diagramas de caja y un histograma de la desviación residual.

Recuento (Poisson)

El tipo de modelo Poisson supone que los valores de la variable dependiente son recuentos.

Clase de entidades y campos agregados

Las entidades de salida contienen campos de Intercepción (INTERCEPT), Error estándar de la intercepción (SE_INTERCEPT), Coeficientes y Errores estándar para cada una de las variables explicativas, así como el valor predicho antes de la transformación logarítmica (RAW_PRED) y los valores Predicho, Desviación residual, Influencia G, Desviación porcentual local y Número de condición.

Interpretar mensajes y diagnósticos

Los mensajes muestran detalles del análisis, incluidas la cantidad de entidades analizadas, las variables dependientes y explicativas y la cantidad de vecinos especificada. Además, se informa de los siguientes diagnósticos:

  • % de desviación explicado por el modelo global (no espacial): es una medida de bondad de ajuste y cuantifica el rendimiento de un modelo global (GLR). Su valor varía de 0,0 a 1,0; se prefieren los valores más altos. Se puede interpretar como la proporción de varianza de la variable dependiente que da cuenta el modelo de regresión.
  • % de desviación explicado por el modelo local: es una medida de bondad de ajuste y cuantifica el rendimiento del modelo local (GWR). Su valor varía de 0,0 a 1,0; se prefieren los valores más altos. Se puede interpretar como la proporción de varianza de la variable dependiente que da cuenta el modelo de regresión local.
  • % de desviación explicado por el modelo local frente al modelo global: esta proporción es una forma de evaluar los beneficios de cambiar de un modelo global (GLR) a un modelo de regresión local (GWR), comparando la suma residual de cuadrados del modelo local con la suma residual de cuadrados del modelo global. Su valor varía de 0,0 a 1,0, donde los valores más altos indican que el modelo de regresión local rindió mejor que un modelo global.
  • AICc: es una medida del rendimiento del modelo y se puede utilizar para comparar modelos de regresión. Teniendo en cuenta la complejidad del modelo, el modelo con el valor AICc más bajo proporciona un mejor ajuste para los datos observados. AICc no es una medida absoluta de la bondad de ajuste, pero es útil para comparar los modelos con distintas variables explicativas siempre y cuando se apliquen a la misma variable dependiente. Si los valores AICc para los dos modelos difieren por más de 3, se considera que el modelo con el valor AICc más bajo es el mejor. Comparar el valor AICc de GWR con el valor AICc de OLS es una forma de evaluar los beneficios de cambiar de un modelo global (OLS) a un modelo de regresión local (GWR).
  • Sigma cuadrado: este valor es la suma residual normalizada de cuadrados, en la que la suma residual de los cuadrados se divide entre los grados de libertad efectivos del residual. Es la estimación de mínimos cuadrados de la varianza (desviación estándar cuadrada) de los residuales. Se prefieren los valores más pequeños de esta estadística. Sigma cuadrado se utiliza para cómputos de AICc.
  • Sigma cuadrado MLE: es la MLE de la varianza (desviación estándar cuadrada) de los residuales. Se prefieren los valores más pequeños de esta estadística. Este valor se calcula dividiendo la suma residual de los cuadrados entre el número de entidades de entrada.
  • Grados de libertad efectivos: este valor refleja un equilibrio entre la varianza de los valores ajustados y la influencia en las estimaciones de coeficiente, y se relaciona con la opción de tamaño de vecindad. Debido a que la vecindad se acerca al infinito, los pesos geográficos para cada entidad se acercan a 1 y las estimaciones de coeficiente estarán muy cerca de aquellos para un modelo GLR global. Para vecindades muy grandes, el número efectivo de coeficientes se acerca al número real; las estimaciones de coeficiente local tendrán una pequeña varianza, pero estarán influenciadas. Por el contrario, a medida que la vecindad se acerca a cero, los pesos geográficos para cada entidad se acercan a cero con la excepción del punto de regresión. Para las vecindades extremadamente pequeñas, el número efectivo de coeficientes es el número de observaciones, y las estimaciones de coeficiente local tendrán una varianza grande pero una baja influencia. El número efectivo se utiliza para calcular muchas otras medidas de diagnóstico.
  • Valor crítico ajustado de estadísticas pseudo t: este es el valor crítico ajustado utilizado para evaluar la importancia estadística de los coeficientes en una prueba T de dos lados con una confianza del 95 por ciento. El valor corresponde a un nivel de significancia (alfa) de 0,05 dividido entre los grados de libertad efectivos. Este ajuste controla la FWER de la importancia de las variables explicativas.

Gráficos de salida

Se proporciona una matriz de gráficos de dispersión en el panel Contenido (que incluye hasta 19 variables), así como un histograma de la desviación residual y una línea de distribución normal.

Otras notas y sugerencias sobre la implementación

En los modelos de regresión global, como la GLR, los resultados son poco fiables cuando dos o más variables exhiben multicolinealidad (cuando dos o más variables son redundantes o cuentan la misma historia). La herramienta Regresión ponderada geográficamente construye una ecuación de regresión local para cada entidad del dataset. Cuando los valores para una variable explicativa particular se agrupan espacialmente, es probable que tenga problemas con la multicolinealidad local. El número de condición de las entidades de salida indica el momento en el que los resultados son inestables debido a la multicolinealidad local. Sospeche de resultados para entidades con un número de condición mayor que 30, igual que Nulo o, para los shapefiles, igual que -1,7976931348623158e+308. Este número de condición está ajustado a escala para corregirse para el número de variables explicativas en el modelo. Esto permite una comparación directa del número de condición entre modelos usando diferentes números de variables explicativas.

Los errores de diseño del modelo con frecuencia indican que hay un problema con la multicolinealidad global o local. Para determinar dónde está el problema, ejecute la herramienta Regresión ponderada geográficamente y examine el valor VIF para cada variable explicativa. Si algunos de los valores VIF son grandes (por ejemplo, mayores que 7,5), la multicolinealidad global impide que la resolución de la herramienta. Sin embargo, es más probable que la multicolinealidad local sea el problema. Intente crear un mapa temático para cada variable explicativa. Si el mapa muestra un clustering espacial de valores idénticos, considere quitar esas variables del modelo o combinarlas con otras variables explicativas para aumentar la variación del valor. Por ejemplo, si está modelando valores de viviendas y tiene variables tanto para los dormitorios como para cuartos de baño, puede combinarlas para aumentar la variación del valor o para representarlas como metros cuadrados de cuarto de baño/dormitorio. Evite utilizar variables artificiales o binarias del régimen espacial para los tipos de modelo gaussiano o Poisson, variables categóricas o nominales de clustering espacial con el tipo de modelo logístico o variables con pocos valores posibles al construir modelos GWR.

Los problemas con la multicolinealidad local también pueden impedir que la herramienta resuelva una banda de distancia o una cantidad de vecinos óptimas. Intente especificar intervalos manuales o una banda de distancia definida por el usuario o un recuento de vecinos específico. Después, examine los números de condiciones en las entidades de salida para ver qué entidades están asociadas con los problemas de multicolinealidad local (números de condición mayores que 30). Es posible que desee quitar estas entidades de manera temporal mientras busca una distancia y una cantidad de vecinos óptimas. Tenga en cuenta que los resultados asociados con números de condición mayores que 30 son poco fiables.

Recursos adicionales

Hay una serie de recursos que le ayudarán a obtener más información sobre GLR y GWR. Comience con los Conceptos básicos del análisis de regresión o siga el tutorial de análisis de regresión.

A continuación, se muestran otros recursos útiles:

Brunsdon, C., Fotheringham, A. S., y Charlton, M. E. (1996). "Geographically weighted regression: a method for exploring spatial nonstationarity". Geographical analysis, 28(4), 281-298.

Fotheringham, Stewart A., Chris Brunsdon y Martin Charlton. Geographically Weighted Regression: The analysis of spatially varying relationships. John Wiley & Sons, 2002.

Gollini, I., Lu, B., Charlton, M., Brunsdon, C., y Harris, P. (2015). "GWmodel: An R Package For Exploring Spatial Heterogeneity Using Geographically Weighted Models." Journal of Statistical Software, 63(17), 1–50.https://doi.org/10.18637/jss.v063.i17.

Mitchell, Andy. The ESRI Guide to GIS Analysis, Volume 2. Esri Press, 2005.

Nakaya, T., Fotheringham, A. S., Brunsdon, C., y Charlton, M. (2005). "Geographically weighted Poisson regression for disease association mapping". Statistics in medicine, 24(17), 2695-2717.

Páez, A., Farber, S., y Wheeler, D. (2011). "A simulation-based study of geographically weighted regression as a method for investigating spatially varying relationships". Environment and Planning A, 43(12), 2992-3010.