Cómo funciona Regresión lineal generalizada

Puede que el Análisis de regresión sea la estadística que se utiliza con mayor frecuencia en las ciencias sociales. La regresión se utiliza para evaluar las relaciones que existen entre dos o más atributos de entidades. La identificación y medición de las relaciones permite comprender mejor lo que sucede en un lugar, prever el lugar donde es probable que suceda algo o examinar las causas que hacen que algo suceda en un lugar determinado. Regresión lineal generalizada crea un modelo de la variable o el proceso que está intentando entender o prever que se puede utilizar para examinar y cuantificar las relaciones entre entidades.

Nota:

Esta herramienta es nueva en ArcGIS Pro 2.3 e incluye la funcionalidad Mínimos cuadrados ordinarios (OLS). Esa herramienta incluye los modelos adicionales de Recuento (Poisson) y Binario (logístico) que permiten que la herramienta se aplique a un mayor abanico de problemas.

Aplicaciones potenciales

Regresión lineal generalizada se puede utilizar para una variedad de aplicaciones, incluidas las siguientes:

  • ¿Qué características demográficas contribuyen a las altas tasas de uso del transporte público?
  • ¿Hay una relación positiva entre vandalismo y robo con fuerza en casas?
  • ¿Qué variables prevén de manera efectiva el volumen de llamadas al 911? Dadas las proyecciones futuras, ¿cuál es la demanda esperada para los recursos de respuesta de emergencia?
  • ¿Qué variables afectan a las tasas de natalidad bajas?

Entradas

Para ejecutar la herramienta Regresión lineal generalizada, proporcione a las Entidades de entrada un campo que represente la Variable dependiente y uno o varios campos que representen las Variables explicativas o, de forma opcional, las Entidades de distancia. Estos campos deben ser numéricos y tener un rango de valores. Las entidades que contienen valores que faltan en las variables dependiente o explicativa se excluirán del análisis; sin embargo, es posible usar la herramienta Rellenar valores que faltan para completar el dataset antes de ejecutar la herramienta Regresión lineal generalizada. A continuación, debe elegir un Tipo de modelo en base a los datos que esté analizando. Es importante que utilice un modelo adecuado para sus datos. A continuación, puede encontrar las descripciones de los tipos de modelos y cómo determinar cuál es el adecuado para sus datos.

Tipo de modelo

Regresión lineal generalizada proporciona tres tipos de modelos de regresión: continuo, binario y recuento. En las publicaciones sobre estadística, estos tipos de regresión se conocen como gaussiano, logística y Poisson, respectivamente. El Tipo de modelo para su análisis se debería elegir dependiendo de cómo se midiera o resumiera su Variable dependiente, así como del rango de valores que contiene.

Continuo (Gausiano)

Utilice el Tipo de modelo Continuo (gaussiano) si su Variable dependiente puede obtener un amplio rango de valores, por ejemplo, temperatura o ventas totales. Lo ideal sería que su variable dependiente presentara una distribución normal. Puede crear un histograma de su variable dependiente para verificar que presenta una distribución normal. Si el histograma es una curva de campana simétrica, utilice el tipo de modelo gaussiano. La mayoría de los valores se agrupará cerca del valor medio, con unos pocos valores separados radicalmente del valor medio. Deberían existir tantos valores en el lado izquierdo del valor medio como en el lado derecho (el valor medio y la mediana de la distribución son iguales). Si su Variable dependiente no presenta una distribución normal, plantéese volver a clasificarla como una variable binaria. Por ejemplo, si su variable dependiente es la media de ingresos por hogar, puede volver a codificarla como una variable binaria en la que 1 indica los valores superiores a la mediana nacional de ingresos y 0 indica los valores inferiores a la mediana nacional de ingresos. Un campo continuo se puede volver a clasificar como un campo binario utilizando la función de ayuda Reclasificar de la herramienta Calcular campo.

Binario (logístico)

Utilice un Tipo de modelo Binario (logístico) si su Variable dependiente puede obtener uno de dos valores posibles, por ejemplo, éxito y fracaso o presencia y ausencia. El campo que contiene su Variable dependiente debe ser numérico y solo debe contener unos y ceros. Será más fácil interpretar los resultados si codifica el evento de interés, por ejemplo, éxito o presencia de un animal, como 1, ya que la regresión modelará la probabilidad de 1. Debe existir una variación de los unos y los ceros de sus datos. Si crea un histograma de su Variable dependiente, solo debería mostrar unos y ceros.

Recuento (Poisson)

Considere la posibilidad de utilizar un Tipo de modelo Recuento (Poisson) si su Variable dependiente es discreta y representa el número de ocurrencias de un evento, por ejemplo, un recuento de crímenes. Los modelos de recuento también se pueden utilizar si su Variable dependiente representa una tasa y el denominador de esta es un valor fijo como, por ejemplo, las ventas mensuales o el número de gente con cáncer por cada 10.000 habitantes. Un modelo Recuento (Poisson) presupone que el valor medio y la varianza de la Variable dependiente son iguales y los valores de su Variable dependiente no pueden ser negativos ni contener decimales.

Entidades de distancia

Aunque Regresión lineal generalizada no es un método espacial propiamente dicho, una forma de aprovechar el poder del espacio en su análisis consiste en utilizar entidades de distancia. Por ejemplo, si está modelando el rendimiento de una serie de tiendas, puede que sea imprescindible contar con una variable que represente la distancia hasta carreteras por rampas o la distancia hasta el competidor más cercano para generar predicciones precisas. Del mismo modo, si está modelando la calidad del aire, es imprescindible contar con una variable explicativa que represente la distancia hasta orígenes de contaminación importantes o la distancia hasta carreteras importantes. Se usan entidades de distancia para crear automáticamente variables explicativas calculando una distancia desde las entidades proporcionadas a las Entidades de entrada. Las distancias se calculan desde cada una de las Entidades de distancia explicativas de entrada hasta las Entidades de entrada más cercanas. Si las Entidades de distancia explicativas de entrada son polígonos o líneas, los atributos de distancia se calculan como la distancia entre los segmentos más cercanos del par de entidades. Sin embargo, las distancias se calculan de forma diferente para los polígonos y las líneas. Consulte Cómo calculan la distancia las herramientas de proximidad para obtener más detalles.

Predicción

Puede utilizar el modelo de regresión que se ha creado para realizar predicciones para otras entidades (puntos o polígonos). Crear dichas predicciones requiere que cada una de las Ubicaciones de predicción tenga valores para cada una de las Variables explicativas proporcionadas, así como las Entidades de distancia explicativas para el área de interés. Si los nombres de campo de los parámetros Entidades de entrada y Ubicaciones de predicción no coinciden, se proporciona un parámetro variable coincidente. Al comparar las variables explicativas, los campos de los parámetros Entidades de entrada y Ubicaciones de predicción deben ser del mismo tipo (los campos dobles deben corresponderse con los campos dobles, por ejemplo). También deben corresponderse las Entidades de distancia explicativas.

Salidas

La herramienta Regresión lineal generalizada produce una variedad de salidas diferentes. Dispone de unos resúmenes del modelo GLR y de las estadísticas en forma de mensaje en la parte inferior del panel Geoprocesamiento durante la ejecución de la herramienta. Para acceder a los mensajes desplace el cursor sobre la barra de progreso, haga clic en el botón emergente o expanda la sección de mensajes en el panel Geoprocesamiento. También puede acceder a los mensajes de la herramienta Regresión lineal generalizada ejecutada anteriormente mediante el historial de geoprocesamiento. La herramienta también genera Entidades de salida, gráficos y, de forma opcional, Entidades predichas de salida. Las Entidades de salida y gráficos asociados se agregan automáticamente al panel Contenido con un esquema de representación de cálido a frío que se aplica a los residuales del modelo. Los diagnósticos y gráficos generados dependen del Tipo de modelo de las Entidades de entrada y se describen a continuación.

Continuo (Gausiano)

Interpretar mensajes y diagnósticos

  • AICc: es una medida del rendimiento del modelo y se puede utilizar para comparar modelos de regresión. Teniendo en cuenta la complejidad del modelo, el modelo con el valor AICc más bajo proporciona un mejor ajuste para los datos observados. AICc no es una medida absoluta de la bondad de ajuste pero es útil para comparar los modelos con distintas variables explicativas siempre y cuando se apliquen a la misma variable dependiente. Si los valores AICc para los dos modelos difieren por más de 3, se sostiene que el modelo con el valor AICc más bajo es el mejor. Comparar el valor AICc de GWR con el valor AICc de GLR es una forma de evaluar los beneficios de cambiar de un modelo global (GLR) a un modelo de regresión local (GWR).
  • R2: el R cuadrado es una medida de la bondad de ajuste. Su valor varía de 0,0 a 1,0; se prefieren los valores más altos. Se puede interpretar como la proporción de varianza de la variable dependiente que da cuenta el modelo de regresión. El denominador para el cálculo de R2 es la suma de los valores de la variable dependiente cuadrada. Agregar una variable explicativa extra al modelo no altera el denominador pero sí altera el numerador; esto brinda la impresión de mejora en el ajuste del modelo que puede no ser real. Consulte el R2 ajustado a continuación.
  • R2 ajustado: debido al problema descrito más arriba para el valor R2, los cálculos para el valor R cuadrado ajustado normalizan el numerador y denominador mediante los grados de libertad. Esto tiene el efecto de compensar el número de variables en un modelo y, por consiguiente, el valor R2 ajustado es casi siempre menor que el valor R2. Sin embargo, al realizar este ajuste, pierde la interpretación del valor como una proporción de la varianza explicada. En GWR, el número efectivo de grados de libertad es una función de la vecindad utilizada, por lo tanto el ajuste puede estar bastante marcado en comparación con un modelo global como, por ejemplo, GLR. Por esta razón, se prefiere el AICc como medio de comparación de los modelos.
  • Índice estadístico F conjunto e Índice estadístico de Wald conjunto: tanto el índice estadístico F conjunto como el índice estadístico de Wald conjunto son medidas de la importancia estadística general del modelo. El índice estadístico F conjunto es confiable únicamente cuando el índice estadístico de Koenker (BP) (ver abajo) no es estadísticamente significativo. Si el índice estadístico de Koenker (BP) es significativo, consulte el índice estadístico de Wald conjunto para determinar la importancia general del modelo. La hipótesis nula para ambas pruebas es que las variables explicativas del modelo no son efectivas. Para un nivel de confianza del 95 por ciento, un valor p (probabilidad) menor que 0,05 indica que el modelo es estadísticamente significativo.
  • Índice estadístico de Koenker (BP) (índice estadístico de Breusch-Pagan estudentizado de Koenker): es una prueba para determinar si las variables explicativas del modelo tienen una relación consistente con la variable dependiente, tanto en el espacio geográfico como en el espacio de datos. Cuando el modelo es consistente en el espacio geográfico, los procesos espaciales representados por las variables explicativas se comportan de la misma manera en cualquier parte del área de estudio (los procesos son estacionarios). Cuando el modelo es consistente en el espacio de datos, la variación en la relación entre los valores previstos y cada variable explicativa no cambia cuando cambian las magnitudes de la variable explicativa (no hay heterocedasticidad en el modelo). Supongamos que quiere prever el crimen y una de sus variables explicativas es el ingreso. El modelo tendrá una heterocedasticidad problemática si las predicciones fueron más exactas para las ubicaciones con ingresos medios bajos que para las ubicaciones con ingresos medios altos. La hipótesis nula para esta prueba es que el modelo es estacionario. Para un nivel de confianza del 95 por ciento, un valor p (probabilidad) menor que 0,05 indica que la heterocedasticidad y la no estacionariedad son estadísticamente significativas. Cuando los resultados de esta prueba sean estadísticamente significativos, consulte los errores y las probabilidades estándar del coeficiente robusto para evaluar la efectividad de cada variable explicativa. Los modelos de regresión con no estacionariedad estadísticamente significativa generalmente son buenos candidatos para el análisis (GWR).
  • Jarque-Bera: indica si los residuales (los valores de la variable dependiente observada o conocida menos los valores previstos o estimados) se distribuyen normalmente. La hipótesis nula para esta prueba es que los residuales son distribuidos normalmente, por lo tanto, si construyera un histograma de dichos residuales, se parecerían a la curva de Bell o a la distribución gaussiana. Cuando el valor p (probabilidad) de esta prueba es bajo (menor que 0,05 para un nivel de confianza del 95 por ciento, por ejemplo), los residuales no son distribuidos normalmente, lo que indica que el modelo es tendencioso. Si también cuenta con una autocorrelación espacial estadísticamente significativa de los residuales (ver abajo), la influencia puede ser el resultado de una especificación incorrecta del modelo (una variable clave está faltando en el modelo). Los resultados de un modelo de OLS con especificación incorrecta no son confiables. También puede producirse una prueba de Jarque-Bera estadísticamente significativa si está modelando relaciones no lineales, si los datos incluyen valores atípicos influyentes o cuando hay una heterocedasticidad elevada.

Gráficos de salida

Los gráficos creados con esta herramienta para el Tipo de modelo Continuo incluyen una matriz de gráficos de dispersión de las variables utilizadas en el modelo, un histograma de residuales del modelo y un diagrama de los residuales y las predicciones.

Binario (logístico)

Interpretar mensajes y diagnósticos

  • AICc: es una medida del rendimiento del modelo y se puede utilizar para comparar modelos de regresión. Teniendo en cuenta la complejidad del modelo, el modelo con el valor AICc más bajo proporciona un mejor ajuste para los datos observados. AICc no es una medida absoluta de la bondad de ajuste pero es útil para comparar los modelos con distintas variables explicativas siempre y cuando se apliquen a la misma variable dependiente. Si los valores AICc para los dos modelos difieren por más de 3, se sostiene que el modelo con el valor AICc más bajo es el mejor. Comparar el valor AICc de GWR con el valor AICc de GLR es una forma de evaluar los beneficios de cambiar de un modelo global (GLR) a un modelo de regresión local (GWR).
  • % de desviación explicada: la proporción de la varianza de la variable dependiente que corresponde a las variables explicativas.
  • Índice estadístico de Wald conjunto: el índice estadístico de Wald conjunto es una medida de la importancia estadística general del modelo. La hipótesis nula para esta prueba es que las variables explicativas del modelo no son efectivas. Para un nivel de confianza del 95 por ciento, un valor p (probabilidad) menor que 0,05 indica que el modelo es estadísticamente significativo.

Gráficos de salida

Los gráficos creados con esta herramienta para el Tipo de modelo Binario incluyen una matriz de gráficos de dispersión de las variables utilizadas en el modelo, un diagrama de caja que muestra la distribución de las variables explicativas, un histograma de residuales del modelo y una tabla de rendimiento de predicción.

Recuento (Poisson)

Interpretar mensajes y diagnósticos

  • AICc: es una medida del rendimiento del modelo y se puede utilizar para comparar modelos de regresión. Teniendo en cuenta la complejidad del modelo, el modelo con el valor AICc más bajo proporciona un mejor ajuste para los datos observados. AICc no es una medida absoluta de la bondad de ajuste pero es útil para comparar los modelos con distintas variables explicativas siempre y cuando se apliquen a la misma variable dependiente. Si los valores AICc para los dos modelos difieren por más de 3, se sostiene que el modelo con el valor AICc más bajo es el mejor. Comparar el valor AICc de GWR con el valor AICc de GLR es una forma de evaluar los beneficios de cambiar de un modelo global (GLR) a un modelo de regresión local (GWR).
  • % de desviación explicada: la proporción de la varianza de la variable dependiente que corresponde a las variables explicativas.
  • Índice estadístico de Wald conjunto: el índice estadístico de Wald conjunto es una medida de la importancia estadística general del modelo. La hipótesis nula para esta prueba es que las variables explicativas del modelo no son efectivas. Para un nivel de confianza del 95 por ciento, un valor p (probabilidad) menor que 0,05 indica que el modelo es estadísticamente significativo.

Gráficos de salida

Los gráficos creados con esta herramienta para el Tipo de modelo Recuento incluyen una matriz de gráficos de dispersión de las variables utilizadas en el modelo, un histograma de residuales del modelo y un diagrama de los residuales y las predicciones.

Recursos adicionales

Existen varios recursos para ayudarle a obtener más información sobre Regresión lineal generalizada y Regresión ponderada geográficamente. Comience con los Conceptos básicos del análisis de regresión o siga el tutorial de análisis de regresión.

A continuación se muestran otros recursos útiles:

Fox, J. (1991). Regression Diagnostics. Sage, Newbury Park, CA.

Menard, S. (2002). Applied logistic regression analysis (Vol. 106). Sage.

Nelder, J. A. and Wedderburn, R. W. M. (1972) Generalized linear models. J. R. Statist. Soc. A, 135, 370 - 384.