Regresión lineal generalizada (Estadística espacial)

Resumen

Realiza una regresión lineal generalizada (GLR) para generar predicciones o para modelar una variable dependiente en términos de su relación con un conjunto de variables explicativas. Esta herramienta se puede usar para ajustarse a modelos continuos (OLS), binarios (logísticos) y de recuento (Poisson).

Más información sobre cómo funciona Regresión lineal generalizada

Ilustración

Ilustración de la herramienta Regresión lineal generalizada

Uso

  • La salida principal de esta herramienta es un archivo de informe que está disponible como mensajes en la parte inferior del panel Geoprocesamiento durante la ejecución de la herramienta. Para acceder a los mensajes, pase el cursor sobre la barra de progreso y haga clic en el botón emergente o expanda la sección de mensajes del panel Geoprocesamiento. También puede acceder a los mensajes de una ejecución anterior de la herramienta en el historial de geoprocesamiento.

  • Use el parámetro Entidades de entrada con un campo que represente el fenómeno que está modelando (el valor Variable dependiente) y uno o varios campos que representen el valor Variables explicativas. Estos campos deben ser numéricos y tener un rango de valores. Las entidades que contienen valores que faltan en la variable explicativa o dependiente se excluirán del análisis; sin embargo, es posible usar la herramienta Rellenar valores que faltan para completar el dataset antes de ejecutar la herramienta.

  • La herramienta Regresión lineal generalizada también produce valores de Entidades de salida con diagnósticos e información de coeficiente. La clase de entidad de salida se agrega automáticamente a la tabla de contenido con un esquema de representación en pantalla que se aplica a los residuales del modelo. Se proporciona una explicación completa de cada salida en Cómo funciona Regresión lineal generalizada.

  • La opción que seleccione para el parámetro Tipo de modelo depende de los datos que esté modelando. Es importante usar el modelo correcto para su análisis con el fin de obtener resultados precisos del análisis de regresión.

    Tipos de datos de modelo Continuo, Recuento y Binario

  • Los diagnósticos y resultados del resumen del modelo se escriben en la ventana de mensajes y los gráficos se crean bajo la clase de entidad de salida. Los diagnósticos y gráficos reportados dependen del valor del parámetro Tipo de modelo y se explican con detalle en el tema Cómo funciona Regresión lineal generalizada.

  • Los resultados de la GLR son fiables solo si los datos y el modelo de regresión satisfacen todas las presuposiciones que este método requiere inherentemente. Revise todos los diagnósticos resultantes y consulte la tabla Problemas, consecuencias y soluciones comunes de regresión en Conceptos básicos del análisis de regresión para asegurarse de que el modelo esté especificado correctamente.

  • Los parámetros Variable dependiente y Variables explicativas deben ser campos numéricos con una serie de valores. Esta herramienta no puede resolver cuando las variables tienen los mismos valores (por ejemplo, todos los valores de un campo son 9,0).

  • Las variables explicativas pueden provenir de campos o calcularse a partir de entidades de distancia mediante el parámetro Entidades de distancia explicativas. Es posible usar una combinación de estos tipos de variables explicativas, pero se requiere al menos un tipo. Los valores del parámetro Entidades de distancia explicativas se usan para crear automáticamente variables explicativas que representen una distancia desde las entidades proporcionadas hasta los valores del parámetro Entidades de entrada. Las distancias se calculan desde cada uno de los valores de Entidades de distancia explicativas de entrada hasta los valores de Entidades de entrada más cercanos. Si los valores de Entidades de distancia explicativas de entrada son polígonos o líneas, los atributos de distancia se calculan como la distancia entre los segmentos más cercanos del par de entidades. Sin embargo, las distancias se calculan de forma diferente para los polígonos y las líneas. Consulte Cómo calculan la distancia las herramientas de proximidad para obtener más detalles.

  • Es recomendable usar datos proyectados si los valores de Entidades de distancia explicativas forman parte del análisis. Se recomienda que los datos estén proyectados mediante un sistema de coordenadas proyectadas (en lugar de un sistema de coordenadas geográficas) para medir distancias de forma precisa.

  • Si hay una autocorrelación espacial estadísticamente significativa de los residuales de la regresión, se considerará que el modelo GLR está mal especificado y, por lo tanto, los resultados de GLR no son fiables. Ejecute la herramienta Autocorrelación espacial en los residuales de la regresión para evaluar este problema potencial. La autocorrelación espacial estadísticamente significativa de los residuales de regresión podría indicar la ausencia de una o más variables explicativas clave en el modelo.

  • Inspeccione visualmente las sobrepredicciones y las subpredicciones que sean evidentes en los residuales de regresión para ver si ofrecen pistas sobre las posibles variables que falten en el modelo de regresión. Podría ayudar a ejecutar el Análisis de punto caliente en los residuales para visualizar el clustering espacial de las sobrepredicciones y las subpredicciones.

  • Cuando se produce una especificación incorrecta como resultado del intento de modelar variables no estacionarias con un modelo global (GLR es un modelo global), puede utilizar la herramienta Regresión ponderada geográficamente para mejorar las predicciones y comprender mejor la no estacionariedad (variación regional) inherente en las variables explicativas.

  • Cuando el resultado de un cómputo es infinito o indefinido, la salida para los no shapefiles será Nulo; para los shapefiles la salida será -DBL_MAX (-1,7976931348623158e+308, por ejemplo).

  • Precaución:

    Al utilizar shapefiles tenga en cuenta que no pueden almacenar valores nulos. Las herramientas u otros procedimientos que crean shapefiles a partir de entradas sin shapefiles pueden almacenar o interpretar valores nulos como cero. En algunos casos, los nulos se almacenan como valores negativos muy grandes en shapefiles. Esto puede ocasionar resultados inesperados. Consulte Consideraciones de geoprocesamiento para la salida del shapefile para obtener más información.

Parámetros

EtiquetaExplicaciónTipo de datos
Entidades de entrada

La clase en entidad que contiene las variables dependientes e independientes.

Feature Layer
Variable dependiente

El campo numérico que contiene los valores observados que se van a modelar.

Field
Tipo de modelo

Especifica el tipo de datos que se va a modelar.

  • Continuo (gausiano)El valor Variable dependiente es continuo. El modelo que se usa es Gausiano y la herramienta realiza una regresión de mínimos cuadrados ordinarios.
  • Binario (logístico)El valor Variable dependiente representa la presencia o ausencia. Puede ser convencional de 1 y 0 o datos continuos que se han recodificado en función de un valor de umbral. El modelo que se usa es Regresión logística.
  • Recuento (Poisson)El valor de Variable dependiente es discreto y representa eventos, por ejemplo, recuentos de delitos, incidentes de enfermedades o accidentes de tráfico. El modelo que se usa es Regresión Poisson.
String
Entidades de salida

La nueva clase de entidad que contendrá las estimaciones y los residuales de la variable dependiente.

Feature Class
Variables explicativas

Una lista de campos que representan variables explicativas independientes en el modelo de regresión.

Field
Entidades de distancia explicativas
(Opcional)

Crea automáticamente variables explicativas mediante el cálculo de una distancia desde las entidades proporcionadas a los valores de Entidades de entrada. Las distancias se calculan desde cada uno de los valores de Entidades de distancia explicativas de entrada hasta el valor de Entidades de entrada más cercano. Si los valores de Entidades de distancia explicativas de entrada son polígonos o líneas, los atributos de distancia se calculan como la distancia entre los segmentos más cercanos del par de entidades.

Feature Layer
Ubicaciones de predicción
(Opcional)

Una clase de entidad que contiene entidades que representan ubicaciones donde se realizarán los cálculos. Cada entidad en este dataset debe incluir valores para todas las variables explicativas especificadas. La variable dependiente para estas entidades se calculará con el modelo calibrado para los datos de la clase de entidad de entrada.

Feature Layer
Variables explicativas coincidentes
(Opcional)

Hace coincidir las variables explicativas del parámetro Ubicaciones de predicción con las variables explicativas correspondientes del parámetro Clase de entidad de entrada.

Value Table
Entidades de distancia coincidentes
(Opcional)

Hace coincidir las entidades de distancia especificadas para el parámetro Ubicaciones de predicción de la izquierda con las entidades de distancia correspondientes para el parámetro Entidades de entrada de la derecha.

Value Table
Entidades predichas de salida
(Opcional)

La clase de entidad de salida que recibirá estimaciones de variables dependientes para cada valor de Ubicación de predicción.

Feature Class

arcpy.stats.GeneralizedLinearRegression(in_features, dependent_variable, model_type, output_features, explanatory_variables, {distance_features}, {prediction_locations}, {explanatory_variables_to_match}, {explanatory_distance_matching}, {output_predicted_features})
NombreExplicaciónTipo de datos
in_features

La clase en entidad que contiene las variables dependientes e independientes.

Feature Layer
dependent_variable

El campo numérico que contiene los valores observados que se van a modelar.

Field
model_type

Especifica el tipo de datos que se va a modelar.

  • CONTINUOUSEl valor dependent_variable es continuo. El modelo que se usa es Gausiano y la herramienta realiza una regresión de mínimos cuadrados ordinarios.
  • BINARYEl valor dependent_variable representa la presencia o ausencia. Puede ser convencional de 1 y 0 o datos continuos que se han recodificado en función de un valor de umbral. El modelo que se usa es Regresión logística.
  • COUNTEl valor dependent_variable es discreto y representa eventos, por ejemplo, recuentos de delitos, incidentes de enfermedades o accidentes de tráfico. El modelo que se usa es Regresión Poisson.
String
output_features

La nueva clase de entidad que contendrá las estimaciones y los residuales de la variable dependiente.

Feature Class
explanatory_variables
[explanatory_variables,...]

Una lista de campos que representan variables explicativas independientes en el modelo de regresión.

Field
distance_features
[distance_features,...]
(Opcional)

Crea automáticamente variables explicativas mediante el cálculo de una distancia desde las entidades proporcionadas a los valores in_features. Las distancias se calculan desde cada uno de los valores de distance_features de entrada hasta el valor de in_features más cercano. Si los valores de distance_features de entrada son polígonos o líneas, los atributos de distancia se calculan como la distancia entre los segmentos más cercanos del par de entidades.

Feature Layer
prediction_locations
(Opcional)

Una clase de entidad que contiene entidades que representan ubicaciones donde se realizarán los cálculos. Cada entidad en este dataset debe incluir valores para todas las variables explicativas especificadas. La variable dependiente para estas entidades se calculará con el modelo calibrado para los datos de la clase de entidad de entrada.

Feature Layer
explanatory_variables_to_match
[[Field from Prediction Locations, Field from Input Features],...]
(Opcional)

Hace coincidir las variables explicativas del parámetro prediction_locations con las variables explicativas correspondientes del parámetro in_features, por ejemplo, [["LandCover2000", "LandCover2010"], ["Income", "PerCapitaIncome"]].

Value Table
explanatory_distance_matching
[[Prediction Distance Features, Input Explanatory Distance Features],...]
(Opcional)

Hace coincidir las entidades de distancia especificadas para el parámetro features_to_predict de la izquierda con las entidades de distancia correspondientes para el parámetro in_features de la derecha; por ejemplo, [["stores2010", "stores2000"], ["freeways2010", "freeways2000"]].

Value Table
output_predicted_features
(Opcional)

La clase de entidad de salida que recibirá estimaciones de variables dependientes para cada valor de prediction_location.

La clase de entidad de salida que recibirá estimaciones de variables dependientes para cada valor de Ubicación de predicción.

Feature Class

Muestra de código

Ejemplo 1 de GeneralizedLinearRegression (ventana de Python)

El siguiente script de la ventana de Python muestra cómo utilizar la función GeneralizedLinearRegression.

import arcpy
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.GeneralizedLinearRegression("landslides", "occurred",
                                 "BINARY", "out_features", 
                                 "eastness;northness;elevation;slope", 
                                 "rivers")
Ejemplo 2 de GeneralizedLinearRegression (script independiente)

El siguiente script independiente de Python muestra cómo utilizar la función GeneralizedLinearRegression.

# Linear regression using a count model to predict the number of crimes.
# The depend variable (total number of crimes) is predicted using total
# population, the median age of housing, average household income and the
# distance to the central business district (CBD)

import arcpy

# Set the current workspace (to avoid having to specify the full path to
# the feature classes each time)
arcpy.env.workspace = r"c:\data\project_data.gdb"

arcpy.stats.GeneralizedLinearRegression("crime_counts", 
     "total_crimes", "COUNT", "out_features", "YRBLT;TOTPOP;AVGHINC", 
     "CBD", "prediction_locations", "YRBLT YRBLT;TOTPOP TOTPOP;AVGHINC AVGHINC", 
     "CBD CBD", "predicted_features")

Información de licenciamiento

  • Basic: Sí
  • Standard: Sí
  • Advanced: Sí

Temas relacionados