Regresión lineal generalizada (GLR) (Estadística espacial)

Resumen

Realiza una Regresión lineal generalizada (GLR) para generar predicciones o para modelar una variable dependiente en términos de su relación con un conjunto de variables explicativas. Esta herramienta se puede usar para ajustarse a modelos continuos (OLS), binarios (logísticos) y de recuento (Poisson).

Más información sobre cómo funciona Regresión lineal generalizada

Ilustración

Regresión lineal generalizada

Uso

  • La salida principal de esta herramienta es un archivo de informe que está disponible como mensajes en la parte inferior del panel Geoprocesamiento durante la ejecución de la herramienta. Para acceder a los mensajes desplácese sobre la barra de progreso, haga clic en el botón emergente o expanda la sección de mensajes en el panel Geoprocesamiento. También puede acceder a los mensajes de una ejecución anterior de la herramienta a través del historial de geoprocesamiento.

  • Use el parámetro Entidades de entrada con un campo que represente el fenómeno que está modelando (la Variable dependiente) y uno o varios campos que representen las Variables explicativas. Estos campos deben ser numéricos y tener un rango de valores. Las entidades que contienen valores que faltan en la variable explicativa o dependiente se excluirán del análisis; sin embargo, es posible usar la herramienta Rellenar valores que faltan para completar el dataset antes de ejecutar la herramienta.

  • La herramienta Regresión lineal generalizada también produce Entidades de salida con diagnósticos e información de coeficiente. La clase de entidad de salida se agrega automáticamente a la tabla de contenido con un esquema de representación en pantalla que se aplica a los residuales del modelo. Se proporciona una explicación completa de cada salida en Cómo funciona Regresión lineal generalizada.

  • La opción que seleccione para el parámetro Tipo de modelo depende de los datos que esté modelando. Es importante usar el modelo correcto para su análisis con el fin de obtener resultados precisos de su análisis de regresión.

    Tipos de datos de modelo Continuo, Recuento y Binario

  • Los diagnósticos y resultados del resumen del modelo se escriben en la ventana de mensajes y los gráficos se crean bajo la clase de entidad de salida. Los diagnósticos y gráficos reportados dependen del parámetro Tipo de modelo y se explican con detalle en el tema Cómo funciona Regresión lineal generalizada.

  • Los resultados de la GLR son fiables solo si los datos y el modelo de regresión satisfacen todas las suposiciones que este método requiere inherentemente. Compruebe todos los diagnósticos resultantes y consulte la tabla Problemas, consecuencias y soluciones comunes de regresión en Conceptos básicos del análisis de regresión para asegurarse de que su modelo esté adecuadamente especificado.

  • Los parámetros Variable dependiente y Variables explicativas deben ser campos numéricos con una serie de valores. Esta herramienta no puede resolver cuando las variables tienen los mismos valores (por ejemplo, todos los valores de un campo son 9,0).

  • Las variables explicativas pueden provenir de campos o calcularse a partir de entidades de distancia mediante el parámetro Entidades de distancia explicativas. Es posible usar una combinación de estos tipos de variables explicativas, pero se requiere al menos un tipo. Las Entidades de distancia explicativas se usan para crear automáticamente variables explicativas que representen una distancia desde las entidades proporcionadas hasta las Entidades de entrada. Las distancias se calculan desde cada una de las Entidades de distancia explicativas de entrada hasta las Entidades de entrada más cercanas. Si las Entidades de distancia explicativas de entrada son polígonos o líneas, los atributos de distancia se calculan como la distancia entre los segmentos más cercanos del par de entidades. Sin embargo, las distancias se calculan de forma diferente para los polígonos y las líneas. Consulte Cómo calculan la distancia las herramientas de proximidad para obtener más detalles.

  • Es recomendable usar datos proyectados si las Entidades de distancia explicativas son un componente del análisis. Se recomienda encarecidamente que los datos estén proyectados mediante un sistema de coordenadas proyectadas (en lugar de un sistema de coordenadas geográficas) para medir distancias de forma precisa.

  • Si hay una autocorrelación espacial estadísticamente significativa de los residuales de la regresión, se considerará que el modelo GLR está mal especificado y, por lo tanto, los resultados de GLR no son fiables. Asegúrese de ejecutar la herramienta Autocorrelación espacial en los residuales de la regresión para evaluar este problema potencial. La autocorrelación espacial estadísticamente significativa de los residuales de regresión podría indicar la ausencia de una o más variables explicativas clave en el modelo.

  • Debe inspeccionar visualmente las sobrepredicciones y las subpredicciones que sean evidentes en los residuales de regresión para ver si ofrecen pistas sobre las posibles variables que falten en el modelo de regresión. Podría ayudarle a ejecutar el Análisis de punto caliente en los residuales para visualizar el clustering espacial de las sobrepredicciones y las subpredicciones.

  • Cuando se produce una especificación incorrecta como resultado del intento de modelar variables no estacionarias con un modelo global (GLR es un modelo global), se puede utilizar la herramienta Regresión ponderada geográficamente para mejorar las predicciones y comprender mejor la no estacionariedad (variación regional) inherente en las variables explicativas.

  • Cuando el resultado de un cómputo es infinito o indefinido, la salida para los no shapefiles será Nulo; para los shapefiles la salida será -DBL_MAX (-1,7976931348623158e+308, por ejemplo).

  • Precaución:

    Al utilizar shapefiles tenga en cuenta que no pueden almacenar valores nulos. Las herramientas u otros procedimientos que crean shapefiles a partir de entradas sin shapefiles pueden almacenar o interpretar valores nulos como cero. En algunos casos, los nulos se almacenan como valores negativos muy grandes en shapefiles. Esto puede ocasionar resultados inesperados. Consulte Consideraciones de geoprocesamiento para la salida del shapefile para obtener más información.

Sintaxis

arcpy.stats.GeneralizedLinearRegression(in_features, dependent_variable, model_type, output_features, explanatory_variables, {distance_features}, {prediction_locations}, {explanatory_variables_to_match}, {explanatory_distance_matching}, {output_predicted_features})
ParámetroExplicaciónTipo de datos
in_features

La clase en entidad que contiene las variables dependientes e independientes.

Feature Layer
dependent_variable

El campo numérico que contiene los valores observados que se van a modelar.

Field
model_type

Especifica el tipo de datos que se va a modelar.

  • CONTINUOUS dependent_variable es continua. El modelo que se usa es Gausiano y la herramienta realiza una regresión de mínimos cuadrados ordinarios.
  • BINARY dependent_variable representa la presencia o ausencia. Puede ser convencional de 1 y 0 o datos continuos que se han recodificado en función de un valor de umbral. El modelo que se usa es Regresión logística.
  • COUNTdependent_variable es discreta y representa eventos, por ejemplo, recuentos de delitos, incidentes de enfermedades o accidentes de tráfico. El modelo que se usa es Regresión Poisson.
String
output_features

La nueva clase de entidad que contendrá las estimaciones y los residuales de la variable dependiente.

Feature Class
explanatory_variables
[explanatory_variables,...]

Una lista de campos que representan variables explicativas independientes en el modelo de regresión.

Field
distance_features
[distance_features,...]
(Opcional)

Crea automáticamente variables explicativas mediante el cálculo de una distancia desde las entidades proporcionadas a las in_features. Las distancias se calculan desde cada una de las distance_features de entrada hasta las in_features más cercanas. Si las distance_features de entrada son polígonos o líneas, los atributos de distancia se calculan como la distancia entre los segmentos más cercanos del par de entidades.

Feature Layer
prediction_locations
(Opcional)

Una clase de entidad que contiene entidades que representan ubicaciones donde se realizarán los cálculos. Cada entidad en este dataset debe incluir valores para todas las variables explicativas especificadas. La variable dependiente para estas entidades se calculará con el modelo calibrado para los datos de la clase de entidad de entrada.

Feature Layer
explanatory_variables_to_match
[[Field from Prediction Locations, Field from Input Features],...]
(Opcional)

Hace coincidir las variables explicativas de prediction_locations con las variables explicativas correspondientes de in_features; por ejemplo, [["LandCover2000", "LandCover2010"], ["Income", "PerCapitaIncome"]]

Value Table
explanatory_distance_matching
[[Prediction Distance Features, Input Explanatory Distance Features],...]
(Opcional)

Hace coincidir las entidades de distancia especificadas para features_to_predict de la izquierda con las entidades de distancia correspondientes para in_features de la derecha; por ejemplo, [["stores2010", "stores2000"], ["freeways2010", "freeways2000"]].

Value Table
output_predicted_features
(Opcional)

La clase de entidad de salida que recibirá estimaciones de variables dependientes para cada prediction_location.

La clase de entidad de salida que recibirá estimaciones de variables dependientes para cada Ubicación de predicción.

Feature Class

Muestra de código

Ejemplo 1 de GeneralizedLinearRegression (ventana de Python)

El siguiente script de la ventana de Python muestra cómo utilizar la herramienta GeneralizedLinearRegression.

import arcpy
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.GeneralizedLinearRegression("landslides", "occurred",
                                 "BINARY", "out_features", 
                                 "eastness;northness;elevation;slope", 
                                 "rivers")
Ejemplo 2 de GeneralizedLinearRegression (script independiente)

El siguiente script de Phython independiente muestra cómo utilizar la herramienta GeneralizedLinearRegression.

# Linear regression using a count model to predict the number of crimes.
# The depend variable (total number of crimes) is predicted using total
# population, the median age of housing, average household income and the
# distance to the central business district (CBD)
import arcpy
# Set the current workspace (to avoid having to specify the full path to
# the feature classes each time)
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.GeneralizedLinearRegression("crime_counts", 
     "total_crimes", "COUNT", "out_features", "YRBLT;TOTPOP;AVGHINC", 
     "CBD", "prediction_locations", "YRBLT YRBLT;TOTPOP TOTPOP;AVGHINC AVGHINC", 
     "CBD CBD", "predicted_features")

Información de licenciamiento

  • Basic: Limitado
  • Standard: Limitado
  • Advanced: Sí

Temas relacionados