Regresión ponderada geográficamente (GWR) (Estadística espacial)

Resumen

Realiza una Regresión ponderada geográficamente (GWR), que es una forma local de regresión lineal que se utiliza para modelar las relaciones que varían espacialmente.

Nota:

Esta herramienta se agregó a ArcGIS Pro 2.3 como sustituta de la herramienta Regresión ponderada geográficamente (GWR), que es similar aunque ahora está obsoleta. Esta nueva herramienta incluye mejoras en el método desarrollado en los últimos años y es compatible con modelos adicionales.

Más información sobre cómo funciona Regresión ponderada geográficamente (GWR)

Ilustración

Regresión ponderada geográficamente
GWR es un modelo de regresión local. Se permite que los coeficientes varíen en el espacio.

Uso

  • Esta herramienta realiza una Regresión ponderada geográficamente (GWR), una forma local de regresión que se utiliza para modelar las relaciones que varían espacialmente. La herramienta GWR ofrece un modelo local de la variable o el proceso que trata de comprender o predecir ajustando una ecuación de regresión a todas las entidades del dataset. La herramienta Regresión ponderada geográficamente (GWR) crea dichas ecuaciones separadas incorporando las variables dependientes y explicativas de entidades que se encuentran dentro de la vecindad de cada entidad de destino. La forma y extensión de todas las vecindades que se analizan se basan en la entrada de los parámetros Tipo de vecindad y Método de selección de vecindad con una restricción: si el número de entidades vecinas es superior a 1.000, solo las 1.000 más cercanas se incorporan a cada una de las ecuaciones locales.

  • Para obtener los mejores resultados, aplique la herramienta GWR a datasets con varios cientos de entidades. No es un método adecuado para datasets pequeños. La herramienta no funciona con datos de multipunto.

  • Use el parámetro Entidades de entrada con un campo que represente el fenómeno que está modelando (la Variable dependiente) y uno o varios campos que representen las Variables explicativas. Estos campos deben ser numéricos y tener un rango de valores. Las entidades que contienen valores que faltan en la variable explicativa o dependiente se excluirán del análisis; sin embargo, es posible usar la herramienta Rellenar valores que faltan para completar el dataset antes de ejecutar la herramienta Regresión ponderada geográficamente (GWR).

  • Nota:

    La herramienta Regresión ponderada geográficamente (GWR) produce una variedad de salidas. Dispone de un resumen del modelo GWR como un mensaje en la parte inferior del panel Geoprocesamiento durante la ejecución de la herramienta. Puede acceder al mensaje desplazándose sobre la barra de progreso, haciendo clic en el botón emergente o expandiendo la sección de mensajes en el panel Geoprocesamiento. También puede acceder a los mensajes de la herramienta Regresión ponderada geográficamente (GWR) ejecutada anteriormente mediante el historial de geoprocesamiento.

    La herramienta GWR también produce Entidades de salida y agrega campos que reportan valores de diagnóstico locales. Las Entidades de salida y gráficos asociados se agregan automáticamente a la tabla de contenido con un esquema de representación en pantalla de cálido a frío que se aplica a los residuales del modelo. Se proporciona una explicación completa de cada salida y gráfico en Cómo funciona Regresión ponderada geográficamente.

  • El Tipo de modelo especificado depende de los datos que esté modelando. Es importante usar el modelo correcto para su análisis con el fin de obtener resultados precisos de su análisis de regresión.

  • Es recomendable usar datos proyectados. Resulta especialmente importante cuando la distancia es un componente del análisis, como lo es para GWR cuando selecciona Banda de distancia para el parámetro Tipo de vecindad. Se recomienda que los datos estén proyectados mediante un sistema de coordenadas proyectadas (en lugar de un sistema de coordenadas geográficas).

  • Algunos de los cómputos de la herramienta Regresión ponderada geográficamente (GWR) aprovechan varias CPU para incrementar el rendimiento y utilizarán automáticamente hasta ocho subprocesos/CPU para el procesamiento.

  • Es una práctica habitual explorar sus datos globalmente con la herramienta Regresión lineal generalizada antes de explorar sus datos localmente con la herramienta GWR.

  • Los parámetros Variable dependiente y Variables explicativas deben ser campos numéricos con una serie de valores. Estos valores deben variar tanto globalmente como localmente. Por este motivo, no utilice variables explicativas falsas para representar regímenes espaciales diferentes en un modelo GWR (como asignar un valor de 1 a los distritos censales que están fuera del núcleo urbano, mientras que al resto se les asigna un valor de 0). Ya que la herramienta GWR permite que los coeficientes de la variable explicativa varíen, estas variables explicativas del régimen espacial no son necesarias, y si se incluyen, crearán problemas con la multicolinealidad local.

  • En los modelos de regresión global, como la Regresión lineal generalizada, los resultados son poco fiables cuando dos o más variables exhiben multicolinealidad (cuando dos o más variables son redundantes o cuentan la misma historia). La herramienta GWR construye una ecuación de regresión local para cada entidad del dataset. Cuando los valores para una variable explicativa particular se agrupan espacialmente en clústeres, es muy probable que tenga problemas con la multicolinealidad local. El campo del número de condición (COND) de la clase de entidad de salida indica el momento en el que los resultados son inestables debido a la multicolinealidad local. En general, sospeche de resultados para entidades con un número de condición mayor que 30, igual que Nulo o, para los shapefiles, igual a -1,7976931348623158e+308. Este número de condición está ajustado a escala para corregirse para el número de variables explicativas en el modelo. Esto permite una comparación directa del número de condición entre modelos usando diferentes números de variables explicativas.

  • Tenga cuidado al incluir datos nominales o categóricos en un modelo GWR. Donde las categorías se agrupan espacialmente, existe el riesgo de encontrar problemas de multicolinealidad local. El número de condición incluido en la salida de GWR indica cuándo es un problema la colinealidad local (un número de condición menor que 0, mayor que 30 o establecido en Nulo). Cuando existe una multicolinealidad local, los resultados son inestables.

  • Para comprender mejor la variación regional entre los coeficientes de las variables explicativas, examine las superficies de coeficiente ráster opcionales creadas por la herramienta GWR. Estas superficies de ráster se crean en el parámetro Espacio de trabajo de ráster de coeficiente bajo Opciones adicionales, si se especifica. Para los datos de polígono, puede utilizar un color graduado o una representación en pantalla de frío a cálido en cada campo de coeficiente en las Entidades de salida para examinar los cambios en el área de estudio.

  • Puede usar la herramienta GWR para hacer una predicción suministrando Ubicaciones de predicción (a menudo, esta clase de entidad es la misma que las Entidades de entrada), haciendo coincidir las variables explicativas y especificando Entidades predichas de salida. Si el campo Variables explicativas para combinar de Entidades de entrada coincide con los campos Campos de ubicaciones de predicción, se rellenarán automáticamente. De lo contrario, especifique los campos adecuados.

  • Un modelo de regresión está mal especificado si falta una variable explicativa clave. Si la autocorrelación espacial de los residuales de regresión o la variación espacial no esperada entre los coeficientes de una o más variables explicativas son estadísticamente significativas, se puede intuir que el modelo está mal especificado. Debe hacer todo posible (por ejemplo, a través del análisis de residual GLR y el análisis de variación del coeficiente GWR) para descubrir las variables clave que faltan para poder incluirlas en el modelo.

  • Pregúntese siempre si tiene sentido que una variable explicativa sea no estacionaria. Por ejemplo, supongamos que está modelando la densidad de una especie de planta en particular como función de muchas variables incluida la de la ORIENTACIÓN. Si descubre que el coeficiente de la variable ORIENTACIÓN en el área de estudio cambia, es probable que sea la evidencia de que falta una variable explicativa clave (tal vez, la prevalencia de una vegetación rival, por ejemplo). Debe hacer todo el esfuerzo posible para incluir todas las variables explicativas clave en el modelo de regresión.

  • Cuando el resultado de un cómputo es infinito o indefinido, el resultado para los no shapefiles será Nulo; para los shapefiles, el resultado será -DBL_MAX = -1,7976931348623158e+308.

    Precaución:

    Al utilizar shapefiles tenga en cuenta que no pueden almacenar valores nulos. Por consiguiente, las herramientas u otros procedimientos que crean shapefiles a partir de entradas que no son shapefiles pueden almacenar valores nulos como cero o un número negativo muy pequeño (-DBL_MAX = -1,7976931348623158e+308). Esto puede ocasionar resultados inesperados. Para más información, consulte Cuestiones de geoprocesamiento para el shapefile de salida.

  • Dispone de tres opciones para el parámetro Método de selección de vecindad. Si selecciona Búsqueda dorada, la herramienta encontrará los mejores valores de los parámetros de Banda de distancia o Cantidad de vecinos utilizando el método búsqueda por sección dorada. La opción Intervalos manuales evaluará los vecindarios en incrementos entre las distancias especificadas. En cualquier caso, el tamaño de vecindad que se utiliza es aquel que minimiza el valor del criterio de información de Akaike (AICc). Sin embargo, los problemas con la multicolinealidad local evitarán que estos métodos resuelvan una banda de distancia o cantidad de vecinos óptimas. Si aparece un error o se producen problemas graves en el diseño del modelo, intente especificar una distancia o recuento de vecindad en particular con la opción Definido por el usuario. Después, examine los números de condiciones en la clase de entidad de salida para ver qué entidades están asociadas con los problemas de colinealidad local.

  • Los problemas graves de diseño del modelo o los errores que indican que las ecuaciones locales no incluyen suficientes vecinos, por lo general señalan que existe un problema con la multicolinealidad global o local. Para determinar dónde está el problema, ejecute un modelo global con Regresión lineal generalizada y examine el valor VIF para cada variable explicativa. Si algunos de los valores VIF son grandes (por ejemplo, mayores que 7,5), la multicolinealidad global impide que se resuelva la RPG. Sin embargo, es más probable que la multicolinealidad local sea el problema. Intente crear un mapa temático para cada variable explicativa. Si el mapa muestra un clustering espacial de valores idénticos, considere quitar esas variables del modelo o combinarlas con otras variables explicativas para aumentar la variación del valor. Por ejemplo, si está modelando valores de viviendas y tiene variables tanto para los dormitorios como para cuartos de baño, puede combinarlas para aumentar la variación del valor o para representarlas como metros cuadrados de cuarto de baño/dormitorio. Evite utilizar variables falsas del régimen espacial, clustering espacial de variables categóricas o nominales o variables con pocos valores posibles al construir modelos GWR.

  • Regresión ponderada geográficamente es un modelo lineal sujeto a los mismos requisitos que Regresión lineal generalizada. Consulte los diagnósticos explicados en Cómo funciona Regresión ponderada geográficamente para asegurarse de que su modelo de GWR esté especificado correctamente. La sección Cómo dejan de funcionar los modelos de regresión del tema Conceptos básicos del análisis de regresión también incluye información para asegurarse de que su modelo sea preciso.

Sintaxis

arcpy.stats.GWR(in_features, dependent_variable, model_type, explanatory_variables, output_features, neighborhood_type, neighborhood_selection_method, {minimum_number_of_neighbors}, {maximum_number_of_neighbors}, {minimum_search_distance}, {maximum_search_distance}, {number_of_neighbors_increment}, {search_distance_increment}, {number_of_increments}, {number_of_neighbors}, {distance_band}, {prediction_locations}, {explanatory_variables_to_match}, {output_predicted_features}, {robust_prediction}, {local_weighting_scheme}, {coefficient_raster_workspace})
ParámetroExplicaciónTipo de datos
in_features

La clase de entidad que contiene las variables dependientes y explicativas.

Feature Layer
dependent_variable

El campo numérico que contiene los valores observados que se van a modelar.

Field
model_type

Especifica el tipo de datos que se va a modelar.

  • CONTINUOUS El valor dependent_variable es continuo. Se usará el modelo Gausiano y la herramienta realizará una regresión de mínimos cuadrados ordinarios.
  • BINARY El valor dependent_variable representa la presencia o ausencia. Puede ser convencional de 1 y 0 o datos continuos que se han codificado en función de un valor de umbral. Se usará el modelo Regresión Logística.
  • COUNTEl valor dependent_variable es discreto y representa eventos, como recuentos de delitos, incidentes de enfermedades o accidentes de tráfico. Se usará el modelo Regresión Poisson.
String
explanatory_variables
[explanatory_variables,...]

Una lista de campos que representan variables explicativas independientes en el modelo de regresión.

Field
output_features

La nueva clase de entidad que contiene las estimaciones y los residuales de la variable dependiente.

Feature Class
neighborhood_type

Especifica si el vecindario utilizado se construye como una distancia fija o si puede variar en extensión espacial en función de la densidad de las entidades.

  • NUMBER_OF_NEIGHBORS El tamaño de vecindario es una función de una cantidad de vecinos específica incluida en los cálculos de cada entidad. Si las entidades son densas, la extensión espacial del vecindario es más pequeña; si las entidades tienen menos densidad, la extensión espacial del vecindario es más grande.
  • DISTANCE_BANDEl tamaño de vecindario es una distancia fija o constante para cada entidad.
String
neighborhood_selection_method

Especifica cómo se determina el tamaño de la vecindad. La vecindad seleccionada con las opciones GOLDEN_SEARCH y MANUAL_INTERVALS se basa en minimizar el valor AICc.

  • GOLDEN_SEARCHLa herramienta identificará una distancia o cantidad de vecinos óptima en función de las características de los datos usando el método de búsqueda por sección dorada.
  • MANUAL_INTERVALS Las vecindades evaluadas se definirán mediante los valores especificados en los parámetros minimum_number_of_neighbors y number_of_neighbors_increment cuando NUMBER_OF_NEIGHBORS se elige para el parámetro neighborhood_type, o en los parámetros minimum_search_distance y search_distance_increment cuando DISTANCE_BAND se elige para el parámetro neighborhood_type, así como el parámetro number_of_increments.
  • USER_DEFINED El tamaño de la vecindad se especificará por el parámetro number_of_neighbors o distance_band.
String
minimum_number_of_neighbors
(Opcional)

El número mínimo de vecinos que incluirá cada entidad en sus cálculos. Se recomienda usar al menos 30 vecinos.

Long
maximum_number_of_neighbors
(Opcional)

El número máximo de vecinos (hasta 1.000) que incluirá cada entidad en sus cálculos.

Long
minimum_search_distance
(Opcional)

La distancia mínima de búsqueda en la vecindad. Se recomienda usar una distancia en la que cada entidad tenga al menos 30 vecinos.

Linear Unit
maximum_search_distance
(Opcional)

La distancia máxima de búsqueda en la vecindad. Si una distancia da como resultado entidades con más de 1.000 vecinos, la herramienta usará los 1.000 primeros cálculos para la entidad de destino.

Linear Unit
number_of_neighbors_increment
(Opcional)

El número de vecinos en los que se aumentarán los intervalos manuales en cada evaluación de vecindad.

Long
search_distance_increment
(Opcional)

La distancia en la que aumentarán los intervalos manuales en cada evaluación de vecindad.

Linear Unit
number_of_increments
(Opcional)

La cantidad de tamaños de vecindad que se evaluarán, empezando por el parámetro minimum_number_of_neighbors o minimum_search_distance.

Long
number_of_neighbors
(Opcional)

La cantidad de vecinos más cercana (hasta 1.000) que se deben considerar para cada entidad. El número debe ser un entero entre 2 y 1.000.

Long
distance_band
(Opcional)

La extensión espacial de la vecindad.

Linear Unit
prediction_locations
(Opcional)

Una clase de entidad que contiene entidades que representan ubicaciones donde se realizarán los cálculos. Cada entidad en este dataset debe incluir valores para todas las variables explicativas especificadas. La variable dependiente para estas entidades se calculará con el modelo calibrado para los datos de la clase de entidad de entrada. Para poder predecirlas, las ubicaciones de entidades deben estar dentro de la misma área de estudio que in_features o estar cerca (dentro de la extensión más un 15 %).

Una clase de entidad que contiene entidades que representan ubicaciones donde se realizarán los cálculos. Cada entidad en este dataset debe incluir valores para todas las variables explicativas especificadas. La variable dependiente para estas entidades se calculará con el modelo calibrado para los datos de la clase de entidad de entrada. Para poder predecirlas, las ubicaciones de entidades deben estar dentro de la misma área de estudio que las Entidades de entrada o estar cerca (dentro de la extensión más un 15 %).

Feature Layer
explanatory_variables_to_match
[explanatory_variables_to_match,...]
(Opcional)

Las variables explicativas del parámetro prediction_locations que coinciden con las variables explicativas correspondientes del parámetro in_features. [["LandCover2000", "LandCover2010"], ["Income", "PerCapitaIncome"]] son ejemplos.

Value Table
output_predicted_features
(Opcional)

La clase de entidad de salida que recibirá estimaciones de variables dependientes para cada prediction_location.

Feature Class
robust_prediction
(Opcional)

Especifica las entidades que se usarán en los cálculos de predicciones.

  • ROBUSTLas entidades con valores que superen tres desviaciones estándar respecto del valor medio (valores atípicos de valores) y entidades con ponderaciones de 0 (valores atípicos espaciales) se excluirán de los cálculos de predicciones, pero recibirán predicciones en la clase de entidad de salida. Esta es la opción predeterminada.
  • NON_ROBUSTTodas las entidades se usarán en los cálculos de predicciones
Boolean
local_weighting_scheme
(Opcional)

Especifica el tipo kernel que se usará para proporcionar la ponderación espacial en el modelo. El kernel define cómo se relacionan las entidades entre sí dentro de su vecindario.

  • BISQUARESe asigna una ponderación de 0 a todas las entidades que se encuentren fuera de la vecindad especificada. Esta es la opción predeterminada.
  • GAUSSIANTodas las entidades recibirán ponderaciones, que serán exponencialmente más pequeñas cuanto más se alejen de la entidad de destino.
String
coefficient_raster_workspace
(Opcional)

El espacio de trabajo donde se crearán los rásteres de coeficiente. Cuando se proporciona este espacio de trabajo, se crean rásteres para la intercepción y para cada variable explicativa.

Workspace

Salida derivada

NombreExplicaciónTipo de datos
coefficient_raster_layers

Los rásteres de coeficiente de salida.

Capa ráster

Muestra de código

Ejemplo 1 de GWR (ventana de Python)

El siguiente script de la ventana de Python muestra cómo utilizar la herramienta GWR.

import arcpy
arcpy.env.workspace = r"c:\data\project_data.gdb”
arcpy.stats.GWR("US_Counties", "Diabetes_Percent", "CONTINUOUS", 
     "Inactivity_Percent;Obesity_Percent", "out_features", 
     "NUMBER_OF_NEIGHBORS", "GOLDEN_SEARCH", None, None, None, 
     None, None, None, None, None, None, None, None, None, "ROBUST", 
     "BISQUARE")
Ejemplo 2 de GWR (script independiente)

El siguiente script de Phython independiente muestra cómo utilizar la herramienta GWR.

# Linear regression using a count model to predict the number of crimes.
# The depend variable (total number of crimes) is predicted using total
# population, the median age of housing, and average household income.
 
import arcpy
# Set the current workspace (to avoid having to specify the full path to
# the feature classes each time)
arcpy.env.workspace = r"c:\data\project_data.gdb"
arcpy.stats.GWR("crime_counts", "total crimes", "COUNT", "YRBLT;TOTPOP;AVGHINC", 
     "out_features", "NUMBER_OF_NEIGHBORS", "GOLDEN_SEARCH", 30, None, None, None, 
     None, None, None, None, None, "prediction_locations", 
     "YRBLT YRBLT;TOTPOP TOTPOP;AVGHINC AVGHINC", "predicted_counts", 
     "NON_ROBUST", "BISQUARE", r"c:\data\out_rasters")

Entornos

Sistema de coordenadas de salida

La geometría de entidades se proyecta en el sistema de coordenadas de salida una vez que se completa el análisis.

Información de licenciamiento

  • Basic: Limitado
  • Standard: Limitado
  • Advanced: Sí

Temas relacionados