Regresión ponderada geográficamente (GWR) (Geoanálisis)—ArcGIS Pro

Resumen

Realiza una Regresión ponderada geográficamente (GWR), que es una forma local de regresión lineal que se utiliza para modelar las relaciones que varían espacialmente.

Nota:

Esta herramienta es un subconjunto de capacidades agregadas a la herramienta Regresión ponderada geográficamente (GWR) que se introdujo en ArcGIS Pro 2.3.

Para comprender los algoritmos de la herramienta, consulte Cómo funciona la regresión ponderada geográficamente (GWR). En este tema se describe la herramienta de la caja de herramientas Estadística espacial; la caja de herramientas GeoAnalytics Server no incluye todas las funciones en este momento.

Uso

Esta herramienta de geoprocesamiento está disponible con ArcGIS Enterprise 10.8.1 o posterior.
Esta herramienta realiza una Regresión ponderada geográficamente (GWR), una forma local de regresión que se utiliza para modelar las relaciones que varían espacialmente. La herramienta GWR ofrece un modelo local de la variable o el proceso que trata de comprender o predecir ajustando una ecuación de regresión a todas las entidades del dataset. La herramienta Regresión ponderada geográficamente (GWR) crea dichas ecuaciones separadas incorporando las variables dependientes y explicativas de entidades que se encuentran dentro de la vecindad de cada entidad de destino. La forma y extensión de todas las vecindades que se analizan se basan en la entrada de los parámetros Tipo de vecindad y Método de selección de vecindad.
Para obtener los mejores resultados, aplique la herramienta GWR a datasets con varios cientos de entidades. No es una herramienta adecuada para datasets pequeños. La herramienta no funciona con datos de multipunto.
Use el parámetro Entidades de entrada con un campo que represente el fenómeno que está modelando (la Variable dependiente) y uno o varios campos que representen los valores de parámetros de las Variables explicativas. Estos campos deben ser numéricos y tener un rango de valores. Las entidades que contienen valores que faltan en las variables explicativa o dependiente se excluirán del análisis. Puede utilizar la herramienta Calcular campo para modificar valores. Si los datos están disponibles para su uso en ArcGIS Pro, utilice la herramienta Rellenar valores que faltan para agregar los valores que falten al dataset antes de ejecutar la herramienta Regresión ponderada geográficamente (GWR).
La herramienta Regresión ponderada geográficamente (GWR) también produce entidades de salida y agrega campos que reportan valores de diagnóstico locales. Las valores de parámetros de Entidades de salida y los gráficos asociados se agregan automáticamente a la tabla de contenido con un esquema de representación cálido/frío que se aplica a los residuales del modelo. En Cómo funciona la regresión ponderada geográficamente (GWR) se proporciona una explicación completa de cada salida.
Nota:
La herramienta Regresión ponderada geográficamente (GWR) produce una variedad de salidas. Dispone de un resumen del modelo GWR como un mensaje en la parte inferior del panel Geoprocesamiento durante la ejecución de la herramienta. Puede acceder al mensaje desplazándose sobre la barra de progreso, haciendo clic en el botón emergente o expandiendo la sección de mensajes en el panel Geoprocesamiento. También puede acceder a los mensajes de la herramienta Regresión ponderada geográficamente (GWR) ejecutada anteriormente mediante el historial de geoprocesamiento.
Debe utilizar los datos proyectados.
Es una práctica habitual explorar datos globalmente con la herramienta Regresión lineal generalizada antes de explorar datos de forma local con la herramienta Regresión ponderada geográficamente (GWR).
Los parámetros Variable dependiente y Variables explicativas deben ser campos numéricos con una serie de valores. Estos valores deben variar tanto globalmente como localmente. Por este motivo, no utilice variables explicativas falsas para representar regímenes espaciales diferentes en un modelo GWR (como asignar un valor de 1 a los distritos censales que están fuera del núcleo urbano, mientras que al resto se les asigna un valor de 0). Como la herramienta Regresión ponderada geográficamente (GWR) permite que los coeficientes de la variable explicativa varíen, estas variables explicativas del régimen espacial no son necesarias, y si se incluyen, crearán problemas con la multicolinealidad local.
En los modelos de regresión global, como la Regresión lineal generalizada, los resultados son poco fiables cuando dos o más variables exhiben multicolinealidad (cuando dos o más variables son redundantes o cuentan la misma historia). La herramienta Regresión ponderada geográficamente (GWR) construye una ecuación de regresión local para cada entidad del dataset. Cuando los valores para una variable explicativa particular se agrupan espacialmente en clústeres, es muy probable que tenga problemas con la multicolinealidad local. El campo del número de condición ajustado (COND_ADJ) de la clase de entidad de salida indica el momento en el que los resultados son inestables debido a la multicolinealidad local. En general, sospeche de resultados para entidades con número de condición ajustado mayor que 30, igual que Nulo o, para los shapefiles, igual a -1,7976931348623158e+308.
Tenga cuidado al incluir datos nominales o categóricos en un modelo GWR. Donde las categorías se agrupan espacialmente, existe el riesgo de encontrar problemas de multicolinealidad local. El número de condición ajustado incluido en la salida de GWR indica cuándo es un problema la colinealidad local (un número de condición ajustado menor que 0, mayor que 30 o establecido en Nulo). Cuando existe una multicolinealidad local, los resultados son inestables.
Un modelo de regresión está mal especificado si falta una variable explicativa clave. Si la autocorrelación espacial de los residuales de regresión o la variación espacial no esperada entre los coeficientes de una o más variables explicativas son estadísticamente significativas, se puede intuir que el modelo está mal especificado. Debe hacer todo posible (por ejemplo, a través del análisis de residual GLR y el análisis de variación del coeficiente GWR) para descubrir las variables clave que faltan e incluirlas en el modelo.
Pregúntese siempre si tiene sentido que una variable explicativa sea no estacionaria. Por ejemplo, supongamos que está modelando la densidad de una especie de planta en particular como función de muchas variables, incluida ASPECT. Si descubre que el coeficiente de la variable ASPECT cambia en el área de estudio, es probable que sea la prueba de que falta una variable explicativa clave (tal vez, la prevalencia de una vegetación rival, por ejemplo). Debe hacer todo el esfuerzo posible para incluir todas las variables explicativas clave en el modelo de regresión.
Cuando el resultado de un cómputo es infinito o indefinido, el resultado para los no shapefiles será Nulo.
Los problemas graves de diseño del modelo o los errores que indican que las ecuaciones locales no incluyen suficientes vecinos, por lo general señalan que existe un problema con la multicolinealidad global o local. Para determinar dónde está el problema, ejecute un modelo global con Regresión lineal generalizada y examine el valor VIF para cada variable explicativa. Si algunos de los valores VIF son grandes (por ejemplo, mayores que 7,5), la multicolinealidad global impide que se resuelva la RPG. Sin embargo, es más probable que la multicolinealidad local sea el problema. Intente crear un mapa temático para cada variable explicativa. Si el mapa muestra un clustering espacial de valores idénticos, considere quitar esas variables del modelo o combinarlas con otras variables explicativas para aumentar la variación del valor. Por ejemplo, si está modelando valores de viviendas y tiene variables tanto para los dormitorios como para cuartos de baño, puede combinarlas para aumentar la variación del valor o para representarlas como metros cuadrados de cuarto de baño/dormitorio. Evite utilizar variables falsas del régimen espacial, clustering espacial de variables categóricas o nominales o variables con pocos valores posibles al construir modelos GWR.
Regresión ponderada geográficamente es un modelo lineal sujeto a los mismos requisitos que Regresión lineal generalizada. Consulte los diagnósticos explicados en Cómo funciona la regresión ponderada geográficamente (GWR) para asegurarse de que su modelo de GWR esté especificado correctamente. No todos los diagnósticos descritos están disponibles en la caja de herramientas de GeoAnalytics Desktop. La sección Cómo dejan de funcionar los modelos de regresión del tema Conceptos básicos del análisis de regresión también incluye información para asegurarse de que su modelo sea preciso.
Es posible mejorar el rendimiento de la herramienta Regresión ponderada geográficamente (GWR) mediante una o todas las acciones siguiente:
- Defina el entorno de extensión para analizar únicamente datos de interés.
- Reduzca el número de vecinos de su cálculo.
- Utilice la opción Número de vecinos en lugar de la opción Banda de distancia del parámetro Tipo de vecindad (neighborhood_type = "NUMBER OF NEIGHBORS" en Python).
- Utilice menos variables explicativas cuando sea posible.
- Utilice datos locales en los que se ejecute el análisis.
Esta herramienta de geoprocesamiento se basa en ArcGIS GeoAnalytics Server. El análisis se completa en su GeoAnalytics Server y los resultados se almacenan en su contenido en ArcGIS Enterprise.
Al ejecutar herramientas de GeoAnalytics Server, el análisis se completa en GeoAnalytics Server. Para obtener un rendimiento óptimo, haga que los datos estén disponibles para GeoAnalytics Server mediante capas de entidades alojadas en su portal de ArcGIS Enterprise o mediante recursos compartidos de archivos de big data. Los datos que no son locales para su GeoAnalytics Server se moverán a GeoAnalytics Server antes de que comience el análisis. Significa que ejecutar una herramienta tardará más tiempo y, en algunos casos, mover los datos de ArcGIS Pro a GeoAnalytics Server podría fallar. El umbral de error depende de la velocidad de su red, así como del tamaño y complejidad de los datos. Se recomienda que siempre comparta sus datos o que cree un recurso compartido de archivos de big data.
Más información acerca del uso compartido de datos en el portal
Más información sobre cómo crear un archivo compartido de Big Data mediante Server Manager
También se puede completar un análisis similar con la herramienta Regresión ponderada geográficamente de la caja de herramientas Estadísticas espaciales. Utilice la herramienta de la caja de herramientas Estadísticas espaciales para completar los siguientes flujos de trabajo:
- Utilice capas locales de su equipo de ArcGIS Pro (por ejemplo, clases de entidad de una geodatabase de archivos).
- Realice una predicción en otra capa o cree una capa de coeficiente ráster.
- Modele una variable binaria (logística) o una variable de recuento (valor Poisson).
- Defina la búsqueda en la vecindad con búsqueda dorada o intervalos manuales.

Parámetros

Etiqueta	Explicación	Tipo de datos
Entidades de entrada	La clase de entidad de punto que contiene las variables dependientes y explicativas.	Feature Set
Variable dependiente	El campo numérico que contiene los valores observados que se van a modelar.	Field
Tipo de modelo	Especifica el tipo de datos que se va a modelar. Continuo (Gausiano)— El valor Variable dependiente es continuo. Se usará el modelo Gausiano y la herramienta realiza una regresión de mínimos cuadrados ordinarios.	String
Variables explicativas	Una lista de campos que representan variables explicativas independientes en el modelo de regresión.	Field
Entidades de salida	El nombre del servicio de entidades de salida.	String
Tipo de vecindad	Especifica si el vecindario utilizado se construye como una distancia fija o si puede variar en extensión espacial en función de la densidad de las entidades. Cantidad de vecinos— El tamaño de vecindario es una función de una cantidad de vecinos específica incluida en los cálculos de cada entidad. Si las entidades son densas, la extensión espacial del vecindario es más pequeña; si las entidades tienen menos densidad, la extensión espacial del vecindario es más grande. Banda de distancia—El tamaño de vecindario es una distancia fija o constante para cada entidad.	String
Método de selección de vecindad	Especifica cómo se determina el tamaño de la vecindad. Definido por el usuario— El tamaño de la vecindad se determina mediante el parámetro Cantidad de vecinos o Banda de distancia.	String
Cantidad de vecinos (Opcional)	La cantidad de vecinos más cercana (hasta 1.000) que se deben considerar para cada entidad. El número debe ser un entero entre 2 y 1000.	Long
Banda de distancia (Opcional)	La extensión espacial de la vecindad.	Linear Unit
Esquema de ponderación local (Opcional)	Especifica el tipo kernel que se usará para proporcionar la ponderación espacial en el modelo. El kernel define cómo se relacionan las entidades entre sí dentro de su vecindario. Bicuadrado—Se asigna una ponderación de 0 a todas las entidades que se encuentren fuera de la vecindad especificada. Esta es la opción predeterminada. Gaussiano—Todas las entidades recibirán ponderaciones, que serán exponencialmente más pequeñas cuanto más se alejen de la entidad de destino.	String
Almacenamiento de datos (Opcional)	Especifica el ArcGIS Data Store en el que se guardará la salida. Por defecto es big data store espaciotemporal. Todos los resultados almacenados en un big data store espaciotemporal se almacenarán en WGS84. Los resultados almacenados en un data store relacional mantendrán su sistema de coordenadas. Big data store espaciotemporal—La salida se almacenará en un big data store espaciotemporal. Esta es la opción predeterminada. Data store relacional—La salida se almacenará en un data store relacional.	String

Salida derivada

Etiqueta	Explicación	Tipo de datos
Output	Las entidades de salida.	Conjunto de registros

arcpy.geoanalytics.GWR(in_features, dependent_variable, model_type, explanatory_variables, output_features, neighborhood_type, neighborhood_selection_method, {number_of_neighbors}, {distance_band}, {local_weighting_scheme}, {data_store})

Nombre	Explicación	Tipo de datos
in_features	La clase de entidad de punto que contiene las variables dependientes y explicativas.	Feature Set
dependent_variable	El campo numérico que contiene los valores observados que se van a modelar.	Field
model_type	Especifica el tipo de datos que se va a modelar. CONTINUOUS— El valor dependent_variable es continuo. Se usará el modelo Gausiano y la herramienta realizará una regresión de mínimos cuadrados ordinarios.	String
explanatory_variables [explanatory_variables,...]	Una lista de campos que representan variables explicativas independientes en el modelo de regresión.	Field
output_features	El nombre del servicio de entidades de salida.	String
neighborhood_type	Especifica si el vecindario utilizado se construye como una distancia fija o si puede variar en extensión espacial en función de la densidad de las entidades. NUMBER_OF_NEIGHBORS— El tamaño de vecindario es una función de una cantidad de vecinos específica incluida en los cálculos de cada entidad. Si las entidades son densas, la extensión espacial del vecindario es más pequeña; si las entidades tienen menos densidad, la extensión espacial del vecindario es más grande. DISTANCE_BAND—El tamaño de vecindario es una distancia fija o constante para cada entidad.	String
neighborhood_selection_method	Especifica cómo se determina el tamaño de la vecindad. USER_DEFINED— El tamaño de la vecindad se determina por el parámetro number_of_neighbors o distance_band.	String
number_of_neighbors (Opcional)	La cantidad de vecinos más cercana (hasta 1.000) que se deben considerar para cada entidad. El número debe ser un entero entre 2 y 1000.	Long
distance_band (Opcional)	La extensión espacial de la vecindad.	Linear Unit
local_weighting_scheme (Opcional)	Especifica el tipo kernel que se usará para proporcionar la ponderación espacial en el modelo. El kernel define cómo se relacionan las entidades entre sí dentro de su vecindario. BISQUARE—Se asigna una ponderación de 0 a todas las entidades que se encuentren fuera de la vecindad especificada. Esta es la opción predeterminada. GAUSSIAN—Todas las entidades recibirán ponderaciones, que serán exponencialmente más pequeñas cuanto más se alejen de la entidad de destino.	String
data_store (Opcional)	Especifica el ArcGIS Data Store en el que se guardará la salida. El valor predeterminado es SPATIOTEMPORAL_DATA_STORE. Todos los resultados almacenados en un big data store espaciotemporal se almacenarán en WGS84. Los resultados almacenados en un data store relacional mantendrán su sistema de coordenadas. SPATIOTEMPORAL_DATA_STORE—La salida se almacenará en un big data store espaciotemporal. Esta es la opción predeterminada. RELATIONAL_DATA_STORE—La salida se almacenará en un data store relacional.	String

Salida derivada

Nombre	Explicación	Tipo de datos
output	Las entidades de salida.	Conjunto de registros

Muestra de código

Ejemplo de GeographicallyWeightedRegression (script independiente)

El siguiente script de la ventana de Python muestra cómo utilizar la herramienta GWR.

En este script crearemos un modelo para determinar las variables ambientales que afectan a la alta frecuencia de incendios forestales.


# Name: GWR.py
# Description: Run GWR on forest fire occurrence report data to understand 
#              which variables explain reoccurring forest fires
#
# Requirements: ArcGIS GeoAnalytics Server
# Import system modules
import arcpy
# Set local variables
inputFeatures = "https://analysis.org.com/server/rest/services/DataStoreCatalogs/bigDataFileShares_EcoData/BigDataCatalogServer/fireLocations"
outputLayerName = "GWR_ForestFireFrequency"
dependentVariable = "Fire_Frequency"
explanatoryVariables = "GroundCover, TreeCover, SoilMoisture, slope"
distanceValue = "5 Miles"
# Execute GWR
arcpy.geoanalytics.gwr(inputFeatures, dependentVariable, 
                                                    "CONTINUOUS", explanatoryVariables, 
                                                    outputLayerName, "DISTANCE_BAND", 
                                                    "USER_DEFINED", None, distanceValue, 
                                                    "GAUSSIAN", "SPATIOTEMPORAL_DATA_STORE"))

Entornos

Sistema de coordenadas de salida, Extensión, Espacio de trabajo actual

Casos especiales

Sistema de coordenadas de salida: El sistema de coordenadas que se usará para el análisis. El análisis se completará en el sistema de coordenadas de entrada salvo que este parámetro especifique otra opción. Para GeoAnalytics Tools, los resultados finales se almacenarán en el data store espaciotemporal en WGS84.

Información de licenciamiento

Basic: Requiere ArcGIS GeoAnalytics Server
Standard: Requiere ArcGIS GeoAnalytics Server
Advanced: Requiere ArcGIS GeoAnalytics Server

Temas relacionados

¿Algún comentario sobre este tema?