Comprender los eigenvectores de Moran

Muchas herramientas de la caja de herramientas Estadísticas espaciales requieren la definición de una vecindad (o conceptualización de las relaciones espaciales) que defina qué entidades son vecinas entre sí y asigne un peso entre cada par de vecinos. Juntos, los vecinos y los pesos definen una matriz de ponderaciones espaciales (SWM) que representa las relaciones espaciales entre todos los pares de entidades. Para N entidades, la SWM tendrá N filas y N columnas (una matriz cuadrada) en la que las filas representan la primera entidad del par, las columnas representan la segunda entidad del par y el valor correspondiente en la matriz representa el peso (o relación) entre el par. Por ejemplo, al utilizar una vecindad de contigüidad de polígonos, dos polígonos cualesquiera que estén conectados tendrán el valor 1 en la celda correspondiente y tendrán el valor 0 si no están conectados.

Cualquier matriz cuadrada y simétrica puede descomponerse en N componentes independientes (no correlacionados) basándose en los eigenvectores y eigenvalores, y cada componente representa un factor independiente de la matriz original (de forma similar a como el análisis de componentes principales refactoriza las variables en componentes no correlacionados). Estos componentes contienen toda la información de la matriz original, pero se refactorizan y separan para que puedan investigarse individualmente, con frecuencia revelando estructuras básicas ocultas dentro de la matriz original. Cuando la matriz es una SWM, estos eigenvectores se denominan eigenvectores de Moran (también llamados componentes espaciales) y representan los patrones espaciales básicos de las entidades y la SWM.

Cada eigenvector de Moran asigna un valor numérico a cada entidad y, dado que suelen representarse cartográficamente y simbolizarse para visualizar patrones espaciales, con frecuencia se denominan mapas de eigenvectores de Moran (MEM). Los primeros MEM (aquellos con los eigenvectores más altos y patrones más fuertes) suelen corresponder a patrones espaciales amplios y globales, como la tendencia norte-sur o este-oeste, y los posteriores MEM (aquellas con los eigenvalores más bajos y patrones más débiles) suelen representar patrones espaciales más localizados. Por ejemplo, la siguiente imagen muestra varios MEM para una teselación hexagonal utilizando la contigüidad de polígonos para definir la SWM. La fila superior muestra los cuatro primeros MEM que representan patrones espaciales más amplios, y la fila inferior muestra cuatro MEM posteriores cuyos patrones están más localizados.

Ocho MEM para las mismas entidades y SWM

Es importante señalar que la creación de MEM solo utiliza la SWM y las ubicaciones de las entidades, pero no utiliza ningún campo o variable de las entidades, por lo que los patrones espaciales pueden no corresponder a ninguna variable presente en las ubicaciones. En su lugar, representan patrones espaciales potenciales que pueden combinarse para representar diversos patrones espaciales de variables espaciales. Por ejemplo, si un campo de las entidades tiene una amplia tendencia de oeste a este, pero también contiene pequeños clústeres de valores bajos y altos, el patrón espacial de la variable podría representarse combinando dos MEM: uno que represente la tendencia de oeste a este y otro que represente los clústeres. Las variables espaciales más complicadas pueden requerir muchos otros MEM para representar adecuadamente su patrón espacial.

Los MEM también están estrechamente relacionados con la estadística de I de Moran, que mide el grado de clustering espacial (autocorrelación) de una variable espacial. El primer MEM es el conjunto de valores de las entidades que da como resultado el mayor valor posible de I de Moran (la mayor autocorrelación espacial posible). El segundo MEM es el conjunto de valores que da como resultado el mayor valor posible de I de Moran, dado que los valores no deben estar correlacionados con los valores del primer MEM. El tercer MEM es el conjunto de valores que da como resultado el mayor valor posible de I de Moran, dado que no debe estar correlacionados con cada uno de los dos primeros MEM, y así sucesivamente. Para N entidades, pueden crearse hasta N MEM, aunque normalmente menos del 25 por ciento de los MEM representan patrones espaciales útiles.

El valor I de Moran del primer MEM representa el mayor valor I de Moran posible para cualquier campo de las entidades. En otras palabras, incluso si un solo valor cambiara en una sola entidad, el valor I de Moran disminuiría y la variable estaría menos agrupada. Permite contextualizar los valores I de Moran de sus datos reales. Un error común es creer que el mayor valor posible de I de Moran es igual a 1 para cualquier dataset y cualquier SWM, pero con frecuencia el mayor valor posible de I de Moran es significativamente inferior a 1 (con frecuencia tan bajo como 0,6) dependiendo de las entidades y la SWM. También es posible que el mayor I de Moran sea superior a 1, pero no es frecuente. Por ejemplo, si un campo de sus datos tiene un valor I de Moran igual a 0,65, puede que no parezca muy alto si asume que el mayor valor posible es igual a 1, pero si el primer MEM tiene un valor I de Moran igual a 0,7, significa que el campo tiene casi la mayor autocorrelación espacial posible para su SWM. También le ayuda a elegir una SWM apropiada para su análisis porque algunas SWM tendrán valores I de Moran posibles sustancialmente mayores que otros.

Usos de los MEM en el análisis espacial

Los MEM tienen una gran variedad de usos en el análisis espacial, y las herramientas del conjunto de herramientas Utilidades de componentes espaciales (eigenvectores de Moran) crean y utilizan MEM de diversas formas:

  • Descomponer estructura espacial (eigenvectores de Moran): crea el conjunto de MEM que tienen el valor I de Moran más alto para la clase de entidad de entrada y la SWM. La entrada es una clase de entidad y la SWM se define mediante parámetros de vecindad. También puede controlar cuántos MEM se crearán especificando un valor de umbral de I de Moran relativo y un número máximo de MEM. La salida es una clase de entidad con las mismas entidades que la entrada con los MEM incluidos como campos. Los MEM creados por la herramienta pueden representarse cartográficamente para visualizar los distintos patrones espaciales de la SWM y evaluar el valor máximo de I de Moran de cualquier campo de las entidades para la SWM.

  • Comparar conceptualizaciones de vecindades: sugiere un esquema de vecindades y pesos que represente con mayor precisión los patrones espaciales de uno o más campos de una clase de entidad. La entrada es una clase de entidad y uno o más campos, y la salida es un archivo de SWM que puede utilizarse en otras herramientas de la caja de herramientas Estadísticas espaciales que permiten utilizar archivos de SWM personalizados para definir vecinos y pesos como las herramientas Asociación espacial bivariante (L de Lee), Análisis de punto caliente (Gi* de Getis-Ord) y Análisis de cluster y de valor atípico (I Anselin local de Moran). La herramienta determina la SWM sugerida determinando qué SWM crea MEM que se asemejan más a los patrones espaciales de los campos de entrada.

  • Crear variables explicativas de componentes espaciales: crea y selecciona un conjunto de MEM que representen o expliquen mejor los patrones espaciales de varios campos de una clase de entidad de entrada. Resulta útil cuando desea crear un modelo (como un modelo de regresión por mínimos cuadrados ordinarios) y quiere tener en cuenta los patrones espaciales de las variables. Puede proporcionar la clase de entidad y todas las variables (explicativas y dependientes) de la herramienta, y esta creará MEM útiles para representar los patrones espaciales de los campos de entrada. La inclusión de estos MEM como variables explicativas (además de las variables explicativas originales) en el modelo de predicción mejorará por lo general el modelo, proporcionando mejores estimaciones de los coeficientes de las variables explicativas originales y mejorando la precisión de las predicciones al tener en cuenta los patrones espaciales de las variables.

  • Filtrar autocorrelación espacial de campo: crea y selecciona un conjunto de MEM que eliminan mejor la autocorrelación de un campo de entrada y producen una versión filtrada espacialmente del campo de entrada. El campo de entrada se separará en componentes espaciales (los MEM) y un componente no espacial (la versión filtrada espacialmente del campo de entrada). El campo filtrado mantiene las propiedades estadísticas básicas del campo al mismo tiempo que factoriza los efectos espaciales, como las tendencias y los clústeres. El campo filtrado puede utilizarse entonces en flujos de trabajo de correlación u otros análisis en los que el efecto del espacio no es deseado y agrega ruido a la señal subyacente del campo. Por ejemplo, puede estimar la correlación entre las tasas de contaminación y de asma al mismo tiempo que factoriza los efectos espaciales asociados a ambas variables para aislar la correlación o relación directa entre las dos variables. Cuando el campo de entrada es un campo residual de un modelo de predicción, los MEM seleccionados pueden utilizarse como variables explicativas del modelo de predicción (además de las variables explicativas originales) para eliminar la autocorrelación espacial del término residual del modelo. Esto es útil porque una asunción de muchos modelos de predicción es que los residuales no están autocorrelacionados espacialmente.

Información adicional

Los MEM solo se crearán o seleccionarán si tienen una autocorrelación espacial positiva, lo que significa que los patrones representan clústeres espaciales en lugar de patrones dispersos.

El número de MEM creados será igual al 25 por ciento del número de entidades de entrada, hasta un máximo de 100. Las herramientas Crear variables explicativas de componentes espaciales y Filtrar autocorrelación espacial de campo seleccionarán entre estos MEM para crear de la forma más eficaz las variables explicativas o filtrar la autocorrelación espacial, respectivamente.

A excepción de la herramienta Descomponer estructura espacial (eigenvectores de Moran) (que utiliza una única vecindad y esquema de ponderación especificados), las herramientas probarán 28 SWM diferentes y utilizarán la que cree MEM más eficaces para la finalidad de la herramienta. Se prueban las siguientes SWM:

  • Cinco bandas de distancia, cada una con kernel no ponderados, gaussianos y bicuadrados (15 en total). La banda de distancia más corta es la distancia que da como resultado al menos un vecino para cada entidad. La banda de distancia más larga es el 20 por ciento de la extensión diagonal de las entidades de entrada. Las otras tres bandas de distancia se crean incrementando uniformemente entre las bandas de distancia más corta y más larga. En el caso de las entidades poligonales, se utiliza la distancia entre centroides para determinar las distancias y los vecinos.
  • Cuatro números diferentes de vecinos (8, 16, 32 y 64), cada uno con kernel no ponderados, gaussianos y bicuadrados (12 en total). Los anchos de banda serán adaptativos e iguales a la distancia al (K+1)º vecino, para K vecinos. Si hay menos de K entidades de entrada, se omitirá un número mayor de vecinos. Por ejemplo, si hay 50 entidades de entrada, se omitirán las tres SWM que utilicen 64 vecinos más cercanos. En el caso de las entidades poligonales, se utiliza la distancia entre centroides para determinar las distancias y los vecinos.
  • Para las entidades de punto, la SWM final es un vecindad de triangulación de Delaunay. Para las entidades poligonales, la SWM final es una vecindad de contigüidad (bordes y esquinas).

Consulte Cómo funciona Estadísticas de resumen de vecindad y Modelado de relaciones espaciales para obtener más información sobre cada vecindad y la ponderación de kernel. Como alternativa, puede proporcionar un archivo .swm personalizado en el parámetro Archivo de matriz de ponderaciones espaciales de entrada. Si se proporciona, el archivo .swm se utilizará para crear y seleccionar MEM, y las 28 SWM anteriores no se probarán.

Antes de calcular los MEM, cada SWM se ajusta de modo que la suma de cada fila y columna sea igual a 0 (lo que se denomina doble centrado). Cuando la SWM no es simétrica, como cuando se utiliza una vecindad de número de vecinos, se le agrega su transposición para hacerla simétrica antes del doble centrado.

Referencias

Para implementar las herramientas, se utilizaron los siguientes recursos:

  • Bauman, David, Thomas Drouet, Stéphane Dray y Jason Vleminckx. 2018. "Disentangling good from bad practices in the selection of spatial or phylogenetic eigenvectors." Ecography 41.10: 1638-1649. https://doi.org/10.1111/ecog.03380.

  • Bauman, David, Thomas Drouet, Marie-Josée Fortin y Stéphane Dray. 2018. "Optimizing the choice of a spatial weighting matrix in eigenvector-based methods." Ecology 99, no. 10: 2159-2166. https://doi.org/10.1002/ecy.2469.

  • Blanchet, F. Guillaume, Pierre Legendre y Daniel Borcard. 2008. "Forward selection of explanatory variables." Ecology 89, no. 9: 2623-2632. https://doi.org/10.1890/07-0986.1.

  • Dray, Stéphane, David Bauman, Guillaume Blanchet, Daniel Borcard, Sylvie Clappe, Guillaume Guenard, Thibaut Jombart, Guillaume Larocque, Pierre Legendre, Naima Madi y Helene H. Wagner. 2022. "adespatial: Multivariate Multiscale Spatial Analysis." R package version 0.3-16. https://CRAN.R-project.org/package=adespatial.

  • Griffith, Daniel A. 2003. "Spatial Autocorrelation and Spatial Filtering." Advances in Spatial Science. Springer. ISBN 978-3-540-24806-4. https://doi.org/10.1007/978-3-540-24806-4.

  • Griffith, Daniel A. y Pedro R. Peres-Neto. 2006. "Spatial modeling in ecology: the flexibility of eigenfunction spatial analyses." Ecology 87, no. 10: 2603-2613. https://doi.org/10.1890/0012-9658(2006)87[2603:SMIETF]2.0.CO;2.

Temas relacionados