¿Qué es EBK Regression Prediction?

Disponible con una licencia de Geostatistical Analyst.

Introducción

EBK Regression Prediction es un método de interpolación de estadísticas geográficas que usa el kriging bayesiano empírico (EBK, por sus siglas en inglés) con rásteres de variables explicativas que afectan al valor de los datos que se están interpolando. Este método combina kriging con el análisis de regresión para realizar predicciones que son más precisas de lo que la regresión o kriging pueden conseguir por separado.

Más información sobre el kriging bayesiano empírico

Más información sobre los fundamentos del análisis de regresión

Fundamentos de los modelos de kriging de regresión

Como su nombre implica, los modelos de kriging de regresión son un híbrido de la regresión por mínimos cuadrados ordinarios y el kriging simple. Estos modelos de regresión y kriging predicen la variable dependiente separando la estimación del valor medio (promedio) y un término de error:

Variable dependiente = (valor medio) + (error)

Mínimos cuadrados ordinarios (OLS, por sus siglas en inglés) funciona modelando el valor medio como una suma ponderada de las variables explicativas (conocidas como la ecuación de regresión); se presupone que el término de error es aleatorio y no está correlacionado. El kriging simple funciona modelando el término de error utilizando un modelo de semivariograma/covarianza; se presupone que el valor medio es un valor constante. En este sentido, el método OLS realiza un análisis intensivo del valor medio, mientras que el kriging realiza un análisis intensivo del término de error. Sin embargo, los modelos de kriging de regresión calculan simultáneamente un modelo de regresión para el valor medio y un modelo de semivariograma/covarianza para el término de error. Al operar en ambos componentes al mismo tiempo, los modelos de kriging de regresión pueden realizar predicciones más precisas de las que se consiguen con la regresión o el kriging por separado. De hecho, tanto la regresión OLS como el kriging simple son casos especiales del kriging de regresión.

Se debe tener mucho cuidado a la hora de elegir qué variables deben utilizarse como rásteres de variables explicativas. Se debe haber constatado que cada variable explicativa influya en el valor de la variable dependiente. Se recomienda elegir las variables explicativas de un modo similar a las variables explicativas para Mínimos cuadrados ordinarios. Sin embargo, no es necesario comprobar si las variables explicativas están correlacionadas entre sí. Esta cuestión se explica con más detalle en la siguiente sección.

Análisis de los componentes principales

Antes de crear el modelo de kriging de regresión, los rásteres de variables explicativas se transforman en sus componentes principales, y estos se utilizan como variables explicativas del modelo de regresión. Los componentes principales son combinaciones lineales (sumas ponderadas) de las variables explicativas y se calculan de modo que cada componente principal no esté correlacionado con el resto de componentes principales. Dado que no están correlacionados entre sí, el uso de componentes principales resuelve el problema de la multicolinealidad (variables explicativas que están correlacionadas entre sí) en el modelo de regresión.

Cada componente principal captura una determinada proporción de la variabilidad total de las variables explicativas. En muchos casos, la mayor parte de la información contenida en todas las variables explicativas puede capturarse en apenas unos pocos componentes principales. Al descartar los componentes principales menos útiles, el cálculo del modelo se vuelve más estable y eficiente sin una pérdida significativa de precisión. Puede controlar la variación que deben tener en cuenta los componentes principales utilizando el parámetro Porcentaje acumulativo mínimo de varianza.

Por qué las variables explicativas deben ser rásteres

En esta herramienta, todas las variables explicativas se deben proporcionar como rásteres; el modelo de kriging de regresión se construye extrayendo los valores de los rásteres de variables explicativas que corresponden a cada punto de entrada. Quizá se pregunte por qué las variables explicativas no pueden ser campos de la misma clase de entidad de puntos que almacena la variable dependiente. Para hacer una predicción en una nueva ubicación, las variables explicativas se deben medir en la nueva ubicación para calcular la predicción del modelo de kriging de regresión. Si las variables explicativas fueran campos de las entidades de la variable dependiente de entrada, solo podría hacer predicciones en las ubicaciones de puntos de entrada. Para poder interpolar (predecir valores para las ubicaciones nuevas), las variables explicativas se deben medir en las ubicaciones en las que se desee interpolar. La forma más natural de especificar las variables explicativas en cada ubicación de predicción es almacenar las variables explicativas como rásteres.

Si las variables explicativas no están en formato de ráster, sino que se almacenan como campos en las entidades de variable dependiente de entrada, debe convertir todas las variables explicativas a un ráster mediante uno de los métodos de interpolación disponibles. Sin embargo, se debe tener en cuenta que EBK Regression Prediction presupone que las variables explicativas son valores medidos (en lugar de predicciones interpoladas), de modo que cualquier error introducido al interpolar las variables explicativas no se tendrá en cuenta correctamente en los cálculos posteriores. En la práctica, significa que las predicciones podrían estar sesgadas y los errores estándar podrían estar subestimados.

Crear y evaluar modelos locales

Una de las mayores ventajas de EBK Regression Prediction en comparación con otros modelos de kriging de regresión es que los modelos se calculan localmente. En consecuencia, el modelo puede cambiarse a sí mismo en diferentes áreas y tener en cuenta los efectos locales. Por ejemplo, las relaciones entre las variables explicativas y la variable dependiente pueden cambiar en distintas regiones y EBK Regression Prediction es capaz de modelar con precisión estos cambios regionales.

EBK Regression Prediction tiene en cuenta estos efectos locales dividiendo los datos de entrada en subconjuntos de un tamaño dado antes de realizar cualquier modelado. El número de puntos de cada subconjunto local se controla mediante el parámetro Número máximo de puntos de cada modelo local. El modelo de kriging de regresión se calcula para cada uno de estos subconjuntos locales de forma independiente, y estos modelos locales se combinan entre sí para producir el mapa de predicción final. Como alternativa, los subconjuntos locales se pueden definir utilizando el parámetro Entidades poligonales del subconjunto. Si se proporcionan entidades poligonales para este parámetro, cada entidad poligonal definirá un único subconjunto y todos los puntos contenidos en una única entidad poligonal se procesarán como un subconjunto. En este caso, cada polígono debe contener al menos 20 puntos y no más de 1.000 puntos.

Se puede utilizar el parámetro Clase de entidad de diagnóstico de salida para producir diagnósticos de modelo para cada uno de estos modelos locales. Al utilizar este parámetro, se crea una clase de entidad poligonal en la que cada polígono contiene todos los puntos que contribuyen a ese modelo local. Por ejemplo, si existen cinco subconjuntos, se crearán cinco polígonos y cada polígono mostrará la región de cada subconjunto. La clase de entidad poligonal también contendrá varios campos que muestran información de diagnóstico sobre el grado en que el modelo local se ajusta al subconjunto. Si se proporcionan entidades poligonales de subconjunto, la clase de entidad de diagnóstico de salida tendrá la misma geometría que los polígonos del subconjunto.

Transformaciones y modelos de semivariograma

EBK Regression Prediction dispone de toda una variedad de transformaciones y modelos de semivariograma.

Existen las siguientes opciones de transformación:

  • Ninguna: no se aplica ninguna transformación a la variable dependiente.
  • Empírica: se aplica una mezcla de kernel no paramétrica a la variable dependiente. Esta opción es la recomendada si la variable dependiente no está distribuida normalmente.
  • Empírica logarítmica: se aplica una transformación logarítmica a la variable dependiente antes de aplicar la transformación empírica. Esta opción garantiza que todas las predicciones sean mayores que cero, y es la recomendada si la variable dependiente no puede ser negativa, como en las mediciones de precipitaciones.

Existen los siguientes modelos de semivariograma:

  • Exponencial: este modelo de semivariograma presupone que la autocorrelación espacial del término de error disminuye con relativa rapidez en comparación con las otras opciones. Esta es la opción predeterminada.
  • Nugget: este modelo de semivariograma presupone que el término de error es espacialmente independiente. El uso de esta opción equivale a utilizar una regresión de mínimos cuadrados ordinarios, por lo que rara vez resulta útil para la interpolación real. Puede servir más bien como línea base para ver cuánta mejora se obtiene al utilizar el kriging de regresión en comparación con la regresión de mínimos cuadrados ordinarios.
  • Whittle: este modelo de semivariograma presupone que la autocorrelación espacial del término de error disminuye con relativa lentitud en comparación con las otras opciones.
  • K de Bessel: este modelo de semivariograma permite que la autocorrelación espacial del término de error disminuya lentamente, rápidamente o a cualquier otra velocidad entre estos dos extremos. Por su carácter flexible, casi siempre arrojará predicciones más precisas, pero requiere la estimación de un parámetro adicional, por lo que requiere un mayor tiempo de cálculo. Si tiene dudas de qué semivariograma utilizar y no le preocupa el tiempo de espera requerido para obtener unos resultados más precisos, esta es la opción recomendada.

Referencias

  • Chilès, J-P. y P. Delfiner (1999). Capítulo 4 de Geostatistics: Modeling Spatial Uncertainty. Nueva York: John Wiley & Sons, Inc.
  • Krivoruchko K. (2012). "Empirical Bayesian Kriging," ArcUser otoño de 2012.
  • Krivoruchko K. (2012). "Modeling Contamination Using Empirical Bayesian Kriging," ArcUser otoño de 2012.
  • Krivoruchko K. y Gribov A. (2014). "Pragmatic Bayesian kriging for non-stationary and moderately non-Gaussian data," Mathematics of Planet Earth. Proceedings of the 15th Annual Conference of the International Association for Mathematical Geosciences, Springer 2014, pp. 61-64.
  • Krivoruchko K. y Gribov A. (2019). "Evaluation of empirical Bayesian kriging," Spatial Statistics volumen 32. https://doi.org/10.1016/j.spasta.2019.100368.
  • Pilz, J. y G. Spöck (2007). "Why Do We Need and How Should We Implement Bayesian Kriging Methods," Stochastic Environmental Research and Risk Assessment 22 (5):621–632.

Temas relacionados