Información para eliminar las tendencias de los datos

Disponible con una licencia de Geostatistical Analyst.

Quizá desee eliminar una tendencia de superficie de sus datos y utilizar el kriging o cokriging de los datos sin tendencia (residual). Plantéese el modelo aditivo:

Z(s) = µ(s) + ε(s),

donde µ(s) es alguna superficie determinística (la tendencia) y ε(s) es un error autocorrelacionado espacialmente.

Conceptualmente, la tendencia es fija, lo que significa que, si simula los datos una y otra vez, la tendencia nunca cambia. Sin embargo, sí se observan fluctuaciones en las superficies simuladas debido a errores aleatorios autocorrelacionados. Normalmente, la tendencia cambia gradualmente a través del espacio, mientras que los errores aleatorios cambian más rápidamente. Un ejemplo meteorológico de una tendencia podría ser donde se observa (y se conoce teóricamente) un gradiente de temperatura asociado a la latitud. Sin embargo, las observaciones de cualquier día muestran variaciones locales debido a los frentes meteorológicos, la cobertura del suelo, los patrones de nubes, etc., que no son tan predecibles, por lo que las variaciones locales se modelan como autocorrelacionadas.

Lamentablemente, no existe ninguna forma de descomponer los datos de forma exclusiva a una tendencia y a errores aleatorios. La información que sigue puede servir como guía útil.

En el siguiente gráfico de eliminación de la tendencia, los datos se simulan a partir de dos modelos. Uno fue del modelo de kriging ordinario, donde Z(s) = µ + ε(s) y los errores e(s) estaban autocorrelacionados. El proceso tenía un valor medio µ = 0 con un semivariograma exponencial. Se simula otro dataset a partir de un modelo de kriging universal con µ(s) = ß0 + ß1x(s) + ß2x2(s), representado por la línea sólida, pero los errores eran independientes con el valor medio 0 y la varianza 1.

Gráfico de eliminación de la tendencia

Es difícil saber cuál es cuál es cuál (los círculos azules provienen del modelo de kriging ordinario y los círculos rojos provienen del modelo de kriging universal con errores independientes). La autocorrelación espacial permite superficies de predicción flexibles y este ejemplo muestra que puede ser difícil elegir entre los modelos basándose únicamente en los datos. En general, debe apostar por el kriging ordinario a menos que tenga motivos fundados para eliminar una superficie de tendencia. La razón es que es mejor mantener los modelos lo más simples posible. Si elimina una superficie de tendencia, aumenta el número de parámetros que hay que estimar. Una superficie cuadrática bidimensional agrega cinco parámetros que hay que estimar, aparte del parámetro de interceptación. Cuantos más parámetros provengan de estimaciones, menos precisos serán los modelos.

Sin embargo, es posible que algunas veces las coordenadas espaciales sirvan como proxy a alguna tendencia conocida de los datos. Por ejemplo, la producción de cultivos puede cambiar con la latitud, no debido a las propias coordenadas, sino porque la temperatura, la humedad, las precipitaciones, etc., cambian con la latitud. En estos casos, puede tener sentido eliminar las superficies de tendencia. También en este caso, mantenga las superficies lo más simples posible, por ejemplo, con polinomios de primer o segundo orden.

Existe un peligro muy real de exceso de ajuste en los datos cuando se utilizan tendencias y se deja muy poca variación en los residuales para tener en cuenta correctamente la incertidumbre en la predicción. Asegúrese siempre de comprobar sus modelos con validación cruzada y, especialmente, validación, cuando utilice modelos de tendencia.

Más información sobre transformaciones y tendencias