Cómo eliminar las tendencias de los datos

Disponible con una licencia de Geostatistical Analyst.

Para eliminar una tendencia de superficie de los datos y utilizar el kriging o cokriging de los datos sin tendencia (residual), considere el modelo aditivo:

Z(s) = µ(s) + ε(s),

donde µ(s) es alguna superficie determinística (la tendencia) y ε(s) es un error autocorrelacionado espacialmente.

Conceptualmente, la tendencia es fija, lo que significa que, si simula los datos una y otra vez, entonces la tendencia nunca cambiará. Sin embargo, sí se observan fluctuaciones en las superficies simuladas debido a errores aleatorios autocorrelacionados. Normalmente, la tendencia cambia gradualmente a través del espacio, mientras que los errores aleatorios cambian más rápidamente. Un ejemplo meteorológico de una tendencia podría ser donde se observa (y se conoce teóricamente) un gradiente de temperatura asociado a la latitud. Sin embargo, las observaciones de cualquier día muestran variaciones locales debido a los frentes meteorológicos, la cobertura del suelo, los patrones de nubes, etc., que no son tan predecibles, por lo que las variaciones locales se modelan como autocorrelacionadas.

Lamentablemente, no existe ninguna forma perfecta de descomponer los datos de forma exclusiva a una tendencia y a errores aleatorios. A continuación se ofrece una guía útil.

En el siguiente gráfico de eliminación de la tendencia, los datos se simulan a partir de dos modelos. Uno fue del modelo de kriging ordinario, donde Z(s) = µ + ε(s) y los errores estaban autocorrelacionados. El proceso tenía un valor medio µ = 0 con un semivariograma exponencial. Se simula otro dataset a partir de un modelo de kriging universal con µ(s) = ß0 + ß1x(s) + ß2x2(s), representado por la línea sólida, pero los errores eran independientes con el valor medio 0 y la varianza 1.

Gráfico de eliminación de la tendencia

Es difícil diferenciar qué modelo es cada uno (los círculos azules provienen del modelo de kriging ordinario y los círculos rojos provienen del modelo de kriging universal con errores independientes). La autocorrelación espacial permite superficies de predicción flexibles y este ejemplo muestra que puede ser difícil elegir entre los modelos basándose únicamente en los datos. En general, debe utilizar el kriging ordinario a menos que tenga motivos fundados para eliminar una superficie de tendencia. La razón es que es mejor mantener los modelos lo más simples posible. Si elimina una superficie de tendencia, aumenta el número de parámetros que hay que estimar. Una superficie cuadrática bidimensional agrega cinco parámetros que hay que estimar, aparte del parámetro de interceptación. Cuantos más parámetros provengan de estimaciones, menos precisos serán los modelos.

Sin embargo, es posible que algunas veces las coordenadas espaciales sirvan como proxy a alguna tendencia conocida de los datos. Por ejemplo, la producción de cultivos puede cambiar con la latitud, no debido a las propias coordenadas, sino porque la temperatura, la humedad, las precipitaciones, etc., cambian con la latitud. En estos casos, puede tener sentido eliminar las superficies de tendencia. También en este caso, mantenga las superficies lo más simples posible, por ejemplo, con polinomios de primer o segundo orden.

Existe un peligro de exceso de ajuste en los datos cuando se utilizan tendencias y se deja muy poca variación en los residuales para tener en cuenta correctamente la incertidumbre en la predicción. Compruebe siempre sus modelos con validación cruzada o validación cuando utilice modelos de tendencia.

También puede utilizar la herramienta Tendencia direccional para visualizar la tendencia en diferentes direcciones para ayudar a determinar un modelo de eliminación de tendencia adecuado. Pruebe varias direcciones y órdenes polinómicos para ver cómo cambia la tendencia en diferentes direcciones.

Ilustración de la herramienta Tendencia direccional

Se muestra una tendencia lineal noreste de los valores de los datos.

Más información sobre transformaciones y tendencias