Conceptos clave de la simulación de estadísticas geográficas

Disponible con una licencia de Geostatistical Analyst.

Conceptos sobre la simulación

La simulación se define en líneas generales como el proceso de replicación de la realidad mediante un modelo. En geoestadísticas, la simulación es la realización de una función aleatoria (superficie) que tiene las mismas características estadísticas que los datos de muestra utilizados para generarla (medidos por el valor medio, la varianza y el semivariograma). La simulación de estadísticas geográficas gaussianas (GGS), más específicamente, es adecuada para datos continuos y presupone que los datos, o una transformación de los datos, tienen una distribución normal (gaussiana). La principal suposición de GGS es que los datos son estacionarios: el valor medio, la varianza y la estructura espacial (semivariograma) no cambian en todo el dominio espacial de los datos. Otra suposición clave de GGS es que la función aleatoria que se modela es una función aleatoria gaussiana multivariante.

GGS ofrece una ventaja sobre el kriging. Dado que el kriging se basa en un promedio local de los datos, produce una salida suavizada. Por otro lado, GGS produce mejores representaciones de la variabilidad local porque vuelve a agregar la variabilidad local que se pierde en el kriging a las superficies que genera. La variabilidad que agregan las realizaciones de GGS al valor predicho en una ubicación determinada tiene un valor medio de cero, de modo que el promedio de muchas realizaciones de GGS tiende a acercarse a la predicción de kriging. Este concepto se ilustra en la figura siguiente. Se representan distintas realizaciones como una pila de capas de salida, donde la distribución de valores en una coordenada concreta es gaussiana, con un valor medio igual a la estimación con kriging para esa ubicación y una expansión proporcionada por la varianza de kriging en esa ubicación.

Variabilidad de valores simulada para una ubicación concreta
Variabilidad de valores simulada para una ubicación en particular

Es posible utilizar la herramienta Extraer valores a tabla para producir los datos para el gráfico ilustrado en la figura anterior, así como para ayudar a posprocesar la salida generada por GGS.

El mayor uso de GGS sigue una tendencia en la práctica de estadísticas geográficas que enfatiza la caracterización de la incertidumbre para el análisis de decisiones y riesgos, en lugar de producir la mejor predicción no sesgada para cada ubicación no muestreada (como ocurre con el kriging), lo que es más adecuado para mostrar tendencias globales en los datos (Deutsch y Journel 1998, Goovaerts 1997). La simulación también supera el problema del sesgo condicional en estimaciones con kriging (las áreas con valores altos se predicen normalmente en defecto, mientras que las áreas con valores bajos se predicen normalmente en exceso).

La simulación de estadísticas geográficas genera varias representaciones igualmente probables de la distribución espacial del atributo en estudio. Estas representaciones proporcionan una manera de medir la incertidumbre de las ubicaciones no muestreadas tomadas todas juntas en el espacio, en lugar de una a una (como se mide en la varianza de kriging). Además, la varianza de kriging suele ser independiente de los valores de datos y, por lo general, no se puede utilizar como medida de precisión de la estimación. Por otro lado, la precisión de la estimación se puede medir creando distribuciones de valores estimados para ubicaciones sin muestrear mediante el uso de varias realizaciones simuladas creadas a partir de un modelo de kriging simple que usa datos de entrada distribuidos normalmente (es decir, datos que están distribuidos normalmente o que se han transformado utilizando una puntuación normal u otro tipo de transformación). Estas distribuciones de incertidumbre son clave para la evaluación de riesgos y el análisis de decisiones que utilizan los valores de datos estimados.

GGS presupone que los datos están distribuidos normalmente, lo que rara vez ocurre en la práctica. Se realiza una transformación de puntuación normal en los datos para que sigan una distribución normal estándar (valor medio = 0 y varianza = 1). A continuación, se ejecutan simulaciones en estos datos distribuidos normalmente y los resultados se transforman de nuevo para obtener la salida simulada en las unidades originales. Cuando se realiza un kriging simple en datos distribuidos normalmente, proporciona una estimación y una varianza de kriging que definen totalmente la distribución condicional en cada ubicación del área de estudio. Esto permite dibujar realizaciones simuladas de la función aleatoria (la superficie muestreada desconocida) conociendo solamente estos dos parámetros en cada ubicación y es la razón por la que GGS se basa en un modelo de kriging simple y datos distribuidos normalmente.

La herramienta Simulaciones de estadísticas geográficas gaussianas permite dos tipos de simulación:

  • La simulación condicional respeta los valores de datos (a menos que se haya incluido el error de medición en el modelo de kriging). Pueden producirse algunas diferencias entre los valores medidos y simulados para las ubicaciones de muestra porque la simulación genera valores en los centros de las celdas de cuadrícula, los cuales pueden no corresponder exactamente a la ubicación de los puntos de muestra. La simulación condicional también replica el valor medio, la varianza y el semivariograma de los datos, en promedio (es decir, promediados en muchas realizaciones). Las superficies simuladas tienen el aspecto de mapas de predicción de kriging, pero muestran más variabilidad espacial.
  • La simulación incondicional no respeta los valores de datos, pero replica el valor medio, la varianza y el semivariograma de los datos (en promedio). Las superficies simuladas muestran una estructura espacial similar a un mapa con kriging, pero no se producirán necesariamente áreas con valores altos y bajos donde haya valores de datos altos y bajos en los datos de entrada.

Ejemplos de simulación

Ejemplo 1

La calidad del aire es un importante problema de salud en muchas ciudades y áreas de todo el mundo. En los Estados Unidos, Los Ángeles es conocida por tener una mala calidad del aire, y una amplia red de monitorización recopila datos de ozono, partículas y otros contaminantes con una frecuencia subdiaria. Estos datos de calidad del aire se reportan en forma de concentración de cada contaminante, así como el número de días por año que un contaminante superó los estándares estatales y federales de calidad del aire (https://www.arb.ca.gov/html/ds.htm). Aunque ambas medidas permiten hacer evaluaciones parciales de los riesgos de exposición de vivir en una determinada área, el número de días por año en que se superaron los umbrales críticos se puede utilizar para hacer mapas interpolados que muestren las probabilidades de exceder el umbral.

En este ejemplo, se examinó el número de días que se superó el umbral de ozono del estado de California en cada estación de monitorización en 2005 y a este se ajustó un semivariograma. Se utilizó la simulación condicional para producir varias realizaciones. Cada realización es un mapa del número de días que el contaminante superó el valor del umbral en 2005. A continuación, se posprocesaron las realizaciones para estimar las probabilidades de que el contaminante superase el umbral estatal más de 10, 20, 30, 40, 50, 60 y 70 días al año (el máximo registrado por una estación fue de 80 días en los que se superó el umbral). La siguiente animación muestra los mapas resultantes para el ozono en la cuenca aérea de la costa sur, que engloba Los Ángeles y ciudades del interior. La calidad del aire cerca de la costa es considerablemente mejor que en las áreas del interior, debido principalmente a que los vientos soplan predominantemente de oeste a este en esta región.

Mapas como estos resultan útiles para priorizar estrategias de reducción, para estudiar las relaciones entre la salud y la calidad medioambiental, y para que la población tome decisiones sobre dónde vivir, al proporcionar información que pueda ayudarles a responder a preguntas como, por ejemplo, cuánta contaminación están dispuestos a tolerar y cuánta contaminación deben tolerar para vivir en una determinada área.

Ozono superado durante 10–70 días.
Ozono superado durante 10–70 días.

Ejemplo 2

Existen muchas aplicaciones en las que se utilizan variables dependientes espacialmente como entrada para los modelos (por ejemplo, simulación de flujos en ingeniería petrolífera). En estos casos, la incertidumbre de los resultados del modelo se evalúa produciendo una serie de simulaciones mediante el siguiente procedimiento:

  • 1. Se simula un gran número de realizaciones igualmente probables para la variable.
  • 2. El modelo (generalmente denominado función de transferencia) se ejecuta utilizando la variable simulada como entrada.
  • 3. Las ejecuciones del modelo se resumen para evaluar la variabilidad en la salida del modelo.
Simulación utilizada para evaluar la incertidumbre en la salida del modelo
Simulación utilizada para evaluar la incertidumbre en la salida del modelo

Las estadísticas de la salida proporcionan una medida de la incertidumbre del modelo.

Un ejemplo real del procedimiento descrito arriba es el estudio realizado para abrir el Planta Piloto de Aislamiento de Residuos (WIPP, por sus siglas en inglés) en el sureste de Nuevo México como instalación de almacenamiento de residuos transuránicos (https://www.wipp.energy.gov/).

Los científicos estaban evaluando depósitos de sal a más de 2.000 pies por debajo de la superficie terrestre como posible instalación de almacenamiento para el material residual. Sin embargo, los depósitos se encuentran justo encima de un acuífero y preocupaba que el agua subterránea pudiera transportar residuos que pudieran filtrarse de la instalación. Para demostrar que la WIPP era segura, los científicos tuvieron que convencer a la Agencia de Protección Ambiental de EE. UU. de que la velocidad del agua subterránea que fluye por el acuífero es lo bastante baja para que la contaminación del entorno circundante sea extremadamente improbable.

Los valores de transmisividad determinan el caudal de agua que pasa por un acuífero, y se obtuvieron varios de estos valores para el acuífero próximo al emplazamiento de la WIPP propuesto. El flujo de agua subterránea se modela mediante ecuaciones hidrológicas que se resuelven numéricamente y requieren valores de transmisividad predichos en una cuadrícula regular. Si se utilizaran estimaciones de transmisividad de kriging, los valores de transmisividad se basarían en promedios (ponderados) de valores de transmisividad vecinos y el tiempo de viaje del agua subterránea modelada se basaría únicamente en estos valores promedio. Dado que el kriging produce mapas suavizados, las superficies interpoladas no tendrán áreas con valores de transmisividad extremadamente altos y bajos. Para analizar correctamente el riesgo, los científicos debían considerar el peor escenario posible y, por tanto, necesitaban producir una distribución de probabilidad completa de valores de tiempo de viaje. De este modo, podían utilizar los valores de cola más bajos de las distribuciones de tiempo de viaje del agua subterránea (que corresponden a una velocidad de flujo extremadamente alta), y no los tiempos de viaje promedio, para evaluar la idoneidad de la WIPP. Se utilizaron simulaciones condicionales para producir las distribuciones de probabilidad de los valores de tiempo de viaje.

La posibilidad de que los productos residuales pudieran ser transportados por el agua subterránea era solamente uno de los muchos escenarios de riesgo humano distintos que se tuvieron en cuenta para evaluar la idoneidad de la WIPP. Los complejos análisis de riesgos tuvieron un gran protagonismo al evaluar la WIPP para la eliminación de residuos nucleares y convencer a los reguladores públicos y gubernamentales de su idoneidad. Tras más de 20 años de estudio científico, aportaciones públicas y dificultades normativas, la WIPP inició sus operaciones el 26 de marzo de 1999.

¿Cuántas realizaciones se deben generar?

Los resultados de los estudios de simulación no deben depender del número de realizaciones que se hayan generado. Una forma de determinar cuántas realizaciones generar es comparar las estadísticas para diferentes cantidades de realizaciones en una pequeña parte del dominio de datos (se utiliza un subconjunto para ahorrar tiempo). Las estadísticas tienden a un valor fijo a medida que aumenta el número de realizaciones. Las estadísticas examinadas en el ejemplo siguiente son el primer y el tercer cuartil, que se calcularon para una región pequeña (subconjunto) de superficies de elevación simuladas (en pies sobre el nivel del mar) para el estado de Wisconsin (EE. UU.).

El gráfico de arriba muestra fluctuaciones en la elevación en las primeras 100 realizaciones. El gráfico de abajo muestra los resultados de 1.000 realizaciones.

Efecto del número de simulaciones en los valores de los parámetros de salida; gráfico de las 100 primeras simulaciones
Efecto del número de simulaciones en los valores de los parámetros de salida; gráfico de las 100 primeras simulaciones
Efecto del número de simulaciones en los valores de los parámetros de salida; gráfico de 1.000 simulaciones
Efecto del número de simulaciones en los valores de los parámetros de salida; gráfico de 1.000 simulaciones

En este caso, los valores se estabilizan después de unas 20 simulaciones. En muchos casos, se ejecutan al menos 100 realizaciones para proporcionar suficiente información para determinar el valor medio y las probabilidades de exceder un valor de umbral. Un mayor número de realizaciones permite mayores grados de certeza en las estadísticas de resumen y las variables de salida del modelo, pero requiere más tiempo de procesamiento.

Para obtener más información sobre cómo se ha implementado la simulación de estadísticas geográficas gaussianas en ArcGIS, consulte la sección de ayuda Cómo funciona Simulaciones de estadísticas geográficas gaussianas.

Referencias

Deutsch, C. V., y A. G. Journel. 1998. GSLIB Geostatistical Software Library and User's Guide. 2.a ed. Oxford University Press, Nueva York, páginas 119–122.

Goovaerts, P. 1997. Geostatistics for Natural Resource Evaluation. Oxford University Press, Nueva York, páginas 369–376.