Usar la validación cruzada para evaluar los resultados de interpolación

Disponible con una licencia de Geostatistical Analyst.

Antes de decidir un modelo de interpolación para la toma de decisiones, debe investigar hasta qué punto el modelo puede predecir los valores en nuevas ubicaciones. Sin embargo, si no conoce los valores reales en las ubicaciones entre los puntos medidos, ¿cómo puede saber si su modelo predice los valores de forma precisa y fiable? Responder a esta pregunta parece requerir el conocimiento de los valores de las ubicaciones que no se han muestreado. Sin embargo, existe un método común y ampliamente utilizado para evaluar la precisión y fiabilidad de la interpolación: la validación cruzada.

Validación cruzada

La validación cruzada es un método de remuestreo basado en "dejar un elemento fuera" que primero utiliza todos los puntos de entrada para estimar los parámetros de un modelo de interpolación (como el semivariograma de kriging o el valor de potencia de ponderación de distancia inversa). A continuación, elimina un único punto de entrada y utiliza el resto de puntos para predecir el valor en la ubicación del punto oculto y el valor predicho se compara con el valor medido. A continuación, el punto oculto se vuelve a agregar al dataset y se oculta y se predice otro punto diferente. Este proceso se repite en todos los puntos de entrada.

El siguiente diagrama muestra el proceso de validación cruzada para un único punto. Después de estimar el modelo de interpolación a partir de todos los puntos azules, el valor del punto rojo se oculta y los puntos restantes se utilizan para predecir el valor del punto oculto. A continuación, la predicción se compara con el valor medido. Este proceso se repite para los 10 puntos.

Proceso de validación cruzada
Un punto rojo está oculto y el valor se predice a partir de los puntos restantes. Este proceso se repite para todos los puntos.

La validación cruzada resulta efectiva para evaluar modelos de interpolación porque simula valores que predicen nuevas ubicaciones sin mediciones, pero los valores de las ubicaciones no están medidos, solo ocultos, de modo que los valores predichos se pueden validar contra sus valores conocidos. Si el modelo puede predecir con precisión los valores de los puntos ocultos, también debe poder predecir con precisión los valores en nuevas ubicaciones sin mediciones. Sin embargo, si los errores de validación cruzada son muy grandes, también debería esperar errores mayores al predecir ubicaciones nuevas.

La validación cruzada se realiza automáticamente al crear un modelo de interpolación y los resultados se muestran en la última página de Geostatistical Wizard. La validación cruzada también se puede calcular en una capa de estadísticas geográficas existente con la herramienta Validación cruzada. Si una capa de estadísticas geográficas está en un mapa, puede ver las estadísticas de validación cruzada haciendo clic con el botón derecho en la capa y eligiendo Validación cruzada o haciendo clic en el botón Validación cruzada del menú de la cinta Datos para la capa de estadísticas geográficas.

Sin embargo, la validación cruzada tiene la desventaja de que inicialmente utiliza todos los puntos de entrada para estimar los parámetros del modelo de interpolación antes de ocultar cada punto secuencialmente. Dado que todos los puntos contribuyeron a la estimación de los parámetros de interpolación, no estaban completamente ocultos en el procedimiento. Los puntos individuales generalmente no influyen en gran medida en los valores estimados de los parámetros de interpolación; sin embargo, para los datasets pequeños y los datasets que contienen valores atípicos, incluso un punto individual puede cambiar considerablemente las estimaciones de los parámetros de interpolación. Para ocultar completamente los valores de puntos y evitar cualquier doble uso de los datos, puede utilizar la validación.

Validación

La validación es similar a la validación cruzada, salvo en que primero elimina un subconjunto completo de los puntos de entrada, denominado dataset de prueba. A continuación, utiliza los puntos restantes, denominados dataset de entrenamiento, para estimar los parámetros del modelo de interpolación. A continuación, el modelo de interpolación predice todas las ubicaciones del dataset de prueba y los errores de validación se calculan para cada punto de prueba. Dado que el dataset de prueba no se utilizó en ninguna forma de estimar los parámetros de interpolación o de hacer predicciones, la validación es la forma más rigurosa de estimar la precisión y fiabilidad con la que predecirá el modelo de interpolación en nuevas ubicaciones con valores desconocidos. Sin embargo, la validación tiene la gran desventaja que no puede utilizar todos los datos para crear el modelo de interpolación, por lo que es posible que las estimaciones del parámetro no sean tan precisas como lo serían si hubiera utilizado todos los datos. Debido al requisito de reducir el tamaño del dataset, por lo general se prefiere la validación cruzada a menos que se sobremuestreen los datos.

Puede crear los datasets de prueba y de entrenamiento con la herramienta Subconjuntos de entidades. Después de crear un modelo de interpolación (capa de estadísticas geográficas) en el dataset de entrenamiento, puede realizar una validación con la herramienta GA Layer To Points. Proporcione la capa de estadísticas geográficas creada a partir del dataset de entrenamiento, prediga al dataset de prueba y valide en el campo utilizado para interpolar. Los errores de validación y otras estadísticas de validación se guardan en la clase de entidad de salida.

En el resto de este tema solo se tratará la validación cruzada, pero todos los conceptos son análogos para la validación.

Estadísticas de validación cruzada

Al realizar una validación cruzada, se calculan varias estadísticas para cada punto. Estas estadísticas se pueden visualizar en la pestaña Tabla del cuadro de diálogo de validación cruzada o se pueden guardar en una clase de entidad con la herramienta Validación cruzada. Se crean los siguientes campos para cada punto:

  • Medido: el valor medido del punto oculto.
  • Predicho: el valor predicho de la validación cruzada en la ubicación del punto oculto.
  • Error: la diferencia entre los valores predichos y medidos (predichos menos medidos). Un error positivo significa que la predicción fue mayor que el valor medido y un error negativo significa que la predicción fue menor que el valor medido.
  • Error estándar: el error estándar del valor predicho. Si los errores se distribuyen normalmente, aproximadamente dos tercios de los valores medidos estarán dentro de un error estándar del valor predicho y aproximadamente el 95 por ciento estará dentro de dos errores estándar.
  • Error estandarizado: el error dividido entre el error estándar. Para utilizar los tipos de salida de cuantiles o de probabilidad, los valores de error estandarizados deben seguir una distribución normal estándar (valor medio igual a cero y desviación estándar igual a uno).

Además, para los modelos de la familia de kriging bayesiano empírico, están disponibles las siguientes estadísticas de validación cruzada:

  • Continuous Ranked Probability Score: un número positivo que mide la precisión del valor predicho, donde un valor más pequeño es mejor. El valor es difícil de interpretar por su cuenta, pero cuanto más cerca está el error a cero y menor es el error estándar, menor es la puntuación de probabilidad continua clasificada. En esencia, la estadística mide una distancia (no una distancia geográfica típica) entre el valor medido y la distribución predictiva, que tiene en cuenta la precisión de los errores estándar y de predicción. Las distribuciones predictivas estrechas centradas alrededor del valor medido (error cercano a cero y error estándar pequeño) tendrán puntuaciones de probabilidad continua clasificada cercanas a cero. El valor se mide en unidades de datos cuadradas, por lo que no se debe comparar en todos los datasets con diferentes unidades o rangos de valores.
  • Cuantil de validación: el cuantil del valor medido con respecto a la distribución predictiva. Si el modelo se ha configurado correctamente, los cuantiles de validación se distribuirán uniformemente entre 0 y 1 y no mostrarán ningún patrón. Los cuantiles de validación de modelos mal configurados suelen agruparse en el medio (mayoría de valores cerca de 0,5) o en los extremos (mayoría de valores cerca de 0 o 1).
  • Inside 90 Percent Interval: indicador (1 o 0) de si el valor medido está dentro de un intervalo de predicción del 90 por ciento (análogo de un intervalo de confianza). Si el modelo se ha configurado correctamente, aproximadamente el 90 por ciento de los puntos estarán dentro del intervalo y tendrán el valor 1.
  • Inside 95 Percent Interval: indicador (1 o 0) de si el valor medido está dentro de un intervalo de predicción del 95 por ciento. Si el modelo se ha configurado correctamente, aproximadamente el 95 por ciento de los puntos estarán dentro del intervalo y tendrán el valor 1.

Nota:

Los métodos de interpolación que no admiten el tipo de salida del error estándar de la predicción solo pueden calcular los valores medidos, predichos y de error.

Resumen de estadísticas de validación cruzada

Las estadísticas individuales de validación cruzada de cada punto oculto proporcionan información detallada sobre el rendimiento del modelo, pero para grandes cantidades de puntos de entrada, la información se debe resumir para interpretar rápidamente lo que significa para el resultado de interpolación. Las estadísticas de resumen de la validación cruzada se pueden ver en la pestaña Resumen del cuadro de diálogo de validación cruzada y se imprimen como mensajes mediante la herramienta Validación cruzada. Están disponibles las siguientes estadísticas de resumen:

Nota:

En todas las fórmulas, n es el número de puntos. si es la ubicación del punto oculto. z(si) es el valor medido en la ubicación. z-hat(si) es el valor predicho. σ-hat es el error estándar del valor predicho.

  • Error medio: el promedio de errores de la validación cruzada. El valor debe ser lo más próximo a cero posible. El error medio mide el sesgo del modelo, donde un error medio positivo indica una tendencia a predecir valores que son demasiado grandes y un error medio negativo indica una tendencia a no predecir lo suficiente los valores medidos. La estadística está en las unidades de los valores de datos.
    • Mean Error
  • Error cuadrático medio: la raíz cuadrada de los errores de predicción promedio al cuadrado. Este valor debe ser lo más pequeño posible. La estadística mide la precisión de la predicción y el valor se aproxima a la desviación media de los valores predichos a partir de los valores medidos. El valor está en las unidades de los valores de datos. Por ejemplo, para la interpolación de temperatura en grados Celsius, un valor de error cuadrático medio de 1,5 significa que las predicciones difieren de los valores medidos en aproximadamente 1,5 grados, en promedio.
    • Error cuadrático medio
  • Error estandarizado medio: el promedio de los errores estandarizados (error dividido entre error estándar). El valor debe ser lo más próximo a cero posible. La estadística mide el sesgo del modelo en una escala estandarizada para que sea comparable entre datasets con diferentes valores y unidades.
    • Error estandarizado medio
  • Error estándar promedio: el promedio cuadrático (cuadrático medio) de los errores estándar. Esta estadística mide la precisión del modelo, una tendencia a producir distribuciones predictivas estrechas muy centradas alrededor del valor predicho. El valor debe ser lo más pequeño posible, pero también aproximadamente igual al error cuadrático medio.
    • Error estándar promedio
    • El promedio se realiza en las varianzas de la validación cruzada (errores estándar al cuadrado) porque las varianzas son aditivas, pero los errores estándar no lo son.
  • Error cuadrático medio estandarizado: el valor cuadrático medio de los errores estandarizados. Esta estadística mide la precisión de los errores estándar comparando la variabilidad de los errores de validación cruzada con los errores estándar estimados. El valor debe ser lo más próximo a uno posible. Los valores menores que uno indican que los errores estándar estimados son demasiado grandes y los valores mayores que uno indican que son demasiado pequeños. El valor se puede interpretar como una relación inversa; por ejemplo, un valor de tres significa que los errores estándar son un tercio de los valores que deben ser, en promedio. Del mismo modo, un valor de 0,5 significa que los errores estándar son el doble que los valores que deben ser.
    • Error cuadrático medio estandarizado

Además, para los modelos de la familia de kriging bayesiano empírico, también están disponibles las siguientes estadísticas de resumen de validación cruzada:

  • Average CRPS: el promedio de los valores de puntuación de probabilidad continua clasificada (CRPS). El valor debe ser lo más pequeño posible. Para que un modelo tenga un valor CRPS medio bajo, las predicciones y los errores estándar se deben estimar con precisión.
  • Inside 90 Percent Interval: el porcentaje de valores medidos que se encuentran en un intervalo de predicción del 90 por ciento. El valor debe ser próximo a 90. Esta estadística mide si los errores estándar son coherentes con los valores predichos. Los valores superiores a 90 indican que los errores estándar son demasiado grandes en relación con los valores predichos. Los valores inferiores a 90 indican que los errores estándar son demasiado pequeños.
  • Inside 95 Percent Interval: el porcentaje de valores medidos que se encuentran en un intervalo de predicción del 95 por ciento. El valor debe ser próximo a 95. Esta estadística mide si los errores estándar son coherentes con los valores predichos.

Nota:

Los métodos de interpolación que no admiten el tipo de salida del error estándar de la predicción solo pueden calcular el error medio y las estadísticas del error cuadrático medio.

Comparación del modelo de interpolación

La validación cruzada se puede utilizar para evaluar la calidad de un único modelo de estadísticas geográficas, pero otra aplicación común es comparar dos o más modelos candidatos para determinar cuál utilizará en su análisis. Si el número de modelos candidatos es pequeño, puede explorarlos mediante varios cuadros de diálogo de validación cruzada. Alinear los cuadros de diálogo en paralelo le permite ver todos los resultados al mismo tiempo y profundizar en los detalles de cada modelo.

Sin embargo, para un gran número de modelos candidatos o cuando se automatiza la creación de modelos, la herramienta Comparar capas de estadísticas geográficas se puede usar para comparar y clasificar automáticamente los modelos mediante criterios personalizables. Puede clasificar los modelos en función de un único criterio (como el error cuadrático medio más bajo o el error medio más cercano a cero), las clasificaciones medias ponderadas de varios criterios o la ordenación jerárquica de varios criterios (donde los empates por cada criterio se rompen con los criterios posteriores de la jerarquía). También se pueden usar criterios de exclusión se pueden usar para excluir los resultados de interpolación de la comparación que no cumplen con los estándares de calidad mínimos. La herramienta Interpolación exploratoria también realiza estas mismas comparaciones de validación cruzada, pero genera las capas de estadísticas geográficas automáticamente desde un dataset y un campo. Esta herramienta se puede utilizar para determinar rápidamente qué métodos de interpolación funcionan mejor para sus datos sin tener que realizar cada uno de ellos individualmente.

Gráficos de validación cruzada

El cuadro de diálogo emergente de validación cruzada ofrece varios gráficos para visualizar y explorar las estadísticas de validación cruzada de forma interactiva. La sección del gráfico del cuadro de diálogo contiene cinco pestañas principales, cada una con un gráfico diferente.

La pestaña Predicho muestra los valores predichos frente a los valores medidos en un gráfico de dispersión con una línea de regresión azul que se ajusta a los datos. Dado que los valores predichos deben ser iguales a los valores medidos, se proporciona una línea de referencia para ver la precisión con la que se sitúa la línea de regresión respecto a esta ideal. Sin embargo, en la práctica, la línea de regresión suele tener una pendiente más pronunciada que la línea de referencia porque los modelos de interpolación (especialmente kriging) tienden a suavizar los valores de datos, predicciones escasas de valores grandes y predicciones excesivas de valores pequeños.

Nota:

El valor de la función Regresión que aparece debajo del diagrama se calcula mediante un procedimiento de regresión robusto. Este procedimiento se ajusta primero a una línea de regresión lineal estándar al gráfico de dispersión. A continuación, se eliminan los puntos que estén más de dos desviaciones estándar por encima o por debajo de la línea de regresión y se calcula una nueva ecuación de regresión. Este procedimiento garantiza que un número pequeño de valores atípicos no sesgará las estimaciones de la pendiente e intercepción. Todos los puntos se muestran en el gráfico de dispersión, incluso si no se utilizan para estimar la función de regresión.

Predichos frente a medidos

Las pestañas Error y Error estandarizado son similares a la pestaña Predicho, pero representan los errores de validación cruzada y los errores estandarizados frente a los valores medidos. En estos diagramas, la línea de regresión debe ser plana y los puntos no deben mostrar patrones. Sin embargo, en la práctica, las pendientes suelen ser negativas debido al suavizado.

La pestaña Diagrama cuantil-cuantil normal muestra un gráfico de dispersión de los errores estandarizados frente al cuantil equivalente de una distribución normal estándar. Si los errores de validación cruzada se distribuyen normalmente y los errores estándar se calculan con precisión, todos los puntos del diagrama deberían estar cerca de la línea de referencia. Revisar este diagrama es más importante cuando se utilizan los tipos de salida de cuantiles o de probabilidad, ya que requieren errores distribuidos normalmente.

Diagrama cuantil-cuantil normal

La pestaña Distribución muestra las distribuciones de las estadísticas de validación cruzada (estimada mediante la densidad kernel). Utilice el menú desplegable Campo para cambiar la estadística mostrada. Una opción especialmente útil (se muestra en la siguiente imagen) es superponer las distribuciones de los valores medidos y predichos en el mismo gráfico para ver lo cerca que se alinean. Estas dos distribuciones deberían ser tan similares como sea posible; sin embargo, la distribución predicha generalmente será más alta y más estrecha que la distribución medida debido al suavizado.

Distribuciones medidas y predichas

Interpretación de estadísticas de validación cruzada en contexto

Una concepción errónea común sobre la validación cruzada y otros procedimientos de validación del modelo es que están pensados para determinar si el modelo es correcto para los datos. En realidad, los modelos nunca son correctos para los datos recopilados del mundo real, pero no necesitan ser correctos para proporcionar información ejecutable para la toma de decisiones. Este concepto se resume en la célebre cita de George Box (1978): "Todos los modelos son incorrectos, pero algunos son útiles". Piense en las estadísticas de validación cruzada como los medios para cuantificar la utilidad de un modelo, no como una lista de comprobación para determinar si un modelo es correcto. Con las numerosas estadísticas disponibles (valores individuales, estadísticas de resumen y gráficos), es posible observar con atención para buscar problemas y desviaciones de valores y patrones ideales. Los modelos nunca son perfectos porque nunca representan los datos a la perfección.

Al revisar los resultados de la validación cruzada, es importante recordar los objetivos y expectativas de su análisis. Por ejemplo, supongamos que está interpolando la temperatura en grados centígrados para hacer recomendaciones de salud pública durante una ola de calor. En este escenario, ¿cómo debe interpretar un valor de error medio de 0,1? Literalmente, significa que el modelo tiene un sesgo positivo y tiende a predecir en exceso valores de temperatura. Sin embargo, el sesgo promedio es solo una décima parte de un grado, lo cual probablemente no es lo suficientemente grande como para ser relevante para la política de salud pública. Por otra parte, un valor de error cuadrático medio de 10 grados significa que, en promedio, los valores predichos se desviaron 10 grados de las temperaturas reales. Este modelo podría ser demasiado inexacto como para ser útil porque las diferencias de 10 grados requerirían recomendaciones de salud pública muy distintas.

Otra consideración importante es si pretende crear intervalos de confianza o márgenes de error para los valores predichos. Por ejemplo, predecir un valor de temperatura de 28 grados, más o menos dos grados. Si no pretende crear márgenes de error, las estadísticas relacionadas con el error estándar son menos importantes porque su propósito principal es determinar la precisión de los márgenes de error. Si bien los problemas con precisión de error estándar pueden provocar problemas para los valores predichos en algunos casos, es habitual que los modelos de interpolación predigan con precisión, pero estimen los márgenes de error de forma incorrecta.

Los modelos de interpolación tienen la mayor dificultad a la hora de modelar valores extremos, los valores más grandes y más pequeños de un dataset. Los modelos de interpolación realizan predicciones mediante promedios ponderados de valores medidos en la vecindad de la ubicación de predicción. Al calcular el promedio de valores de datos, las predicciones se extraen hacia el valor promedio de los puntos vecinos, un fenómeno denominado suavizado. A diversos grados, el suavizado está presente en casi todos los modelos de interpolación y se puede ver en las pendientes de los distintos gráficos de validación cruzada. Debe intentar minimizar el suavizado, pero en la práctica, conviene sospechar de las predicciones en áreas cercanas a los valores de datos más grandes y más pequeños.

Por último, sus expectativas para los resultados de la validación cruzada deberían depender de la calidad y el volumen de los datos. Si hay pocos puntos o distancias grandes entre los puntos, debería esperar que las estadísticas de validación cruzada reflejen la información limitada disponible en los puntos. Incluso con un modelo configurado correctamente, los errores de validación cruzada seguirán siendo grandes si no hay suficiente información disponible en el dataset para realizar predicciones precisas. De forma similar, con grandes cantidades de datos informativos y representativos, incluso los modelos mal configurados con parámetros imprecisos pueden seguir produciendo predicciones precisas y fiables.

Temas relacionados