Cómo funciona Evaluar predicciones con validación cruzada

La herramienta Evaluar predicciones con validación cruzada realiza una validación cruzada de K iteraciones para evaluar la capacidad de un modelo para predecir datos no vistos a través de múltiples validaciones. La herramienta divide el dataset de entrada en grupos, reserva un único grupo como conjunto de prueba, entrena un modelo utilizando los grupos restantes y calcula métricas de evaluación para evaluar la capacidad del modelo para predecir los valores del grupo reservado. A continuación, repite este proceso con cada grupo. Los grupos se pueden seleccionar aleatoriamente (k iteraciones aleatorios) o agrupar espacialmente (k iteraciones espaciales) cuando se desea comprender la capacidad de predicción del modelo sobre datos desconocidos en nuevas regiones geoespaciales. La herramienta también tiene opciones de equilibrio de datos, que pueden ser útiles a la hora de clasificar eventos poco frecuentes. Esta herramienta se utiliza junto con herramientas predictivas, como la Clasificación y regresión basadas en bosques y aumentadas, la Regresión lineal generalizada y la Predicción de presencia única (Max-Ent). Proporciona un método de validación superior para evaluar el rendimiento de un modelo que los que se ofrecen en las herramientas predictivas.

Validación cruzada de K iteraciones

La herramienta Evaluar predicciones con validación cruzada evalúa la capacidad de un modelo para predecir datos no vistos a través de múltiples validaciones. En la validación de K iteraciones, las entidades del resultado del análisis de entrada se dividen primero en un número (k) de grupos (iteraciones) del mismo tamaño o similar. En una ejecución de validación, se reserva un único grupo como conjunto de prueba, mientras que el modelo se entrena con los grupos restantes. A continuación, el modelo se utiliza para predecir el conjunto de pruebas y se generan métricas estadísticas para evaluar el rendimiento del modelo. A continuación, la herramienta utiliza iterativamente cada grupo como conjunto de prueba y realiza una ejecución de validación.

La validación cruzada de K iteraciones repite el proceso de validación varias veces y crea una evaluación más completa del rendimiento del modelo con diferentes conjuntos de prueba. Si bien la validación simple con una única división de entrenamiento-prueba puede ser sencilla y útil, la validación cruzada de K iteraciones es más informativa. Las herramientas predictivas, como la Clasificación y regresión basadas en bosques y la Regresión lineal generalizada, ofrecen un paso de validación; sin embargo, la validación cruzada de K iteraciones es superior porque divide repetidamente los datos en diferentes conjuntos de entrenamiento y prueba. Esto proporciona una estimación más fiable del rendimiento del modelo en la predicción de nuevos datos y ayuda a evitar el posible sobreajuste durante el entrenamiento.

Agrupar entidades

La validación cruzada de K iteraciones divide las entidades del análisis en grupos. El parámetro Número de grupos controla el número de grupos (K) que se crean. El valor del parámetro puede oscilar entre 2 y el número de entidades del dataset. El parámetro Tipo de evaluación determina si las entidades de un grupo se seleccionan aleatoriamente o se agrupan espacialmente. Cuando se trabaja con variables categóricas, es posible que no todos los niveles categóricos estén representados por igual. Algunas categorías pueden ser poco frecuentes, mientras que otras son frecuentes.

K iteraciones aleatorias

La validación cruzada de K iteraciones aleatoria divide aleatoriamente las entidades del resultado del análisis en k grupos. Cada grupo contiene el mismo número de entidades o un número similar.

K iteraciones espaciales

K iteraciones espaciales garantiza que cada grupo de entrenamiento y cada grupo de prueba estén separados espacialmente entre sí. Los grupos espaciales se crean utilizando el agrupamiento de K-Means. Toma las coordenadas de cada entidad y crea k grupos que están divididos espacialmente. Sin es posible que estos grupos no tengan el mismo número de entidades en cada uno de los conjuntos de validación. La validación espacial de K iteraciones es útil para comprender la capacidad de predicción del modelo sobre datos desconocidos en nuevas regiones geoespaciales.

Validación cruzada "dejar un elemento fuera"

Si el número de grupos se corresponde con el número de entidades de entrada, se realiza una validación cruzada "dejar uno fuera" (LOOCV por su sigla en inglés), por ejemplo, si un análisis de Regresión lineal generalizada con 100 entidades es la Entidad del resultado del análisis y el parámetro Número de grupos se establece en 100. el modelo se entrenará con 99 entidades y, a continuación, se predecirá y evaluará con la entidad restante. Este proceso se repite 100 veces. La ventaja de la LOOCV es que proporciona una medida robusta e imparcial de métricas de error como MSE, RMSE y MAPE. Sin embargo, no debe utilizarse para evaluar métricas globales como R2, ya que estas no pueden calcularse con un tamaño de muestra de 1 y no es una métrica fiable para datasets muy pequeños.

Evaluación de los resultados espaciales k iteraciones

Las métricas de evaluación para la validación cruzada espacial se ven influidas por el número de grupos seleccionados. Cuanto menor sea el tamaño del clúster espacialmente contiguo utilizado como conjunto de validación, más se acercarán las métricas de evaluación a las de la validación cruzada "dejar un elemento fuera". Es probable que un conjunto de validación espacialmente contiguo más pequeño tenga menos extrapolación espacial, ya que tiene vecinos más cercanos en el conjunto de entrenamiento. Por otro lado, las métricas de validación cruzada aleatoria tienden a permanecer estables y similares o iguales a las métricas de validación cruzada "dejar un elemento fuera", independientemente del número de grupos seleccionados. Por lo tanto, el número de grupos seleccionados para la validación cruzada espacial es un parámetro crucial que se debe tener en cuenta. Por ejemplo, si entrena su modelo con datos de condados de 49 de los 50 estados de Estados Unidos y su objetivo es hacer predicciones en el estado número 50, un número adecuado de grupos podría ser 49. Este enfoque garantiza que cada iteración represente un estado hipotético, lo que permite que las métricas finales reflejen con precisión el rendimiento del modelo al hacer predicciones en un nuevo estado.

Comparación de tipos de evaluación

En general, las métricas de validación cruzada espacial tienden a arrojar resultados de evaluación más pobres en comparación con la validación cruzada aleatoria. Por ejemplo, mientras que la validación cruzada aleatoria puede alcanzar una precisión media del 90 % en todas las iteraciones, la validación cruzada espacial podría mostrar una precisión media inferior, en torno al 70 %. Esta discrepancia es previsible, ya que la validación cruzada aleatoria se beneficia de la autocorrelación espacial. En los conjuntos de validación aleatoria, las entidades suelen tener vecinos espaciales que se parecen mucho a ellas en el conjunto de entrenamiento correspondiente, sobre todo cuando la autocorrelación es alta. Por el contrario, los subconjuntos de validación espacial carecen de esta ventaja, lo que da lugar a un cierto grado de extrapolación espacial. En este caso, las predicciones se realizan en una nueva zona espacial en la que el modelo no ha sido entrenado. El uso de la validación cruzada aleatoria para evaluar un modelo no mejora el modelo subyacente, aunque las métricas parezcan mejores. Más bien se está sobreestimando el rendimiento del modelo en un escenario real en el que se utilizan nuevas regiones.

Revisión de los resultados de la validación cruzada

Una concepción errónea común sobre la validación cruzada y otros procedimientos de validación del modelo es que están pensados para determinar si el modelo es correcto para los datos. Los modelos nunca son correctos para los datos recopilados del mundo real, pero no necesitan ser correctos para proporcionar información ejecutable para la toma de decisiones. Las estadísticas de validación cruzada son los medios para cuantificar la utilidad de un modelo, no como una lista de comprobación para determinar si un modelo es correcto. Con las numerosas estadísticas disponibles (valores individuales, estadísticas de resumen y gráficos), es posible observar con atención y buscar problemas y desviaciones de valores y patrones ideales. Los modelos nunca son perfectos porque nunca representan los datos a la perfección.

Al revisar los resultados de la validación cruzada, es importante recordar los objetivos y expectativas de su análisis. Por ejemplo, supongamos que está prediciendo la temperatura en grados centígrados para hacer recomendaciones de salud pública durante una ola de calor. En este escenario, ¿cómo debe interpretar un valor de error medio de 0,1? Literalmente, significa que el modelo tiene un sesgo positivo y tiende a predecir en exceso valores de temperatura. Sin embargo, el sesgo promedio es solo una décima parte de un grado, lo cual probablemente no es lo suficientemente grande como para ser relevante para la política de salud pública. Por otra parte, un valor de error cuadrático medio de 10 grados significa que, en promedio, los valores predichos se desviaron 10 grados de las temperaturas reales. Este modelo podría ser demasiado inexacto como para ser útil porque las diferencias de 10 grados requerirían recomendaciones de salud pública muy distintas.

Salidas

La herramienta generará mensajes de geoprocesamiento y dos resultados: una clase de entidad y una tabla. La clase de entidad registra el dataset de entrenamiento y los resultados de entrenamiento y predicción de cada entidad del dataset de entrenamiento. La tabla registra las métricas de evaluación de cada ejecución de validación. La herramienta también crea muchos mensajes de geoprocesamiento útiles, incluida la tabla de estadísticas de diagnóstico medias fuera de la muestra.

Mensajes de geoprocesamiento

Puede acceder a los mensajes desplazándose sobre la barra de progreso, haciendo clic en el botón emergente o expandiendo la sección de mensajes en el panel Geoprocesamiento. También puede acceder a los mensajes de una herramienta ejecutada anteriormente a través del historial de geoprocesamiento. Los mensajes incluyen una tabla de estadísticas de diagnóstico medias fuera de la muestra.

Tabla de Estadísticas de diagnóstico medias fuera de la muestra

Los diagnósticos de análisis se proporcionan en la tabla Estadísticas de diagnóstico medias fuera de la muestra.

La tabla Estadísticas de diagnóstico medias fuera de la muestra contiene los siguientes diagnósticos:

  • R cuadrado: R cuadrado es una medida de la bondad de ajuste. Es la proporción de varianza de la variable dependiente que da cuenta del modelo de regresión. El valor varía de 0,0 a 1,0 y un valor más alto denota un modelo mejor. A diferencia del valor R cuadrado para los datos de entrenamiento, el R cuadrado fuera de la muestra puede disminuir cuando se incluyen variables explicativas adicionales, por lo que puede ser eficaz para determinar si la inclusión de nuevas variables explicativas es eficaz. R cuadrado no se calculará cuando los grupos contengan menos de tres entidades.
  • R cuadrado ajustado: el R cuadrado ajustado es similar al R cuadrado, pero agrega una penalización por incluir variables explicativas adicionales con el fin de dar cierta preferencia a los modelos con menos variables explicativas. Los cálculos del valor R cuadrado ajustado normalizan el numerador y el denominador por sus grados de libertad. Al realizar este ajuste, pierde la interpretación del valor como una proporción de la varianza explicada. Esta métrica solo se calcula para modelos de regresión lineal generalizada. R cuadrado ajustado no se calculará cuando los grupos contengan menos de tres entidades.
  • Error cuadrático medio (RMSE): el RMSE es la raíz cuadrada del error cuadrático medio (MSE), que es la raíz cuadrada de la diferencia cuadrática media entre los valores reales y los valores predichos. Al igual que el MAE (error absoluto medio), el RMSE representa el error medio de predicción del modelo en las unidades de la variable de interés; sin embargo, el RMSE es más sensible a los errores grandes y a los valores atípicos. Esta estadística suele utilizarse para medir la precisión de las predicciones. RMSE está en las unidades de la variable de interés, por lo que no puede compararse entre distintos modelos.
  • Error absoluto medio (MAE): MAE es la media de la diferencia absoluta entre los valores reales y los valores previstos del parámetro Variable de interés. Un valor de 0 significa que el modelo predijo correctamente todos los valores observados. MAE está en las unidades de la variable de interés, por lo que no puede compararse entre distintos modelos.
  • Error porcentual absoluto medio (MAPE): el MAPE es similar al MAE en que representa la diferencia entre los valores originales y los valores previstos. Sin embargo, mientras que el MAE representa la diferencia en las unidades originales, el MAPE representa la diferencia en porcentaje. El MAPE es un error relativo, por lo que es un mejor diagnóstico a la hora de comparar diferentes modelos. Debido a cómo se calcula el MAPE, no se puede utilizar si alguno de los valores originales es 0. Si los valores originales son cercanos a 0, el MAPE tenderá a infinito y aparecerá como nulo en la tabla. Otra limitación del MAPE es que depende de la escala. Por ejemplo, si hay dos casos en los que la diferencia entre los valores reales y los valores predichos es la misma, el caso en el que el valor real sea menor contribuirá más al MAPE.

Salidas adicionales

Esta herramienta también genera una tabla y una clase de entidad de salida.

Tabla de salida

La tabla de validación de salida contiene los mismos diagnósticos incluidos en los mensajes de geoprocesamiento: R cuadrado ajustado, R cuadrado, error cuadrático medio (RMSE), error porcentual absoluto medio (MAPE) y error absoluto medio (MAE). La tabla muestra las estadísticas para cada uno de las K iteraciones.

Entidades de salida

Los campos de los elementos de salida incluyen: las variables explicativas de entrenamiento utilizadas en el modelo, la variable a predecir, el valor medio previsto de entrenamiento, el residuo medio de entrenamiento, el valor previsto fuera de la muestra y el residuo fuera de la muestra. Puede utilizar el valor medio previsto de entrenamiento, el residuo medio de entrenamiento, el valor previsto fuera de la muestra y el residuo fuera de la muestra para evaluar la precisión con la que se ha previsto el valor del campo.

Prácticas recomendadas y limitaciones

A continuación, se mencionan las prácticas recomendadas y las limitaciones al utilizar esta herramienta:

  • Utilice esta herramienta durante el ajuste de parámetros y la optimización del modelo. Por ejemplo, puede especificar la configuración de los parámetros en la herramienta Clasificación y regresión basada en bosques y aumentadas y evaluar el modelo entrenado introduciendo el dataset de entrenamiento de salida en la herramienta Evaluar predicciones con validación cruzada. Con el resultado de la validación cruzada, puede volver a la herramienta Clasificación y regresión basada en bosques y aumentadas para ajustar determinados parámetros. Estos dos pasos se pueden repetir hasta encontrar las métricas de validación cruzada adecuadas para su modelo. Puede preparar el modelo final utilizando el dataset de entrenamiento completo o el dataset equilibrado y, a continuación, realizar predicciones para datos nuevos y desconocidos.
  • Considere qué métrica de evaluación es más importante para su caso de uso específico. Considere lo siguiente:
    • Para la clasificación: si está prediciendo un evento poco frecuente que es muy importante, puede optimizar la sensibilidad de esa categoría. Si tiene muchas categorías y desea el modelo que mejor predice en todas ellas, es posible que desee considerar las métricas MCC o F1 global. La precisión no siempre es la mejor métrica, sobre todo cuando hay categorías poco frecuentes involucradas. Por ejemplo, si el 99 % de sus datos pertenecen a la categoría A y el 1 % a la categoría B, un modelo que prediga todas las entidades como categoría A tendría una precisión del 99 %, pero tendría una sensibilidad del 0 % para la categoría B.
    • Para la regresión: si le interesa el ajuste general del modelo a los datos, es posible que desee optimizar el R cuadrado. Si le preocupan los errores individuales del modelo, es posible que desee optimizar el MAPE o el MAE. Si le preocupan los errores individuales y minimizar los errores extremos, es posible que desee optimizar en función del RMSE.
  • Los hiperparámetros que producen métricas óptimas a partir de una división aleatoria pueden no ser los mismos que proporcionan las mejores métricas para una división espacial. Si su objetivo es hacer predicciones para una nueva área espacial, evalúe utilizando divisiones espaciales. Experimente con varios modelos y selecciones de parámetros e introduzca cada uno de ellos en la herramienta para determinar qué combinación da como resultado las mejores métricas medias con validación cruzada espacial.
  • El R cuadrado y el R cuadrado ajustado no se calcularán cuando los datasets de validación sean menos de tres. Esto significa que no se calcularán si el número de grupos es superior a un tercio del número de entidades.
  • El coeficiente de correlación de Matthews no se puede calcular si todos los resultados previstos tienen el mismo valor.
  • El equilibrio de datos puede ayudar a mejorar la precisión del modelo al clasificar casos poco frecuentes.

Temas relacionados