Cómo funcionan la clasificación y regresión basadas en bosques y aumentadas

La herramienta Clasificación y regresión basadas en bosques y aumentadas entrena un modelo basado en valores conocidos proporcionados como parte de un dataset de entrenamiento. El modelo puede utilizarse a continuación para predecir valores desconocidos de un dataset que tenga las mismas variables explicativas. Esta herramienta crea modelos y genera predicciones utilizando uno de los dos métodos de aprendizaje automático supervisado: una adaptación del algoritmo de bosque aleatorio, desarrollado por Leo Breiman y Adele Cutler, y XGBoost, un popular método de boosting desarrollado por Tianqi Chen y Carlos Guestrin.

El modelo basado en bosques crea numerosos árboles de decisión independientes, denominados colectivamente como conjunto o bosque. Cada árbol de decisión se crea a partir de un subconjunto aleatorio de los datos de entrenamiento y las variables explicativas. Cada árbol genera su propia predicción y se utiliza como parte de un esquema de agregación para realizar las predicciones finales. Las predicciones finales no se basan en un solo árbol, sino en todo el bosque. Este planteamiento ayuda a evitar el exceso de ajuste del modelo al dataset de entrenamiento.

El modelo de incremento de gradiente crea una serie de árboles de decisión secuenciales. Cada árbol de decisión posterior se construye para minimizar el error (sesgo) del árbol de decisión anterior, por lo que el modelo con incremento de gradiente combina varios aprendices débiles para convertirse en un modelo de predicción fuerte. El modelo con incremento de gradiente incorpora regularización y parada temprana, lo que puede evitar el exceso de ajuste del modelo al dataset de entrenamiento.

Ambos tipos de modelos pueden construirse para predecir una variable de categorías (clasificación binaria y clasificación multiclase) o una variable continua (regresión). Si la variable a predecir es de categorías, el modelo que se construye se basa en árboles de clasificación; si es continua, el modelo que se construye se basa en árboles de regresión.

Potenciales aplicaciones

A continuación se describen aplicaciones potenciales para esta herramienta:

  • Considerando los datos sobre la presencia de posidonia, varias variables explicativas representadas como atributos y rásteres y las distancias hasta fábricas aguas arriba y puertos importantes, es posible predecir la presencia futura de posidonia basándose en proyecciones futuras de esas mismas variables explicativas medioambientales.
  • Suponga que dispone de datos sobre el rendimiento de los cultivos en cientos de explotaciones agrícolas de todo el país, datos sobre las características de cada explotación, como el número de empleados y la superficie en acres, y varios rásteres que representan la pendiente, la elevación, las precipitaciones y la temperatura de cada explotación. Utilizando estos datos, puede crear un modelo que prediga el rendimiento de los cultivos. Si a continuación proporciona al modelo un conjunto de entidades que representen explotaciones con todas las mismas variables explicativas, podrá hacer una predicción sobre el rendimiento de los cultivos en cada explotación.
  • Es posible predecir el valor de la vivienda en función de los precios de las viviendas vendidas en el año en curso. Puede utilizar el precio de venta de las viviendas vendidas, así como información sobre el número de habitaciones, la distancia hasta las escuelas, la proximidad a carreteras importantes, el nivel medio de ingresos y los recuentos de delitos, para predecir los precios de venta de viviendas similares.
  • Los tipos de uso del suelo pueden clasificarse utilizando datos de entrenamiento, una combinación de capas ráster, incluidas varias bandas individuales, y productos como el NDVI.
  • A partir de información sobre los niveles de plomo en sangre de los niños y el Id. de la parcela fiscal de sus viviendas, atributos a nivel de parcela como la antigüedad de la vivienda, datos del censo como niveles de ingresos y educativos, y datasets nacionales que reflejan las emisiones tóxicas de plomo y sus compuestos, es posible predecir el riesgo de exposición al plomo de las parcelas de las cuales se carece de datos sobre los niveles de plomo en sangre. Estas predicciones de riesgos podrían fomentar las políticas y los programas de educación en el área.

Entrenar un modelo

El primer paso para utilizar la herramienta Clasificación y regresión basadas en bosques y aumentadas es entrenar un modelo para la predicción. El entrenamiento genera un bosque o una secuencia de árboles que establece una relación entre las variables explicativas y el parámetro Variable para predecir. Si elige la opción Solo entrenar, Predecir a entidades o Predecir a ráster, la herramienta comienza por construir un modelo basado en el parámetro Variable para predecir y cualquier combinación de los parámetros Variables de entrenamiento explicativas, Entidades de distancia de entrenamiento explicativas y Rásteres de entrenamiento explicativos (disponibles con una licencia de la extensión Spatial Analyst).

Variables de entrenamiento explicativas

Una fuente habitual de variables explicativas con las que entrenar el modelo son los otros campos del dataset de entrenamiento que contiene el parámetro Variable para predecir. Independientemente de si elige predecir una variable continua o de categorías, cada campo de los valores de Variables de entrenamiento explicativas puede ser continuo o de categorías. Si el modelo entrenado también se va a utilizar para hacer predicciones, cada uno de los valores de Variables de entrenamiento explicativas proporcionado debe estar disponible para el dataset de entrenamiento y el dataset de predicción.

Entidades de distancia de entrenamiento explicativas

Aunque Clasificación y regresión basadas en bosques y aumentadas no es una herramienta de aprendizaje automático espacial, una forma de aprovechar el poder del espacio en su análisis es utilizar características de distancia. Por ejemplo, si está modelando el rendimiento de una serie de tiendas, sería imprescindible contar con una variable que represente la distancia hasta carreteras por rampas o la distancia hasta el competidor más cercano para generar predicciones precisas. Del mismo modo, si deseara modelar la calidad del aire, sería imprescindible contar con una variable explicativa que representara la distancia hasta orígenes de contaminación importantes o la distancia hasta carreteras importantes. Se usan entidades de distancia para crear automáticamente variables explicativas calculando una distancia desde las entidades proporcionadas al valor Entidades de entrenamiento de entrada. Se calcularán las distancias desde cada entidad del valor de Entidades de entrenamiento de entrada hasta la entidad más cercana del valor Entidades de distancia de entrenamiento explicativas de entrada. Si el valor de Entidades de distancia de entrenamiento explicativas de entrada contiene polígonos o líneas, los atributos de distancia se calculan como la distancia entre los segmentos más cercanos del par de entidades. Sin embargo, las distancias se calculan de forma diferente para los polígonos y las líneas. Consulte Cómo calculan la distancia las herramientas de proximidad para obtener más detalles.

Rásteres de entrenamiento explicativos

Los valores de Rásteres de entrenamiento explicativosráster también pueden utilizarse para entrenar el modelo. De esta forma, es posible utilizar imágenes, DEM, modelos de densidad de población, mediciones medioambientales y otras muchas fuentes de datos. Independientemente de si elige predecir una variable continua o de categorías, cada uno de los valores de Rásteres de entrenamiento explicativos puede ser continuo o de categorías. El parámetro Rásteres de entrenamiento explicativos solo está disponible si dispone de una licencia de Spatial Analyst.

Si las entidades del valor Entidades de entrenamiento de entrada son puntos y ha especificado un valor de Rásteres de entrenamiento explicativos, la herramienta profundiza para extraer variables explicativas de cada ubicación de punto. En el caso de los rásteres multibanda, solo se usa la primera banda. Para los datasets de mosaico, utilice primero la herramienta Crear capa de mosaico. Si su valor de Entidades de entrenamiento de entrada contiene polígonos, el valor de Variable para predecir es de categorías y ha especificado valores de Rásteres de entrenamiento explicativos, el parámetro Convertir polígonos a resolución ráster para entrenamiento estará habilitado y activo. Si esta opción está activada, cada polígono se divide en puntos en el centroide de cada celda ráster cuyo centroide quede dentro del polígono, y los polígonos se tratan como un dataset de puntos. A continuación, se extraen los valores de ráster de cada ubicación de punto, que se utilizan para entrenar el modelo. El modelo ya no se entrena en el polígono; en su lugar, el modelo se entrena en los valores de ráster extraídos para cada centroide de celda. En el caso de las variables numéricas se utiliza un método de muestreo bilineal, mientras que en las variables de categorías se usa el método de mayor cercanía. El tamaño de celda predeterminado de los polígonos convertidos será el tamaño de celda máximo de los rásteres de entrada. Puede cambiar este tamaño usando la configuración de entorno Tamaño de celda. ççSi el parámetro Convertir polígonos a resolución ráster para entrenamiento no está marcado, se utilizará en el modelado un valor ráster por cada polígono. Se asigna a cada polígono el valor medio en el caso de los rásteres continuos y la mayoría en el caso de los rásteres de categorías.

Los polígonos se convierten a la resolución de ráster (primera imagen) o se les asigna un valor medio (segunda imagen).

Predecir mediante un modelo

Se recomienda comenzar por la opción Solo entrenar, evaluar los resultados del análisis, ajustar las variables incluidas y los parámetros avanzados según sea necesario y, una vez encontrado un buen modelo, volver a ejecutar la herramienta para predecir entidades o rásteres. Puede utilizar la herramienta para ayudarle a encontrar el mejor modelo. Marque la casilla de verificación Optimizar parámetro y seleccione una opción para el parámetro Modelo de optimización.

Más información sobre la optimización de parámetros

Cuando vaya a pasar a la predicción, se recomienda cambiar el parámetro Datos de entrenamiento excluidos para la validación (%) al 0 % para que pueda incluir todos los datos de entrenamiento disponibles en el modelo final utilizado para hacer predicciones. Puede hacer predicciones de las siguientes formas:

  • Predecir en la misma área de estudio

    • Si predice a entidades de la misma área de estudio, cada entidad de predicción debe incluir todas las variables explicativas (campos) asociadas. La extensión de las entidades debe superponerse a la de los valores de Entidades de distancia de entrenamiento explicativas y Rásteres de entrenamiento explicativos.

    • Si predice para un ráster de la misma área de estudio con el valor de Rásteres de entrenamiento explicativos proporcionado, la extensión del ráster de predicción será la extensión superpuesta de todos los rásteres explicativos.

  • Predecir a un área de estudio diferente

    • Si predice a entidades de otra área de estudio, cada entidad de predicción debe incluir todas las variables explicativas (campos) asociadas, las entidades de distancia explicativas y los rásteres explicativos. Estas nuevas entidades de distancia y rásteres deben estar disponibles para la nueva área de estudio y corresponderse con los valores de Entidades de distancia de entrenamiento explicativas y Rásteres de entrenamiento explicativos.

    • Si predice a un ráster en otra área de estudio, es necesario proporcionar rásteres de predicción explicativos nuevos y asignarlos a su correspondiente valor de Rásteres de entrenamiento explicativos. La extensión del valor de Ráster de predicción de salida resultante será la extensión superpuesta de todos los rásteres explicativos de predicción proporcionados.

  • Predecir a otro periodo de tiempo mediante la asignación de las variables explicativas utilizadas en el entrenamiento de variables con proyecciones futuras

    • Si predice a un periodo de tiempo futuro, ya sean entidades o un ráster, cada variable explicativa de predicción proyectada (campos, entidades de distancia y rásteres) debe estar asignada a las correspondientes variables explicativas de entrenamiento.

La herramienta de Clasificación y regresión basadas en bosques y aumentadas no extrapola, por lo que los campos de variables explicativas correspondientes, las características de distancia y las entidades ráster explicativas en el valor de Entidades de predicción de entrada no pueden tener un rango de valores o categorías drásticamente diferentes de los utilizados para modelar el modelo.

Predecir a entidades

Un modelo entrenado con cualquier combinación de valores de los parámetros Variables de entrenamiento explicativas, Entidades de distancia de entrenamiento explicativas y Rásteres de entrenamiento explicativos se puede usar para predecir a puntos o polígonos en la misma área de estudio o en una diferente. Para hacer predicciones a entidades se necesita que toda entidad que reciba una predicción tenga un valor para cada campo, entidad de distancia y ráster empleados para entrenar el modelo.

Si los nombres de los campos de los valores de Entidades de entrenamiento de entrada y Entidades de predicción de entrada no coinciden, se habilita y activa un parámetro Variables explicativas coincidentes. Al correlacionar las variables explicativas, el campo especificado por los valores de los parámetros Predicción y Entrenamiento debe ser del mismo tipo. Por ejemplo, un campo doble en el valor de las Entidades de entrenamiento de entrada debe coincidir con un campo doble en el valor de las Entidades de predicción de entrada. Si realiza predicciones para un área de estudio o un periodo de tiempo diferentes, puede utilizar entidades de distancia o rásteres que no se utilizaron para el entrenamiento del modelo. Se habilitará y activará un parámetro Entidades de distancia coincidentes y Rásteres explicativos coincidentes.

Predicciones a rásteres

Si utiliza un modelo entrenado solo con Rásteres de entrenamiento explicativos, puede predecir a un ráster en la misma área de estudio o en un área de estudio diferente. Si realiza predicciones para otra área de estudio u otro periodo de tiempo, puede utilizar rásteres de predicción que no se hayan utilizado para entrenar el modelo. Se habilitará y activará un parámetro Rásteres explicativos coincidentes. Puede crear un Ráster de predicción de salida con una licencia de Spatial Analyst si elige la opción Predecir a ráster como el valor del parámetro Tipo de predicción.

Evaluar un modelo

Una vez que esta herramienta crea un modelo, usted puede evaluar ese modelo. Esta herramienta crea mensajes y gráficos que le ayudarán a comprender las características del modelo y a evaluar su rendimiento.

Mensajes de geoprocesamiento

Puede acceder a los mensajes desplazándose sobre la barra de progreso, haciendo clic en el botón emergente o ampliando la sección Mensajes en el panel Geoprocesamiento. También puede acceder a los mensajes de una herramienta ejecutada anteriormente a través del historial de geoprocesamiento. Los mensajes contienen información acerca de las características del modelo, errores de fuera de bolsa (OOB), importancia de las variables, entrenamiento y diagnósticos de validación del rango de las variables explicativas.

Tabla Características del modelo

La tabla Características del modelo contiene información sobre varios aspectos importantes de su modelo de bosque o aumentado, algunas de las cuales se seleccionan mediante los parámetros del menú desplegable Opciones del Modelo avanzado y otras se basan en datos. Las características del modelo basadas en datos son importantes para comprender cuándo se debe optimizar el rendimiento del modelo. El valor de Rango de profundidad de árboles informa de la profundidad mínima y máxima del árbol encontrada en el bosque o secuencia de árboles. La profundidad máxima se fija mediante el parámetro Profundidad máxima de árbol; sin embargo, es posible cualquier profundidad inferior a la máxima. El valor Profundidad media de árbol informa sobre la profundidad media de los árboles del bosque o de la secuencia de árboles. Si el parámetro Profundidad máxima de árbol se ha establecido en 100, pero los valores Rango de profundidad de árboles y Profundidad media de árbol informan de números más pequeños, fijar una profundidad máxima del árbol menor puede mejorar el rendimiento del modelo, porque disminuye las posibilidades de exceso de ajuste del modelo a los datos de entrenamiento. El valor Número de variables muestreadas aleatoriamente comunica el número de variables seleccionadas aleatoriamente que se utilizan para cualquier árbol del modelo. Cada árbol tendrá una combinación diferente de variables, pero el mismo número de variables. De forma predeterminada, el número se basa en una combinación del número de entidades y del número de variables disponibles. En el caso de la regresión, es un tercio del número total de variables explicativas (incluidos entidades, rásteres y entidades de distancia). En el caso de la clasificación, es la raíz cuadrada del número total de variables. Si el parámetro Tipo de modelo se especifica como Basado en bosque, la tabla Características del modelo contendrá los valores Número de árboles, Tamaño de hoja, Rango de profundidad de árboles, Profundidad media del árbo, % de entrenamiento disponible por árbol, Número de variables muestreadas aleatoriamente y % de datos de formación excluidos para la validación. Si el parámetro Tipo de modelo se especifica como Incremento de gradiente, en la tabla aparecen cuatro valores adicionales: Regularización L2 (Lambda), Reducción de pérdida mínima para divisiones (Gamma), Tasa de aprendizaje (Eta) y Número máximo de bins para buscar divisiones.

Tabla Características del modelo

Tabla Errores de modelo fuera de bolsa

Si el parámetro Tipo de modelo se especifica como Basado en bosque, los mensajes de geoprocesamiento incluirán una tabla Errores de modelo fuera de bolsa. Los errores OOB le ayudan a evaluar la precisión del modelo. Tanto MSE (error cuadrático medio) como % de variación explicada se basan en la capacidad que tiene el modelo para predecir con precisión el valor de Variable para predecir, basándose en los valores observados del dataset de entrenamiento. OBB es un error de predicción calculado con los datos que forman parte del dataset de entrenamiento y que no pueden ser vistos por un subconjunto de los árboles del bosque. Si desea entrenar un modelo con el cien por cien de sus datos, confiará en OOB para evaluar la precisión del modelo. Estos errores se comunican para la mitad del número de árboles y el número total de árboles utilizados como ayuda para evaluar si un aumento del número de árboles supone un aumento del rendimiento del modelo. Si los errores y el porcentaje de variación explicada son similares para ambos números de árboles, indica que puede utilizarse un número menor de árboles sin que por ello el rendimiento del modelo se viera afectado significativamente. Sin embargo, se recomienda utilizar tantos árboles como permita su equipo. Un mayor número de árboles en el bosque generará resultados más estables y un modelo menos propenso a tener ruido en los datos y en el esquema de muestreo.

Errores OOB de una variable continua

Si la variable para predecir es de categorías (indicado por el valor del parámetro Tratar variable como variable de categorías), los errores OOB se calculan en función del porcentaje de clasificaciones incorrectas de cada categoría de árboles que no vieran un subconjunto de los árboles en el bosque. El porcentaje de clasificaciones OOB incorrectas de cada categoría se imprime en los mensajes de geoprocesamiento. El MSE de las clasificaciones también se imprime y se puede interpretar como la proporción general de clasificaciones OOB incorrectas de todas las categorías. Si el valor de Número de árboles es pequeño, es posible que una o varias categorías no se utilicen nunca para entrenar los datos. En este caso, el error OOB será de 100 %.

Errores OOB de una variable de categorías

Tabla Importancia variable superior

Otro factor que influye en el rendimiento del modelo son las variables explicativas utilizadas. La tabla Importancia variable superior enumera las variables explicativas con las 20 puntuaciones de mayor importancia. La importancia variable es un diagnóstico que ayuda a comprender las variables que determinan los resultados del modelo. Una de las prácticas recomendadas es utilizar primero todos los datos para el entrenamiento y explorar la importancia de cada variable explicativa. De esta forma, podrá utilizar la importancia de las variables para crear un modelo más sencillo (parsimonioso) que solo incluya las variables explicativas que se detecte que son significativas.

Tabla de importancia variable superior
Los valores de la columna Importancia son la suma de los coeficientes de Gini de los tres árboles de cada variable enumerada. Los valores de la columna % son el porcentaje de la suma total de los coeficientes de Gini.

Si el valor del parámetro Tipo de modelo es Basado en bosque, la importancia se calcula con coeficientes de Gini, que pueden entenderse como el número de veces que una variable es la responsable de una división y el impacto de dicha división dividido entre el número de árboles. Cada división es una decisión individual en un árbol de decisión.

Si el valor del parámetro Tipo de modelo es Incremento de gradiente, la importancia de la variable se calcula de tres formas diferentes: Importancia (ganancia), Importancia (peso) e Importancia (cobertura). El valor Importancia (ganancia) representa la contribución relativa de una variable explicativa al modelo. El valor Importancia (ganancia) se calcula sumando la ganancia de todas las divisiones en las que se utiliza una variable explicativa. El valor Importancia (peso) representa el número de veces que se utiliza una variable explicativa en todas las divisiones. El valor Importancia (cobertura) representa el número de observaciones en todos los árboles que están definidos por una variable explicativa. El valor Importancia (cobertura) no aparece en los mensajes de geoprocesamiento; sin embargo, si se especifica el parámetro Tabla importancia variable de salida, Importancia (cobertura) será un campo de la tabla y podrá mostrarse en el gráfico Resumen de importancia variable. Estas dos salidas están disponibles desde el panel Contenido. Si el valor de Número de ciclos de validación es superior a 1, la herramienta calcula el conjunto de variables de importancia para cada iteración. Los mensajes de geoprocesamiento enumeran el conjunto de variables de importancia de la iteración con el R cuadrado o la precisión que más se aproxime a la mediana del R cuadrado o de la precisión. Para consultar todos los conjuntos de importancia de las variables, especifique un valor del parámetro Tabla de importancia variable de salida.

Tabla de importancia variable superior cuando se utiliza el tipo de modelo con incremento de gradiente
Se muestra la tabla de importancia variable superior cuando el valor del parámetro Tipo de modelo es Incremento de gradiente.

Diagnóstico de datos de validación y entrenamiento

Otra forma importante de evaluar el rendimiento del modelo es utilizarlo para predecir el valor de las entidades y, a continuación, comparar esos valores predichos con los valores observados y calcular los diagnósticos. Se realiza sobre los datos de entrenamiento y los datos de prueba (validación). De forma predeterminada, esta herramienta excluye el 10 % de las entidades del valor Entidades de entrenamiento de entrada para la prueba. Sin embargo, se puede controlar utilizando el parámetro Datos de entrenamiento excluidos para la validación (%). Una desventaja de OOB es que utiliza un subconjunto del bosque (árboles que no han utilizado una entidad concreta del dataset de entrenamiento) en lugar de utilizar todo el bosque. Al excluir algunos datos para la validación, es posible evaluar métricas de error para todo el modelo. Los mensajes de geoprocesamiento informan de los diagnósticos en la tabla de diagnósticos de datos de validación y en la tabla de diagnósticos de datos de entrenamiento. Estos diagnósticos pueden ayudarle a comprender hasta qué punto el modelo se ajusta a los datos.

Cuando se predice una variable continua, el valor observado para cada una de las entidades de entrenamiento y de prueba se compara con las predicciones para esas entidades basadas en el modelo entrenado y se informa en los mensajes de geoprocesamiento de los valores R cuadrado, Error medio absoluto (MAE), Error porcentual absoluto medio (MAPE), Error porcentual absoluto medio simétrico (SMAPE), Error cuadrático medio (RMSE), Valor p y Error estándar asociados. Estos diagnósticos cambiarán cada vez que ejecute el proceso de entrenamiento, ya que la selección del dataset de entrenamiento y de prueba es aleatoria. Para crear un modelo que no cambie cada vez que se ejecute, puede establecer un valor de inicialización en la configuración de entorno Generador de números aleatorios.

Tabla de diagnóstico de los datos de entrenamiento y tabla de diagnóstico de los datos de validación cuando se predice una variable continua

Cuando se predice una variable de categorías, se informa de los valores de Sensibilidad, Precisión, Puntuación F1 y el MCC en los mensajes de geoprocesamiento. Estos diagnósticos se calculan utilizando la tabla especificada por el parámetro Tabla de rendimiento de clasificación de salida (matriz de confusión), que recorre el número de veces que una categoría de interés se clasifica correcta e incorrectamente y el número de veces que otras categorías se clasifican erróneamente como la categoría de interés. La sensibilidad para cada categoría se comunica como el porcentaje de veces que las entidades con una categoría observada se predijeron correctamente con esa categoría. Por ejemplo, si va a predecir Suelo y Agua y Suelo tiene una sensibilidad de 1,00, toda entidad que debería haber sido marcada como Suelo se predijo correctamente. Sin embargo, si una entidad Agua se marcó incorrectamente como Suelo, no se reflejará en el número de sensibilidad de Suelo. Se reflejaría en el número de sensibilidad de Agua porque una de las entidades de agua no se clasificó correctamente.

El diagnóstico de precisión tiene en cuenta si las entidades con una categoría particular se predicen adecuadamente y con qué frecuencia se clasifican incorrectamente otras categorías como la categoría de interés. Proporciona una estimación de la frecuencia con que se identifica correctamente una categoría entre el número total de observaciones para esa categoría. Al clasificar una variable con solo dos clases, la medida de precisión será la misma para cada clase, pero la sensibilidad puede ser diferente. Al clasificar una variable con más de dos clases, tanto la sensibilidad como la precisión pueden ser diferentes entre dichas clases.

Tabla de diagnóstico de los datos de entrenamiento y tabla de diagnóstico de los datos de validación cuando se predice una variable de categorías

DiagnósticoDescripción

R cuadrado

R cuadrado es una medida de la bondad de ajuste. Es la proporción de varianza de la variable dependiente que da cuenta del modelo de regresión. El valor varía de 0,0 a 1,0 y un valor más alto denota un modelo mejor. Aumentar el número de variables explicativas siempre incrementará R2. Es posible que el aumento no refleje una mejora en el ajuste del modelo, sino en la forma de calcular el R2.

Error medio absoluto (MAE)

MAE es la media de la diferencia absoluta entre los valores reales y los valores previstos del parámetro Variable de interés. Un valor de 0 significa que el modelo predijo correctamente todos los valores observados. MAE está en las unidades de la variable de interés, por lo que no puede compararse entre distintos modelos.

Error porcentual absoluto medio (MAPE)

El MAPE es similar al MAE, ya que representa la diferencia entre los valores reales y los valores de predicción. Sin embargo, mientras que el MAE representa la diferencia en las unidades originales, el MAPE representa la diferencia en porcentaje. El MAPE es un error relativo, por lo que es un mejor diagnóstico a la hora de comparar diferentes modelos. Debido a cómo se calcula el MAPE, no puede utilizarse si alguno de los valores reales es 0. Si los valores reales se acercan a 0, MAPE será infinito. Otra limitación del MAPE es que es asimétrico. Por ejemplo, si hay dos casos en los que la diferencia entre los valores reales y los valores predichos es la misma, el caso en el que el valor real sea menor contribuirá más al MAPE.

Error porcentual absoluto medio simétrico (SMAPE)

Al igual que el MAPE, el SMAPE representa la diferencia entre los valores reales y los valores predichos en forma de porcentaje, pero el SMAPE aborda el problema de la asimetría en su cálculo.

Error cuadrático medio (RMSE)

El RMSE es la raíz cuadrada del error cuadrático medio (MSE), que es la raíz cuadrada de la diferencia cuadrática media entre los valores reales y los valores predichos. Al igual que el MAE, el RMSE representa el error medio de predicción del modelo en las unidades de la variable de interés; sin embargo, el RMSE es más sensible a los errores grandes. Para evitar un modelo que tenga una gran diferencia entre los valores reales y los valores predichos, puede utilizar el RMSE para evaluar el modelo.

valor P

El valor P es una medida estadística utilizada para validar una hipótesis según la cual las observaciones no están correlacionadas con las predicciones. Si el valor p es inferior a 0,05, la correlación entre las observaciones y las predicciones es significativa.

Error estándar

Es el error estándar de la pendiente de la regresión. Representa en qué medida se desvían los valores observados de los valores de predicción por término medio.

Puntuación F1

La puntuación F1 es una medida del rendimiento del modelo. Es un valor entre 0 y 1 que se calcula para cada clase. Unas puntuaciones F1 más altas indican un modelo mejor. La puntuación F1 de todas las clases (macro puntuación F1) es la media de las puntuaciones F1 de las clases individuales. Si el número de entidades de cada clase es desigual, la puntuación F1 es una métrica mejor para evaluar el modelo que la precisión.

La puntuación F1 maximiza la precisión y la recuperación. La precisión se calcula dividiendo el número de veces que una categoría de interés se clasificó correctamente entre el número total de veces que se predijo la categoría de interés. La recuperación se calcula dividiendo el número de veces que se clasificó correctamente una categoría de interés entre el número de entidades con esa categoría. La puntuación F1 se calcula de la siguiente manera:

Ecuación de la puntuación F1

En la tabla siguiente, la clase A se clasificó correctamente 25 veces y se predijo 30 veces (25 + 4 + 1), por lo que la precisión de la clase A es de 25/30. Hay 25 entidades con clase A (25 + 0 + 0) , por lo que la recuperación de la clase A es de 25/25. La puntuación F1 de la clase A es de 0,909.

ClaseA (predicha)B (predicha)C (predicha)Todas

A (real)

25

0

0

25

B (real)

4

19

3

26

C (real)

1

2

21

24

Todas

30

21

24

75

MCC

De forma similar a la puntuación F1, el MCC resume la matriz de confusión utilizando un valor de entre -1 y 1. Un valor de -1 significa que el modelo clasificó incorrectamente todas las entidades, y un valor de 1 indica que el modelo clasificó correctamente todas las entidades. MCC difiere de la puntuación F1 en que también tiene en cuenta el número de veces que se predijo la categoría de no interés, por lo que el MCC solo será alto cuando el modelo funcione bien en la categoría de interés y en la de no interés.

Sensibilidad

La sensibilidad es el porcentaje de veces que las entidades con una categoría observada se predijeron correctamente con esa categoría. Se calcula dividiendo el número de veces que una clase de interés se clasificó correctamente entre el número de entidades con esa clase.

En la tabla siguiente, la clase A se predijo correctamente 25 veces y hay 25 entidades (25 + 0 + 0) con la clase A, por lo que la sensibilidad de la clase A es 25/25.

ClaseA (predicha)B (predicha)C (predicha)Todas

A (real)

25

0

0

25

B (real)

4

19

3

26

C (real)

1

2

21

24

Todas

30

21

24

75

Precisión

La precisión es el número de veces que una categoría se identifica correctamente una categoría entre el número total de observaciones para esa categoría. La precisión tiene en cuenta lo bien que se predicen las entidades con una categoría determinada y con qué frecuencia se identifican correctamente otras categorías que no son la de interés. La precisión se calcula de la siguiente manera:

Ecuación de la precisión

donde TP significa verdadero positivo, TN significa verdadero negativo, FP significa falso positivo y FN significa falso negativo.

En la tabla siguiente, para la clase A, TP es 25, TN es 45 (19 + 3 + 2 + 21), FP es 5 (4 + 1) y FN es 0 (0 + 0). La precisión de la clase A es 70/(25+45+5+0) = 0,93. La precisión de todas las clases es de (25 + 19 +21)/75 = 0,866.

ClaseA (predicha)B (predicha)C (predicha)Todas

A (real)

25

0

0

25

B (real)

4

19

3

26

C (real)

1

2

21

24

Todas

30

21

24

75

Métricas proporcionadas en los mensajes de geoprocesamiento para ayudar a evaluar el rendimiento del modelo.

Tabla Diagnóstico de rango de variables explicativas

El diagnóstico de rango explicativo puede ayudarle a evaluar si los valores utilizados para el entrenamiento, la validación y la predicción son suficientes para producir un buen modelo y si puede confiar en otros diagnósticos de modelo. Los datos utilizados para entrenar un modelo tienen un gran impacto en la calidad de la clasificación y las predicciones resultantes. Lo ideal sería que los datos de entrenamiento fueran representativos de los datos que está modelando. De forma predeterminada, el 10 % de las entidades del valor Entidades de entrenamiento de entrada se excluye aleatoriamente para la validación. El resultado es un dataset de entrenamiento y un dataset de validación. La tabla Diagnóstico de rango de variables explicativas muestra los valores mínimo y máximo de estos datasets y, si está realizando una predicción de entidades o rásteres o de los datos utilizados para la predicción.

Tabla Diagnóstico de rango de variables explicativas

Debido a que los subconjuntos se determinan aleatoriamente, puede que los valores de las variables del subconjunto de entrenamiento no sean representativos de los valores generales del valor Entidades de entrenamiento de entrada. Para cada variable explicativa continua, la columna Entrenamiento del grupo Compartir indica el porcentaje de superposición entre el rango de valores del subconjunto de entrenamiento y el rango de valores de todas las entidades de las Entidades de entrenamiento de entrada. Por ejemplo, si la variable A de Entidades de entrenamiento de entrada tuviera los valores de 1 a 100 y el subconjunto de entrenamiento tuviera los valores de 50 a 100, el valor de la varable A de la columna Entrenamiento del grupo Compartir sería 0,50 o el 50 por ciento. Para la variable A, el 50 por ciento del rango de valores de Entidades de entrenamiento de entrada está incluido en el subconjunto de entrenamiento. Si el subconjunto de entrenamiento no cubre un amplio rango de los valores que se encuentran en las Entidades de entrenamiento de entrada para cada variable explicativa del modelo, puede que influya en otros diagnósticos de modelo. Se realiza un cálculo similar para producir la columna Validación del grupo Compartir de la tabla. Es importante que el rango de valores utilizado para validar el modelo abarque la mayor parte posible del rango de valores utilizado para entrenar el modelo. Por ejemplo, si la variable B del subconjunto de entrenamiento tuviera los valores de 1 a 100 y el subconjunto de validación tuviera los valores de 1 a 10, la columna Validación del grupo Compartir para la variable B sería 0,10 o el 10 por ciento. Este pequeño rango de valores puede contener solo valores bajos o solo valores altos y, por consiguiente, influiría en otros diagnósticos. Si el subconjunto de validación contuviera todos los valores bajos, otros diagnósticos de modelo como MSE y porcentaje de variación explicada registrarían en qué medida el modelo predice de manera fiable los valores bajos, y no el rango completo de valores que se encuentra en las Entidades de entrenamiento de entrada. Además, un valor superior a 1 indica que el rango de los valores utilizados para la validación es mayor que el rango de los valores del subconjunto de entrenamiento. Así, el diagnóstico de validación será deficiente porque los algoritmos de bosque aleatorio y con incremento de gradiente extremo no pueden extrapolar.

La columna Predicción del grupo Compartir de la tabla Diagnóstico de rango de variables explicativas es especialmente importante. Los modelos basados en bosques y con incremento de gradiente no extrapolan; solo pueden clasificar o predecir hasta un valor dentro del rango en el que se entrenó el modelo. La columna Predicción del grupo Compartir es el porcentaje de superposición entre el rango de valores de los datos de entrenamiento y el rango de valores de los datos de predicción. Un valor de 1 indica que el rango de valores del subconjunto de entrenamiento y el rango de valores que se está utilizando para la predicción son equivalentes. Un valor superior a 1 indica que el rango de los valores utilizados para la predicción es mayor que el rango de los valores del subconjunto de entrenamiento. También indica que se está intentando predecir un valor para el que no se ha entrenado el modelo.

Los tres diagnósticos de porcentajes solo son válidos si los rangos de los subconjuntos coinciden. Por ejemplo, si el subconjunto de validación para la variable C tuviera los valores de 1 a 100 y el subconjunto de entrenamiento tuviera los valores de 90 a 200, se superpondrían en un 10 por ciento, pero no tendrían rangos coincidentes. En este caso, el diagnóstico está marcado con un asterisco para mostrar que los rangos no son coincidentes. Examine los valores mínimo y máximo para consultar la extensión y la dirección de la ausencia de superposición. La columna Predicción del grupo Compartir aparece marcada con un signo más (+) si el modelo intenta predecir fuera del rango de los datos de entrenamiento.

No existen reglas absolutas sobre los valores aceptables para la tabla Diagnóstico de rango de variables explicativas. La columna Entrenamiento y Validación del grupo Compartir debe ser lo más alta posible, dadas las limitaciones de sus datos de entrenamiento. Si la columna Validación en el grupo Compartir es baja, considere la posibilidad de aumentar el valor del parámetro Datos de entrenamiento excluidos para la validación (%). La columna Predicción del grupo Compartir debe ser lo más cercana posible a 1. Si la columna Predicción del grupo Compartir es baja, considere la posibilidad de disminuir el valor del parámetro Datos de entrenamiento excluidos para la validación. Además, plantéese ejecutar el modelo varias veces y elija la ejecución que equilibre los mejores valores del diagnóstico de rango. El valor de inicialización aleatorio utilizado en cada ejecución se muestra en los mensajes.

Salidas adicionales

La herramienta de Clasificación y regresión basadas en bosques y aumentadas también produce diversas tablas, gráficos y resultados.

Entidades de entrenamiento de salida

Entidades entrenadas de salida contendrá todas las Entidades entrenadas de entrada, incluidos el dataset de entrenamiento y el dataset de prueba (validación), las Variables de entrenamiento explicativas utilizadas en el modelo y los valores predichos. Si la variable a predecir es continua, la salida incluirá un campo Residual y Residual estandarizado. Si la variable a predecir es de categorías, la salida contendrá un campo Correctamente clasificada. Si el modelo predice correctamente la categoría conocida, la entidad se etiqueta como Correctamente clasificada; de lo contrario, la entidad se etiqueta como Mal clasificada. Para los modelos de regresión, las entidades entrenadas se simbolizan mediante los residuos estandarizados de las predicciones. En el caso de la clasificación, la simbología de las entidades entrenadas se basa en si la entidad está clasificada correctamente.

Los campos de las entidades entrenadas de salida contienen los valores de ráster extraídos de cada variable de Rásteres de entrenamiento explicativos y los valores de distancia calculados para cada variable de Entidades de distancia de entrenamiento explicativas. Estos campos nuevos pueden utilizarse para volver a ejecutar la parte de entrenamiento del análisis sin tener que extraer valores de ráster ni calcular valores de distancia cada vez. El valor de Entidades entrenadas de salida también contendrán predicciones para todas las entidades, incluidas las usadas en el entrenamiento como las excluidas de las pruebas. Puede resultarle útil para evaluar el rendimiento del modelo. El campo trained_features de Entidades entrenadas de salida indica si se ha utilizado o no una entidad para el entrenamiento.

Las Entidades entrenadas de salida contendrán los siguientes gráficos, si la variable a predecir es categórica:

  • Rendimiento de predicción: un gráfico de barras apiladas. Cada barra representa la categoría predicha y el color de las barras secundarias refleja la categoría real. El tamaño de las barras secundarias refleja la proporción de las entidades con una clase real determinada que están dentro de una clase predicha. Por ejemplo, la barra de la derecha indica que de las entidades que se predicen como Especie 2, el 5,66 % tenían una categoría real Especie 1.

    Gráfico de rendimiento de predicción

  • Matriz de confusión: un gráfico de calor matricial. El eje x representa la categoría prevista de las entidades en el valor de Entidades de entrenamiento de entrada y el eje y representa su categoría real. Las celdas diagonales visualizan el número de veces que el modelo predijo correctamente una categoría. Los recuentos más altos de las celdas diagonales indican que el modelo funcionó bien. Este gráfico solo se produce si el parámetro Tratar variable como variable de categorías está activado.

    Gráfico de matriz de confusión

Observe que ambos gráficos contienen tanto los datos de entrenamiento como los de prueba. Para evaluar en qué medida el modelo se ajusta a los datos de entrenamiento, seleccione las entidades en las que el campo trained_features sea igual a 1 y regenere este gráfico. Para evaluar el rendimiento del modelo en los datos de prueba, seleccione las entidades en las que el campo trained_features es igual a 0 y regenere este gráfico.

Tabla de importancia variable de salida

El valor de Tabla de importancia variable de salida contiene las variables explicativas utilizadas en el modelo y su importancia.

Tabla de importancia variable de salida
Se muestra una tabla de importancia variable de salida cuando se utiliza el tipo de modelo basado en bosque.

Tabla de importancia variable de salida
Se muestra una tabla de importancia variable de salida cuando se utiliza el tipo de modelo con incremento de gradiente.

Si especifica un valor para el parámetro Tabla de importancia variable de salida y el valor de Número de ciclos de validación es 1, la herramienta también generará como salida a un gráfico Resumen de importancia variable. Si el valor del parámetro Tipo de modelo es la opción Basado en bosque, el gráfico muestra las variables utilizadas en el modelo en el eje y y su importancia basada en el coeficiente de Gini del eje x. Si el valor del parámetro Tipo de modelo es la opción Incremento de gradiente, la importancia mostrada en el eje x se basa en los valores de ganancia. Las variables explicativas se muestran por orden de importancia, de mayor (arriba) a menor (abajo).

Gráfico Resumen de importancia variable

Si especifica un parámetro Tabla de importancia variable de salida y el valor del parámetro Número de ciclos de validación es mayor que 1, el valor Tabla de importancia variable de salida contendrá la importancia de cada variable explicativa para cada ciclo y marcará la iteración con la mayor precisión o R2. El conjunto de importancia variable mostrado en los mensajes de geoprocesamiento no es el conjunto con la mejor R cuadrado o precisión, sino el conjunto con una R2 o precisión más cercana a R2 o precisión mediana.

Salida de la tabla de importancia variable cuando se utiliza más de un ciclo para la validación

Además, si el valor Número de ciclos por validación es superior a 1, la herramienta mostrará un gráfico Distribución importancia variable. Utilice este diagrama de caja para evaluar el cambio de importancia de las variables entre distintos ciclos.

Gráfico Distribución de importancia variable

El diagrama de caja muestra la distribución de los valores de importancia variable en todos los ciclos de validación. La distribución de la importancia variable es un indicador de la estabilidad del modelo entrenado. Si la importancia de una variable cambia ampliamente a lo largo de las ejecuciones de validación, podría indicar un modelo inestable. A menudo, un modelo inestable se puede mejorar aumentado el valor del parámetro Número de árboles para reflejar relaciones más complejas en los datos.

Tabla de rendimiento de clasificación de salida (matriz de confusión)

Si la variable que se prevé predecir es de categorías, está disponible el parámetro Tabla de rendimiento de clasificación de salida (matriz de confusión). Esta tabla contiene todas las entidades del valor Entidades de entrenamiento de entrada excluidas para la validación. Cada fila representa la categoría real y cada columna representa la categoría predicha. La tabla muestra el número de verdaderos positivos (TP), verdaderos negativos (TN), falsos positivos (FP) y falsos negativos (FN) de cada categoría, lo que nos permite calcular varios diagnósticos de clasificación como la precisión y la sensibilidad.

Predicciones de salida

Si utiliza esta herramienta para predecir entidades, el valor especificado de Entidades predichas de salida será una clase de entidad con el valor predicho del modelo para cada entidad. Si predice a un ráster, el valor de Superficie de predicción de salida especificado será un ráster de salida con los resultados de la predicción.

Opciones del Modelo avanzado

Uno de los puntos fuertes del método basado en bosques consiste en captar los puntos en común de los predictores débiles (o árboles). Si árboles singulares capturan de forma persistente una relación, significa que existe una sólida relación en los datos, que se puede detectar incluso cuando el modelo no es complejo. Otro punto fuerte de los modelos basados en bosques y con incremento de gradiente es que combinan predictores débiles (árboles independientes o una secuencia de árboles) para crear un predictor potente. El ajuste de los parámetros del modelo puede ayudar a crear un gran número de predictores débiles que den como resultado un modelo potente. Puede crear indicadores débiles utilizando menos información en cada árbol. Puede lograrse utilizando un subconjunto pequeño de las entidades de cada árbol, un número pequeño de variables por árbol, una profundidad baja del árbol o cualquier combinación de estos. El número de árboles controla la cantidad de indicadores débiles que se crean. Cuanto más débiles sean los indicadores (árboles), más árboles necesitará para poder crear un modelo sólido.

Las siguientes opciones avanzadas de entrenamiento y validación están disponibles en la herramienta:

  • El valor predeterminado del parámetro Número de árboles es de 100. El aumento del número de árboles del modelo bosque o del modelo aumentado dará lugar por lo general a una predicción de modelo más precisa, pero el modelo tardará más en calcularse. Si el valor del parámetro Número de árboles es 0, no se creará el modelo y el valor Entidades de entrenamiento de salida solo contendrá las entidades del valor Entidades de entrenamiento de entrada y el valor Variables de entrenamiento explicativas proporcionado. 
  • El tamaño mínimo de hoja es el número mínimo de observaciones requeridas para conservar una hoja (el nodo terminal de un árbol). El valor predeterminado es 5 para la regresión y 1 para la clasificación. Para los datasets muy grandes, el aumento del valor de Tamaño mínimo de hoja reduce el tiempo de ejecución de la herramienta. Si el valor de Tamaño mínimo de hoja es pequeño (cercano al mínimo), su modelo será propenso al ruido en los datos. Si desea tener un modelo más estable, pruebe a aumentar el valor de Tamaño mínimo de hoja.
  • La profundidad máxima de árbol es el número máximo de divisiones que se realizarán en un árbol. Si se utiliza una profundidad máxima grande, se podrán crear más divisiones, lo cual puede aumentar las probabilidades de exceso de ajuste en el modelo. El valor predeterminado del modelo basado en bosque se basa en datos y depende del número de árboles creados y el número de variables incluidas. El valor predeterminado del modelo con incremento de gradiente es 6. Cuando utilice el modelo con incremento de gradiente, le recomendamos que utilice un valor menor de Profundidad máxima de árbol. Recuerde que no es posible dividir un nodo una vez que este alcanza el valor de Tamaño mínimo de hoja. Si se establecen valores de parámetro tanto para Tamaño mínimo de hoja como para Profundidad máxima de árbol, Tamaño mínimo de hoja dominará a la hora de determinar la profundidad de los árboles.
  • El parámetro Datos disponibles por árbol (%) especifica el porcentaje de las entidades del valor de Entidades de entrenamiento de entrada que se utilizarán para cada árbol de decisión. El valor predeterminado es del 100 por cien de los datos. Cada árbol de decisión del modelo se crea con un subconjunto aleatorio (aproximadamente dos tercios) de los datos de entrenamiento disponibles. Si utiliza un porcentaje menor de los datos de entrada para cada árbol de decisión, se aumenta la velocidad de la herramienta si los datasets son muy grandes.
  • El parámetro Número de variables muestreadas aleatoriamente especifica el número de variables explicativas utilizadas para crear cada árbol de decisión. Cada árbol de decisión del modelo se crea con un subconjunto aleatorio de las variables explicativas especificadas. Aumentar el número de variables utilizadas en cada árbol de decisión aumentará también la probabilidad de exceso de ajuste en el modelo, especialmente si existe al menos una variable dominante. Una práctica habitual (y el comportamiento predeterminado seguido por la herramienta) consiste en utilizar la raíz cuadrada del número total de variables explicativas (campos, entidades de distancia y rásteres) si el valor de Variable para predecir es un campo numérico, o bien en dividir el número total de variables explicativas (campos, entidades de distancia y rásteres) entre 3 si la variable para predecir es de categorías.
  • Cuando el valor del parámetro Tipo de modelo es la opción Incremento de gradiente, los siguientes parámetros están disponibles en la categoría de parámetros Opciones del Modelo avanzado:
    • Regularización L2 (Lambda): un término de regularización que reduce la sensibilidad de las predicciones a las entidades individuales. Aumentar este valor hará que el modelo sea más conservador y evitará el exceso de ajuste. El valor predeterminado es 1. Si el valor es 0, el modelo se convierte en un incremento de gradiente tradicional. 
    • Reducción de pérdida mínima para divisiones (Gamma): un umbral para la reducción de pérdida mínima necesaria para dividir los árboles. Si una partición candidata tiene una reducción de pérdida superior a este valor, se produce la partición.  Un valor mayor de Reducción de pérdida mínima para divisiones (Gamma) evita que los árboles se vuelvan demasiado profundos y ajusten en exceso el modelo a los datos de entrenamiento. El valor predeterminado es 0.
    • Tasa de aprendizaje (Eta): un valor que reduce la contribución de cada árbol a la predicción final. Un valor menor de la tasa de aprendizaje evita el exceso de ajuste del modelo, pero puede dar lugar a tiempos de cómputo más largos.  El valor predeterminado es 0,3. Se permite cualquier número mayor que 0 pero no mayor que 1. 
    • Número máximo de bins para buscar divisiones: define el número de bins para almacenar los datos en buckets para la búsqueda de puntos de división. El valor predeterminado es 0. Corresponde al uso de un algoritmo codicioso que creará divisiones candidatas en todos los puntos de datos. Un algoritmo codicioso puede tardar más en computar. Un valor menor en Número máximo de bins para buscar divisiones significa que los datos se dividirán en menos buckets, lo que hace que se prueben menos divisiones. Los valores más bajos pueden dar lugar a un tiempo de cómputo más rápido a expensas del rendimiento de la predicción. Un valor más alto significa que los datos se dividirán en más bins, lo que lleva a probar más divisiones. Los valores más altos pueden mejorar el modelo a costa del tiempo de cómputo. No se permite un valor de 1.
  • El parámetro Datos de entrenamiento excluidos para la validación (%) especifica el porcentaje (entre el 10 y el 50 por ciento) del valor de Entidades de entrenamiento de entrada que se debe reservar como el dataset de prueba para la validación. El modelo se entrenará sin este subconjunto aleatorio de datos, y los valores observados para esas entidades se compararán con los valores predichos para validar el rendimiento del modelo. El valor predeterminado es del 10 por ciento.
  • El parámetro Calcular incertidumbre solo está disponible cuando el valor del parámetro Tipo de modelo es la opción Basado en bosque y la variable a predecir no es de categorías. Si el parámetro Calcular incertidumbre está activado, la herramienta calculará un intervalo de predicción del 90 por ciento sobre cada valor predicho. Si el valor de Tipo de predicción es la opción Solo entrenar o Predecir a entidades, se agregan dos campos adicionales al valor de Entidades entrenadas de salida o al valor de Entidades predichas de salida. Estos campos representan los límites superiores e inferiores del intervalo de predicción. Para cualquier observación nueva, puede predecir con una confianza del 90 por ciento que el valor de una observación nueva estará dentro del intervalo, dadas las mismas variables explicativas. Al predecir, se agregan al panel Contenido dos rásteres que representan los límites superior e inferior del intervalo de predicción. El intervalo de predicción se calcula con los bosques de regresión de cuantiles. En un bosque de regresión de cuantiles, se guardan los valores predichos de cada hoja del bosque y se utilizan para crear una distribución de valores predichos en lugar de guardar únicamente la predicción final del bosque.

Optimización de parámetros

Los modelos basados en bosques y con incremento de gradiente tienen varios hiperparámetros que pueden utilizarse para ajustar el modelo. Sin embargo, puede resultar difícil elegir el mejor valor de cada hiperparámetro para un dataset determinado. La herramienta Clasificación y regresión basadas en bosques y aumentadas proporciona varios métodos de optimización que prueban diferentes combinaciones de valores de hiperparámetros para encontrar el conjunto de hiperparámetros con el mejor rendimiento del modelo. Si tiene dudas de qué valor utilizar para un hiperparámetro, utilice un método de optimización. Existen tres métodos de optimización: Búsqueda aleatoria (rápida), Búsqueda aleatoria (robusta) y Búsqueda en cuadrícula.

Para usar la optimización de parámetros, marque la casilla de verificación Optimizar parámetro y seleccione una opción en Modelo de optimización. De forma predeterminada, el valor del parámetro Modelo de optimización es la opción Búsqueda aleatoria (rápida). La herramienta también proporciona varias opciones para la función objetivo que se utiliza para evaluar el rendimiento del modelo con un conjunto seleccionado de valores de hiperparámetros. Si la variable que se desea predecir no es de categorías, el parámetro Optimizar objetivo (Objetivo) contiene dos opciones: R cuadrado y RMSE. El valor predeterminado es R cuadrado. Si la variable que se desea predecir es de categorías, las opciones son: Precisión, Coeficiente de correlación de Matthews (CCM) y Puntuación F1. La forma predeterminada es Precisión. El parámetro Ajuste de parámetros del modelo establece el límite superior, el límite inferior y el intervalo que define el espacio de búsqueda de un hiperparámetro. Si el valor del parámetro Modelo de optimización es Búsqueda de cuadrícula, la herramienta buscará todos los puntos de búsqueda dentro del espacio de búsqueda y elegirá el conjunto de valores de hiperparámetros con el mejor rendimiento del modelo. Si el valor del parámetro Modelo de optimización es Búsqueda aleatoria (rápida) o Búsqueda aleatoria (robusta), el parámetro Número de ciclos de conjuntos de parámetros estará habilitado y activo. Se utilizará para decidir el número de puntos de búsqueda dentro del espacio de búsqueda en el que se buscará. Para cada punto de búsqueda, el método Búsqueda aleatoria (robusta) construye un modelo utilizando 10 valores iniciales aleatorios diferentes, elige el conjunto de valores de hiperparámetros con el rendimiento medio del modelo y pasa al siguiente punto de búsqueda. La herramienta repite este proceso hasta que busca todos los puntos de búsqueda candidatos. Por último, la herramienta selecciona el conjunto de valores de hiperparámetros con el mejor rendimiento del modelo.

Diagrama de las opciones del modelo de optimización

Si optimiza los hiperparámetros, dispondrá del parámetro Tabla de ajuste de los parámetros de salida. El valor de Tabla de ajuste de los parámetros de salida enumera cada conjunto de valores de hiperparámetros que se han buscado y contiene los siguientes gráficos:

  • Historial de optimización (todas las pruebas): un gráfico que visualiza el historial de optimización.

    Gráfico del historial de optimización

  • Rendimiento del parámetro del modelo: un gráfico que ayuda a evaluar la contribución de cada hiperparámetro al rendimiento del modelo.

    Gráfico de rendimiento de los parámetros del modelo
    En este ejemplo, los valores lambda y gamma más altos conducen a una mayor precisión del modelo, mientras que los índices de aprendizaje más bajos conducen a una mayor precisión del modelo.

Mejores prácticas

A continuación, se mencionan las prácticas recomendadas al utilizar esta herramienta:

  • Esta herramienta podría presentar un rendimiento deficiente si se intenta predecir con variables explicativas que están fuera del rango de las variables explicativas empleadas para entrenar el modelo. Los modelos basados en bosque y aumentados no realizan extrapolación: solo pueden clasificar o predecir con el rango de valores con el que se haya entrenado el modelo. Si utiliza variables explicativas con un rango mucho mayor o menor que el del dataset de entrenamiento original para hacer predicciones, el modelo estimará que el valor está en torno al valor más alto o más bajo del dataset original.
  • Para mejorar el rendimiento al extraer valores del valor Rásteres de entrenamiento explicativos y al calcular distancias con el parámetro Entidades de distancia de entrenamiento explicativas, plantéese entrenar el modelo con el cien por cien de los datos, sin excluir ninguno para la validación, y crear el valor Entidades entrenadas de salida. La próxima vez que ejecute la herramienta, utilice el valor de Entidades entrenadas de salida como su valor del parámetro Entidades de entrenamiento de entrada y todos los valores y distancias extraídos como valor de Variables de entrenamiento explicativas en lugar de extraerlos cada vez que entrene el modelo. Si elige hacerlo, establezca el valor de los parámetros Número de árboles, Profundidad máxima de árbol y Número de variables muestreadas aleatoriamente en 1 para crear un árbol de marcador de posición muy pequeño para preparar rápidamente los datos para el análisis.
  • Por motivos de rendimiento, el parámetro Entidades de distancia de entrenamiento explicativas no está disponible cuando el valor del parámetro Tipo de predicción es Predecir a ráster. Para incluir las distancias a las entidades como variables explicativas, calcule los rásteres de distancia con la herramienta Acumulación de distancia e incluya los rásteres de distancia en el parámetro Rásteres de entrenamiento explicativos.
  • Aunque el valor predeterminado del parámetro Número de árboles es de 100, este número no está basado en datos. El número de árboles requeridos aumenta con la complejidad de las relaciones entre las variables explicativas, el tamaño del dataset y la variable para predecir, además de la variación en estas variables.
  • Aumente el número de árboles del bosque y lleve un registro de los errores OOB o de clasificación. Se recomienda que aumente el valor de Número de árboles al menos 3 veces, hasta un mínimo de 500 árboles, para poder evaluar de forma óptima el rendimiento del modelo.
  • El tiempo de ejecución de la herramienta es altamente sensible al número de variables utilizadas por árbol. Al utilizar un número pequeño de variables por árbol, se reducen las posibilidades de exceso de ajuste. No obstante, asegúrese de utilizar muchos árboles si utiliza un número pequeño de variables por árbol, para así mejorar el rendimiento del modelo.

    Cuando se utiliza el tipo de modelo con incremento de gradiente, el tiempo de ejecución de la herramienta se ve muy afectado por el valor del parámetro Número máximo de bins para buscar divisiones. El valor predeterminado del parámetro Número de bins es 0, lo que corresponde a la utilización de un algoritmo codicioso. Este algoritmo creará una división candidata en cada punto de datos, lo que puede provocar un largo tiempo de ejecución. Por lo tanto, cuando el tamaño de los datos sea grande o si hay muchos puntos de búsqueda en la optimización, considere la posibilidad de utilizar un valor razonable para el parámetro Número de bins para buscar divisiones.

  • Para crear un modelo que no cambie cada vez que se ejecute, puede establecer un valor de inicialización en la configuración de entorno Generador de números aleatorios. Seguirá habiendo aleatoriedad en el modelo, pero esa aleatoriedad será uniforme ejecución tras ejecución.
  • La importancia variable es un diagnóstico que ayuda a comprender las variables que determinan los resultados del modelo. No mide lo bien que predice el modelo. Una práctica recomendada es utilizar todos los datos para el entrenamiento estableciendo el valor de Datos de entrenamiento excluidos para la validación (%) en 0 y explorando el diagrama de caja de la importancia variable. A continuación, modifique otros parámetros, como Número de árboles o Profundidad máxima de árbol, y explore los diagramas de caja hasta que tenga un modelo estable. Una vez que se haya entrenado un modelo estable respecto a la importancia variable, puede aumentar el valor de Datos de entrenamiento excluidos para la validación (%) para determinar la precisión del modelo. Si el modelo especificado es el modelo Basado en bosque, explore los errores OOB de los mensajes de diagnóstico para determinar la precisión del modelo. Una vez que tiene un modelo preciso y con una importancia variable estable, puede establecer el valor de Número de ciclos de validación en 1 y obtener un único gráfico de barras que represente la importancia variable final del modelo.

Referencias

Breiman, Leo. (1996). "Out-Of-Bag Estimation." Abstract.

Breiman, L. (1996). "Bagging predictors." Machine learning 24 (2): 123–140.

Breiman, Leo. (2001). "Random Forests." Machine Learning 45 (1): 5-32. https://doi.org/10.1023/A:1010933404324.

Breiman, L., J.H. Friedman, R.A. Olshen y C.J. Stone. (2017). Classification and regression trees. New York: Routledge. Capítulo 4.

Chen, T. y Guestrin, C. (2016). "XGBoost: A Scalable Tree Boosting System." En Proceedings of the 22nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 785-794.

Dietterich, T. G. (2000, June). "Ensemble methods in machine learning." En International workshop on multiple classifier systems,. 1–15. Springer, Berlín, Heidelberg.

Gini, C. 1912 1955. Variabilità e mutabilità. Reimpreso en Memorie di metodologica statistica (eds. E. Pizetti and T. Salvemini). Rome: Libreria Eredi Virgilio Veschi.

Grömping, U. (2009). "Variable importance assessment in regression: linear regression versus random forest". The American Statistician 63 (4): 308–319.

Ho, T. K. (1995, agosto). "Random decision forests." En Document analysis and recognition, 1995., proceedings of the third international conference on Document Analysis and Recognition Vol. 1: 278-282. IEEE.

James, G., D. Witten, T. Hastie, and R. Tibshirani. (2013). An introduction to statistical learning Vol. 112. New York: springer.

LeBlanc, M. and R. Tibshirani. (1996). "Combining estimates in regression and classification." Journal of the American Statistical Association 91 (436): 1641–1650.

Loh, W. Y. and Y. S. Shih. (1997). "Split selection methods for classification trees." Statistica sinica, 815–840.

Meinshausen, Nicolai. "Quantile regression forests". Journal of Machine Learning Research 7. Junio (2006): 983-999.

Nadeau, C. and Y. Bengio. (2000). "Inference for the generalization error." En Advances in neural information processing systems, 307-313.

Strobl, C., A. L. Boulesteix, T. Kneib, T. Augustin, and A. Zeileis. (2008). "Conditional variable importance for random forests." BMC bioinformatics 9 (1): 307.

Zhou, Z. H. (2012). "Ensemble methods: foundations and algorithms." CRC press.