Árboles aleatorios es un método de aprendizaje automático supervisado basado en árboles de decisiones que se utiliza en la herramienta Entrenar con AutoML. Los árboles de decisión son demasiado sensibles a los datos de entrenamiento. En este método, se crean numerosos árboles de decisión que se usan para la predicción. Cada árbol genera su propia predicción y se utiliza como parte de un voto mayoritario para hacer predicciones finales. Las predicciones finales no se basan en un solo árbol, sino en todo el bosque de árboles de decisión. El uso de un bosque completo le ayuda a evitar el exceso de ajuste en el modelo respecto al dataset de entrenamiento, como hace el uso de un subconjunto aleatorio de datos de entrenamiento y un subconjunto aleatorio de variables explicativas en cada árbol que compone el bosque.
Se utiliza bootstrapping para crear un subconjunto aleatorio de los datos de entrenamiento. El subconjunto tiene el mismo tamaño que los datos de entrenamiento originales, ya que los datos se seleccionan aleatoriamente con repetición. La consecuencia es que el modelo sea menos sensible a los datos de entrenamiento originales. La selección aleatoria de variables explicativas reduce la correlación entre los árboles y genera menos varianza. Este nivel de varianza hace que los aleatorios sean más eficaces que los árboles de decisión. El uso de bootstrapping y la agregación de resultados se llama bagging. Para evaluar la precisión de un árbol, se utiliza el subconjunto de datos que no está seleccionado (fuera de bolsa). Este método itera diferentes configuraciones para encontrar el bosque que presenta el menor error de fuera de bolsa.
En el ejemplo que aparece a continuación, se muestran los cinco primeros árboles de decisión de un modelo de árboles aleatorios que clasifica flores por el ancho y largo de los sépalos y pétalos.
Recursos adicionales
Liaw, Andy y Matthew Wiener. "Classification and regression by randomForest." R news 2, n.º 3 (2002): 18-22.