Fonctionnement de l’outil Régression et classification de forêt aléatoire

La méthode de forêt aléatoire est une méthode d’entraînement machine supervisé basée sur les arbres de décision et utilisée par l’outil Entraîner à l’aide d’AutoML. Un arbre de décision est excessivement sensible aux données d’entraînement. Cette méthode crée de nombreux arbres de décision utilisés pour la prédiction. Chaque arbre génère sa propre prédiction et est utilisé dans le cadre d’un vote à la majorité pour effectuer les prédictions finales. Les décisions finales ne reposent pas sur un arbre unique mais sur la forêt d’arbres de décision entière. L’utilisation de la forêt entière permet d’éviter le sur-ajustement du modèle au jeu de données d’entraînement, fréquent lors de l’utilisation d’un sous-ensemble aléatoire des données d’entraînement et des variables explicatives pour chaque arbre de la forêt.

Le bootstrapping est utilisé pour créer un sous-ensemble aléatoire des données d’entraînement. Ce sous-ensemble a la même taille que les données d’entraînement d’origine car les données sont sélectionnées de manière aléatoire avec répétition. Le modèle est ainsi moins sensible aux données d’entraînement d’origine. La sélection aléatoire des variables explicatives limite la corrélation entre les arbres et génère moins de variance. Du fait de ce niveau de variance, la forêt aléatoire est plus efficace que les arbres de décision. On appelle « bagging » l’association du bootstrapping à l’agrégation des résultats. Pour tester la précision d’un arbre, le sous-ensemble de données non sélectionné (hors section) est utilisé. La méthode itère différents paramètres pour trouver la forêt ayant l’erreur hors section la plus faible.

Dans l’exemple ci-dessous, les cinq premiers arbres de décision d’une forêt aléatoire qui classe les fleurs en fonction de la largeur et de la longueur de leurs sépales et de leurs pétales sont affichés.

Exemple d’arbres de décision d’une forêt aléatoire

Ressources supplémentaires

Liaw, Andy et Matthew Wiener. « Classification and regression by randomForest. » R news 2, no. 3 (2002): 18-22.

Understanding Random Forest

Rubriques connexes


Dans cette rubrique
  1. Ressources supplémentaires