ランダム フォレストは、決定木ベースの教師付き機械学習法で、[AutoML を使用したトレーニング (Train Using AutoML)] ツールによって使用されます。 決定木は、トレーニング データに非常に大きく影響されます。 この方法では、予測に使用される多数の決定木が作成されます。 各決定木は、それぞれ独自の予測を生成し、最終予測を行うための多数決の一部として使用されます。 最終予測は、単一のツリーではなく、決定木のフォレスト全体に基づきます。 フォレスト全体を使用することにより、フォレストを構成する各ツリー内のトレーニング データセットのランダム サブセットと説明変数のランダムサブセットの両方を使用するのと同様に、トレーニング データセットへのモデルの過剰適合を避けることができます。
ブートストラップを使用して、トレーニング データのランダム サブセットが作成されます。 データはランダムに繰り返し選択されるため、サブセットのサイズは元のトレーニング データと同じです。 これにより、モデルが元のトレーニング データから受ける影響は小さくなります。 説明変数をランダムに選択すると、ツリー間の相関が弱くなり、分散が小さくなります。 この分散レベルにより、ランダムフォレストは決定木よりも効果的です。 ブートストラップと結果の集約の併用は「バギング」と呼ばれます。 ツリーの精度をテストするには、選択されていないデータ (out-of-bag) のサブセットが使用されます。 この方法は、さまざまな設定を繰り返して、out-of-bag エラーが最も少ないフォレストを見つけます。
以下の例は、がく片と花びらの幅と長さに基づいて花を分類するランダム フォレストの最初の 5 つの決定木を示しています。
参考資料
Liaw, Andy, and Matthew Wiener. "Classification and regression by randomForest." R news 2, no. 3 (2002): 18-22.