フォレストベースおよびブースト分類と回帰分析 (Forest-based and Boosted Classification and Regression) (空間統計)—ArcGIS Pro

サマリー

Leo Breiman および Adele Cutler が開発したランダムフォレストアルゴリズム、または Tianqi Chen および Carlos Guestrin が開発した Extreme Gradient Boosting (XGBoost) アルゴリズムの 2 つの教師付き機械学習方法のいずれかを使用して、モデルの作成と予測の生成を行います。予測は、カテゴリー変数 (分類) と連続変数 (回帰) の両方に対して実行できます。説明変数は、追加変数として用いる近接値の算出に使用されるトレーニングフィーチャ、ラスターデータセット、および距離フィーチャの属性テーブル内のフィールドの形を取ることができます。トレーニングデータに基づいてモデルのパフォーマンスを検証するだけでなく、フィーチャまたは予測ラスターに対して予測を行うこともできます。

フォレストベースおよびブースト分類と回帰分析の機能の詳細

図

使用法

このツールでは、フォレストベースと勾配ブーストの 2 種類のモデルをサポートします。どちらのモデルタイプも、予測に使用できるモデルを作成するために、何百にも上るツリー (決定木のアンサンブルと呼ばれる) が作成されます。
- [フォレストベース] - バギング手法を応用してモデルを作成します。それぞれの決定木は並行して作成され、元の (トレーニング) データのランダムに生成された部分が使用されます。ツリーごとに独自の予測が生成され、結果が決定されます。フォレストベースモデルでは、不明なサンプルの結果を予測または分類するために、すべての決定木から得た決定を考慮します。個々のツリーにはモデルの過剰適合の問題があることが考えられるため、この処理は非常に重要です。予測用にフォレスト内の複数のツリーを組み合わせると、単一のツリーに関連する過剰適合の問題に対処できます。このモデルは必要なパラメーターが少なく、より直感的に使用できます。
- [勾配ブースティング] - ブースティング手法を応用してモデルを作成します。それぞれの決定木は、元の (トレーニング) データを使用して順次連続的に作成されます。後続の各ツリーが前のツリーの誤差を修正するため、モデルで複数の弱学習器が組み合わされて強力な予測モデルになります。勾配ブースティングモデルには、正規化と早期停止手法が導入されているため、過剰適合を避けることができます。このモデルはハイパーパラメーターを柔軟に制御でき、より複雑です。
このツールは、トレーニング、フィーチャに関する予測、ラスターに関する予測の 3 つの操作モードで使用されます。 [予測タイプ] パラメーターで [トレーニングのみ] オプションを使用すると、さまざまな説明変数およびツール設定を調査しながら、異なるモデルのパフォーマンスを評価できます。適切なモデルが見つかったら、[フィーチャに関する予測] または [ラスターに関する予測] オプションを使用できます。
このツールはデータドリブンであり、大規模なデータセットで最適に動作します。最適な結果を得るためには、少なくとも数百のフィーチャに対してこのツールをトレーニングする必要があります。このツールは、小規模なデータセットには適していません。
[入力トレーニングフィーチャ] パラメーター値として、ポイントまたはポリゴンを指定できます。このツールをマルチパートデータに使用することはできません。
ArcGIS Spatial Analyst エクステンションライセンスは、ラスターを説明変数として使用する場合または [出力予測サーフェス] 値に関して予測を行う場合に必要となります。
このツールは、次のようなオプションの出力を生成します。
- [出力トレーニング済みフィーチャ] - モデルで使用されているすべての [入力トレーニングフィーチャ] 値とすべての説明変数を含むフィーチャクラス。説明変数には、使用されている入力フィールド、算出された距離、抽出または算出されたラスター値が含まれます。フィーチャクラスには、[入力トレーニングフィーチャ] 値のすべてのフィーチャの予測も含まれます。これには、モデルのトレーニングと検証に使用されたフィーチャも含まれます。予測対象変数がカテゴリー変数ではない場合、フィーチャクラスには、各予測に対する残差と標準化残差が含まれます。予測対象変数がカテゴリー変数である場合、フィーチャクラスには、モデルが各予測を正しく分類したかどうかを指定する Correctly Classified フィールドが含まれます。 Residual フィールドと Standard Residual フィールド、または Correctly Classified フィールドを使用し、作成されたモデルのパフォーマンスを評価します。
- [出力トレーニング済みモデルファイル] - トレーニング済みモデルの結果を含む、再利用可能なファイル。このファイルを [空間統計モデルファイルを使用して予測 (Predict Using Spatial Statistics Model File)] ツールで使用すると、新しいフィーチャの予測を立てることができます。
- [出力予測フィーチャ] - フィーチャごとのモデルの予測値を含むフィーチャクラス。このオプションは、[予測タイプ] パラメーター値が [フィーチャに関する予測] である場合にのみ使用できます。
- [出力予測サーフェス] - 予測結果を含む出力ラスター。この出力は、[予測タイプ] パラメーター値が [ラスターに関する予測] である場合にのみ使用できます。
- [出力変数重要度テーブル] - 各説明変数 (フィールド、距離フィーチャ、ラスター) の重要度を説明するテーブル。
- [出力パラメーター調整テーブル] - それぞれの最適化試行のパラメーター設定と目的値を含むテーブル。この出力は、[パラメーターの最適化] パラメーターがオンの場合のみ使用できます。
- [出力分類パフォーマンステーブル (混同行列)] - 検証データで、モデルのパフォーマンスを集計するテーブル。行列の列はモデルが予測したカテゴリーを表し、行は実際のカテゴリーを表します。検証データでのモデルのパフォーマンスを評価するには、テーブルを使用します。この出力は、[カテゴリーとして処理] パラメーターがオンの場合のみ使用できます。
このツールでは、作成されたモデルのパフォーマンスを理解するのに役立つメッセージを作成します。「このメッセージにアクセス」するには、[ジオプロセシング] ウィンドウでプログレスバーの上にカーソルを置くか、ポップアップボタンをクリックするか、メッセージセクションを展開します。ジオプロセシング履歴から、以前に実行したツールのメッセージにアクセスすることもできます。このメッセージには次の情報が含まれています。
- モデルの特性に関する情報
- モデルの Out of Bag エラー
- トレーニング診断
- 検証診断
- 説明変数診断
- 変数重要度 - [出力変数重要度テーブル] パラメーター値が指定されている場合、最高の重要度を持つ 20 個の変数がジオプロセシングメッセージで報告されます。 [検証の実行回数] パラメーターの値が 1 より大きい場合、変数重要度値のセットが複数存在します。実行ごとに変数重要度値セットがあるため、ジオプロセシングメッセージは、決定係数または正確度の中央値に最も近い決定係数または正確度を持つ実行に関連する変数重要度のセットを報告します。
このツールは、[コンテンツ] ウィンドウに次のオプションのチャートを追加します。
- [予測パフォーマンス] - モデルのデータへの適合度を評価する積み上げバーチャート。 X 軸のカテゴリーは、[入力トレーニングフィーチャ] 値について、モデルが予測したものです。これには、モデルのトレーニングと検証に使用されたフィーチャも含まれます。色は、入力トレーニングフィーチャの真のカテゴリーを表します。このチャートは、予測対象変数がカテゴリー変数で、[変数をカテゴリーとして処理] チェックボックスがオンで、[出力トレーニング済みフィーチャ] パラメーターが指定されている場合にのみ生成されます。
- [混同行列] - マトリックスヒートチャート。 X 軸は [入力トレーニングフィーチャ] 値のフィーチャの予測されたカテゴリーを表し、Y 軸は実際のカテゴリーを表します。対角線セルでは、モデルがカテゴリーを正しく予測した回数が視覚化されます。対角線セルの数が多いほど、モデルのパフォーマンスが十分であることを示します。このチャートは、予測対象変数がカテゴリー変数であり、[変数をカテゴリーとして処理] パラメーターがオンの場合にのみ生成されます。
- [変数の重要性のサマリー] または [変数の重要性の分布] - モデルに対する各説明変数の重要性を示すバーチャート。 [検証の実行回数] 値が 1 より大きい場合、チャートは各説明変数の重要度値の分布を示す箱ひげ図になります。このチャートは、[出力変数重要度テーブル] パラメーター値を指定した場合に生成されます。
- [検証パフォーマンス] - 検証データでのモデルのパフォーマンスを評価する積み上げバーチャート。検証データのフィーチャの実際のカテゴリーは、X 軸上にあります。色は、検証データのフィーチャの予測されたカテゴリーを表します。このチャートは、予測対象変数がカテゴリー変数で、[変数をカテゴリーとして処理] チェックボックスがオンで、[出力分類パフォーマンステーブル (混同行列)] パラメーター値が指定されている場合にのみ生成されます。
- [R2 検証] または [検証精度] - R² または正確度の値を示すヒストグラム。 R² または正確度の値の分布は、モデル作成時に生じるランダム性に起因します。このチャートでは、さまざまなモデル実行におけるモデルパフォーマンスの安定性を評価します。このチャートは、[出力検証テーブル] パラメーター値が指定されており、[検証の実行回数] 値が 1 よりも大きい場合にのみ生成されます。
説明変数は、フィールドから生成するか、距離フィーチャから算出するか、ラスターから抽出することができます。これらのタイプの説明変数を任意に組み合わせて使用できますが、少なくとも 1 つのタイプが必要です。使用する説明変数 (発生元がフィールド、距離フィーチャ、またはラスター) には、さまざまな値を含める必要があります。説明変数がカテゴリーの場合は、[カテゴリー] チェックボックスをオンにします。文字列タイプの変数の場合、[カテゴリー] チェックボックスは自動的にオンになります。カテゴリー説明変数は 60 の個別値に制限されていますが、カテゴリーの数を少なくすると、モデルのパフォーマンスが上がります。データのサイズによっては、変数に含まれているカテゴリーの数が多いと、モデルに大きく影響し、これによって予測結果が意味を持たなくなる可能性が高くなります。
距離フィーチャを使用すると、指定されたフィーチャから [入力トレーニングフィーチャ] 値までの距離を表す説明変数が自動的に作成されます。 [入力トレーニングフィーチャ] 値の各フィーチャから、最近隣の[説明トレーニング距離フィーチャ] 値までの距離が算出されます。入力された [説明トレーニング距離フィーチャ] 値がポリゴンまたはラインの場合、距離の属性は、フィーチャのペアの最も近いセグメント間の距離として計算されます。ただし、ポリゴンとラインの場合、距離は別々に計算されます。詳細については、「近接解析ツールによる距離の計算方法」をご参照ください。
[入力トレーニングフィーチャ] 値がポイントの場合に、[説明トレーニングラスター] パラメーターを使用すると、このツールはドリルダウンして、それぞれのポイントのロケーションで説明変数を抽出します。マルチバンドラスターの場合は、最初のバンドだけが使用されます。
[コンテンツ] ウィンドウでは、同じ名前のレイヤーを複数使用できますが、このツールでは同じ名前の説明距離レイヤーや説明ラスターレイヤーを使用することはできません。この問題を避けるために、各レイヤーが一意の名前であることを確認するか、ドロップダウンリストで重複するレイヤー名を削除します。
[入力トレーニングフィーチャ] 値がポリゴンで、[予測対象変数] パラメーター値がカテゴリーで、[説明トレーニングラスター] 値のみを使用している場合は、[トレーニング用にポリゴンをラスター解像度に変換] パラメーターを使用できます。このパラメーターをオンにすると、ポリゴンは各ラスターセル (重心がそのポリゴン内にある) の重心でポイントに分割されます。続いて各ポイントのロケーションのラスター値が抽出され、モデルのトレーニングに使用されます。数値変数では共一次内挿法、カテゴリー変数では最近隣内挿法が使用されます。変換されたポリゴンのデフォルトのセルサイズは、入力ラスターの最大セルサイズになります。ただし、セルサイズ環境設定を使用して、これを変更できます。このパラメーターをオフにすると、各ポリゴンの 1 つのラスター値がそのモデルで使用されます。各ポリゴンには、連続ラスターの場合は平均値、カテゴリーラスターの場合は最頻値が割り当てられています。
指定された説明変数ごとに使用されるデータには変量が存在しなければなりません。指定されたいずれかのフィールドまたはラスターに変量が存在しないというエラーが通知された場合は、該当する変数をカテゴリーにして、このツールをもう一度実行します。特定の変数で 95 パーセントのフィーチャの値が同じである場合、その変数は変量なしと見なされます。
カテゴリー内の変量がバランス調整されていない場合、[スパースカテゴリーの補正] パラメーターを使用できます。たとえば、データセット内で数百回発生するカテゴリーと、発生回数が格段に少ないカテゴリーがある場合、このパラメーターをオンにすると、それぞれのカテゴリーが各ツリーで表され、バランス調整されたモデルが作成されます。このパラメーターは、[モデルタイプ] パラメーター値が [フォレストベース] である場合のみサポートされます。
説明変数を照合する場合、Prediction フィールドと Training フィールドは必ず同じタイプでなければなりません (Training の double フィールドは Prediction の double フィールドと一致しなければならない)。
フォレストベースモデルとブースティングモデルは外挿を行わず、モデルがトレーニングされた値の分類または予測のみ行います。元のトレーニングデータセットの範囲をはるかに上回る/下回る説明変数に基づいて値を予測すると、このモデルでは、元のデータセットの最大値または最小値に近い値が推定されます。モデルのトレーニングに使用される説明変数の範囲から外れている説明変数で予測しようとすると、このツールのパフォーマンスが低下する場合があります。
トレーニングフィーチャに含まれていない予測説明変数にカテゴリーが存在する場合は、このツールの実行に失敗します。同様に、トレーニングフィーチャに含まれていない検証データにカテゴリーが存在する場合、このツールの実行は失敗します。
モザイクデータセットを説明変数として使用するには、まず [モザイクレイヤーの作成 (Make Mosaic Layer)] ツールを実行してレイヤーへの絶対パスをツールにコピーするか、[モザイクレイヤーの作成 (Make Mosaic Layer)] ツールと [ラスターレイヤーの作成 (Make Raster Layer)] ツールを使用してモザイクデータセットの処理テンプレートを調整します。
[ツリーの数] パラメーターのデフォルト値は 100 です。フォレストベースモデルの場合、モデル内のツリーの数を増やすと、モデル予測の精度は上がりますが、そのモデルでの計算時間が長くなります。
[モデルタイプ] パラメーター値が [フォレストベース] で、[不確実性の計算] パラメーターがオンである場合、ツールは [予測対象変数] 値の各予測値の周りの 90 パーセントの予測間隔を計算します。 [予測タイプ] パラメーター値が [トレーニングのみ] または [フィーチャに関する予測] の場合、2 つのフィールドが [出力トレーニング済みフィーチャ] 値または [出力予測済みフィーチャ] 値に追加されます。これらのフィールドは、末尾が _P05 と _P95 になり、予測間隔の上限と下限を表します。新しい観測の場合、同じ説明変数を指定すると、新しい観測が間隔内に含まれることを 90 パーセントの信頼度で予測できます。 [予測タイプ] パラメーター値が [ラスターに関する予測] である場合、予測間隔の上限と下限を表す 2 つの追加ラスターが [コンテンツ] ウィンドウに追加されます。
パフォーマンス上の理由から、[予測タイプ] パラメーターの値が [ラスターに関する予測] である場合は、[説明トレーニング距離フィーチャ] パラメーターを使用できません。説明変数としてフィーチャへの距離を含めるには、[距離累積 (Distance Accumulation)] ツールを使用して距離ラスターを計算し、[説明トレーニングラスター] パラメーターに距離ラスターを含めます。
このツールは予測の並列処理をサポートしており、デフォルトで利用可能なプロセッサーの 50 パーセントを使用します。プロセッサーの数を増減するには、「並列処理ファクター」環境を使用します。
このツールの機能の詳細と出力されるメッセージおよびチャートの意味については、「フォレストベースの分類と回帰の機能」をご参照ください。
参考文献:
- Breiman, Leo. Out-Of-Bag Estimation. 1996
- Breiman, L. (1996). Bagging predictors. Machine learning, 24(2), 123-140.
- Breiman, Leo. "Random Forests". Machine Learning. 45 (1): 5-32. doi:10.1023/A:1010933404324. 2001.
- Breiman, L., J.H. Friedman, R.A. Olshen, C.J. Stone. Classification and regression trees. New York: Routledge. Chapter 4. 2017.
- Chen, T., and Guestrin, C. (2016). "XGBoost: A Scalable Tree Boosting System." In Proceedings of the 22^nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 785-794.
- Dietterich, T. G. (2000, June). Ensemble methods in machine learning. In International workshop on multiple classifier systems (pp. 1-15). Springer, Berlin, Heidelberg.
- Gini, C. (1912). Variabilità e mutabilità. Reprinted in Memorie di metodologica statistica (Ed. Pizetti E, Salvemini, T). Rome: Libreria Eredi Virgilio Veschi.
- Grömping, U. (2009). Variable importance assessment in regression: linear regression versus random forest. The American Statistician, 63(4), 308-319.
- Ho, T. K. (1995, August). Random decision forests. In Document analysis and recognition, 1995., proceedings of the third international conference on Document Analysis and Recognition. (Vol. 1, pp. 278-282). IEEE.
- James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An introduction to statistical learning (Vol. 112). New York: springer.
- LeBlanc, M., & Tibshirani, R. (1996). Combining estimates in regression and classification. Journal of the American Statistical Association, 91(436), 1641-1650.
- Loh, W. Y., & Shih, Y. S. (1997). Split selection methods for classification trees. Statistica sinica, 815-840.
- Meinshausen, Nicolai. "Quantile regression forests." Journal of Machine Learning Research 7. Jun (2006): 983-999.
- Nadeau, C., & Bengio, Y. (2000). Inference for the generalization error. In Advances in neural information processing systems (pp. 307-313).
- Strobl, C., Boulesteix, A. L., Kneib, T., Augustin, T., & Zeileis, A. (2008). Conditional variable importance for random forests. BMC bioinformatics, 9(1), 307.
- Zhou, Z. H. (2012). Ensemble methods: foundations and algorithms. CRC press.

パラメーター

ラベル	説明	データタイプ
予測タイプ	使用される操作モードを指定します。このツールでは、パフォーマンスの評価、フィーチャの予測、または予測サーフェスの作成の目的にのみモデルのトレーニングを実行できます。トレーニングのみ—モデルのトレーニングは行われますが、予測は生成されません。このオプションを使用すると、予測を生成する前に、モデルの精度を評価できます。このオプションを使用すると、モデル診断がメッセージウィンドウに出力され、変数重要度のチャートが表示されます。これがデフォルトです。フィーチャに関する予測—フィーチャに関する予測または分類が生成されます。トレーニングフィーチャと予測対象フィーチャの両方に説明変数を指定する必要があります。このオプションの出力内容は、フィーチャクラス、メッセージウィンドウでのモデル診断、変数重要度の任意のテーブルおよびチャートです。ラスターに関する予測—説明ラスターが交差するエリアに関して予測ラスターが生成されます。トレーニングエリアと予測対象エリアの両方の説明ラスターを指定する必要があります。このオプションの出力内容は、予測サーフェス、メッセージウィンドウでのモデル診断、変数重要度の任意のテーブルおよびチャートです。	String
入力トレーニングフィーチャ	[予測対象変数] パラメーター値と (オプションで) フィールドから生成された説明トレーニング変数を含むフィーチャクラス。	Feature Layer
予測対象変数 (オプション)	モデルのトレーニングに使用される値を含む [入力トレーニングフィーチャ] パラメーター値から生成された変数。このフィールドには、不明なロケーションでの予測に使用される変数の既知 (トレーニング) の値が含まれます。	Field
変数をカテゴリーとして処理 (オプション)	[予測対象変数] 値をカテゴリー変数にするかどうかを指定します。オン - [予測対象変数] 値がカテゴリー変数になり、分類が実行されます。オフ - [予測対象変数] 値が連続変数になり、回帰が実行されます。これがデフォルトです。	Boolean
説明トレーニング変数 (オプション)	[予測対象変数] の値またはカテゴリーの予測に役立つ説明変数を表すフィールドのリスト。クラスまたはカテゴリーを表す変数 (土地被覆や有無など) の場合に [カテゴリー] チェックボックスをオンにします。	Value Table
説明トレーニング距離フィーチャ (オプション)	説明トレーニング距離フィーチャを含むフィーチャレイヤー。指定されたフィーチャから [入力トレーニングフィーチャ] 値までの距離が算出され、説明変数が自動的に作成されます。 [入力トレーニングフィーチャ] 値の各フィーチャから最近隣の [説明トレーニング距離フィーチャ] 値までの距離が算出されます。入力された [説明トレーニング距離フィーチャ] 値がポリゴンまたはラインの場合、距離の属性は、フィーチャのペアの最も近いセグメント間の距離として計算されます。	Feature Layer
説明トレーニングラスター (オプション)	ラスターから抽出された説明トレーニング変数。ラスターセル値が抽出され、説明トレーニング変数が自動的に作成されます。 [入力トレーニングフィーチャ] パラメーターのフィーチャごとに、該当するロケーションでラスターセルの値が抽出されます。連続ラスターからラスター値を抽出する場合には、共一次内挿法によるラスターのリサンプリングが使用されます。カテゴリーラスターからラスター値を抽出する場合には、最近隣内挿法による近接割り当てが使用されます。クラスまたはカテゴリーを表すラスター (土地被覆や有無など) の場合に [カテゴリー] チェックボックスをオンにします。	Value Table
入力予測フィーチャ (オプション)	予測が行われるロケーションを表すフィーチャクラス。このフィーチャクラスには、トレーニングデータから使用されるフィールドに対応するフィールドとして指定された説明変数も含める必要があります。	Feature Layer
出力予測済みフィーチャ (オプション)	予測結果を含む出力フィーチャクラス。	Feature Class
出力予測サーフェス (オプション)	予測結果を含む出力ラスター。デフォルトのセルサイズは、入力ラスターの最大セルサイズになります。別のセルサイズを設定するには、[セルサイズ] 環境設定を使用します。	Raster Dataset
説明変数の照合 (オプション)	右側の [入力トレーニングフィーチャ] パラメーターに対して指定された [説明変数] 値と左側の [入力予測フィーチャ] パラメーターの対応するフィールドのリスト。	Value Table
距離フィーチャの照合 (オプション)	右側の [入力トレーニングフィーチャ] パラメーターに対して指定された [説明距離フィーチャ] 値と左側の [入力予測フィーチャ] パラメーターの対応するフィーチャセットのリスト。 [入力予測フィーチャ] パラメーターに最適な [説明距離フィーチャ] 値は、これらが異なる分析範囲または期間内にトレーニングに使用されている場合に指定できます。	Value Table
説明ラスターの照合 (オプション)	右側の [入力トレーニングフィーチャ] パラメーターに対して指定された [説明ラスター] 値と、左側の作成対象の [入力予測フィーチャ] パラメーターまたは [予測サーフェス] パラメーターの対応するラスターのリスト。 [入力予測フィーチャ] パラメーターに最適な [説明ラスター] 値は、これらが異なる分析範囲または期間内にトレーニングに使用されている場合に指定できます。	Value Table
出力トレーニング済みフィーチャ (オプション)	トレーニングに使用されている説明変数 (サンプリングされたラスター値と距離計算を含む)、および観測された [予測対象変数] フィールドとそれに伴う予測 (トレーニング済みのモデルのパフォーマンスを詳しく評価する際に使用)。	Feature Class
出力変数重要度テーブル (オプション)	モデルで使用されている説明変数ごとの重要度を示す情報を含むテーブル。説明変数には、モデルの作成に使用されるフィールド、距離フィーチャ、ラスターが含まれます。 [モデルタイプ] パラメーター値が [勾配ブースティング] の場合は、重要度はゲイン、加重、カバーによって計測され、テーブルにはこれらのフィールドが含まれます。 [検証の実行回数] パラメーター値が 1 の場合、出力にはバーチャートが含まれます。値が 1 よりも大きい場合は、説明変数の重要度を表す箱ひげ図が含まれます。	Table
トレーニング用にポリゴンをラスター解像度に変換 (オプション)	[入力トレーニングフィーチャ] 値が [予測対象変数] カテゴリー値のポリゴンであり、[説明トレーニングラスター] 値だけが指定されている場合のモデルのトレーニング時のポリゴンの処理方法を示します。オン - ポリゴンは、重心がそのポリゴン内にあるすべてのラスターセルに分割されます。それぞれの重心でラスター値が抽出され、モデルのトレーニングに使用されます。モデルは、ポリゴンではなく、各セルの中心点について抽出されたラスター値でトレーニングされるようになります。これがデフォルトです。オフ - ポリゴンごとに、基になる連続ラスターの平均値と基になるカテゴリーラスターの最頻値が割り当てられます。	Boolean
ツリーの数 (オプション)	フォレストベースモデルと勾配ブースティングモデルで作成されたツリーの数。デフォルトは 100 です。 [モデルタイプ] パラメーター値が [フォレストベース] である場合、ツリーの数を多くするとモデル予測の精度が上がりますが、モデルの計算時間が長くなります。 [モデルタイプ] パラメーター値が [勾配ブースティング] である場合、ツリーの数を多くするとモデル予測の精度が上がりますが、トレーニングデータの過剰適合の原因になることがあります。データの過剰適合を防ぐには、[最大ツリー階層]、[L2 正規化 (ラムダ)]、[分割の最小損失減少 (ガンマ)]、[学習率 (イータ)] パラメーターの値を指定します。	Long
最小リーフサイズ (オプション)	リーフを維持するために最低限必要な観測数 (つまり、これ以上分割できないツリー上のターミナルノード)。デフォルトの最小数は、回帰の場合には 5、分類の場合には 1 になります。大規模なデータの場合は、これらの数を増やすと、このツールの実行時間が短くなります。	Long
最大ツリー階層 (オプション)	ツリーの下に作成される分割の最大数。最大ツリー階層の値を大きくすると、さらに多くの分割が作成されるため、モデルの過剰適合の可能性が高くなります。 [モデルタイプ] パラメーター値が [フォレストベース] である場合、デフォルト値はデータドリブンであり、作成されるツリー数と含まれる変数の数によって異なります。 [モデルタイプ] パラメーター値が [勾配ブースティング] の場合、デフォルトは 6 です。	Long
ツリーあたりの利用可能なデータ (%) (オプション)	決定木ごとに使用される [入力トレーニングフィーチャ] 値の割合。デフォルトはデータの 100% です。各ツリーのサンプルは、指定されたデータの 3 分の 2 の中からランダムに取得されます。集合内の各決定木の作成には、ランダムなサンプルが使用されるか、利用可能なトレーニングデータのサブセット (約 3 分の 2) が使用されます。各決定木の入力データの割合を低くすると、大規模なデータセットの場合のこのツールの実行時間が短くなります。	Long
ランダムにサンプリングされる変数の数 (オプション)	各決定木の作成に使用される説明変数の数。フォレストベースモデルと勾配ブースティングモデルの各決定木は、指定された説明変数のランダムなサブセットを使用して作成されます。各決定木で使用される変数の数を増やすと、特に 1 つ以上のドミナント変数が存在する場合に、モデルの超過適合の可能性が高くなります。デフォルトでは、[予測対象変数] 値がカテゴリーの場合は説明変数の総数 (フィールド、距離、ラスターの合計) の平方根を使用し、[予測対象変数] 値が数値の場合は、説明変数の総数 (フィールド、距離、ラスターの合計) を 3 で除算します。	Long
検証のために除外するトレーニングデータ (%) (オプション)	検証のためにテストデータセットとして確保される [入力トレーニングフィーチャ] 値の割合 (0 ～ 50 パーセント)。ここで指定したデータのランダムなサブセットなしでモデルのトレーニングが行われ、これらのフィーチャのモデル予測値が観測値と比較されます。デフォルトは 10 パーセントです。	Double
出力分類パフォーマンステーブル (混同行列) (オプション)	検証データで作成されたモデルのパフォーマンスを集計する混同行列。この行列では、検証データに対してモデルが予測したカテゴリーを、実際のカテゴリーと比較します。このテーブルは、出力メッセージに含まれていない、他の診断を計算するために使用されます。このパラメーターは、[予測対象変数] 値がカテゴリーで、[カテゴリーとして処理] パラメーターがオンの場合に使用できます。	Table
出力検証テーブル (オプション)	[予測対象変数] 値がカテゴリーではない場合には各モデルの R²、値がカテゴリーの場合は各モデルの正確度が含まれるテーブル。このテーブルには、正確度または R² 値の分布を示すバーチャートが含まれます。この分布を使用して、モデルの安定性を評価できます。このパラメーターは、[検証の実行回数] 値が 2 よりも大きい場合に使用できます。	Table
スパースカテゴリーの補正 (オプション)	頻度にかかわらず、トレーニングデータセット内の各カテゴリーを各ツリーで表すかどうかを指定します。このパラメーターは、[モデルタイプ] パラメーター値が [フォレストベース] である場合に使用できます。オン - 各ツリーは、トレーニングデータセット内に表されるすべてのカテゴリーを含みます。オフ - トレーニングデータセット内のカテゴリーのランダムなサンプルに基づいて、各ツリーが作成されます。これがデフォルトです。	Boolean
検証の実行回数 (オプション)	ツールの反復回数。すべてのモデルの相関係数の二乗値 (連続) の分布または正確度 (カテゴリー) の分布は、[出力検証テーブル] パラメーターを使用して表示できます。 [予測タイプ] パラメーターの値が [ラスターに関する予測] または [フィーチャに関する予測] に設定されている場合は、相関係数の二乗値の中央値または正確度の中央値を生成したモデルが予測に使用されます。中央値を使用すると、予測の安定性を確保できます。	Long
不確実性の計算 (オプション)	トレーニング、フィーチャの予測、またはラスターの予測の際に、予測の不確実性を計算するかどうかを指定します。このパラメーターは、[モデルタイプ] パラメーター値が [フォレストベース] である場合に使用できます。オン - 予測の不確実性間隔が計算されます。オフ - 不確実性は計算されません。これがデフォルトです。	Boolean
出力トレーニング済みモデルファイル (オプション)	後から予測に使用できるトレーニング済みモデルが保存される出力モデルファイル。	File
モデルタイプ (オプション)	モデルの作成に使用する方法を指定します。フォレストベース—モデルは、ランダムフォレストアルゴリズムを転用して作成されます。このモデルでは、数百もの決定木から得た結果を使用します。それぞれの決定木は、元のデータと元の変数のランダムに生成されたサブセットから作成されます。勾配ブースティング—モデルは、Extreme Gradient Boosting (XGBoost) アルゴリズムを用いて作成されます。このモデルでは、後続の各ツリーが前のツリーの誤差を修正する、何百にも上るツリーのシーケンスが作成されます。	String
L2 正規化 (ラムダ) (オプション)	モデルの感度を個々のフィーチャまで下げる正規化手法。この値を大きくすると、モデルがより保守的になるため、トレーニングデータの過剰適合を防止することができます。値が 0 の場合は、モデルは従来の勾配ブースティングモデルになります。デフォルトは 1 です。このパラメーターは、[モデルタイプ] パラメーター値が [勾配ブースティング] である場合に使用できます。	Double
分割の最小損失減少 (ガンマ) (オプション)	ツリーの分割に必要な最小損失削減の閾値。潜在的な分割の損失削減を評価します。分割候補の損失削減がこの閾値よりも大きい場合は、パーティション化が行われます。高い閾値を設定すると過剰適合を防止でき、パーティション数が少ない、より保守的なモデルになります。デフォルトは 0 です。このパラメーターは、[モデルタイプ] パラメーター値が [勾配ブースティング] である場合に使用できます。	Double
学習率 (イータ) (オプション)	最終的な予測への各ツリーの関与を少なくする値。 0 より大きく、1 以下の値を設定する必要があります。学習率を小さくすると、モデルの過剰適合は防止できますが、計算時間が長くなる可能性があります。デフォルトは 0.3 です。このパラメーターは、[モデルタイプ] パラメーター値が [勾配ブースティング] である場合に使用できます。	Double
分割を検索するビンの最大数 (オプション)	最適な分割ポイントを検索するために、トレーニングデータを分割するビンの数。この値は 1 に設定できません。デフォルトは 0 で、グリーディアルゴリズムが使用されます。グリーディアルゴリズムでは、すべてのデータポイントで分割候補が作成されます。検索用のビン数が少なすぎると、モデル予測パフォーマンスが低下するため、おすすめできません。このパラメーターは、[モデルタイプ] パラメーター値が [勾配ブースティング] である場合に使用できます。	Long
パラメーターの最適化 (オプション)	最適化方法を使用して、最適なモデルパフォーマンスを実現するハイパーパラメーターセットを見つけるかどうかを指定します。オン - 最適化方法を使用して、ハイパーパラメーターセットを見つけます。オフ - 最適化方法は使用されません。これがデフォルトです。	Boolean
最適化方法 (オプション)	最適なハイパーパラメーターセットを見つけるための検索ポイントを選択し、テストするために使用される最適化方法を指定します。検索ポイントは、[モデルパラメーター設定] パラメーターで指定された検索空間内の、ハイパーパラメーターの組み合わせです。このオプションは、[最適化パラメーター] パラメーターがオンの場合に使用できます。ランダムサーチ (クイック)—検索空間内で検索ポイントを選択するには、階層別ランダムサンプリングアルゴリズムが使用されます。これがデフォルトです。ランダムサーチ (ロバスト)—検索ポイントを選択するには、階層別ランダムサンプリングアルゴリズムが使用されます。各検索は、異なるランダムシードを使用して 10 回実行されます。各検索の結果は、[ターゲットの最適化 (目的)] パラメーター値によって決定された、中央値の最適な実行になります。このオプションは、[モデルタイプ] パラメーター値が [フォレストベース] である場合に使用できます。グリッドサーチ—検索空間内の各検索ポイントが選択されます。	String
ターゲットの最適化 (目的) (オプション)	最適なハイパーパラメーターセットを見つけるために、最小化または最大化される目的関数や値を指定します。 R2—最適化方法は R² を最大化し、最適なハイパーパラメーターセットを見つけます。このオプションは、予測対象変数がカテゴリーではない場合にのみ使用できます。これは、予測対象変数がカテゴリーではない場合のデフォルトです。二乗平均平方根誤差 (RMSE)—最適化方法は二乗平均平方根誤差を最小化し、最適なハイパーパラメーターセットを見つけます。このオプションは、予測対象変数がカテゴリーではない場合にのみ使用できます。精度—最適化方法は正確度を最大化し、最適なモデルを見つけます。このオプションは、予測対象変数がカテゴリーである場合にのみ使用できます。これは、予測対象変数がカテゴリーである場合のデフォルトです。マシューズ相関係数 (MCC)—最適化方法はマシューズ相関係数を最大化し、最適なハイパーパラメーターセットを見つけます。このオプションは、予測対象変数がカテゴリーである場合にのみ使用できます。 F1 スコア—最適化方法は F1 スコアを最大化し、最適なハイパーパラメーターセットを見つけます。このオプションは、予測対象変数がカテゴリーである場合にのみ使用できます。	String
パラメーターセットの実行回数 (オプション)	[モデルパラメーター設定] パラメーターで指定される検索空間内でテストされる検索ポイントの数。このパラメーターは、[最適化方法] 値が [ランダムサーチ (クイック)] または [ランダムサーチ (ロバスト)] である場合に使用できます。	Long
モデルパラメーター設定 (オプション)	ハイパーパラメーターとその検索空間のリスト。各ハイパーパラメーターの検索空間をカスタマイズするには、下限、上限、間隔を指定します。下限と上限は、ハイパーパラメーターで使用可能な値の範囲を指定します。各ハイパーパラメーターで有効な値の範囲は以下のとおりです。 [ツリー数] (NUM_TREES) - 1 より大きい整数値。 [最大ツリー階層] (MAX_DEPTH) - 0 以上の整数値。 [最小リーフサイズ] (LEAF_SIZE) - 1 より大きい整数値。 [ツリーあたりの利用可能なデータ (%)] (SAMPLE_SIZE) - 0 より大きく、100 以下の整数値。 [ランダムにサンプリングされた変数の数] (RANDOM_VARIABLES) - 説明変数の数以下の整数値。これには、フィールド、距離フィーチャ、ラスターから取得した説明変数が含まれます。 [学習率 (イータ)] (ETA) - 0 より大きく、1 以下の倍精度値。 [L2 正規化 (ラムダ)] (REG_LAMBDA) - 0 以上の倍精度値。 [分割の最小損失減少 (ガンマ)] (GAMMA) - 0 以上の倍精度値。 [分割を検索するビンの最大数] (MAX_BINS) - 1 より大きい整数値か 0。値が 0 の場合は、モデルはすべてのデータポイントで分割候補を作成します。	Value Table
出力パラメーター調整テーブル (オプション)	パラメーター設定と、最適化試行の目的値を含むテーブル。出力には、すべての試行とその目的値のチャートが含まれます。このオプションは、[パラメーターの最適化] がオンの場合に使用できます。	Table
すべての予測確率を含める (オプション)	予測対象のカテゴリー変数では、カテゴリー変数のすべてのカテゴリーの確率を予測するか、該当するレコードのカテゴリーの確率だけを予測するかを指定します。たとえば、カテゴリー変数にカテゴリー A、B、C が存在し、最初のレコードにカテゴリー B が存在する場合は、このパラメーターを使用して、カテゴリー A、B、C の確率を予測するか、該当するレコードのカテゴリー B の確率だけを予測するかを指定します。オン - カテゴリー変数のすべてのカテゴリーの確率が予測され、トレーニング済みフィーチャ出力と予測済みフィーチャ出力に含まれます。オフ - 該当するレコードのカテゴリーの確率だけが予測され、トレーニング済みフィーチャ出力と予測済みフィーチャ出力に含まれます。これがデフォルトです。	Boolean

派生した出力

ラベル	説明	データタイプ
出力不確実性ラスターレイヤー	[不確実性の計算] パラメーターがオンの場合、ツールは [予測対象変数] パラメーターの予測値の周辺で 90 パーセントの予測間隔を計算します。	Raster Layer

arcpy.stats.Forest(prediction_type, in_features, {variable_predict}, {treat_variable_as_categorical}, {explanatory_variables}, {distance_features}, {explanatory_rasters}, {features_to_predict}, {output_features}, {output_raster}, {explanatory_variable_matching}, {explanatory_distance_matching}, {explanatory_rasters_matching}, {output_trained_features}, {output_importance_table}, {use_raster_values}, {number_of_trees}, {minimum_leaf_size}, {maximum_depth}, {sample_size}, {random_variables}, {percentage_for_training}, {output_classification_table}, {output_validation_table}, {compensate_sparse_categories}, {number_validation_runs}, {calculate_uncertainty}, {output_trained_model}, {model_type}, {reg_lambda}, {gamma}, {eta}, {max_bins}, {optimize}, {optimize_algorithm}, {optimize_target}, {num_search}, {model_param_setting}, {output_param_tuning_table}, {include_probabilities})

名前	説明	データタイプ
prediction_type	使用される操作モードを指定します。このツールでは、パフォーマンスの評価、フィーチャの予測、または予測サーフェスの作成の目的にのみモデルのトレーニングを実行できます。 TRAIN—モデルのトレーニングは行われますが、予測は生成されません。このオプションを使用すると、予測を生成する前に、モデルの精度を評価できます。このオプションを使用すると、モデル診断がメッセージウィンドウに出力され、変数重要度のチャートが表示されます。これがデフォルトです。 PREDICT_FEATURES—フィーチャに関する予測または分類が生成されます。トレーニングフィーチャと予測対象フィーチャの両方に説明変数を指定する必要があります。このオプションの出力内容は、フィーチャクラス、メッセージウィンドウでのモデル診断、変数重要度の任意のテーブルおよびチャートです。 PREDICT_RASTER—説明ラスターが交差するエリアに関して予測ラスターが生成されます。トレーニングエリアと予測対象エリアの両方の説明ラスターを指定する必要があります。このオプションの出力内容は、予測サーフェス、メッセージウィンドウでのモデル診断、変数重要度の任意のテーブルおよびチャートです。	String
in_features	variable_predict パラメーター値と (オプションで) フィールドから生成された説明トレーニング変数を含むフィーチャクラス。	Feature Layer
variable_predict (オプション)	モデルのトレーニングに使用される値を含む in_features パラメーター値から生成された変数。このフィールドには、不明なロケーションでの予測に使用される変数の既知 (トレーニング) の値が含まれます。	Field
treat_variable_as_categorical (オプション)	CATEGORICAL—variable_predict 値がカテゴリー変数になり、分類が実行されます。 NUMERIC—variable_predict 値が連続変数になり、回帰が実行されます。これがデフォルトです。	Boolean
explanatory_variables [[Variable, Categorical],...] (オプション)	variable_predict の値またはカテゴリーの予測に役立つ説明変数を表すフィールドのリスト。クラスまたはカテゴリーを表す変数 (土地被覆や有無など) の場合に treat_variable_as_categorical パラメーターを使用します。クラスまたはカテゴリーを表す変数 (土地被覆や有無など) の場合は CATEGORICAL に設定し、連続変数の場合は NUMERIC に設定します。	Value Table
distance_features [distance_features,...] (オプション)	説明トレーニング距離フィーチャ。指定されたフィーチャから in_features 値までの距離が算出され、説明変数が自動的に作成されます。 in_features 値の各フィーチャから最近隣の distance_features 値までの距離が算出されます。入力された distance_features 値がポリゴンまたはラインの場合、距離の属性は、フィーチャのペアの最も近いセグメント間の距離として計算されます。	Feature Layer
explanatory_rasters [[Variable, Categorical],...] (オプション)	ラスターから抽出された説明トレーニング変数。ラスターセル値が抽出され、説明トレーニング変数が自動的に作成されます。 in_features パラメーターのフィーチャごとに、該当するロケーションでラスターセルの値が抽出されます。ラスター値を抽出する場合は、共一次内挿法によるラスターのリサンプリングが使用されます。ただし、カテゴリーとして指定されている場合を除きます。この場合には、最近隣内挿法による近接割り当てが使用されます。クラスまたはカテゴリーを表すラスター (土地被覆や有無など) の場合は CATEGORICAL に設定し、連続変数の場合は NUMERIC に設定します。	Value Table
features_to_predict (オプション)	予測が行われるロケーションを表すフィーチャクラス。このフィーチャクラスには、トレーニングデータから使用されるフィールドに対応するフィールドとして指定された説明変数も含める必要があります。	Feature Layer
output_features (オプション)	予測結果を含む出力フィーチャクラス。	Feature Class
output_raster (オプション)	予測結果を含む出力ラスター。デフォルトのセルサイズは、入力ラスターの最大セルサイズになります。別のセルサイズを設定するには、[セルサイズ] 環境設定を使用します。	Raster Dataset
explanatory_variable_matching [[Prediction, Training],...] (オプション)	右側の in_features パラメーターに対して指定された explanatory_variables 値と左側の features_to_predict パラメーターの対応するフィールドのリスト (例: [["LandCover2000", "LandCover2010"], ["Income", "PerCapitaIncome"]])。	Value Table
explanatory_distance_matching [[Prediction, Training],...] (オプション)	右側の in_features パラメーターに対して指定された distance_features 値と左側の features_to_predict パラメーターの対応するフィーチャセットのリスト。 features_to_predict パラメーターに最適な explanatory_distance_features 値は、これらが異なる分析範囲または期間内にトレーニングに使用されている場合に指定できます。	Value Table
explanatory_rasters_matching [[Prediction, Training],...] (オプション)	右側の in_features に対して指定された explanatory_rasters 値と、左側の作成対象の features_to_predict パラメーターまたは output_raster パラメーターの対応するラスターのリスト。 features_to_predict パラメーターに最適な explanatory_rasters 値は、これらが異なる分析範囲または期間内にトレーニングに使用されている場合に指定できます。	Value Table
output_trained_features (オプション)	トレーニングに使用されている説明変数 (サンプリングされたラスター値と距離計算を含む)、および観測された variable_predict フィールドとそれに伴う予測 (トレーニング済みのモデルのパフォーマンスを詳しく評価する際に使用)。	Feature Class
output_importance_table (オプション)	モデルを作成するために使用されている説明変数 (フィールド、距離フィーチャ、およびラスター) ごとの重要度を示す情報を含むテーブル。	Table
use_raster_values (オプション)	in_features 値が variable_predict カテゴリー値のポリゴンであり、explanatory_rasters 値だけが指定されている場合のモデルのトレーニング時のポリゴンの処理方法を示します。 TRUE—ポリゴンは、重心がそのポリゴン内にあるすべてのラスターセルに分割されます。それぞれの重心でラスター値が抽出され、モデルのトレーニングに使用されます。モデルは、ポリゴンではなく、各セルの重心について抽出されたラスター値でトレーニングされるようになります。これがデフォルトです。 FALSE—ポリゴンごとに、基になる連続ラスターの平均値と基になるカテゴリーラスターの最頻値が割り当てられます。	Boolean
number_of_trees (オプション)	フォレストベースモデルと勾配ブースティングモデルで作成されたツリーの数。デフォルトは 100 です。 model_type パラメーター値が FOREST-BASED である場合、ツリーの数を多くするとモデル予測の精度が上がりますが、モデルの計算時間が長くなります。 model_type パラメーター値が GRADIENT_BOOSTED である場合、ツリーの数を多くするとモデル予測の精度が上がりますが、トレーニングデータの過剰適合の原因になることがあります。データの過剰適合を防ぐには、maximum_depth、reg_lambda、gamma、eta パラメーターの値を指定します。	Long
minimum_leaf_size (オプション)	リーフを維持するために最低限必要な観測数 (つまり、これ以上分割できないツリー上のターミナルノード)。デフォルトの最小数は、回帰の場合には 5、分類の場合には 1 になります。大規模なデータの場合は、これらの数を増やすと、このツールの実行時間が短くなります。	Long
maximum_depth (オプション)	ツリーの下に作成される分割の最大数。最大ツリー階層の値を大きくすると、さらに多くの分割が作成されるため、モデルの過剰適合の可能性が高くなります。 model_type パラメーター値が FOREST-BASED の場合、デフォルト値はデータドリブンであり、作成されるツリー数と含まれる変数の数によって異なります。 model_type パラメーター値が GRADIENT_BOOSTED の場合、デフォルトは 6 です。	Long
sample_size (オプション)	決定木ごとに使用される in_features 値の割合。デフォルトはデータの 100% です。各ツリーのサンプルは、指定されたデータの 3 分の 2 の中からランダムに取得されます。集合内の各決定木の作成には、ランダムなサンプルが使用されるか、利用可能なトレーニングデータのサブセット (約 3 分の 2) が使用されます。各決定木の入力データの割合を低くすると、大規模なデータセットの場合のこのツールの実行時間が短くなります。	Long
random_variables (オプション)	各決定木の作成に使用される説明変数の数。フォレストの各決定木は、指定された説明変数のランダムなサブセットを使用して作成されます。各決定木で使用される変数の数を増やすと、特に 1 つ以上のドミナント変数が存在する場合に、モデルの超過適合の可能性が高くなります。一般的な方法として、variable_predict 値がカテゴリーの場合は、説明変数の総数 (フィールド、距離、およびラスターの合計) の平方根を使用し、variable_predict 値が数値の場合は、説明変数の総数 (フィールド、距離、およびラスターの合計) を 3 で除算します。	Long
percentage_for_training (オプション)	検証のためにテストデータセットとして確保される in_features 値の割合 (0 ～ 50 パーセント)。ここで指定したデータのランダムなサブセットなしでモデルのトレーニングが行われ、これらのフィーチャの観測値が予測値と比較されます。デフォルトは 10 パーセントです。	Double
output_classification_table (オプション)	検証データで作成されたモデルのパフォーマンスを集計する混同行列。この行列では、検証データに対してモデルが予測したカテゴリーを、実際のカテゴリーと比較します。このテーブルは、出力メッセージに含まれていない、他の診断を計算するために使用されます。このパラメーターは、variable_predict 値がカテゴリーで、treat_variable_as_categorical パラメーター値が CATEGORICAL の場合に使用できます。	Table
output_validation_table (オプション)	variable_predict 値がカテゴリーでない場合に各モデルの R² が含まれ、値がカテゴリーの場合に各モデルの正確度が含まれるテーブル。このテーブルには、正確度または R² 値の分布を示すバーチャートが含まれます。この分布を使用して、モデルの安定性を評価できます。このパラメーターは、number_validation_runs 値が 2 よりも大きい場合に使用できます。	Table
compensate_sparse_categories (オプション)	頻度にかかわらず、トレーニングデータセット内の各カテゴリーを各ツリーで表すかどうかを指定します。このパラメーターは、model_type パラメーター値が FOREST-BASED である場合に使用できます。 TRUE—各ツリーは、トレーニングデータセット内で表されるすべてのカテゴリーを含みます。 FALSE—トレーニングデータセット内のカテゴリーのランダムなサンプルに基づいて、各ツリーが作成されます。これがデフォルトです。	Boolean
number_validation_runs (オプション)	ツールの反復回数。すべてのモデルの相関係数の二乗値の分布または正確度の分布は、output_validation_table パラメーターを使用して表示できます。 prediction_type パラメーターの値が PREDICT_RASTER または PREDICT_FEATURES に設定されている場合は、相関係数の二乗値の中央値または正確度の中央値を生成したモデルが予測に使用されます。中央値を使用すると、予測の安定性を確保できます。	Long
calculate_uncertainty (オプション)	トレーニング、フィーチャの予測、またはラスターの予測の際に、予測の不確実性を計算するかどうかを指定します。このパラメーターは、model_type パラメーター値が FOREST-BASED である場合に使用できます。 TRUE—予測の不確実性間隔が計算されます。 FALSE—不確実性は計算されません。これがデフォルトです。	Boolean
output_trained_model (オプション)	後から予測に使用できるトレーニング済みモデルが保存される出力モデルファイル。	File
model_type (オプション)	モデルの作成に使用する方法を指定します。 FOREST-BASED—モデルは、ランダムフォレストアルゴリズムを転用して作成されます。このモデルでは、数百もの決定木から得た結果を使用します。それぞれの決定木は、元のデータと元の変数のランダムに生成されたサブセットから作成されます。 GRADIENT_BOOSTED—モデルは、Extreme Gradient Boosting (XGBoost) アルゴリズムを用いて作成されます。このモデルでは、後続の各ツリーが前のツリーの誤差を修正する、何百にも上るツリーのシーケンスが作成されます。	String
reg_lambda (オプション)	モデルの感度を個々のフィーチャまで下げる正規化手法。この値を大きくすると、モデルがより保守的になるため、トレーニングデータの過剰適合を防止することができます。値が 0 の場合は、モデルは従来の勾配ブースティングモデルになります。デフォルトは 1 です。このパラメーターは、model_type パラメーター値が GRADIENT_BOOSTED である場合に使用できます。	Double
gamma (オプション)	ツリーの分割に必要な最小損失削減の閾値。潜在的な分割の損失削減を評価します。分割候補の損失削減がこの閾値よりも大きい場合は、パーティション化が行われます。高い閾値を設定すると過剰適合を防止でき、パーティション数が少ない、より保守的なモデルになります。デフォルトは 0 です。このパラメーターは、model_type パラメーター値が GRADIENT_BOOSTED である場合に使用できます。	Double
eta (オプション)	最終的な予測への各ツリーの関与を少なくする値。 0 より大きく、1 以下の値を設定する必要があります。学習率を小さくすると、モデルの過剰適合は防止できますが、計算時間が長くなる可能性があります。デフォルトは 0.3 です。このパラメーターは、model_type パラメーター値が GRADIENT_BOOSTED である場合に使用できます。	Double
max_bins (オプション)	最適な分割ポイントを検索するために、トレーニングデータを分割するビンの数。この値は 1 に設定できません。デフォルトは 0 で、グリーディアルゴリズムが使用されます。グリーディアルゴリズムでは、すべてのデータポイントで分割候補が作成されます。検索用のビン数が少なすぎると、モデル予測パフォーマンスが低下するため、おすすめできません。このパラメーターは、model_type パラメーター値が GRADIENT_BOOSTED である場合に使用できます。	Long
optimize (オプション)	最適化方法を使用して、最適なモデルパフォーマンスを実現するハイパーパラメーターセットを見つけるかどうかを指定します。 TRUE—最適化方法を使用して、ハイパーパラメーターセットを見つけます。 FALSE—最適化方法は使用されません。これがデフォルトです。	Boolean
optimize_algorithm (オプション)	最適なハイパーパラメーターセットを見つけるための検索ポイントを選択し、テストするために使用される最適化方法を指定します。検索ポイントは、model_param_setting パラメーターで指定された検索空間内の、ハイパーパラメーターの組み合わせです。このオプションは、optimize パラメーター値が TRUE である場合に使用できます。 RANDOM—検索空間内で検索ポイントを選択するには、階層別ランダムサンプリングアルゴリズムが使用されます。これがデフォルトです。 RANDOM_ROBUST—検索ポイントを選択するには、階層別ランダムサンプリングアルゴリズムが使用されます。各検索は、異なるランダムシードを使用して 10 回実行されます。各検索の結果は、optimize_target パラメーター値によって決定された、中央値の最適な実行になります。このオプションは、model_type パラメーター値が FOREST-BASED である場合に使用できます。 GRID—検索空間内の各検索ポイントが選択されます。	String
optimize_target (オプション)	最適なハイパーパラメーターセットを見つけるために、最小化または最大化される目的関数や値を指定します。 R2—最適化方法は R² を最大化し、最適なハイパーパラメーターセットを見つけます。このオプションは、予測対象変数がカテゴリーではない場合にのみ使用できます。これは、予測対象変数がカテゴリーではない場合のデフォルトです。 RMSE—最適化方法は二乗平均平方根誤差を最小化し、最適なハイパーパラメーターセットを見つけます。このオプションは、予測対象変数がカテゴリーではない場合にのみ使用できます。 ACCURACY—最適化方法は正確度を最大化し、最適なモデルを見つけます。このオプションは、予測対象変数がカテゴリーである場合にのみ使用できます。これは、予測対象変数がカテゴリーである場合のデフォルトです。 MCC—最適化方法はマシューズ相関係数を最大化し、最適なハイパーパラメーターセットを見つけます。このオプションは、予測対象変数がカテゴリーである場合にのみ使用できます。 F1-SCORE—最適化方法は F1 スコアを最大化し、最適なハイパーパラメーターセットを見つけます。このオプションは、予測対象変数がカテゴリーである場合にのみ使用できます。	String
num_search (オプション)	model_param_setting パラメーターで指定される検索空間内でテストされる検索ポイントの数。このパラメーターは、optimize_algorithm パラメーター値が RANDOM または RANDOM_ROBUST である場合に使用できます。	Long
model_param_setting [model_param_setting,...] (オプション)	ハイパーパラメーターとその検索空間のリスト。各ハイパーパラメーターの検索空間をカスタマイズするには、下限、上限、間隔を指定します。下限と上限は、ハイパーパラメーターで使用可能な値の範囲を指定します。各ハイパーパラメーターで有効な値の範囲は以下のとおりです。 [ツリー数] (NUM_TREES) - 1 より大きい整数値。 [最大ツリー階層] (MAX_DEPTH) - 0 以上の整数値。 [最小リーフサイズ] (LEAF_SIZE) - 1 より大きい整数値。 [ツリーあたりの利用可能なデータ (%)] (SAMPLE_SIZE) - 0 より大きく、100 以下の整数値。 [ランダムにサンプリングされた変数の数] (RANDOM_VARIABLES) - 説明変数の数以下の整数値。これには、フィールド、距離フィーチャ、ラスターから取得した説明変数が含まれます。 [学習率 (イータ)] (ETA) - 0 より大きく、1 以下の倍精度値。 [L2 正規化 (ラムダ)] (REG_LAMBDA) - 0 以上の倍精度値。 [分割の最小損失減少 (ガンマ)] (GAMMA) - 0 以上の倍精度値。 [分割を検索するビンの最大数] (MAX_BINS) - 1 より大きい整数値か 0。値が 0 の場合は、モデルはすべてのデータポイントで分割候補を作成します。	Value Table
output_param_tuning_table (オプション)	パラメーター設定と、最適化試行の目的値を含むテーブル。出力には、すべての試行とその目的値のチャートが含まれます。このオプションは、optimize が TRUE の場合に使用できます。	Table
include_probabilities (オプション)	予測対象のカテゴリー変数では、カテゴリー変数のすべてのカテゴリーの確率を予測するか、該当するレコードのカテゴリーの確率だけを予測するかを指定します。たとえば、カテゴリー変数にカテゴリー A、B、C が存在し、最初のレコードにカテゴリー B が存在する場合は、このパラメーターを使用して、カテゴリー A、B、C の確率を予測するか、カテゴリー B の確率だけを予測するかを指定します。 ALL_PROBABILITIES—カテゴリー変数のすべてのカテゴリーの確率が予測され、トレーニング済みフィーチャ出力と予測済みフィーチャ出力に含まれます。 HIGHEST_PROBABILITY_ONLY—該当するレコードのカテゴリーの確率だけが予測され、トレーニング済みフィーチャ出力と予測済みフィーチャ出力に含まれます。これがデフォルトです。	Boolean

派生した出力

名前	説明	データタイプ
output_uncertainty_raster_layers	calculate_uncertainty が TRUE に設定されている場合、ツールは variable_predict パラメーターの各予測値の周辺で 90 パーセントの予測間隔を計算します。	Raster Layer

コードのサンプル

Forest の例 1 (Python ウィンドウ)

次の Python スクリプトは、Forest 関数の使用方法を示しています。

import arcpy
arcpy.env.workspace = r"c:\data"

# Forest-based model using only the training method and all data
# comes from a single polygon feature class. The tool excludes 10% of the 
# input features from training and uses these values to validate the model.

prediction_type = "TRAIN"
in_features = r"Boston_Vandalism.shp"
variable_predict = "VandCnt"
explanatory_variables = [["Educat", "false"], ["MedAge", "false"], 
    ["HHInc", "false"], ["Pop", "false"]]
output_trained_features = "TrainingFeatures.shp"
number_of_trees = 100
sample_size = 100
percentage_for_training = 10

arcpy.stats.Forest(prediction_type, in_features, variable_predict, None,
    explanatory_variables, None, None, None, None, None, None, None, None,
    output_trained_features, None, True, number_of_trees, None, None, sample_size, 
    None, percentage_for_training)

Forest の例 2 (スタンドアロンスクリプト)

次の Python スクリプトは、Forest 関数を使用して、フィーチャに関する予測を行う方法を示しています。

# Import system modules
import arcpy

# Set property to overwrite existing outputs
arcpy.env.overwriteOutput = True

# Set the work space to a gdb
arcpy.env.workspace = r"C:\Data\BostonCrimeDB.gdb"

# Forest-based model taking advantage of both distance features and 
# explanatory rasters. The training and prediction data has been manually
# split so the percentage to exclude parameter was set to 0. A variable importance
# table is created to help assess results and advanced options have been used
# to fine-tune the model.

prediction_type = "PREDICT_FEATURES"
in_features = r"Boston_Vandalism_Training"
variable_predict = "Vandalism_Count"
treat_variable_as_categorical = None
explanatory_variables = [["EduClass", "true"], ["MedianAge", "false"],
    ["HouseholdIncome", "false"], ["TotalPopulation", "false"]]
distance_features = r"Boston_Highways"
explanatory_rasters = r"LandUse true"
features_to_predict = r"Boston_Vandalism_Prediction"
output_features = r"Prediction_Output"
output_raster = None
explanatory_variable_matching = [["EduClass", "EduClass"], ["MedianAge", "MedianAge"], 
    ["HouseholdIncome", "HouseholdIncome"], ["TotalPopulation", "TotalPopulation"]]
explanatory_distance_matching = [["Boston_Highways", "Boston_Highways"]]
explanatory_rasters_matching = [["LandUse", "LandUse"]]
output_trained_features = r"Training_Output"
output_importance_table = r"Variable_Importance"
use_raster_values = True
number_of_trees = 100
minimum_leaf_size = 2
maximum_level = 5
sample_size = 100
random_sample = 3
percentage_for_training = 0

arcpy.stats.Forest(prediction_type, in_features, variable_predict,
    treat_variable_as_categorical, explanatory_variables, distance_features,
    explanatory_rasters, features_to_predict, output_features, output_raster,
    explanatory_variable_matching, explanatory_distance_matching, 
    explanatory_rasters_matching, output_trained_features, output_importance_table,
    use_raster_values, number_of_trees, minimum_leaf_size, maximum_level,
    sample_size, random_sample, percentage_for_training)

Forest の例 3 (スタンドアロンスクリプト)

次の Python スクリプトは、Forest 関数を使用して、予測サーフェスを作成する方法を示しています。

# Import system modules
import arcpy

# Set property to overwrite existing outputs
arcpy.env.overwriteOutput = True

# Set the work space to a gdb
arcpy.env.workspace = r"C:\Data\Landsat.gdb"

# Using a forest-based model to classify a Landsat image. The TrainingPolygons feature 
# class was created manually and is used to train the model to 
# classify the remainder of the Landsat image.

prediction_type = "PREDICT_RASTER"
in_features = r"TrainingPolygons"
variable_predict = "LandClassName"
treat_variable_as_categorical = "CATEGORICAL" 
explanatory_variables = None
distance_features = None
explanatory_rasters = [["Band1", "false"], ["Band2", "false"], ["Band3", "false"]]
features_to_predict = None
output_features = None
output_raster = r"PredictionSurface"
explanatory_variable_matching = None
explanatory_distance_matching = None
explanatory_rasters_matching = [["Band1", "Band1"], ["Band2", "Band2"], ["Band3", "Band3"]]
output_trained_features = None
output_importance_table = None
use_raster_values = True
number_of_trees = 100
minimum_leaf_size = None
maximum_level = None
sample_size = 100
random_sample = None
percentage_for_training = 10

arcpy.stats.Forest(prediction_type, in_features, variable_predict,
    treat_variable_as_categorical, explanatory_variables, distance_features,
    explanatory_rasters, features_to_predict, output_features, output_raster,
    explanatory_variable_matching, explanatory_distance_matching, 
    explanatory_rasters_matching, output_trained_features, output_importance_table,
    use_raster_values, number_of_trees, minimum_leaf_size, maximum_level,
    sample_size, random_sample, percentage_for_training)

環境

セルサイズ, 出力座標系, 乱数ジェネレーター, マスク, 並列処理ファクター

特殊なケース

乱数ジェネレーター: 使用される乱数ジェネレーターのタイプは常にメルセンヌツイスターです。

並列処理ファクター: 並列処理は、予測を作成するときのみ使用されます。

ライセンス情報

Basic: 制限付き
Standard: 制限付き
Advanced: 制限付き

サマリー

図

使用法

パラメーター

派生した出力

派生した出力

コードのサンプル

環境

特殊なケース

ライセンス情報

関連トピック

このトピックの内容