フォレストベースの分類と回帰分析 (Forest-based Classification and Regression) (GeoAnalytics)—ArcGIS Pro

サマリー

教師付きコンピューターラーニング手法である Leo Breiman のランダムフォレストアルゴリズムを転用してモデルを作成し、予測を生成します。予測は、カテゴリ変数 (分類) と連続変数 (回帰) の両方に対して実行できます。説明変数は、トレーニングフィーチャの属性テーブル内のフィールドの形態をとることができます。トレーニングデータに基づいてモデルのパフォーマンスを検証するだけでなく、フィーチャ対して予測を行うこともできます。

使用法

このツールでは、予測に使用できるモデルを作成するために、何百にも上るツリー (決定木のアンサンブルと呼ばれる) が作成されます。それぞれの決定木の作成には、元の (トレーニング) データのランダムに生成された部分が使用されます。ツリーごとに独自の予測が生成され、結果が決定されます。フォレストモデルでは、不明なサンプルの結果を予測または分類するために、すべての決定木から得た決定を考慮します。個々のツリーにはモデルの過剰適合の問題があることが考えられるため、この処理は非常に重要です。予測用にフォレスト内の複数のツリーを組み合わせると、単一のツリーに関連する過剰適合の問題に対処できます。
このツールは、2 つの操作モードで使用できます。[トレーニング] モードを使用すると、さまざまな説明変数およびツール設定を調査しながら、それぞれのモデルのパフォーマンスを評価できます。適切なモデルが見つかったら、[トレーニングおよび予測] モードを使用できます。
このツールはデータドリブンであり、大規模なデータセットで最適に動作します。最適な結果を得るためには、少なくとも数百のフィーチャに対してこのツールをトレーニングする必要があります。このツールは、小規模なデータセットには適していません。
[入力トレーニングフィーチャ] として、テーブル、ポイント、ライン、またはポリゴンフィーチャを指定できます。このツールをマルチパートデータに使用することはできません。
予測または説明フィールドに 1 つ以上の NULL 値または空の文字列値を持つフィーチャは、出力から除外されます。必要に応じて、[フィールド演算 (Calculate Field)] ツールを使用して、値を変更します。
ツールは、次のような操作モードに応じて、さまざまな出力を作成します。
- [トレーニング] は、次の 2 つの出力を作成します。
  - 出力トレーニングフィーチャ - 作成されたモデルで使用されるすべての [入力トレーニングフィーチャ]、およびモデルで使用されるすべての説明変数を含みます。また、モデルのトレーニングに使用されているすべてのフィーチャに関する予測も含まれます。この予測は、作成されたモデルのパフォーマンスを評価するのに役立ちます。
  - ツールのサマリーメッセージ - 作成されたモデルのパフォーマンスを理解するのに役立つメッセージです。このメッセージには、モデル特性、変数重要度、検証診断に関する情報が記載されています。
- [トレーニングおよび予測] は、次の 3 つの出力を作成します。
  - 出力トレーニングフィーチャ - 作成されたモデルで使用されるすべての [入力トレーニングフィーチャ]、およびモデルで使用されるすべての説明変数を含みます。また、モデルのトレーニングに使用されているすべてのフィーチャに関する予測も含まれます。この予測は、作成されたモデルのパフォーマンスを評価するのに役立ちます。
  - 出力予測フィーチャ - 予測結果のレイヤーです。予測は、トレーニングレイヤーから生成されたモデルを使用して、予測するレイヤーに適用されます ([入力推定フィーチャ] オプションを使用)。
  - ツールのサマリーメッセージ - 作成されたモデルのパフォーマンスを理解するのに役立つメッセージです。このメッセージには、モデル特性、変数重要度、検証診断に関する情報が記載されています。
[変数重要度テーブルの作成] パラメーターを使用すると、変数重要度を評価するためのチャートの表示に使用するテーブルを作成できます。上位 20 の変数重要度の値もメッセージウィンドウで通知されます。
説明変数は、フィールドから取得することができ、さまざまな値を含んでいる必要があります。説明変数がカテゴリの場合は、[カテゴリ] チェックボックスをオンにします (文字列タイプの変数が自動的にオンになります)。カテゴリ説明変数は 60 の個別値に制限されていますが、カテゴリの数を少なくすると、モデルのパフォーマンスが上がります。データのサイズによっては、変数に含まれているカテゴリの数が多いと、モデルに大きく影響し、これによって予測結果が意味を持たなくなる可能性が高くなります。
説明変数を照合する場合、[トレーニングフィールド] と [予測フィールド] は同じタイプである必要があります (たとえば、[トレーニングフィールド] の double フィールドは [予測フィールド] の double フィールドに一致する必要があります)。
フォレストベースのモデルは外挿されないため、モデルのトレーニングが実行された値にしか分類も予測もできません。ターゲットのフィーチャおよび変数の範囲内のトレーニングフィーチャおよび説明変数を使用して、モデルをトレーニングします。トレーニングフィーチャに含まれていない予測説明変数にカテゴリが存在する場合は、このツールの実行に失敗します。
[ツリーの数] パラメーターのデフォルト値は 100 です。フォレストモデル内のツリーの数を増やすと、モデル予測の精度は上がりますが、そのモデルでの計算時間が長くなります。
トレーニング用の単一のレイヤーおよび予測用の単一のレイヤーがサポートされています。複数のデータセットを 1 つに結合するには、[多変数グリッドの構築] ツールおよび [多変数グリッドから情報付加] ツールを使用して入力データを生成します。
このジオプロセシングツールは、ArcGIS GeoAnalytics Server を活用しています。解析は GeoAnalytics Server で実行され、結果が ArcGIS Enterprise のコンテンツに保存されます。
GeoAnalytics Server ツールを実行する場合、解析は GeoAnalytics Server で実行されます。最適なパフォーマンスを得るためには、ArcGIS Enterprise ポータルでホストされているフィーチャレイヤーかビッグデータファイル共有を通じて、GeoAnalytics Server にデータを提供する必要があります。 GeoAnalytics Server のローカルにないデータは、解析が開始する前に GeoAnalytics Server に移動されます。つまり、ツールを実行する時間が長くなり、場合によっては ArcGIS Pro から GeoAnalytics Server にデータを移動できないこともあります。エラーの閾値はネットワークの速度や、データのサイズや複雑さに左右されます。データを必ず共有するか、ビッグデータファイル共有を作成することをお勧めします。
データをポータルで共有する方法の詳細
ArcGIS Server Manager を使用してビッグデータファイル共有を作成する方法の詳細

パラメーター

ラベル	説明	データタイプ
予測タイプ	このツールの操作モードを指定します。このツールでは、パフォーマンスの評価、フィーチャの予測、または予測サーフェスの作成の目的にのみモデルのトレーニングを実行できます。トレーニングのみ—モデルのトレーニングは行われますが、予測は生成されません。このオプションを使用すると、予測を生成する前に、モデルの精度を評価できます。このオプションを使用すると、モデル診断がメッセージウィンドウに出力され、変数重要度のチャートが表示されます。これがデフォルトです。トレーニングおよび予測—フィーチャに関する予測または分類が生成されます。トレーニングフィーチャと予測対象フィーチャの両方に説明変数を指定する必要があります。このオプションの出力内容は、フィーチャクラス、メッセージウィンドウでのモデル診断、変数重要度の任意のテーブルです。	String
入力トレーニングフィーチャ	[予測対象変数] パラメーターと説明トレーニング変数フィールドを含むレイヤー。	Record Set
出力フィーチャ名 (オプション)	出力フィーチャレイヤー名。	String
予測対象変数 (オプション)	モデルのトレーニングに使用される値を含む [入力トレーニングフィーチャ] パラメーターから生成された変数。このフィールドには、不明な位置での予測に使用される変数の既知 (トレーニング) の値が含まれます。	Field
変数をカテゴリとして処理 (オプション)	[予測対象変数] をカテゴリ変数にするかどうかを指定します。オン - [予測対象変数] がカテゴリ変数になり、このツールで分類が実行されます。オフ - [予測対象変数] が連続変数になり、このツールで回帰が実行されます。これがデフォルトです。	Boolean
説明変数 (オプション)	[予測対象変数] の値またはカテゴリの予測に役立つ説明変数を表すフィールドのリスト。クラスまたはカテゴリを表す変数 (土地被覆や有無など) の場合に [カテゴリ] チェックボックスをオンにします。	Value Table
変数重要度テーブルの作成 (オプション)	モデルで使用されている説明変数ごとの重要度を示す情報が出力テーブルに含まれるかどうかを指定します。オン - 出力テーブルに各説明変数の情報が含まれます。オフ - 出力テーブルに各説明変数の情報が含まれません。これがデフォルトです。	Boolean
入力予測フィーチャ (オプション)	予測が行われる位置を表すフィーチャレイヤー。このフィーチャレイヤーには、トレーニングデータから使用されるフィールドに対応するフィールドとして指定された説明変数も含める必要があります。	Record Set
説明変数の照合 (オプション)	右側の [入力トレーニングフィーチャ] に対して指定された [説明変数] と左側の [入力予測フィーチャ] の対応するフィールドのリスト。	Value Table
ツリーの数 (オプション)	フォレストモデル内で作成するツリーの数。通常、ツリーの数を多くすると、モデル予測の精度は上がりますが、そのモデルでの計算時間が長くなります。デフォルトのツリー数は 100 です。	Long
最小リーフサイズ (オプション)	リーフを維持するために最低限必要な観測数 (つまり、これ以上分割できないツリー上のターミナルノード)。デフォルト最小値は、回帰の場合の 5、分類の場合は 1 です。大規模なデータの場合は、これらの数を増やすと、このツールの実行時間が短くなります。	Long
最大ツリー階層 (オプション)	ツリーの下に作成される分割の最大数。最大ツリー階層の値を大きくすると、さらに多くの分割が作成されるため、モデルの過剰適合の可能性が高くなります。デフォルト値は、データに基づき、作成されるツリー数と含まれる変数の数によって異なります。	Long
ツリーあたりの利用可能なデータ (%) (オプション)	決定木ごとに使用される [入力トレーニングフィーチャ] の割合。デフォルトはデータの 100% です。各ツリーのサンプルは、指定されたデータの 3 分の 2 の中からランダムに取得されます。集合内の各決定木の作成には、ランダムなサンプルが使用されるか、利用可能なトレーニングデータのサブセット (約 3 分の 2) が使用されます。各決定木の入力データの割合を低くすると、大規模なデータセットの場合、ツールの実行速度が上がります。	Long
ランダムにサンプリングされる変数の数 (オプション)	各決定木の作成に使用される説明変数の数。フォレストの各決定木は、指定された説明変数のランダムなサブセットを使用して作成されます。各決定木で使用される変数を増やすと、特に 1 つ以上の変数が優位な場合、モデルの過剰適合の可能性が高くなります。一般的な方法として、[予測対象変数] が数値の場合は、説明変数の総数の平方根を使用し、[予測対象変数] がカテゴリの場合は、説明変数の総数を 3 で除算します。	Long
検証のために除外するトレーニングデータ (%) (オプション)	検証のためにテストデータセットとして確保する [入力トレーニングフィーチャ] の割合 (10 ～ 50 パーセント)。ここで指定したデータのランダムなサブセットなしでモデルのトレーニングが行われ、これらのフィーチャの観測値が予測値と比較されます。デフォルトは 10 パーセントです。	Long
データストア (オプション)	出力の保存先の ArcGIS Data Store を指定します。デフォルトは、[ビッグデータストア] です。ビッグデータストアに格納されたすべての結果は、WGS84 で保存されます。リレーショナルデータストアに格納された結果は、それらの座標系を維持します。ビッグデータストア—出力がビッグデータストアに格納されます。これがデフォルトです。リレーショナルデータストア—出力がリレーショナルデータストアに格納されます。	String

派生した出力

ラベル	説明	データタイプ
出力トレーニング済みフィーチャ	トレーニング使用される入力変数、パラメーターを予測するための観測値、モデルのパフォーマンスを詳細に評価する際に使用できる予測を含む出力です。	レコードセット
重要度テーブルの変数	作成されたモデルで使用されている説明変数ごとの重要度を示す情報を含むテーブル。	レコードセット
出力予測済みフィーチャ	モデルの予測を受け取るレイヤーです。	レコードセット

arcpy.geoanalytics.Forest(prediction_type, in_features, {output_trained_name}, {variable_predict}, {treat_variable_as_categorical}, {explanatory_variables}, {create_variable_importance_table}, {features_to_predict}, {explanatory_variable_matching}, {number_of_trees}, {minimum_leaf_size}, {maximum_tree_depth}, {sample_size}, {random_variables}, {percentage_for_validation}, {data_store})

名前	説明	データタイプ
prediction_type	このツールの操作モードを指定します。このツールでは、パフォーマンスの評価、フィーチャの予測、または予測サーフェスの作成の目的にのみモデルのトレーニングを実行できます。 TRAIN—モデルのトレーニングは行われますが、予測は生成されません。このオプションを使用すると、予測を生成する前に、モデルの精度を評価できます。このオプションを使用すると、モデル診断がメッセージウィンドウに出力され、変数重要度のチャートが表示されます。これがデフォルトです。 TRAIN_AND_PREDICT—フィーチャに関する予測または分類が生成されます。トレーニングフィーチャと予測対象フィーチャの両方に説明変数を指定する必要があります。このオプションの出力内容は、フィーチャクラス、メッセージウィンドウでのモデル診断、変数重要度の任意のテーブルです。	String
in_features	[variable_predict] パラメーターと説明トレーニング変数フィールドを含むフィーチャクラス。	Record Set
output_trained_name (オプション)	出力フィーチャレイヤー名。	String
variable_predict (オプション)	モデルのトレーニングに使用される値を含む [in_features] パラメーターから生成された変数。このフィールドには、不明な位置での予測に使用される変数の既知 (トレーニング) の値が含まれます。	Field
treat_variable_as_categorical (オプション)	CATEGORICAL—[variable_predict] がカテゴリ変数になり、このツールで分類が実行されます。 NUMERIC—[variable_predict] が連続変数になり、このツールで分類が実行されます。これがデフォルトです。	Boolean
explanatory_variables [[Variable, Categorical],...] (オプション)	[variable_predict] の値またはカテゴリの予測に役立つ説明変数を表すフィールドのリスト。クラスまたはカテゴリを表す変数 (土地被覆や有無など) の場合に [treat_variable_as_categorical] パラメーターを使用します。クラスまたはカテゴリを表す変数 (土地被覆や有無など) の場合は true に設定し、連続変数の場合は false に設定します。	Value Table
create_variable_importance_table (オプション)	モデルで使用されている説明変数ごとの重要度を示す情報が出力テーブルに含まれるかどうかを指定します。 CREATE_TABLE—出力テーブルに各説明変数の情報が含まれます。 NO_TABLE—出力テーブルに各説明変数の情報が含まれません。これがデフォルトです。	Boolean
features_to_predict (オプション)	予測が行われる位置を表すフィーチャレイヤー。このフィーチャレイヤーには、トレーニングデータから使用されるフィールドに対応するフィールドとして指定された説明変数も含める必要があります。	Record Set
explanatory_variable_matching [[Prediction, Training],...] (オプション)	右側の [in_features] に対して指定された [explanatory_variables] と左側の [features_to_predict] の対応するフィールド ([["LandCover2000", "LandCover2010"], ["Income", "PerCapitaIncome"]] など) のリスト。	Value Table
number_of_trees (オプション)	フォレストモデル内で作成するツリーの数。通常、ツリーの数を多くすると、モデル予測の精度は上がりますが、そのモデルでの計算時間が長くなります。デフォルトのツリー数は 100 です。	Long
minimum_leaf_size (オプション)	リーフを維持するために最低限必要な観測数 (つまり、これ以上分割できないツリー上のターミナルノード)。デフォルト最小値は、回帰の場合の 5、分類の場合は 1 です。大規模なデータの場合は、これらの数を増やすと、このツールの実行時間が短くなります。	Long
maximum_tree_depth (オプション)	ツリーの下に作成される分割の最大数。最大ツリー階層の値を大きくすると、さらに多くの分割が作成されるため、モデルの過剰適合の可能性が高くなります。デフォルト値は、データに基づき、作成されるツリー数と含まれる変数の数によって異なります。	Long
sample_size (オプション)	決定木ごとに使用される [in_features] の割合。デフォルトはデータの 100% です。各ツリーのサンプルは、指定されたデータの 3 分の 2 の中からランダムに取得されます。集合内の各決定木の作成には、ランダムなサンプルが使用されるか、利用可能なトレーニングデータのサブセット (約 3 分の 2) が使用されます。各決定木の入力データの割合を低くすると、大規模なデータセットの場合、ツールの実行速度が上がります。	Long
random_variables (オプション)	各決定木の作成に使用される説明変数の数。フォレストの各決定木は、指定された説明変数のランダムなサブセットを使用して作成されます。各決定木で使用される変数を増やすと、特に 1 つ以上の変数が優位な場合、モデルの過剰適合の可能性が高くなります。一般的な方法として、[variable_predict] が数値の場合は、説明変数の総数の平方根を使用し、[variable_predict] がカテゴリの場合は、説明変数の総数を 3 で除算します。	Long
percentage_for_validation (オプション)	検証のためにテストデータセットとして確保する [in_features] の割合 (10 ～ 50 パーセント)。ここで指定したデータのランダムなサブセットなしでモデルのトレーニングが行われ、これらのフィーチャの観測値が予測値と比較されます。デフォルトは 10 パーセントです。	Long
data_store (オプション)	出力の保存先の ArcGIS Data Store を指定します。デフォルトは、SPATIOTEMPORAL_DATA_STORE です。ビッグデータストアに格納されたすべての結果は、WGS84 で保存されます。リレーショナルデータストアに格納された結果は、それらの座標系を維持します。 SPATIOTEMPORAL_DATA_STORE—出力がビッグデータストアに格納されます。これがデフォルトです。 RELATIONAL_DATA_STORE—出力がリレーショナルデータストアに格納されます。	String

派生した出力

名前	説明	データタイプ
output_trained	トレーニング使用される入力変数、パラメーターを予測するための観測値、モデルのパフォーマンスを詳細に評価する際に使用できる予測を含む出力です。	レコードセット
variable_of_importance	作成されたモデルで使用されている説明変数ごとの重要度を示す情報を含むテーブル。	レコードセット
output_predicted	モデルの予測を受け取るレイヤーです。	レコードセット

コードのサンプル

Forest (フォレスト) の例 (Python ウィンドウ)

次の Python ウィンドウスクリプトは、ForestBasedClassificationAndRegressionツールの使用方法を示しています。

このスクリプトでは、ネットワークフィーチャが記述され、2500 フィーチャのサンプルレイヤーが作成されます。

#-------------------------------------------------------------------------------
# Name: Forest.py
# Description: Run Forest on sales data from 1980 and predict for sales in 1981
#
# Requirements: ArcGIS GeoAnalytics Server
# Import system modules
import arcpy
arcpy.env.workspace = "c:/data/commercial.gdb"
# Set local variables
trainingDataset = "https://analysis.org.com/server/rest/services/Hosted/sales/FeatureServer/0"
predictionDataset = "https://analysis.org.com/server/rest/services/Hosted/next_year/FeatureServer/0"
outputName = "training"
outputPredictedName = "predicted"
# Execute Forest
arcpy.geoanalytics.Forest("TRAIN_AND_PREDICT", inputDataset, outputName, "PERIMETER", None, ""STORE_CATEGORY true;AVG_INCOME false;POPULATION false", None, predictionDataset, 
"STORE_CATEGORY STORE_CATEGORY;AVG_INCOME MEAN_INCOME; POPULATION POPULATION", 100, , , 120, , 10, "SPATIOTEMPORAL_DATA_STORE")

環境

出力座標系, 範囲, 現在のワークスペース

特殊なケース

出力座標系: 解析で使用される座標系。このパラメーターで指定されない限り、入力の座標系で解析が行われます。 GeoAnalytics Tools の場合、最終結果は WGS84 のビッグデータストアに保存されます。

ライセンス情報

Basic: 次のものが必要 ArcGIS GeoAnalytics Server
Standard: 次のものが必要 ArcGIS GeoAnalytics Server
Advanced: 次のものが必要 ArcGIS GeoAnalytics Server

サマリー

使用法

パラメーター

派生した出力

派生した出力

コードのサンプル

環境

特殊なケース

ライセンス情報

関連トピック

このトピックの内容