AutoML を使用したトレーニング (Train Using AutoML) (GeoAI)—ArcGIS Pro

サマリー

トレーニングパイプラインを構築し、トレーニングプロセスの多くを自動化することで、ディープラーニングモデルをトレーニングします。これには、探索的データ解析、フィーチャの選択、フィーチャエンジニアリング、モデルの選択、ハイパーパラメーターの調整、およびモデルトレーニングが含まれます。その出力には、トレーニングデータの最適モデルのパフォーマンス指標と、[AutoML を使用した予測 (Predict Using AutoML)] ツールの入力として使用し、新しいデータセットを予測できるトレーニング済みのディープラーニングモデルパッケージ (.dlpk) が含まれます。

AutoML の仕組みの詳細

使用法

ArcGIS Pro に Python の適切なディープラーニングフレームワークパッケージをインストールする必要があります。
ArcGIS 用のディープラーニングフレームワークのインストール方法の詳細
ツールがトレーニング済みモデルを作成するのにかかる時間は、以下に応じて異なります。
- トレーニング中に入力されるデータの量
- [AutoML モード] パラメーターの値
デフォルトで、すべてのモードのタイマーは 240 分に設定されています。トレーニングで使用されるデータ量にかかわらず、[AutoML モード] パラメーターの [基本] オプションでは、最適モデルの検索に 240 分はかかりません。この適合プロセスは、最適モデルが特定されると即座に完了します。 [高度] オプションでは、フィーチャエンジニアリング、フィーチャの選択、ハイパーパラメーターの調整などの追加タスクを行うため、より多くの時間を要します。入力から複数のフィーチャを組み合わせることによって得られる新しいフィーチャのほか、ツールは、zone3_id から zone7_id までの名前を持つ空間フィーチャを作成します。新しいフィーチャは、入力データ内の位置情報から抽出され、より最適なモデルをトレーニングするために使用されます。新しい空間フィーチャの詳細については、「AutoML の仕組み」をご参照ください。トレーニングされるデータの量が多いと、モデルのすべての組み合わせを 240 分以内に評価できない場合があります。そのような場合、240 分以内に特定された最高パフォーマンスのモデルが、最適なモデルと見なされます。続いて、このモデルを使用するか、[合計制限時間 (分)] パラメーターの値を大きくしてツールを再実行できます。
ラスターを説明変数として使用するには、ArcGIS Spatial Analyst エクステンションのライセンスが必要です。
[出力レポート] パラメーター値は、作業ディレクトリーの情報を確認する方法を提供する HTML 形式のファイルです。
出力レポートの最初のページには、評価された各モデルへのリンクが含まれており、検証データセットでのパフォーマンスと、トレーニングにかかった時間も表示されます。評価指標に基づき、レポートには、選択された最高パフォーマンスのモデルが示されます。
RMSE は回帰問題のデフォルトの評価指標であり、Logloss は分類問題のデフォルトの指標です。出力レポートでは、次の指標を使用できます。
- 分類 - AUC、Logloss、F1、Accuracy、Average Precision
- 回帰 - MSE、RMSE、MAE、R2、MAPE、Spearman 係数、Pearson 係数
モデルの組み合わせをクリックすると、学習曲線、変数の重要度曲線、使用されるハイパーパラメーターなど、そのモデルの組み合わせのトレーニングに関する詳細が表示されます。
このツールの使用例には、気象要因に基づく年間太陽エネルギー生成モデルのトレーニング、関連する変数を使用した作物予測モデルのトレーニング、住宅価値予測モデルのトレーニングなどがあります。
このツールの実行要件および発生する可能性のある問題の詳細については、「ディープラーニングに関するよくある質問」をご参照ください。
[画像添付ファイルの追加] パラメーターを使用する場合は、以下の手順で、画像を添付するための [入力トレーニングフィーチャ] パラメーターの値を設定します。
- フィーチャレイヤーに、各レコードの画像ファイルパスを格納したフィールドが含まれていることを確認します。
- [添付ファイルの有効化 (Enable Attachments)] ツールを使用して、フィーチャレイヤーの添付ファイルを有効化します。
- [添付ファイルの追加 (Add Attachments)] ツールを使用して、画像パスフィールドを指定し、画像添付ファイルとしてフィーチャレイヤーに追加します。
[位置の埋め込みの使用] パラメーターをオンにすると、特に限られたフィーチャセットを操作する際に、複雑な地理的および環境的なリレーションシップを捉えた高密度のベクター表現を組み込んで、空間依存の予測タスクでのモデルのパフォーマンスが向上します。

パラメーター

ラベル	説明	データタイプ
入力トレーニングフィーチャ	モデルのトレーニングに使用される入力フィーチャクラス。	Feature Layer; Table View
出力モデル	ディープラーニングパッケージとして保存される出力トレーニング済みモデル (.dlpk ファイル)。	File
予測対象変数	モデルのトレーニングに使用される値を含む [入力トレーニングフィーチャ] パラメーター値のフィールド。このフィールドには、不明な位置での予測に使用される変数の既知 (トレーニング) の値が含まれます。	Field
変数をカテゴリーとして処理 (オプション)	[予測対象変数] パラメーター値をカテゴリー変数として扱うかどうかを指定します。オン - [予測対象変数] パラメーター値がカテゴリー変数として扱われ、分類が実行されます。オフ - [予測対象変数] パラメーター値が連続値として扱われ、回帰が実行されます。これがデフォルトです。	Boolean
説明トレーニング変数 (オプション)	[予測対象変数] パラメーター値の値またはカテゴリーの予測に役立つ説明変数を表すフィールドのリスト。クラスまたはカテゴリーを表す変数 (土地被覆や有無など) の場合に付随するチェックボックスをオンにします。	Value Table
説明トレーニング距離フィーチャ (オプション)	このフィーチャの入力トレーニングフィーチャからの距離が自動的に推定され、より多くの説明変数として追加されます。入力された各説明トレーニング距離フィーチャから最近隣の入力トレーニングフィーチャまでの距離が算出されます。ポイントおよびポリゴンフィーチャがサポートされており、入力された説明トレーニング距離フィーチャがポリゴンの場合、距離の属性は、フィーチャのペアの最も近いセグメント間の距離として計算されます。	Feature Layer
説明トレーニングラスター (オプション)	このラスターの値がラスターから抽出され、モデルの説明変数と見なされます。各レイヤーが、1 つの説明変数を形成します。入力トレーニングフィーチャのフィーチャごとに、該当する位置でラスターセルの値が抽出されます。連続ラスターからラスター値を抽出する場合には、共一次内挿法によるラスターのリサンプリングが使用されます。カテゴリーラスターからラスター値を抽出する場合には、最近隣内挿法による近接割り当てが使用されます。 [入力トレーニングフィーチャ] パラメーター値にポリゴンが含まれ、このパラメーターに値を入力した場合、各ポリゴンの 1 つのラスター値がそのモデルで使用されます。各ポリゴンには、連続ラスターの場合は平均値、カテゴリーラスターの場合は最頻値が割り当てられています。土地被覆、植生、土壌タイプなどのクラスまたはカテゴリーを表すすべてのラスターで、[カテゴリー] チェックボックスがオンになっていることを確認します。	Value Table
合計制限時間 (分) (オプション)	AutoML モデルトレーニングに使用する合計時間の制限を分で示した値。デフォルトは 240 (4 時間) です。	Double
AutoML モード (オプション)	AutoML の目的と AutoML の検索がどの程度徹底的に行われるかを指定します。基本—さまざまな変数とデータの重要性を説明するには基本が使用されます。フィーチャエンジニアリング、フィーチャの選択、ハイパーパラメーターの調整は行われません。モデルの学習曲線の完全な記述と説明、ツリーベースモデル用に生成されたフィーチャ重要度プロット、および他のすべてのモデルの SHAP プロットなどが、レポートに出力されます。このモードは、最小の処理時間で実行できます。これがデフォルトです。中間—中間は、実際のユースケースで使用されるモデルをトレーニングするために使用されます。このモードは 5 分割交差検証 (CV) を使用し、学習曲線と重要度プロットの出力をレポートに生成しますが、SHAP プロットは使用できません。高度—高度は、機械学習コンテストに使用されます (最大のパフォーマンスのため)。このモードは、10 分割交差検証 (CV) を使用し、フィーチャエンジニアリング、フィーチャの選択、およびハイパーパラメーターの調整を実行します。入力トレーニングフィーチャがその位置に基づいて異なるサイズの複数の空間グリッドに割り当てられ、対応するグリッド ID が追加のカテゴリー説明変数としてモデルに渡されます。レポートには学習曲線のみが含まれ、モデルの説明可能性は出力されません。	String
アルゴリズム (オプション)	トレーニング中に使用されるアルゴリズムを指定します。デフォルトでは、すべてのアルゴリズムが使用されます。線形—線形回帰のための教師付きアルゴリズムを使用して、回帰機械学習モデルがトレーニングされます。このオプションのみが指定されている場合、レコードの総数が 10,000 未満、列の数が 1,000 未満であることを確認してください。他のモデルはより大きなデータセットを処理できるため、アルゴリズムにこのオプションだけを指定せず、他のアルゴリズムと併用することをおすすめします。ランダムツリー—ランダムツリー決定木ベース教師付き機械学習アルゴリズムが使用されます。これは分類と回帰の両方に使用できます。 XGBoost—XGBoost (Extreme Gradient Boosting) 教師付き機械学習アルゴリズムが使用されます。これは分類と回帰の両方に使用できます。 LightGBM—決定木ベースの LightGBM 勾配ブースティングアンサンブルアルゴリズムが使用されます。これは分類と回帰の両方に使用できます。 LightGBM は、分散システムで高性能を発揮するよう最適化されています。決定木—特定の質問への回答として True または False を使用してデータを分類または回帰する、決定木教師付き機械学習アルゴリズムが使用されます。決定木は容易に理解でき、説明性に優れています。エクストラツリー—決定木を使用するエクストラツリー (Extra trees) (Extremely Randomized Trees の略称) 教師付きアンサンブル機械学習法が使用されます。このアルゴリズムはランダムツリーに似ていますが、より高速に動作できます。 CatBoost—CatBoost アルゴリズムが使用されます。このアルゴリズムは、分類と回帰の決定木を使用します。このオプションでは、カテゴリー説明変数と非カテゴリー説明変数の組み合わせを前処理せずに利用できます。	String
検証率 (オプション)	検証に使用される入力データのパーセンテージ。デフォルト値は 10 です。	Long
出力レポート (オプション)	.html ファイルとして生成される出力レポート。指定されたパスが空でない場合、レポートは指定されたパスの下の新しいフォルダーに作成されます。レポートには、さまざまなモデルの詳細と、各モデルの評価およびパフォーマンス中に使用されたハイパーパラメーターの詳細が含まれます。ハイパーパラメーターは、トレーニングプロセスをコントロールするパラメーターです。トレーニング中には更新されず、モデルアーキテクチャー、学習率、エポック数などを含みます。	File
出力重要度テーブル (オプション)	モデルで使用されている各説明変数 (フィールド、距離フィーチャ、およびラスター) の重要度に関する情報を含む出力テーブル。	Table
出力フィーチャクラス (オプション)	トレーニングフィーチャレイヤーで最高のパフォーマンスを発揮するモデルによる予測値を含むフィーチャレイヤー。これを使用して、予測値をグラウンドトゥルースと視覚的に比較することにより、モデルのパフォーマンスを検証できます。	Feature Class
画像添付ファイルの追加 (オプション)	マルチモーダルまたは混合データモデルのトレーニングで、画像を [入力トレーニングフィーチャ] パラメーター値の説明変数として使用するかどうかを指定します。マルチモーダルまたは混合データ表形式モデルのトレーニングでは、AutoML の機械学習およびディープラーニングバックボーンを使用して、単一モデルによって複数タイプのデータ形式から学習します。入力データは、テキストの説明、対応する画像、追加のカテゴリー変数および連続変数など、さまざまなデータソースのセットの説明変数の組み合わせで構成されます。オン - 画像添付ファイルがダウンロードされ、説明変数として扱われ、マルチモーダルデータトレーニングが実行されます。オフ - 画像添付ファイルはトレーニングで使用されません。これがデフォルトです。	Boolean
センシティブな特徴量の属性 (オプション)	分類モデルおよび回帰モデルのテーブルデータのトレーニング済みモデルの公平性を評価し、改善します。このパラメーターには、次の 2 つのコンポーネントを設定します。 [センシティブな特徴量] - 機械学習またはディープラーニングモデルにバイアスをもたらす可能性のある、人種、性別、社会経済的地位、年齢などの属性。人種、性別、社会経済的地位、年齢などのセンシティブな特徴量を選択することで、バイアスのないモデルで特定のセンシティブな特徴量に関連するバイアスが緩和されます。 [不利なグループ] - 入力された [センシティブな特徴量] の値によって区別されたグループ。	Value Table
公平性メトリック (オプション)	分類および回帰の問題の公平性を計測するために使用される公平性メトリックを指定します。これは、最適な公平性モデルを選択するためのグリッド検索で使用されます。人口均等率—このメトリックは分類モデルで使用されます。さまざまな個人グループ間の選択率の比率が計測されます。選択率は、モデルによって正と分類された個人の割合です。このメトリックの理想値は 1 で、これはさまざまなグループの選択率が等しいことを示します。このメトリックの公平性は 0.8 ～ 1 であり、グループ間の選択率の比率が 20 パーセント以下であることを示します。人口均等差—このメトリックは分類モデルで使用されます。これは人口均等率のメトリックに似ていますが、比率ではなく、さまざまな個人グループ間の選択率の差が計測されます。選択率は、モデルによって正と分類された個人の割合です。このメトリックの理想値は 0 で、グループ間の選択率に差がないことを示します。このメトリックの公平性は 0 ～ 0.25 であり、グループ間の選択率の差が 25 パーセント以下であることを示します。等価オッズ比率—このメトリックは分類モデルで使用されます。異なる人種や性別のグループなど、個人のグループ間の誤差率の比率が計測されます。このメトリックの理想値は 1 で、これはさまざまなグループの誤差率が等しいことを示します。このメトリックの公平性は 0.8 ～ 1 であり、グループ間の誤差の比率が 20 パーセント以下であることを示します。等価オッズ差—このメトリックは分類モデルで使用されます。これは等価オッズ比率のメトリックに似ていますが、比率ではなく、さまざまな個人グループ間の誤差の差が計測されます。このメトリックの理想値は 0 で、グループ間の誤差に差がないことを示します。このメトリックの公平性は 0 ～ 0.25 であり、グループ間の誤差の差が 25 パーセント以下であることを示します。グループ損失比率—このメトリックは回帰モデルで使用されます。あるサブグループと別のサブグループの平均の損失または誤差の比率が計測されます。これは、グループ間の損失の差の相対的な計測値です。値 1 はグループ間で損失に差がないことを示し、値が 1 より大きいまたは小さい場合は相対的な差があることを示します。	String
位置の埋め込みの使用 (オプション)	位置ベースのモデルの予測機能を強化するために、トレーニング時に位置の埋め込みを追加の説明変数として使用するかどうかを指定します。位置の埋め込みを使用すると、衛星画像と [入力トレーニングフィーチャ] パラメーターの値による地理座標から、単純化された地理的な埋め込みが生成されます。これにより、空間コンテキストが提供され、住宅価格、環境モデリング、人口統計の推定など、位置依存の予測でのモデルのパフォーマンスが向上します。オン - 位置の埋め込みが計算され、フィーチャとして組み込まれ、マルチモーダル地理空間データの統合とモデルトレーニング時の空間表現の向上を実現できます。オフ - 位置の埋め込みは使用されず、モデルは埋め込みベースの衛星派生の空間情報を含まない、既存の表形式の変数のみに依存します。これがデフォルトです。	Boolean

arcpy.geoai.TrainUsingAutoML(in_features, out_model, variable_predict, {treat_variable_as_categorical}, {explanatory_variables}, {distance_features}, {explanatory_rasters}, {total_time_limit}, {autoML_mode}, {algorithms}, {validation_percent}, {out_report}, {out_importance}, {out_features}, {add_image_attachments}, {sensitive_feature}, {fairness_metric}, {process_geometry})

名前	説明	データタイプ
in_features	モデルのトレーニングに使用される入力フィーチャクラス。	Feature Layer; Table View
out_model	ディープラーニングパッケージとして保存される出力トレーニング済みモデル (.dlpk ファイル)。	File
variable_predict	モデルのトレーニングに使用される値を含む in_features パラメーター値のフィールド。このフィールドには、不明な位置での予測に使用される変数の既知 (トレーニング) の値が含まれます。	Field
treat_variable_as_categorical (オプション)	variable_predict パラメーター値をカテゴリー変数として扱うかどうかを指定します。 CATEGORICAL—variable_predict パラメーター値がカテゴリー変数として扱われ、分類が実行されます。 CONTINUOUS—variable_predict パラメーター値が連続値として扱われ、回帰が実行されます。これがデフォルトです。	Boolean
explanatory_variables [explanatory_variables,...] (オプション)	variable_predict パラメーター値の値またはカテゴリーの予測に役立つ説明変数を表すフィールドのリスト。クラスまたはカテゴリーを表す変数 (土地被覆や有無など) の場合は True 値 ("<name_of_variable> true") を渡します。	Value Table
distance_features [distance_features,...] (オプション)	このフィーチャの入力トレーニングフィーチャからの距離が自動的に推定され、より多くの説明変数として追加されます。入力された各説明トレーニング距離フィーチャから最近隣の入力トレーニングフィーチャまでの距離が算出されます。ポイントおよびポリゴンフィーチャがサポートされており、入力された説明トレーニング距離フィーチャがポリゴンの場合、距離の属性は、フィーチャのペアの最も近いセグメント間の距離として計算されます。	Feature Layer
explanatory_rasters [explanatory_rasters,...] (オプション)	このラスターの値がラスターから抽出され、モデルの説明変数と見なされます。各レイヤーが、1 つの説明変数を形成します。入力トレーニングフィーチャのフィーチャごとに、該当する位置でラスターセルの値が抽出されます。連続ラスターからラスター値を抽出する場合には、共一次内挿法によるラスターのリサンプリングが使用されます。カテゴリーラスターからラスター値を抽出する場合には、最近隣内挿法による近接割り当てが使用されます。 in_features パラメーター値にポリゴンが含まれ、このパラメーターに値を入力した場合、各ポリゴンの 1 つのラスター値がそのモデルで使用されます。各ポリゴンには、連続ラスターの場合は平均値、カテゴリーラスターの場合は最頻値が割り当てられています。土地被覆、植生、土壌タイプなどのクラスまたはカテゴリーを表すラスターの場合は、"<name_of_raster> true" を使用して True 値を渡します。	Value Table
total_time_limit (オプション)	AutoML モデルトレーニングに使用する合計時間の制限を分で示した値。デフォルトは 240 (4 時間) です。	Double
autoML_mode (オプション)	AutoML の目的と AutoML の検索がどの程度徹底的に行われるかを指定します。 BASIC—さまざまな変数とデータの重要性を説明するには基本が使用されます。フィーチャエンジニアリング、フィーチャの選択、ハイパーパラメーターの調整は行われません。モデルの学習曲線の完全な記述と説明、ツリーベースモデル用に生成されたフィーチャ重要度プロット、および他のすべてのモデルの SHAP プロットなどが、レポートに出力されます。このモードは、最小の処理時間で実行できます。これがデフォルトです。 INTERMEDIATE—中間は、実際のユースケースで使用されるモデルをトレーニングするために使用されます。このモードは 5 分割交差検証 (CV) を使用し、学習曲線と重要度プロットの出力をレポートに生成しますが、SHAP プロットは使用できません。 ADVANCED—高度は、機械学習コンテストに使用されます (最大のパフォーマンスのため)。このモードは、10 分割交差検証 (CV) を使用し、フィーチャエンジニアリング、フィーチャの選択、およびハイパーパラメーターの調整を実行します。入力トレーニングフィーチャがその位置に基づいて異なるサイズの複数の空間グリッドに割り当てられ、対応するグリッド ID が追加のカテゴリー説明変数としてモデルに渡されます。レポートには学習曲線のみが含まれ、モデルの説明可能性は出力されません。	String
algorithms [algorithms,...] (オプション)	トレーニング中に使用されるアルゴリズムを指定します。 LINEAR—線形回帰のための教師付きアルゴリズムを使用して、回帰機械学習モデルがトレーニングされます。このオプションのみが指定されている場合、レコードの総数が 10,000 未満、列の数が 1,000 未満であることを確認してください。他のモデルはより大きなデータセットを処理できるため、アルゴリズムにこのオプションだけを指定せず、他のアルゴリズムと併用することをおすすめします。 RANDOM TREES—ランダムツリー決定木ベース教師付き機械学習アルゴリズムが使用されます。これは分類と回帰の両方に使用できます。 XGBOOST—XGBoost (Extreme Gradient Boosting) 教師付き機械学習アルゴリズムが使用されます。これは分類と回帰の両方に使用できます。 LIGHT GBM—決定木ベースの LightGBM 勾配ブースティングアンサンブルアルゴリズムが使用されます。これは分類と回帰の両方に使用できます。 LightGBM は、分散システムで高性能を発揮するよう最適化されています。 DECISION TREE—特定の質問への回答として True または False を使用してデータを分類または回帰する、決定木教師付き機械学習アルゴリズムが使用されます。決定木は容易に理解でき、説明性に優れています。 EXTRA TREE—決定木を使用するエクストラツリー (Extra trees) (Extremely Randomized Trees の略称) 教師付きアンサンブル機械学習法が使用されます。このアルゴリズムはランダムツリーに似ていますが、より高速に動作できます。 CATBOOST—CatBoost アルゴリズムが使用されます。このアルゴリズムは、分類と回帰の決定木を使用します。このオプションでは、カテゴリー説明変数と非カテゴリー説明変数の組み合わせを前処理せずに利用できます。デフォルトでは、すべてのアルゴリズムが使用されます。	String
validation_percent (オプション)	検証に使用される入力データのパーセンテージ。デフォルト値は 10 です。	Long
out_report (オプション)	.html ファイルとして生成される出力レポート。指定されたパスが空でない場合、レポートは指定されたパスの下の新しいフォルダーに作成されます。レポートには、さまざまなモデルの詳細と、各モデルの評価およびパフォーマンス中に使用されたハイパーパラメーターの詳細が含まれます。ハイパーパラメーターは、トレーニングプロセスをコントロールするパラメーターです。トレーニング中には更新されず、モデルアーキテクチャー、学習率、エポック数などを含みます。	File
out_importance (オプション)	モデルで使用されている各説明変数 (フィールド、距離フィーチャ、およびラスター) の重要度に関する情報を含む出力テーブル。	Table
out_features (オプション)	トレーニングフィーチャレイヤーで最高のパフォーマンスを発揮するモデルによる予測値を含むフィーチャレイヤー。これを使用して、予測値をグラウンドトゥルースと視覚的に比較することにより、モデルのパフォーマンスを検証できます。	Feature Class
add_image_attachments (オプション)	マルチモーダルまたは混合データモデルのトレーニングで、画像を in_features パラメーター値の説明変数として使用するかどうかを指定します。マルチモーダルまたは混合データ表形式モデルのトレーニングでは、AutoML の機械学習およびディープラーニングバックボーンを使用して、単一モデルによって複数タイプのデータ形式から学習します。入力データは、テキストの説明、対応する画像、追加のカテゴリー変数および連続変数など、さまざまなデータソースのセットの説明変数の組み合わせで構成されます。 TRUE—画像添付ファイルがダウンロードされ、説明変数として扱われ、マルチモーダルデータトレーニングが実行されます。 FALSE—画像添付ファイルはトレーニングで使用されません。これがデフォルトです。	Boolean
sensitive_feature [sensitive_feature,...] (オプション)	分類モデルおよび回帰モデルのテーブルデータのトレーニング済みモデルの公平性を評価し、改善します。このパラメーターには、次の 2 つのコンポーネントを設定します。センシティブな特徴量 - 機械学習またはディープラーニングモデルにバイアスをもたらす可能性のある、人種、性別、社会経済的地位、年齢などの属性。人種、性別、社会経済的地位、年齢などのセンシティブな特徴量を選択することで、バイアスのないモデルで特定のセンシティブな特徴量に関連するバイアスが緩和されます。不利なグループ - 入力されたセンシティブな特徴量の値によって区別されたグループ。	Value Table
fairness_metric (オプション)	分類および回帰の問題の公平性を計測するために使用される公平性メトリックを指定します。これは、最適な公平性モデルを選択するためのグリッド検索で使用されます。 DEMOGRAPHIC_PARITY_RATIO—このメトリックは分類モデルで使用されます。さまざまな個人グループ間の選択率の比率が計測されます。選択率は、モデルによって正と分類された個人の割合です。このメトリックの理想値は 1 で、これはさまざまなグループの選択率が等しいことを示します。このメトリックの公平性は 0.8 ～ 1 であり、グループ間の選択率の比率が 20 パーセント以下であることを示します。 DEMOGRAPHIC_PARITY_DIFFERENCE—このメトリックは分類モデルで使用されます。これは人口均等率のメトリックに似ていますが、比率ではなく、さまざまな個人グループ間の選択率の差が計測されます。選択率は、モデルによって正と分類された個人の割合です。このメトリックの理想値は 0 で、グループ間の選択率に差がないことを示します。このメトリックの公平性は 0 ～ 0.25 であり、グループ間の選択率の差が 25 パーセント以下であることを示します。 EQUALISED_ODDS_RATIO—このメトリックは分類モデルで使用されます。異なる人種や性別のグループなど、個人のグループ間の誤差率の比率が計測されます。このメトリックの理想値は 1 で、これはさまざまなグループの誤差率が等しいことを示します。このメトリックの公平性は 0.8 ～ 1 であり、グループ間の誤差の比率が 20 パーセント以下であることを示します。 EQUALISED_ODDS_DIFFERENCE—このメトリックは分類モデルで使用されます。これは等価オッズ比率のメトリックに似ていますが、比率ではなく、さまざまな個人グループ間の誤差の差が計測されます。このメトリックの理想値は 0 で、グループ間の誤差に差がないことを示します。このメトリックの公平性は 0 ～ 0.25 であり、グループ間の誤差の差が 25 パーセント以下であることを示します。 GROUP_LOSS_RATIO—このメトリックは回帰モデルで使用されます。あるサブグループと別のサブグループの平均の損失または誤差の比率が計測されます。これは、グループ間の損失の差の相対的な計測値です。値 1 はグループ間で損失に差がないことを示し、値が 1 より大きいまたは小さい場合は相対的な差があることを示します。	String
process_geometry (オプション)	位置ベースのモデルの予測機能を強化するために、トレーニング時に位置の埋め込みを追加の説明変数として使用するかどうかを指定します。位置の埋め込みを使用すると、衛星画像と in_features パラメーターの値による地理座標から、単純化された地理的な埋め込みが生成されます。これにより、空間コンテキストが提供され、住宅価格、環境モデリング、人口統計の推定など、位置依存の予測でのモデルのパフォーマンスが向上します。 ENABLE_GEOMETRY—位置の埋め込みが計算され、フィーチャとして組み込まれ、マルチモーダル地理空間データの統合とモデルトレーニング時の空間表現の向上を実現できます。 DISABLE_GEOMETRY—位置の埋め込みは使用されず、モデルは埋め込みベースの衛星派生の空間情報を含まない、既存の表形式の変数のみに依存します。これがデフォルトです。	Boolean

コードのサンプル

TrainUsingAutoML の例 (Python ウィンドウ)

この例では、TrainUsingAutoML 関数を使用する方法を示します。

# Name: TrainUsingAutoML.py
# Description: Train a machine learning model on feature or tabular data with
# automatic hyperparameter selection.
  
# Import system modules
import arcpy
import os

# Set local variables

datapath  = "path_to_data" 
out_path = "path_to_trained_model"

in_feature = os.path.join(datapath, "train_data.gdb", "name_of_data")
out_model = os.path.join(out_path, "model.dlpk")

# Run Train Using AutoML Model
arcpy.geoai.TrainUsingAutoML(in_feature, out_model, "price", None, 
                             "bathrooms #;bedrooms #;square_feet #", None, None, 
                             240, "BASIC")

環境

出力座標系, 地理座標系変換

ライセンス情報

Basic: No
Standard: No
Advanced: Yes

サマリー

使用法

パラメーター

コードのサンプル

環境

ライセンス情報

関連トピック

このトピックの内容