テキスト変換モデルのトレーニング (Train Text Transformation Model) (GeoAI)—ArcGIS Pro

サマリー

テキストの変換、翻訳、集約を行うようテキスト変換モデルをトレーニングします。

使用法

このツールを使用するには、ディープラーニングフレームワークがインストールされている必要があります。 ArcGIS Pro のディープラーニングフレームワークを使用するようにコンピューターを設定するには、「ArcGIS 用のディープラーニングフレームワークのインストール」をご参照ください。
このツールは、既存のトレーニング済みモデルの微調整にも使用できます。
GPU を使用してこのツールを実行するには、プロセッサタイプ環境を GPU に設定します。複数の GPU がある場合は、代わりに GPU ID 環境を指定します。
このツールへの入力は、トレーニングデータを含むテーブルまたはフィーチャクラスで、入力テキストを含むテキストフィールドと変換済みテキストを含むラベルフィールドがあります。
このツールは、テキスト変換モデルのトレーニングに Transformer ベースのバックボーンを使用し、Mistral LLM を使用したプロンプト付きコンテキスト内学習をサポートしています。 Mistral バックボーンをインストールするには、「ArcGIS Mistral バックボーン」をご参照ください。
このツールの実行要件および発生する可能性のある問題の詳細については、「ディープラーニングに関するよくある質問」をご参照ください。

パラメーター

ラベル	説明	データタイプ
入力テーブル	モデルの入力テキストを含むテキストフィールドと、ターゲット変換済みテキストを含むラベルフィールドのある、フィーチャクラスまたはテーブル。	Feature Layer; Table View
テキストフィールド	モデルによって変換される入力テキストを含む、入力フィーチャクラスまたはテーブルのテキストフィールド。	Field
ラベルフィールド	モデルのトレーニングに使用されるターゲット変換済みテキストを含む、入力フィーチャクラスまたはテーブルのテキストフィールド。	Field
出力モデル	トレーニング済みモデルが格納される出力フォルダーの場所。	Folder
事前トレーニング済みモデルファイル (オプション)	新しいモデルの微調整に使用される事前トレーニング済みモデル。入力には Esri モデル定義ファイル (.emd) またはディープラーニングパッケージファイル (.dlpk) を指定できます。類似したタスクを行う事前トレーニング済みモデルは、トレーニングデータに合わせて微調整できます。事前トレーニング済みモデルは、新しいモデルのトレーニングに使用される同じモデルタイプおよびバックボーンモデルでトレーニングされている必要があります。	File
最大エポック (オプション)	モデルをトレーニングする場合の対象となるエポックの最大数。最大エポック値を 1 に設定すると、データセットがニューラルネットワークによって 1 回渡されます。デフォルト値は 5 です。	Long
モデルバックボーン (オプション)	新しいモデルをトレーニングするアーキテクチャとして使用する、事前構成済みのニューラルネットワークを指定します。 t5-small—新しいモデルは T5 ニューラルネットワークを使用してトレーニングされます。 T5 は、すべての言語の問題を text-to-text 形式に変換する統合フレームワークで、t5-small は T5 の small バリアントです。 t5-base—新しいモデルは T5 ニューラルネットワークを使用してトレーニングされます。 T5 は、すべての言語の問題を text-to-text 形式に変換する統合フレームワークで、t5-base は T5 の medium バリアントです。 t5-large—新しいモデルは T5 ニューラルネットワークを使用してトレーニングされます。 T5 は、すべての言語の問題を text-to-text 形式に変換する統合フレームワークで、t5-large は T5 の large バリアントです。 mistral—このモデルは、Mistral 大規模言語モデル (LLM) を使用してトレーニングされます。 Mistral は、Sliding Window Attention、Grouped Query Attention、Byte-fallback BPE トークナイザーを使用するデコーダーオンリーなトランスフォーマーです。 Mistral バックボーンをインストールするには、「ArcGIS Mistral バックボーン」をご参照ください。	String
バッチサイズ (オプション)	1 回に処理されるトレーニングサンプルの数。デフォルト値は 2 です。バッチサイズを大きくすると、ツールのパフォーマンスが向上しますが、バッチサイズが増加するにつれて、使用されるメモリ量が増加します。メモリ不足エラーが発生した場合は、より小さなバッチサイズを使用してください。	Double
モデル引数 (オプション)	モデルの初期化に使用される追加の引数。サポートされるモデル引数は sequence_length です。これは、モデルのトレーニングにおいて考慮されるトレーニングデータの最大シーケンス長を設定するために使用されます。	Value Table
学習率 (オプション)	トレーニング処理の際に調整されるモデル加重の量を示すステップサイズ。値を指定しない場合、最適な学習率が自動的に生成されます。	Double
検証率 (オプション)	モデルの検証に使用するトレーニングサンプルの割合。デフォルト値は、Transformer ベースのモデルバックボーンの場合は 10、Mistral バックボーンの場合は 50 です。	Double
モデルの改善が見込めなくなった時点で停止 (オプション)	モデルの改善がなくなった時点でモデルのトレーニングを停止するか、[最大エポック] パラメーター値に達するまでトレーニングを続行するかを指定します。オン - [最大エポック] パラメーター値にかかわらず、モデルの改善がなくなった時点でモデルのトレーニングを停止します。これがデフォルトです。オフ - [最大エポック] パラメーター値に到達するまで、モデルのトレーニングが続行されます。	Boolean
モデルバックボーンをトレーニング可能にする (オプション)	事前トレーニング済みモデルのバックボーンレイヤーを固定するかどうかを指定します。これにより、加重とバイアスが本来の設計どおりになります。オン - バックボーンレイヤーは固定されず、[モデルバックボーン] パラメーター値の加重とバイアスを、トレーニングサンプルに合わせて変更できます。この処理には時間がかかりますが、通常は優れた結果が得られます。これがデフォルトです。オフ - バックボーンレイヤーは固定され、[モデルバックボーン] パラメーター値の事前定義済み加重とバイアスはトレーニング中に変更されません。	Boolean
HTML タグの削除 (オプション)	HTML タグを入力テキストから削除するかどうかを指定します。オン - 入力テキストの HTML タグが削除されます。これがデフォルトです。オフ - 入力テキストの HTML タグは削除されません。	Boolean
URL の削除 (オプション)	URL を入力テキストから削除するかどうかを指定します。オン - 入力テキストの URL が削除されます。これがデフォルトです。オフ - 入力テキストの URL は削除されません。	Boolean
プロンプト (オプション)	予測した出力を生成するために、大規模言語モデル (LLM) に与えられる特定の入力または手順。デフォルト値は [テキストフィールドの入力テキストを、ラベルフィールドに存在する変換後のテキストに変換する] です。	String

arcpy.geoai.TrainTextTransformationModel(in_table, text_field, label_field, out_model, {pretrained_model_file}, {max_epochs}, {model_backbone}, {batch_size}, {model_arguments}, {learning_rate}, {validation_percentage}, {stop_training}, {make_trainable}, {remove_html_tags}, {remove_urls}, {prompt})

名前	説明	データタイプ
in_table	モデルの入力テキストを含むテキストフィールドと、ターゲット変換済みテキストを含むラベルフィールドのある、フィーチャクラスまたはテーブル。	Feature Layer; Table View
text_field	モデルによって変換される入力テキストを含む、入力フィーチャクラスまたはテーブルのテキストフィールド。	Field
label_field	モデルのトレーニングに使用されるターゲット変換済みテキストを含む、入力フィーチャクラスまたはテーブルのテキストフィールド。	Field
out_model	トレーニング済みモデルが格納される出力フォルダーの場所。	Folder
pretrained_model_file (オプション)	新しいモデルの微調整に使用される事前トレーニング済みモデル。入力には Esri モデル定義ファイル (.emd) またはディープラーニングパッケージファイル (.dlpk) を指定できます。類似したタスクを行う事前トレーニング済みモデルは、トレーニングデータに合わせて微調整できます。事前トレーニング済みモデルは、新しいモデルのトレーニングに使用される同じモデルタイプおよびバックボーンモデルでトレーニングされている必要があります。	File
max_epochs (オプション)	モデルをトレーニングする場合の対象となるエポックの最大数。最大エポック値を 1 に設定すると、データセットがニューラルネットワークによって 1 回渡されます。デフォルト値は 5 です。	Long
model_backbone (オプション)	新しいモデルをトレーニングするアーキテクチャとして使用する、事前構成済みのニューラルネットワークを指定します。 t5-small—新しいモデルは T5 ニューラルネットワークを使用してトレーニングされます。 T5 は、すべての言語の問題を text-to-text 形式に変換する統合フレームワークで、t5-small は T5 の small バリアントです。 t5-base—新しいモデルは T5 ニューラルネットワークを使用してトレーニングされます。 T5 は、すべての言語の問題を text-to-text 形式に変換する統合フレームワークで、t5-base は T5 の medium バリアントです。 t5-large—新しいモデルは T5 ニューラルネットワークを使用してトレーニングされます。 T5 は、すべての言語の問題を text-to-text 形式に変換する統合フレームワークで、t5-large は T5 の large バリアントです。 mistral—このモデルは、Mistral 大規模言語モデル (LLM) を使用してトレーニングされます。 Mistral は、Sliding Window Attention、Grouped Query Attention、Byte-fallback BPE トークナイザーを使用するデコーダーオンリーなトランスフォーマーです。 Mistral バックボーンをインストールするには、「ArcGIS Mistral バックボーン」をご参照ください。	String
batch_size (オプション)	1 回に処理されるトレーニングサンプルの数。デフォルト値は 2 です。バッチサイズを大きくすると、ツールのパフォーマンスが向上しますが、バッチサイズが増加するにつれて、使用されるメモリ量が増加します。メモリ不足エラーが発生した場合は、より小さなバッチサイズを使用してください。	Double
model_arguments [model_arguments,...] (オプション)	モデルの初期化に使用される追加の引数。サポートされるモデル引数は sequence_length です。これは、モデルのトレーニングにおいて考慮されるトレーニングデータの最大シーケンス長を設定するために使用されます。	Value Table
learning_rate (オプション)	トレーニング処理の際に調整されるモデル加重の量を示すステップサイズ。値を指定しない場合、最適な学習率が自動的に生成されます。	Double
validation_percentage (オプション)	モデルの検証に使用するトレーニングサンプルの割合。デフォルト値は、Transformer ベースのモデルバックボーンの場合は 10、Mistral バックボーンの場合は 50 です。	Double
stop_training (オプション)	モデルの改善がなくなった時点でモデルのトレーニングを停止するか、max_epochs パラメーター値に達するまでトレーニングを続行するかを指定します。 STOP_TRAINING—max_epochs パラメーター値にかかわらず、モデルの改善がなくなった時点でモデルのトレーニングを停止します。これがデフォルトです。 CONTINUE_TRAINING—max_epochs パラメーター値に到達するまで、モデルのトレーニングは続行します。	Boolean
make_trainable (オプション)	事前トレーニング済みモデルのバックボーンレイヤーを固定するかどうかを指定します。これにより、加重とバイアスが本来の設計どおりになります。 TRAIN_MODEL_BACKBONE—バックボーンレイヤーは固定されず、model_backbone パラメーター値の加重とバイアスを、トレーニングサンプルに合わせて変更できます。この処理には時間がかかりますが、通常は優れた結果が得られます。これがデフォルトです。 FREEZE_MODEL_BACKBONE—バックボーンレイヤーは固定され、model_backbone パラメーター値の事前定義済み加重とバイアスはトレーニング中に変更されません。	Boolean
remove_html_tags (オプション)	HTML タグを入力テキストから削除するかどうかを指定します。 REMOVE_HTML_TAGS—入力テキストの HTML タグが削除されます。これがデフォルトです。 DO_NOT_REMOVE_HTML_TAGS—入力テキストの HTML タグは削除されません。	Boolean
remove_urls (オプション)	URL を入力テキストから削除するかどうかを指定します。 REMOVE_URLS—入力テキストの URL が削除されます。これがデフォルトです。 DO_NOT_REMOVE_URLS—入力テキストの URL は削除されません。	Boolean
prompt (オプション)	予測した出力を生成するために、大規模言語モデル (LLM) に与えられる特定の入力または手順。デフォルト値は [テキストフィールドの入力テキストを、ラベルフィールドに存在する変換後のテキストに変換する] です。	String

コードのサンプル

TrainTextTransformationModel (Python ウィンドウ)

次の Python ウィンドウスクリプトは、TrainTextTransformationModel 関数の使用方法を示しています。

# Name: TrainTextTransformation.py
# Description: Train a sequence-to-sequence model to translate text from English to German.  
#
# Requirements: ArcGIS Pro Advanced license

# Import system modules
import arcpy
import os

# Set local variables
in_table = "training_data.csv"
out_folder = "c\\texttransformer"

# Run Train Text Transformation Model
arcpy.geoai.TrainTextTransformationModel(in_table, out_folder, max_epochs=2,
         text_field="input", label_field="target", batch_size=16)

環境

プロセッサタイプ, GPU ID

ライセンス情報

Basic: No
Standard: No
Advanced: Yes

サマリー

使用法

パラメーター

コードのサンプル

環境

ライセンス情報

関連トピック

このトピックの内容