ディープラーニングモデルのトレーニング (Train Deep Learning Model) (Image Analyst)—ArcGIS Pro

Image Analyst ライセンスで利用できます。

サマリー

[ディープラーニング用のトレーニングデータをエクスポート (Export Training Data For Deep Learning)] ツールからの出力を使用してディープラーニングモデルをトレーニングします。

使用法

このツールは、ディープラーニングフレームワークを使用するディープラーニングモデルです。
ArcGIS Pro のディープラーニングフレームワークを使用するようにコンピューターを設定するには、「ArcGIS 用のディープラーニングフレームワークのインストール」をご参照ください。
非接続環境でモデルをトレーニングする場合は、詳細について「非接続環境での追加インストール」をご参照ください。
このツールは、既存のトレーニング済みモデルの微調整にも使用できます。たとえば、車に関してトレーニングされた既存のモデルを微調整して、トラックを識別するモデルをトレーニングすることができます。
GPU を使用してこのツールを実行するには、プロセッサータイプ環境を [GPU] に設定します。複数の GPU がある場合は、代わりに GPU ID 環境を指定します。
デフォルトでは、このツールでは、[モデルタイプ] パラメーターが以下のいずれかに設定された場合、使用可能なすべての GPU が使用されます。
- ConnectNet
- フィーチャ分類器
- MaskRCNN
- Multi Task Road Extractor
- シングルショット検出器
- U-Net
特定の GPU を使用するには、GPU ID 環境を使用します。
このツールの入力トレーニングデータには、[ディープラーニング用のトレーニングデータをエクスポート (Export Training Data For Deep Learning)] ツールから生成された画像フォルダーとラベルフォルダーを含める必要があります。

トレーニングデータと同じフォルダーに格納されている transforms.json ファイルを使用して、トレーニングデータセットと整合チェックデータセットのデータ拡張のための fastai の変換を指定します。以下は、transforms.json ファイルの例です。

カスタム拡張パラメーター


{
    "Training": {
        "rotate": {
            "degrees": 30,
            "p": 0.5
        },
        "crop": {
            "size": 224,
            "p": 1,
            "row_pct": "0, 1",
            "col_pct": "0, 1"
        },
        "brightness": {
            "change": "0.4, 0.6"
        },
        "contrast": {
            "scale": "1.0, 1.5"
        },
        "rand_zoom": {
            "scale": "1, 1.2"
        }
    },
    "Validation": {
        "crop": {
            "size": 224,
            "p": 1.0,
            "row_pct": 0.5,
            "col_pct": 0.5
        }
    }
}

このツールの実行要件および発生する可能性のある問題の詳細については、「ディープラーニングに関するよくある質問」をご参照ください。
ディープラーニングの詳細については、「ArcGIS Pro のディープラーニング」をご参照ください。

パラメーター

ラベル	説明	データタイプ
入力トレーニングデータ	モデルのトレーニングに必要な画像チップ、ラベル、統計情報を含むフォルダー。 [ディープラーニング用のトレーニングデータをエクスポート (Export Training Data For Deep Learning)] ツールからの出力です。次の条件を満たしている場合は複数の入力フォルダーがサポートされます。メタデータの形式タイプは、分類済みタイル、ラベル付きタイル、複数ラベル付きタイル、Pascal Visual Object Classes、または RCNN マスクである必要があります。すべてのトレーニングデータのメタデータ形式が同じになっている必要があります。すべてのトレーニングデータでバンドの数が同じになっている必要があります。すべてのトレーニングデータでタイルサイズが同じになっている必要があります。	Folder
出力フォルダー	トレーニング済みモデルが格納される出力フォルダーの場所。	Folder
最大エポック (オプション)	モデルをトレーニングする場合の対象となるエポックの最大数。最大エポックを 1 に設定すると、データセットがニューラルネットワークを通って前後に 1 回渡されます。デフォルト値は 20 です。	Long
モデルタイプ (オプション)	ディープラーニングモデルのトレーニングに使用されるモデルタイプを指定します。シングルショット検出器 (オブジェクト検出)—シングルショット検出器 (SSD) アーキテクチャがモデルのトレーニングに使用されます。 SSD の使用目的はオブジェクト検出です。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes メタデータ形式を使用します。 U-Net (ピクセル分類)—U-Net アーキテクチャがモデルのトレーニングに使用されます。 U-Net の使用目的はピクセル分類です。フィーチャ分類器 (オブジェクト分類)—フィーチャ分類器アーキテクチャがモデルのトレーニングに使用されます。フィーチャ分類器がオブジェクトまたは画像の分類に使用されます。ピラミッド型解析ネットワーク (ピクセル分類)—ピラミッド型解析ネットワーク (PSPNET) アーキテクチャがモデルのトレーニングに使用されます。 PSPNET の使用目的はピクセル分類です。 RetinaNet (オブジェクト検出)—RetinaNet アーキテクチャがモデルのトレーニングに使用されます。 RetinaNet の使用目的はオブジェクト検出です。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes メタデータ形式を使用します。 MaskRCNN (オブジェクト検出)—MaskRCNN アーキテクチャがモデルのトレーニングに使用されます。 MaskRCNN の使用目的はオブジェクト検出です。この手法は、インスタンスセグメンテーション (つまり、画像内のオブジェクトの正確な描写) に使用できます。このモデルタイプを使用して、建物フットプリントを検出することができます。トレーニングデータを入力データにする場合は、MaskRCNN メタ形式を使用します。入力トレーニングデータのクラス値は、1 で始める必要があります。このモデルタイプは、CUDA 対応 GPU を使用する場合にのみトレーニングできます。 YOLOv3 (オブジェクト検出)—YOLOv3 アーキテクチャがモデルのトレーニングに使用されます。 YOLOv3 の使用目的はオブジェクト検出です。 DeepLabV3 (ピクセル分類)—DeepLabV3 アーキテクチャがモデルのトレーニングに使用されます。 DeepLab の使用目的はピクセル分類です。 FasterRCNN (オブジェクト検出)—FasterRCNN アーキテクチャがモデルのトレーニングに使用されます。 FasterRCNN の使用目的はオブジェクト検出です。 BDCN Edge Detector (ピクセル分類)—BDCN (Bi-Directional Cascade Network) アーキテクチャがモデルのトレーニングに使用されます。 BDCN Edge Detector の使用目的はピクセル分類です。この手法は、さまざまな縮尺でオブジェクトのエッジ検出を改善するのに便利です。 HED Edge Detector (ピクセル分類)—HED (Holistically-Nested Edge Detection) アーキテクチャがモデルのトレーニングに使用されます。 HED Edge Detector の使用目的はピクセル分類です。この手法は、エッジおよびオブジェクト境界検出に便利です。 Multi Task Road Extractor (ピクセル分類)—Multi Task Road Extractor アーキテクチャがモデルのトレーニングに使用されます。 Multi Task Road Extractor の使用目的はピクセル分類です。この手法は、衛星画像から道路網を抽出するのに便利です。 ConnectNet (ピクセル分類)—ConnectNet アーキテクチャがモデルのトレーニングに使用されます。 ConnectNet の使用目的はピクセル分類です。この手法は、衛星画像から道路網を抽出するのに便利です。 Pix2Pix (画像変換)—Pix2Pix アーキテクチャがモデルのトレーニングに使用されます。 Pix2Pix は、画像間変換に使用されます。この手法は、あるタイプの画像から別のタイプの画像を生成するモデルオブジェクトを作成します。このモデルタイプの入力トレーニングデータは、Export Tiles メタデータ形式を使用します。 CycleGAN (画像変換)—CycleGAN アーキテクチャがモデルのトレーニングに使用されます。 CycleGAN は画像間変換に使用されます。この手法は、あるタイプの画像から別のタイプの画像を生成するモデルオブジェクトを作成します。この手法は、トレーニングする画像が重なっている必要がない点で独特です。このモデルタイプの入力トレーニングデータは、CycleGAN メタデータ形式を使用します。超解像 (画像変換)—超解像アーキテクチャがモデルのトレーニングに使用されます。超解像は画像間変換に使用されます。この手法は、解像度を上げて画像の品質を高めるモデルオブジェクトを作成します。このモデルタイプの入力トレーニングデータは、Export Tiles メタデータ形式を使用します。変化検出器 (ピクセル分類)—変化検出器アーキテクチャがモデルのトレーニングに使用されます。変化検出器の使用目的はピクセル分類です。この手法は、2 つの空間的、時間的な画像を使用して変化の分類ラスターを作成するモデルオブジェクトを作成します。このモデルタイプの入力トレーニングデータは、Classified Tiles メタデータ形式を使用します。画像キャプショナー (画像変換)—画像キャプショナーアーキテクチャがモデルのトレーニングに使用されます。画像キャプショナーの使用目的は画像からテキストへの変換です。この手法は、ある画像のテキストキャプションを生成するモデルを作成します。 Siam Mask (オブジェクト追跡)—Siam Mask アーキテクチャがモデルのトレーニングに使用されます。動画のオブジェクト検出には Siam Mask が使用されます。動画のフレームを使用してモデルのトレーニングが行われ、各フレームのオブジェクトのクラスと境界四角形が検出されます。このモデルタイプの入力トレーニングデータでは MaskRCNN メタデータ形式を使用します。 MMDetection (オブジェクト検出)—MMDetection アーキテクチャがモデルのトレーニングに使用されます。 MMDetection がオブジェクト検出に使用されます。サポートされているメタデータ形式は Pascal Visual Object Class と KITTI の四角形です。 MMSegmentation (ピクセル分類)—MMSegmentation アーキテクチャがモデルのトレーニングに使用されます。 MMSegmentation の使用目的はピクセル分類です。サポートされているメタデータ形式は分類済みタイルです。 Deep Sort (オブジェクト追跡)—Deep Sort アーキテクチャがモデルのトレーニングに使用されます。動画のオブジェクト検出には Deep Sort が使用されます。動画のフレームを使用してモデルのトレーニングが行われ、各フレームのオブジェクトのクラスと境界四角形が検出されます。このモデルタイプの入力トレーニングデータは、Imagenet メタデータ形式を使用します。 Siam Mask はオブジェクトを追跡するときに便利です。一方、Deep Sort は複数のオブジェクトを追跡するモデルをトレーニングするのに便利です。 Pix2PixHD (画像変換)—Pix2PixHD アーキテクチャがモデルのトレーニングに使用されます。 Pix2PixHD が画像間変換に使用されます。この手法は、あるタイプの画像から別のタイプの画像を生成するモデルオブジェクトを作成します。このモデルタイプの入力トレーニングデータは、Export Tiles メタデータ形式を使用します。 MaX-DeepLab (パノプティックセグメンテーション)—MaX-DeepLab アーキテクチャがモデルのトレーニングに使用されます。 MaX-DeepLab はパノプティックセグメンテーションで使用されます。この手法は、画像とフィーチャを生成するモデルオブジェクトを作成します。このモデルタイプの入力トレーニングデータではパノプティックセグメンテーションメタデータ形式を使用します。 DETReg (オブジェクト検出)—DETReg アーキテクチャがモデルのトレーニングに使用されます。 DETReg はオブジェクト検出に使用されます。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes を使用します。このモデルタイプは GPU の負荷が高くなります。正しく動作させるには、専用 GPU と 16 GB 以上のメモリが必要です。 PSETAE (ピクセル分類)—Pixel-Set Encoders and Temporal Self-Attentionn (PSETAE) アーキテクチャが時系列分類用モデルのトレーニングに使用されます。 PSETAE の使用目的はピクセル分類です。この手法で使用される事前データは多次元データです。	String
バッチサイズ (オプション)	1 回のトレーニングで処理されるトレーニングサンプルの数。バッチサイズを大きくすると、ツールのパフォーマンスが向上しますが、バッチサイズが増加するにつれて、使用されるメモリ量が増加します。設定されたバッチサイズに対して GPU メモリが足りない場合、ツールが最適なバッチサイズを計算して使用するよう試みます。メモリ不足エラーが発生した場合は、より小さなバッチサイズを使用してください。	Long
モデル引数 (オプション)	[モデルタイプ] パラメーターの情報は、このパラメーターに値を取り込むために使用されます。これらの引数はモデルアーキテクチャによって異なります。 ArcGIS でトレーニングされるモデルのサポート対象モデル引数を以下で説明します。 ArcGIS 事前トレーニング済みモデルとカスタムディープラーニングモデルでは、このツールでサポートされている追加の引数を利用できることがあります。各モデルタイプで利用可能な引数の詳細については、「ディープラーニングの引数」をご参照ください。 attention_type - モジュールタイプを指定します。モジュールオプションは [PAM] (Pyramid Attention Module) または [BAM] (Basic Attention Module) です。デフォルトは PAM です。 [chip_size] - モデルのトレーニングに適用される画像サイズ。トレーニングサンプルの画像チップサイズを示す [chip_size] 引数が、すべてのモデルタイプでサポートされています。画像は指定したチップサイズにトリミングされます。画像サイズがチップサイズより小さい場合は、画像サイズが使用されます。デフォルトのサイズは 224 ピクセルです。 class_balancing - クラスあたりのピクセルの頻度に逆比例する交差エントロピー誤差のバランスを調整するかどうかを指定します。デフォルトは False です。 decode_params - 画像キャプショナーの実行方法を制御するディクショナリです。デフォルト値は {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False} です。 [decode_params] 引数は、以下のパラメーターで構成されています。 [embed_size] - 埋め込みサイズ。ニューラルネットワークにおけるデフォルトは 100 レイヤーです。 [hidden_size] - 非表示レイヤーのサイズ。ニューラルネットワークにおけるデフォルトは 100 レイヤーです。 [attention_size] - 中間アテンションレイヤーのサイズ。ニューラルネットワークにおけるデフォルトは 100 レイヤーです。 [teacher_forcing] - 教師あり強制の確率。 Teacher Forcing はリカレントニューラルネットワークのトレーニング戦略です。バックプロパゲーション時に、前の出力ではなく、前の時間ステップから出力されたモデルを入力として使用します。有効な範囲は 0.0 ～ 1.0 です。デフォルトは 1 です。 [dropout] - ドロップアウト率。有効な範囲は 0.0 ～ 1.0 です。デフォルトは 0.1 です。 [pretrained_emb] - 事前トレーニング済みの埋め込みフラグを指定します。 True の場合、高速のテキスト埋め込みを使用します。 False の場合、事前トレーニング済みのテキスト埋め込みを使用しません。デフォルトは False です。 focal_loss - 焦点損失を使用するかどうかを指定します。デフォルトは False です。 [gaussian_thresh] - 必要な道幅を設定するガウス閾値。有効な範囲は 0.0 ～ 1.0 です。デフォルト値は 0.76 です。 grids - 処理中に画像が分割されるグリッドの数です。たとえば、この引数を 4 に設定すると、画像が 4 x 4、つまり 16 個のグリッドセルに分割されます。値が指定されない場合は、入力イメージに基づいて最適なグリッド値が計算されます。 [ignore_classes] - モデルで損失が発生しないクラス値のリスト。 model - モデルのトレーニングに使用されるバックボーンモデル。どのバックボーンを使用できるかは、[モデルタイプ] パラメーターの値によります。 MMDetection のデフォルトは cascade_rcnn　です。 MMSegmentation のデフォルトは deeplabv3 です。 model_weight - 事前トレーニング済みモデルのウェイトを使用するかどうかを指定します。デフォルトは False です。この値は、モデルのウェイトを含む構成ファイルへの、MMDetection リポジトリまたは MMSegmentation リポジトリからのパスにすることもできます。 monitor - チェックポイントでのチェックと早期停止の最中にモニタリングするメトリックを指定します。どの指標を使用できるかは、[モデルタイプ] パラメーターの値によります。デフォルトは [valid_loss] です。 [mtl_model] - モデルの作成に使用されるアーキテクチャタイプを指定します。選択肢は LinkNet ベースのニューラルアーキテクチャを示す [linknet] と Hourglass ベースのニューラルアーキテクチャを示す [hourglass] です。デフォルトは hourglass です。 [orient_bin_size] - 方位角のビンサイズ。デフォルトは 20 です。 [orient_theta] - 方位マスクの幅。デフォルトは 8 です。 pyramid_sizes - それぞれの小区域に適用される畳み込みレイヤーの数とサイズです。デフォルト値は [1,2,3,6] です。この引数は、ピラミッド型解析ネットワークモデルに固有のものです。 ratios - アンカーボックスで使用する縦横比のリストです。オブジェクト検出を行う場合、アンカーボックスは予測対象のオブジェクトに最適な位置、形状、サイズを表します。たとえば、この引数を [1.0, 1.0]、[1.0, 0.5] に設定すると、アンカーボックスが正方形 (1:1) になるか、水平側が鉛直側の半分の長方形 (1:0.5) になります。 RetinaNet のデフォルトは [0.5,1,2] です。シングルショット検出器のデフォルトは [1.0, 1.0] です。 scales - 各セルが拡大/縮小される縮尺レベルの数です。デフォルト値は [1, 0.8, 0.63] です。 use_net - U-Net デコーダーを使用して、ピラミッドプーリングが完了した時点でデータを復旧するかどうかを指定します。デフォルトは True です。この引数は、ピラミッド型解析ネットワークモデルに固有のものです。 zooms - 各グリッドセルが拡大/縮小されるズームレベルの数です。この引数を 1 に設定すると、すべてのグリッドセルが同じサイズまたはズームレベルで維持されます。ズームレベルが 2 の場合は、すべてのグリッドセルが 2 倍の大きさになります (100 パーセントでズームされる)。ズームレベルのリストを指定すると、そのリスト内のすべての数値を使用して、すべてのグリッドセルが拡大/縮小されます。デフォルトは 1 です。	Value Table
学習率 (オプション)	トレーニング処理全体で、既存の情報を新たに取得した情報に上書きする割合。値を指定しないと、トレーニングプロセス中に最適な学習率が学習曲線から抽出されます。	Double
バックボーンモデル (オプション)	新しいモデルをトレーニングするアーキテクチャとして使用する、事前構成済みのニューラルネットワークを指定します。この方法は「転移学習」と呼ばれます。また、たとえば timm:resnet31、timm:inception_v4、timm:efficientnet_b3　などのように timm を接頭辞として使用することで、PyTorch Image Models (timm) でサポートされている畳み込みニューラルネットワークを指定できます。 DenseNet-121—構成済みモデルは、100 万を超える画像が含まれており、深さが 121 個のレイヤーである Imagenet データセット上でトレーニングされた高密度のネットワークになります。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 DenseNet-161—構成済みモデルは、100 万を超える画像が含まれており、深さが 161 個のレイヤーである Imagenet データセット上でトレーニングされた高密度のネットワークになります。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 DenseNet-169—構成済みモデルは、100 万を超える画像が含まれており、深さが 169 個のレイヤーである Imagenet データセット上でトレーニングされた高密度のネットワークになります。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 DenseNet-201—構成済みモデルは、100 万を超える画像が含まれており、深さが 201 個のレイヤーである Imagenet データセット上でトレーニングされた高密度のネットワークになります。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 MobileNet バージョン 2—事前構成済みモデルは、Imagenet データベースでトレーニングされます。深さは 54 層で、メモリの使用量が少ないのでエッジデバイスコンピューティングに適しています。 ResNet-18—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、18 層の深さがあります。 ResNet-34—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、34 層の深さがあります。これがデフォルトです。 ResNet-50—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、50 層の深さがあります。 ResNet-101—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、101 層の深さがあります。 ResNet-152—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、152 層の深さがあります。 VGG-11—事前構成済みのモデルは、Imagenet データセットでトレーニングされるたたみ込みニューラルネットワークです。このネットワークには 100 万以上の画像が含まれ、画像を 1,000 のオブジェクトカテゴリに分類し、11 層の深さがあります。 VGG-11 (バッチ正規化あり)—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセットでトレーニングされ、11 層の深さがあります。 VGG-13—事前構成済みのモデルは、Imagenet データセットでトレーニングされるたたみ込みニューラルネットワークです。このネットワークには 100 万以上の画像が含まれ、画像を 1,000 のオブジェクトカテゴリに分類し、13 層の深さがあります。 VGG-13 (バッチ正規化あり)—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセットでトレーニングされ、13 層の深さがあります。 VGG-16—事前構成済みのモデルは、Imagenet データセットでトレーニングされるたたみ込みニューラルネットワークです。このネットワークには 100 万以上の画像が含まれ、画像を 1,000 のオブジェクトカテゴリに分類し、16 層の深さがあります。 VGG-16 (バッチ正規化あり)—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセットでトレーニングされ、16 層の深さがあります。 VGG-19—事前構成済みのモデルは、Imagenet データセットでトレーニングされるたたみ込みニューラルネットワークです。このネットワークには 100 万以上の画像が含まれ、画像を 1,000 のオブジェクトカテゴリに分類し、19 層の深さがあります。 VGG-19 (バッチ正規化あり)—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセットでトレーニングされ、19 層の深さがあります。 DarkNet-53—構成済みモデルは、100 万を超える画像が含まれており、深さが 53 個のレイヤーである Imagenet データセット上でトレーニングされた畳み込みニューラルネットワークになります。 Reid_v1—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、オブジェクトの追跡に使用されます。 Reid_v2—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、オブジェクトの追跡に使用されます。 ResNeXt-50—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、深さは 50 層です。これは同質のニューラルネットワークであり、従来の ResNet により求められるハイパーパラメーターの数が削減されます。 Wide ResNet-50—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、深さは 50 層です。アーキテクチャは ResNet と同じですが、より多くのチャンネルがあります。	String
事前トレーニング済みモデル (オプション)	新しいモデルの微調整に使用される事前トレーニング済みモデル。入力は、Esri モデル定義ファイル (.emd) またはディープラーニングパッケージファイル (.dlpk) です。類似したクラスを持つ事前トレーニング済みモデルは、新しいモデルに合わせて微調整することができます。事前トレーニング済みモデルは、新しいモデルのトレーニングに使用される同じモデルタイプおよびバックボーンモデルでトレーニングされている必要があります。	File
検証 % (オプション)	モデルの検証に使用するトレーニングサンプルの割合。デフォルト値は 10 です。	Double
モデルの改善が見込めなくなった時点で停止 (オプション)	早期停止を実施するかどうかを指定します。オン - 早期停止が実施され、指定した [最大エポック] パラメーター値にかかわらず、モデルの改善がなくなった時点でモデルのトレーニングを停止します。これがデフォルトです。オフ - 早期停止は実施されず、[最大エポック] パラメーター値に到達するまで、モデルのトレーニングが続行されます。	Boolean
モデルの固定 (オプション)	事前トレーニング済みモデルのバックボーンレイヤーを固定するかどうかを指定します。これにより、ウェイトとバイアスが本来の設計どおりになります。オン - バックボーンレイヤーが固定され、事前定義済みのウェイトとバイアスを [バックボーンモデル] パラメーターで変更しません。これがデフォルトです。オフ - バックボーンレイヤーは固定されず、[バックボーンモデル] パラメーターのウェイトとバイアスを、トレーニングサンプルに合わせて変更できます。この処理には時間がかかりますが、通常は優れた結果が得られます。	Boolean
データ拡張 (オプション)	使用されるデータ拡張のタイプを指定します。データ拡張は、既存のデータを使用してデータセットの変更済みコピーを作成することで人為的にトレーニングセットを増やす手法です。デフォルト—デフォルトのデータ拡張手法とデフォルト値が使用されます。デフォルトのデータ拡張手法は、crop、dihedral_affine、brightness、contrast、zoom です。これらのデフォルト値は通常、衛星画像に適しています。なし—データ拡張は使用されません。カスタム—データ拡張値は、[拡張パラメーター] パラメーターを使用して指定されます。ファイル—トレーニングデータセットと整合チェックデータセットのデータ拡張のための fastai の変換は、トレーニングデータと同じフォルダーに格納されている transforms.json ファイルを使用して指定されます。さまざまな変換に関する詳細については、fastai の Web サイトの視覚変換をご参照ください。	String
拡張パラメーター (オプション)	拡張パラメーター内の各変換の値を指定します。 rotate - 画像は、確率 (p) の分だけ無作為に (角度単位で) 回転します。角度が範囲 (a,b) の場合、値は、a から b の範囲で均等に割り当てられます。デフォルト値は 30.0; 0.5 です。 brightness - 画像の明るさは、確率 (p) を適用して、変化の値に応じて無作為に調整されます。変化が 0 の場合は画像が最も暗くなり、変化が 1 の場合は画像が最も明るくなります。変化が 0.5 の場合は、明るさは調整されません。変化が範囲 (a,b) の場合、拡張によって a から b の範囲の値が均等に割り当てられます。デフォルト値は (0.4,0.6); 1.0 です。 contrast - 画像のコントラストは、確率 (p) を適用して、スケールの値に応じて無作為に調整されます。スケールが 0 の場合は画像がグレースケールになり、スケールが 1 より大きい場合は画像がスーパーコントラストになります。スケールが 1 の場合は、コントラストが調整されません。スケールが範囲 (a,b) の場合、拡張によって a から b の範囲の値が均等に割り当てられます。デフォルト値は (0.75, 1.5); 1.0 です。 zoom - 画像がスケールの値に応じて無作為にズームインされます。ズームの値は、scale(a,b); p の形式を取ります。デフォルト値は (1.0, 1.2); 1.0 で、p は確率です。スケールが 1.0 を超える場合のみ、画像のズームインが行われます。スケールが範囲 (a,b) の場合は、a から b の範囲の値が均等に割り当てられます。 crop - 画像が無作為にトリミングされます。トリミングの値は、size;p;row_pct;col_pct の形式を取り、p は確率を表します。位置は (col_pct, row_pct),　によって与えられ、col_pct と row_pct は 0 ～ 1 に正規化されます。col_pct　または row_pct が範囲 (a,b) の場合は、a から b の範囲の値が均等に割り当てられます。デフォルト値は chip_size;1.0; (0, 1); (0, 1) で、224 がデフォルトのチップサイズとなります。	Value Table
チップサイズ (オプション)	モデルをトレーニングするための画像のサイズ。画像は、指定のチップサイズにトリミングされます。画像サイズがパラメーター値より小さい場合は、画像サイズが適用されます。デフォルトサイズは 224 ピクセルです。	Long
サイズ変更 (オプション)	画像のチップのサイズを変更します。チップのサイズを変更したら、チップサイズのピクセルブロックがトリミングされ、トレーニングに使用されます。このパラメーターは、オブジェクト検出 (PASCAL VOC)、オブジェクト分類 (ラベル付きタイル)、super-resolution データにのみ適用されます。サイズ変更の値は、多くの場合、チップサイズの半分です。このサイズ変更の値がチップサイズの値より小さい場合、サイズ変更の値は、トレーニング用ピクセルブロックの作成に使用されます。	String
Weight Initialization Scheme (オプション)	レイヤーの重みが初期化される Scheme を指定します。マルチスペクトルデータを使用してモデルをトレーニングするには、モデルが使用可能なさまざまなタイプのバンドに対応する必要があります。これは、モデルの第 1 レイヤーを再度初期化することで行われます。このパラメーターは、マルチスペクトル画像がモデルで使用される場合のみ適用されます。ランダム—非 RGB バンドでは、ランダムな重みが初期化され、RGB バンドでは、事前トレーニング済みの重みが維持されます。これがデフォルトです。 Red band—非 RGB バンドでは、事前トレーニング済みモデルのレイヤーの Red バンドに対応する重みのクローンが作成され、RGB バンドでは、事前トレーニング済みの重みが維持されます。すべてランダム—RGB バンドと非 RGB バンドで、ランダムな重みが初期化されます。このオプションは、マルチスペクトル画像にのみ適用されます。	String
監視指標 (オプション)	チェックポイントおよび早期停止中に監視する指標を指定します。検証ロス—検証ロスが監視されます。検証ロスが大きく変更されなくなると、モデルが停止します。これがデフォルトです。平均精度—各閾値の加重平均精度が監視されます。この値が大きく変更されなくなると、モデルが停止します。正確度—正しい予測の数と予測の合計数の比が監視されます。この値が大きく変更されなくなると、モデルが停止します。 F1 スコア—モデルの精度スコアと再現率スコアの組み合わせが監視されます。この値が大きく変更されなくなると、モデルが停止します。 MIoU—テストデータセットのすべての画像上のセグメント化されたオブジェクトの Intersection over Union (IoU) 間の平均値が監視されます。この値が大きく変更されなくなると、モデルが停止します。フィーチャの分割 (Dice)—Dice 指標を使用して、モデルのパフォーマンスが監視されます。この値が大きく変更されなくなると、モデルが停止します。この値の範囲は 0 〜 1 です。値 1 は、整合チェックデータとトレーニングデータ間でピクセルが完全一致していることを示します。精度—サンプルを分類する際のモデルの正確性を示す正の値である精度が監視されます。この値が大きく変更されなくなると、モデルが停止します。精度は、正確に分類された正のサンプルの数と (正確か不正確かを問わず) 分類されたサンプルの総数の比です。再現率—モデルが正のサンプルを検出できる能力の指標である再現率が監視されます。この値が大きく変更されなくなると、モデルが停止します。再現率が高いほど、正のサンプルがより多く検出されます。再現率の値は、正確に分類された正のサンプルの数と正のサンプルの合計数の比です。 Corpus BLEU—Corpus BLUE スコアが監視されます。この値が大きく変更されなくなると、モデルが停止します。このスコアは、段落やドキュメントなどの複数の文の正確性を計算するために使用されます。マルチラベル F-beta—加重調和平均精度と加重調和平均再現率が監視されます。この値が大きく変更されなくなると、モデルが停止します。これは、多くの場合、F-beta スコアと呼ばれます。	String

派生した出力

ラベル	説明	データタイプ
出力モデル	出力トレーニング済みモデルファイル	File

TrainDeepLearningModel(in_folder, out_folder, {max_epochs}, {model_type}, {batch_size}, {arguments}, {learning_rate}, {backbone_model}, {pretrained_model}, {validation_percentage}, {stop_training}, {freeze}, {augmentation}, {augmentation_parameters}, {chip_size}, {resize_to}, {weight_init_scheme}, {monitor})

名前	説明	データタイプ
in_folder [in_folder,...]	モデルのトレーニングに必要な画像チップ、ラベル、統計情報を含むフォルダー。 [ディープラーニング用のトレーニングデータをエクスポート (Export Training Data For Deep Learning)] ツールからの出力です。次の条件を満たしている場合は複数の入力フォルダーがサポートされます。メタデータの形式タイプは、分類済みタイル、ラベル付きタイル、複数ラベル付きタイル、Pascal Visual Object Classes、または RCNN マスクである必要があります。すべてのトレーニングデータのメタデータ形式が同じになっている必要があります。すべてのトレーニングデータでバンドの数が同じになっている必要があります。すべてのトレーニングデータでタイルサイズが同じになっている必要があります。	Folder
out_folder	トレーニング済みモデルが格納される出力フォルダーの場所。	Folder
max_epochs (オプション)	モデルをトレーニングする場合の対象となるエポックの最大数。最大エポックを 1 に設定すると、データセットがニューラルネットワークを通って前後に 1 回渡されます。デフォルト値は 20 です。	Long
model_type (オプション)	ディープラーニングモデルのトレーニングに使用されるモデルタイプを指定します。 SSD—シングルショット検出器 (SSD) アーキテクチャがモデルのトレーニングに使用されます。 SSD の使用目的はオブジェクト検出です。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes メタデータ形式を使用します。 UNET—U-Net アーキテクチャがモデルのトレーニングに使用されます。 U-Net の使用目的はピクセル分類です。 FEATURE_CLASSIFIER—フィーチャ分類器アーキテクチャがモデルのトレーニングに使用されます。フィーチャ分類器がオブジェクトまたは画像の分類に使用されます。 PSPNET—ピラミッド型解析ネットワーク (PSPNET) アーキテクチャがモデルのトレーニングに使用されます。 PSPNET の使用目的はピクセル分類です。 RETINANET—RetinaNet アーキテクチャがモデルのトレーニングに使用されます。 RetinaNet の使用目的はオブジェクト検出です。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes メタデータ形式を使用します。 MASKRCNN—MaskRCNN アーキテクチャがモデルのトレーニングに使用されます。 MaskRCNN の使用目的はオブジェクト検出です。この手法は、インスタンスセグメンテーション (つまり、画像内のオブジェクトの正確な描写) に使用できます。このモデルタイプを使用して、建物フットプリントを検出することができます。トレーニングデータを入力データにする場合は、MaskRCNN メタ形式を使用します。入力トレーニングデータのクラス値は、1 で始める必要があります。このモデルタイプは、CUDA 対応 GPU を使用する場合にのみトレーニングできます。 YOLOV3—YOLOv3 アーキテクチャがモデルのトレーニングに使用されます。 YOLOv3 の使用目的はオブジェクト検出です。 DEEPLAB—DeepLabV3 アーキテクチャがモデルのトレーニングに使用されます。 DeepLab の使用目的はピクセル分類です。 FASTERRCNN—FasterRCNN アーキテクチャがモデルのトレーニングに使用されます。 FasterRCNN の使用目的はオブジェクト検出です。 BDCN_EDGEDETECTOR—BDCN (Bi-Directional Cascade Network) アーキテクチャがモデルのトレーニングに使用されます。 BDCN Edge Detector の使用目的はピクセル分類です。この手法は、さまざまな縮尺でオブジェクトのエッジ検出を改善するのに便利です。 HED_EDGEDETECTOR—HED (Holistically-Nested Edge Detection) アーキテクチャがモデルのトレーニングに使用されます。 HED Edge Detector の使用目的はピクセル分類です。この手法は、エッジおよびオブジェクト境界検出に便利です。 MULTITASK_ROADEXTRACTOR—Multi Task Road Extractor アーキテクチャがモデルのトレーニングに使用されます。 Multi Task Road Extractor の使用目的はピクセル分類です。この手法は、衛星画像から道路網を抽出するのに便利です。 CONNECTNET—ConnectNet アーキテクチャがモデルのトレーニングに使用されます。 ConnectNet の使用目的はピクセル分類です。この手法は、衛星画像から道路網を抽出するのに便利です。 PIX2PIX—Pix2Pix アーキテクチャがモデルのトレーニングに使用されます。 Pix2Pix は、画像間変換に使用されます。この手法は、あるタイプの画像から別のタイプの画像を生成するモデルオブジェクトを作成します。このモデルタイプの入力トレーニングデータは、Export Tiles メタデータ形式を使用します。 CYCLEGAN—CycleGAN アーキテクチャがモデルのトレーニングに使用されます。 CycleGAN は画像間変換に使用されます。この手法は、あるタイプの画像から別のタイプの画像を生成するモデルオブジェクトを作成します。この手法は、トレーニングする画像が重なっている必要がない点で独特です。このモデルタイプの入力トレーニングデータは、CycleGAN メタデータ形式を使用します。 SUPERRESOLUTION—超解像アーキテクチャがモデルのトレーニングに使用されます。超解像は画像間変換に使用されます。この手法は、解像度を上げて画像の品質を高めるモデルオブジェクトを作成します。このモデルタイプの入力トレーニングデータは、Export Tiles メタデータ形式を使用します。 CHANGEDETECTOR—変化検出器アーキテクチャがモデルのトレーニングに使用されます。変化検出器の使用目的はピクセル分類です。この手法は、2 つの空間的、時間的な画像を使用して変化の分類ラスターを作成するモデルオブジェクトを作成します。このモデルタイプの入力トレーニングデータは、Classified Tiles メタデータ形式を使用します。 IMAGECAPTIONER—画像キャプショナーアーキテクチャがモデルのトレーニングに使用されます。画像キャプショナーの使用目的は画像からテキストへの変換です。この手法は、ある画像のテキストキャプションを生成するモデルを作成します。 SIAMMASK—Siam Mask アーキテクチャがモデルのトレーニングに使用されます。動画のオブジェクト検出には Siam Mask が使用されます。動画のフレームを使用してモデルのトレーニングが行われ、各フレームのオブジェクトのクラスと境界四角形が検出されます。このモデルタイプの入力トレーニングデータでは MaskRCNN メタデータ形式を使用します。 MMDETECTION—MMDetection アーキテクチャがモデルのトレーニングに使用されます。 MMDetection がオブジェクト検出に使用されます。サポートされているメタデータ形式は Pascal Visual Object Class と KITTI の四角形です。 MMSEGMENTATION—MMSegmentation アーキテクチャがモデルのトレーニングに使用されます。 MMSegmentation の使用目的はピクセル分類です。サポートされているメタデータ形式は分類済みタイルです。 DEEPSORT—Deep Sort アーキテクチャがモデルのトレーニングに使用されます。動画のオブジェクト検出には Deep Sort が使用されます。動画のフレームを使用してモデルのトレーニングが行われ、各フレームのオブジェクトのクラスと境界四角形が検出されます。このモデルタイプの入力トレーニングデータは、Imagenet メタデータ形式を使用します。 Siam Mask はオブジェクトを追跡するときに便利です。一方、Deep Sort は複数のオブジェクトを追跡するモデルをトレーニングするのに便利です。 PIX2PIXHD—Pix2PixHD アーキテクチャがモデルのトレーニングに使用されます。 Pix2PixHD が画像間変換に使用されます。この手法は、あるタイプの画像から別のタイプの画像を生成するモデルオブジェクトを作成します。このモデルタイプの入力トレーニングデータは、Export Tiles メタデータ形式を使用します。 MAXDEEPLAB—MaX-DeepLab アーキテクチャがモデルのトレーニングに使用されます。 MaX-DeepLab はパノプティックセグメンテーションで使用されます。この手法は、画像とフィーチャを生成するモデルオブジェクトを作成します。このモデルタイプの入力トレーニングデータではパノプティックセグメンテーションメタデータ形式を使用します。 DETREG—DETReg アーキテクチャがモデルのトレーニングに使用されます。 DETReg はオブジェクト検出に使用されます。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes を使用します。このモデルタイプは GPU の負荷が高くなります。正しく動作させるには、専用 GPU と 16 GB 以上のメモリが必要です。 PSETAE—Pixel-Set Encoders and Temporal Self-Attentionn (PSETAE) アーキテクチャが時系列分類用モデルのトレーニングに使用されます。 PSETAE の使用目的はピクセル分類です。この手法で使用される事前データは多次元データです。	String
batch_size (オプション)	1 回のトレーニングで処理されるトレーニングサンプルの数。バッチサイズを大きくすると、ツールのパフォーマンスが向上しますが、バッチサイズが増加するにつれて、使用されるメモリ量が増加します。設定されたバッチサイズに対して GPU メモリが足りない場合、ツールが最適なバッチサイズを計算して使用するよう試みます。メモリ不足エラーが発生した場合は、より小さなバッチサイズを使用してください。	Long
arguments [arguments,...] (オプション)	model_type パラメーターからの情報が、このパラメーターのデフォルト値の設定に使用されます。これらの引数はモデルアーキテクチャによって異なります。 ArcGIS でトレーニングされるモデルのサポート対象モデル引数を以下で説明します。 ArcGIS 事前トレーニング済みモデルとカスタムディープラーニングモデルでは、このツールでサポートされている追加の引数を利用できることがあります。各モデルタイプで利用可能な引数の詳細については、「ディープラーニングの引数」をご参照ください。 attention_type - モジュールタイプを指定します。モジュールオプションは PAM (Pyramid Attention Module) または BAM (Basic Attention Module) です。デフォルトは、PAM です。 chip_size - モデルのトレーニングに適用される画像サイズ。トレーニングサンプルのタイルのチップサイズを示す chip_size 引数が、すべてのモデルタイプでサポートされています。画像は指定したチップサイズにトリミングされます。画像サイズがチップサイズより小さい場合は、画像サイズが使用されます。デフォルトのサイズは 224 ピクセルです。 CLASS_BALANCING - クラスあたりのピクセルの頻度に逆比例する交差エントロピー誤差のバランスを調整するかどうかを指定します。デフォルトは、False です。 decode_params - 画像キャプショナーの実行方法を制御するディクショナリです。デフォルト値は {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False}. です。decode_params 引数は、以下のパラメーターで構成されています。 embed_size - 埋め込みサイズ。ニューラルネットワークにおけるデフォルトは 100 レイヤーです。 hidden_size - 非表示レイヤーのサイズ。ニューラルネットワークにおけるデフォルトは 100 レイヤーです。 attention_size - 中間アテンションレイヤーのサイズ。ニューラルネットワークにおけるデフォルトは 100 レイヤーです。 teacher_forcing - 教師強制の確率。 Teacher Forcing はリカレントニューラルネットワークのトレーニング戦略です。バックプロパゲーション時に、前の出力ではなく、前の時間ステップから出力されたモデルを入力として使用します。有効な範囲は 0.0 ～ 1.0 です。デフォルトは 1 です。 dropout - ドロップアウト率。有効な範囲は 0.0 ～ 1.0 です。デフォルトは 0.1 です。 pretrained_emb - 事前トレーニング済みテキスト埋め込みを使用するかどうかを指定します。 True の場合、高速のテキスト埋め込みを使用します。 False の場合、事前トレーニング済みテキスト埋め込みは使用されません。デフォルトは、False です。 FOCAL_LOSS - 焦点損失を使用するかどうかを指定します。デフォルトは、False です。 gaussian_thresh - 必要な道幅を設定するガウス閾値。有効な範囲は 0.0 ～ 1.0 です。デフォルト値は 0.76 です。 grids - 処理中に画像が分割されるグリッドの数です。たとえば、この引数を 4 に設定すると、画像が 4 x 4、つまり 16 個のグリッドセルに分割されます。値が指定されない場合は、入力イメージに基づいて最適なグリッド値が計算されます。 IGNORE_CLASSES - モデルで損失が発生しないクラス値のリスト。 MIXUP - mixup 補強および mixup 損失を使用するかどうかを指定します。デフォルトは、False です。 model - モデルのトレーニングに使用されるバックボーンモデル。選択可能なオプションは、model_type パラメーターの値によって決まります。 MMDetection のデフォルトは cascade_rcnn　です。 MMSegmentation のデフォルトは deeplabv3 です。 model_weight - 事前トレーニング済みモデルのウェイトを使用するかどうかを指定します。デフォルトは、False です。この値は、モデルのウェイトを含む構成ファイルへの、MMDetection リポジトリまたは MMSegmentation リポジトリからのパスにすることもできます。 monitor - チェックポイントでのチェックと早期停止の最中にモニタリングするメトリックを指定します。選択可能なオプションは、model_type パラメーターの値によって決まります。デフォルトは、valid_loss です。 mtl_model - モデルの作成に使用されるアーキテクチャタイプを指定します。選択肢は LinkNet ベースのニューラルアーキテクチャを示す linknet と Hourglass ベースのニューラルアーキテクチャを示す hourglass です。デフォルトは、hourglass です。 orient_bin_size - 方位角のビンサイズ。デフォルトは 20 です。 orient_theta - 方位マスクの幅。デフォルトは 8 です。 PYRAMID_SIZES - それぞれの小区域に適用される畳み込みレイヤーの数とサイズです。デフォルト値は [1,2,3,6] です。この引数は、PSPNET モデルに固有のものです。 ratios - アンカーボックスで使用する縦横比のリストです。オブジェクト検出を行う場合、アンカーボックスは予測対象のオブジェクトに最適な位置、形状、サイズを表します。たとえば、この引数を [1.0, 1.0]、[1.0, 0.5] に設定すると、アンカーボックスが正方形 (1:1) になるか、水平側が鉛直側の半分の長方形 (1:0.5) になります。 RetinaNet のデフォルトは [0.5,1,2] です。 SSD のデフォルトは [1.0, 1.0] です。 SCALES - 各セルが拡大/縮小される縮尺レベルの数です。デフォルト値は [1, 0.8, 0.63] です。 USE_UNET - ピラミッドプーリングが完了した時点で U-Net デコーダーを使用してデータを復元するかどうかを指定します。デフォルトは、True です。この引数は、PSPNET モデルに固有のものです。 zooms - 各グリッドセルが拡大/縮小されるズームレベルの数です。この引数を 1 に設定すると、すべてのグリッドセルが同じサイズまたはズームレベルで維持されます。ズームレベルが 2 の場合は、すべてのグリッドセルが 2 倍の大きさになります (100 パーセントでズームされる)。ズームレベルのリストを指定すると、そのリスト内のすべての数値を使用して、すべてのグリッドセルが拡大/縮小されます。デフォルトは 1 です。	Value Table
learning_rate (オプション)	トレーニング処理全体で、既存の情報を新たに取得した情報に上書きする割合。値を指定しないと、トレーニングプロセス中に最適な学習率が学習曲線から抽出されます。	Double
backbone_model (オプション)	新しいモデルをトレーニングするアーキテクチャとして使用する、事前構成済みのニューラルネットワークを指定します。この方法は「転移学習」と呼ばれます。 DENSENET121—構成済みモデルは、100 万を超える画像が含まれており、深さが 121 個のレイヤーである Imagenet データセット上でトレーニングされた高密度のネットワークになります。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 DENSENET161—構成済みモデルは、100 万を超える画像が含まれており、深さが 161 個のレイヤーである Imagenet データセット上でトレーニングされた高密度のネットワークになります。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 DENSENET169—構成済みモデルは、100 万を超える画像が含まれており、深さが 169 個のレイヤーである Imagenet データセット上でトレーニングされた高密度のネットワークになります。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 DENSENET201—構成済みモデルは、100 万を超える画像が含まれており、深さが 201 個のレイヤーである Imagenet データセット上でトレーニングされた高密度のネットワークになります。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 MOBILENET_V2—事前構成済みモデルは、Imagenet データベースでトレーニングされます。深さは 54 層で、メモリの使用量が少ないのでエッジデバイスコンピューティングに適しています。 RESNET18—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、18 層の深さがあります。 RESNET34—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、34 層の深さがあります。これがデフォルトです。 RESNET50—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、50 層の深さがあります。 RESNET101—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、101 層の深さがあります。 RESNET152—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、152 層の深さがあります。 VGG11—事前構成済みのモデルは、Imagenet データセットでトレーニングされるたたみ込みニューラルネットワークです。このネットワークには 100 万以上の画像が含まれ、画像を 1,000 のオブジェクトカテゴリに分類し、11 層の深さがあります。 VGG11_BN—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセットでトレーニングされ、11 層の深さがあります。 VGG13—事前構成済みのモデルは、Imagenet データセットでトレーニングされるたたみ込みニューラルネットワークです。このネットワークには 100 万以上の画像が含まれ、画像を 1,000 のオブジェクトカテゴリに分類し、13 層の深さがあります。 VGG13_BN—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセットでトレーニングされ、13 層の深さがあります。 VGG16—事前構成済みのモデルは、Imagenet データセットでトレーニングされるたたみ込みニューラルネットワークです。このネットワークには 100 万以上の画像が含まれ、画像を 1,000 のオブジェクトカテゴリに分類し、16 層の深さがあります。 VGG16_BN—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセットでトレーニングされ、16 層の深さがあります。 VGG19—事前構成済みのモデルは、Imagenet データセットでトレーニングされるたたみ込みニューラルネットワークです。このネットワークには 100 万以上の画像が含まれ、画像を 1,000 のオブジェクトカテゴリに分類し、19 層の深さがあります。 VGG19_BN—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセットでトレーニングされ、19 層の深さがあります。 DARKNET53—構成済みモデルは、100 万を超える画像が含まれており、深さが 53 個のレイヤーである Imagenet データセット上でトレーニングされた畳み込みニューラルネットワークになります。 REID_V1—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、オブジェクトの追跡に使用されます。 REID_V2—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、オブジェクトの追跡に使用されます。 RESNEXT50—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、深さは 50 層です。これは同質のニューラルネットワークであり、従来の ResNet により求められるハイパーパラメーターの数が削減されます。 WIDE_RESNET50—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、深さは 50 層です。アーキテクチャは ResNet と同じですが、より多くのチャンネルがあります。また、たとえば timm:resnet31、timm:inception_v4、timm:efficientnet_b3　などのように timm を接頭辞として使用することで、PyTorch Image Models (timm) でサポートされている畳み込みニューラルネットワークを指定できます。	String
pretrained_model (オプション)	新しいモデルの微調整に使用される事前トレーニング済みモデル。入力は、Esri モデル定義ファイル (.emd) またはディープラーニングパッケージファイル (.dlpk) です。類似したクラスを持つ事前トレーニング済みモデルは、新しいモデルに合わせて微調整することができます。事前トレーニング済みモデルは、新しいモデルのトレーニングに使用される同じモデルタイプおよびバックボーンモデルでトレーニングされている必要があります。	File
validation_percentage (オプション)	モデルの検証に使用するトレーニングサンプルの割合。デフォルト値は 10 です。	Double
stop_training (オプション)	早期停止を実施するかどうかを指定します。 STOP_TRAINING—早期停止が実施され、指定した max_epochs パラメーター値にかかわらず、モデルの改善がなくなった時点でモデルのトレーニングを停止します。これがデフォルトです。 CONTINUE_TRAINING—早期停止は実施されず、max_epochs パラメーター値に到達するまで、モデルのトレーニングが続行されます。	Boolean
freeze (オプション)	事前トレーニング済みモデルのバックボーンレイヤーを固定するかどうかを指定します。これにより、ウェイトとバイアスが本来の設計どおりになります。 FREEZE_MODEL—バックボーンレイヤーが固定され、事前定義済みのウェイトとバイアスを backbone_model パラメーターで変更しません。これがデフォルトです。 UNFREEZE_MODEL—バックボーンレイヤーは固定されず、backbone_model パラメーターのウェイトとバイアスを、トレーニングサンプルに合わせて変更できます。この処理には時間がかかりますが、通常は優れた結果が得られます。	Boolean
augmentation (オプション)	使用されるデータ拡張のタイプを指定します。データ拡張は、既存のデータを使用してデータセットの変更済みコピーを作成することで人為的にトレーニングセットを増やす手法です。 DEFAULT—デフォルトのデータ拡張手法とデフォルト値が使用されます。デフォルトのデータ拡張手法は、crop、dihedral_affine、brightness、contrast、zoom です。これらのデフォルト値は通常、衛星画像に適しています。 NONE—データ拡張は使用されません。 CUSTOM—データ拡張値は、augmentation_parameters パラメーターを使用して指定されます。 FILE—トレーニングデータセットと整合チェックデータセットのデータ拡張のための fastai の変換は、トレーニングデータと同じフォルダーに格納されている transforms.json ファイルを使用して指定されます。さまざまな変換に関する詳細については、fastai の Web サイトの視覚変換をご参照ください。	String
augmentation_parameters [augmentation_parameters,...] (オプション)	拡張パラメーター内の各変換の値を指定します。 rotate - 画像は、確率 (p) の分だけ無作為に (角度単位で) 回転します。角度が範囲 (a,b) の場合、値は、a から b の範囲で均等に割り当てられます。デフォルト値は 30.0; 0.5 です。 brightness - 画像の明るさは、確率 (p) を適用して、変化の値に応じて無作為に調整されます。変化が 0 の場合は画像が最も暗くなり、変化が 1 の場合は画像が最も明るくなります。変化が 0.5 の場合は、明るさは調整されません。変化が範囲 (a,b) の場合、拡張によって a から b の範囲の値が均等に割り当てられます。デフォルト値は (0.4,0.6); 1.0 です。 contrast - 画像のコントラストは、確率 (p) を適用して、スケールの値に応じて無作為に調整されます。スケールが 0 の場合は画像がグレースケールになり、スケールが 1 より大きい場合は画像がスーパーコントラストになります。スケールが 1 の場合は、コントラストが調整されません。スケールが範囲 (a,b) の場合、拡張によって a から b の範囲の値が均等に割り当てられます。デフォルト値は (0.75, 1.5); 1.0 です。 zoom - 画像がスケールの値に応じて無作為にズームインされます。ズームの値は、scale(a,b); p の形式を取ります。デフォルト値は (1.0, 1.2); 1.0 で、p は確率です。スケールが 1.0 を超える場合のみ、画像のズームインが行われます。スケールが範囲 (a,b) の場合は、a から b の範囲の値が均等に割り当てられます。 crop - 画像が無作為にトリミングされます。トリミングの値は、size;p;row_pct;col_pct の形式を取り、p は確率を表します。位置は (col_pct, row_pct),　によって与えられ、col_pct と row_pct は 0 ～ 1 に正規化されます。col_pct　または row_pct が範囲 (a,b) の場合は、a から b の範囲の値が均等に割り当てられます。デフォルト値は chip_size;1.0; (0, 1); (0, 1) で、224 がデフォルトのチップサイズとなります。	Value Table
chip_size (オプション)	モデルをトレーニングするための画像のサイズ。画像は、指定のチップサイズにトリミングされます。画像サイズがパラメーター値より小さい場合は、画像サイズが適用されます。デフォルトサイズは 224 ピクセルです。	Long
resize_to (オプション)	画像のチップのサイズを変更します。チップのサイズを変更したら、チップサイズのピクセルブロックがトリミングされ、トレーニングに使用されます。このパラメーターは、オブジェクト検出 (PASCAL VOC)、オブジェクト分類 (ラベル付きタイル)、super-resolution データにのみ適用されます。サイズ変更の値は、多くの場合、チップサイズの半分です。このサイズ変更の値がチップサイズの値より小さい場合、サイズ変更の値は、トレーニング用ピクセルブロックの作成に使用されます。	String
weight_init_scheme (オプション)	レイヤーの重みが初期化される Scheme を指定します。マルチスペクトルデータを使用してモデルをトレーニングするには、モデルが使用可能なさまざまなタイプのバンドに対応する必要があります。これは、モデルの第 1 レイヤーを再度初期化することで行われます。 RANDOM—非 RGB バンドでは、ランダムな重みが初期化され、RGB バンドでは、事前トレーニング済みの重みが維持されます。これがデフォルトです。 RED_BAND—非 RGB バンドでは、事前トレーニング済みモデルのレイヤーの Red バンドに対応する重みのクローンが作成され、RGB バンドでは、事前トレーニング済みの重みが維持されます。 ALL_RANDOM—RGB バンドと非 RGB バンドで、ランダムな重みが初期化されます。このオプションは、マルチスペクトル画像にのみ適用されます。このパラメーターは、マルチスペクトル画像がモデルで使用される場合のみ適用されます。	String
monitor (オプション)	チェックポイントおよび早期停止中に監視する指標を指定します。 VALID_LOSS—検証ロスが監視されます。検証ロスが大きく変更されなくなると、モデルが停止します。これがデフォルトです。 AVERAGE_PRECISION—各閾値の加重平均精度が監視されます。この値が大きく変更されなくなると、モデルが停止します。 ACCURACY—正しい予測の数と予測の合計数の比が監視されます。この値が大きく変更されなくなると、モデルが停止します。 F1_SCORE—モデルの精度スコアと再現率スコアの組み合わせが監視されます。この値が大きく変更されなくなると、モデルが停止します。 MIOU—テストデータセットのすべての画像上のセグメント化されたオブジェクトの Intersection over Union (IoU) 間の平均値が監視されます。この値が大きく変更されなくなると、モデルが停止します。 DICE—Dice 指標を使用して、モデルのパフォーマンスが監視されます。この値が大きく変更されなくなると、モデルが停止します。この値の範囲は 0 〜 1 です。値 1 は、整合チェックデータとトレーニングデータ間でピクセルが完全一致していることを示します。 PRECISION—サンプルを分類する際のモデルの正確性を示す正の値である精度が監視されます。この値が大きく変更されなくなると、モデルが停止します。精度は、正確に分類された正のサンプルの数と (正確か不正確かを問わず) 分類されたサンプルの総数の比です。 RECALL—モデルが正のサンプルを検出できる能力の指標である再現率が監視されます。この値が大きく変更されなくなると、モデルが停止します。再現率が高いほど、正のサンプルがより多く検出されます。再現率の値は、正確に分類された正のサンプルの数と正のサンプルの合計数の比です。 CORPUS_BLEU—Corpus BLUE スコアが監視されます。この値が大きく変更されなくなると、モデルが停止します。このスコアは、段落やドキュメントなどの複数の文の正確性を計算するために使用されます。 MULTI_LABEL_FBETA—加重調和平均精度と加重調和平均再現率が監視されます。この値が大きく変更されなくなると、モデルが停止します。これは、多くの場合、F-beta スコアと呼ばれます。	String

派生した出力

名前	説明	データタイプ
out_model_file	出力トレーニング済みモデルファイル	File

コードのサンプル

TrainDeepLearningModel の例 1 (Python ウィンドウ)

この例では、U-Net 手法を使用してツリー分類モデルをトレーニングします。

# Import system modules  
import arcpy  
from arcpy.ia import *  
 
# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 
 
# Execute 
TrainDeepLearningModel(r"C:\DeepLearning\TrainingData\Roads_FC", 
     r"C:\DeepLearning\Models\Fire", 40, "UNET", 16, "# #", None, 
     "RESNET34", None, 10, "STOP_TRAINING", "FREEZE_MODEL")

TrainDeepLearningModel の例 2 (スタンドアロンスクリプト)

この例では、SSD 手法を使用してオブジェクト検出モデルをトレーニングします。

# Import system modules  
import arcpy  
from arcpy.ia import *  
 
# Check out the ArcGIS Image Analyst extension license 
arcpy.CheckOutExtension("ImageAnalyst") 
 
#Define input parameters
in_folder = "C:\\DeepLearning\\TrainingData\\Cars" 
out_folder = "C:\\Models\\Cars"
max_epochs = 100
model_type = "SSD"
batch_size = 2
arg = "grids '[4, 2, 1]';zooms '[0.7, 1.0, 1.3]';ratios '[[1, 1], [1, 0.5], [0.5, 1]]'"
learning_rate = 0.003
backbone_model = "RESNET34" 
pretrained_model = "C:\\Models\\Pretrained\\vehicles.emd"
validation_percent = 10
stop_training = "STOP_TRAINING"
freeze = "FREEZE_MODEL"


# Execute
TrainDeepLearningModel(in_folder, out_folder, max_epochs, model_type, 
     batch_size, arg, learning_rate, backbone_model, pretrained_model, 
     validation_percent, stop_training, freeze)

環境

現在のワークスペース, プロセッサタイプ, GPU ID, テンポラリワークスペース

ライセンス情報

Basic: 次のものが必要 Image Analyst
Standard: 次のものが必要 Image Analyst
Advanced: 次のものが必要 Image Analyst

サマリー

使用法

パラメーター

派生した出力

派生した出力

コードのサンプル

環境

ライセンス情報

関連トピック

このトピックの内容