ディープラーニングモデルのトレーニング (Train Deep Learning Model) (Image Analyst)—ArcGIS Pro

Image Analyst ライセンスで利用できます。

サマリー

[ディープラーニング用のトレーニングデータをエクスポート (Export Training Data For Deep Learning)] ツールからの出力を使用してディープラーニングモデルをトレーニングします。

使用法

このツールは、ディープラーニングフレームワークを使用するディープラーニングモデルです。
ArcGIS Pro のディープラーニングフレームワークを使用するようにコンピューターを設定するには、「ArcGIS 用のディープラーニングフレームワークのインストール」をご参照ください。
非接続環境でモデルをトレーニングする場合は、詳細について「非接続環境での追加インストール」をご参照ください。
このツールは、既存のトレーニング済みモデルの微調整にも使用できます。たとえば、車に関してトレーニングされた既存のモデルを微調整して、トラックを識別するモデルをトレーニングすることができます。
GPU を使用してこのツールを実行するには、プロセッサータイプ環境を [GPU] に設定します。複数の GPU がある場合は、代わりに GPU ID 環境を指定します。
デフォルトでは、このツールでは、[モデルタイプ] パラメーターが以下のいずれかに設定された場合、使用可能なすべての GPU が使用されます。
- ConnectNet
- フィーチャ分類器
- MaskRCNN
- Multi Task Road Extractor
- シングルショット検出器
- U-Net
特定の GPU を使用するには、GPU ID 環境を使用します。
このツールの入力トレーニングデータには、[ディープラーニング用のトレーニングデータをエクスポート (Export Training Data For Deep Learning)] ツールから生成された画像フォルダーとラベルフォルダーを含める必要があります。
トレーニングデータで Pascal Visual Object Class または KITTI の四角形メタデータ形式が使用されている場合はこの例外です。この 2 つの形式では、トレーニングデータを他のソースから取り込むことができますが、画像チップは image フォルダー内に存在し、対応するラベルは labels フォルダー内に存在する必要があります。

トレーニングデータと同じフォルダーに格納されている transforms.json ファイルを使用して、トレーニングデータセットと検証データセットのデータ拡張のための fastai の変換を指定します。以下は、transforms.json ファイルの例です。

カスタム拡張パラメーター


{
    "Training": {
        "rotate": {
            "degrees": 30,
            "p": 0.5
        },
        "crop": {
            "size": 224,
            "p": 1,
            "row_pct": "0, 1",
            "col_pct": "0, 1"
        },
        "brightness": {
            "change": "0.4, 0.6"
        },
        "contrast": {
            "scale": "1.0, 1.5"
        },
        "rand_zoom": {
            "scale": "1, 1.2"
        }
    },
    "Validation": {
        "crop": {
            "size": 224,
            "p": 1.0,
            "row_pct": 0.5,
            "col_pct": 0.5
        }
    }
}

このツールの実行要件および発生する可能性のある問題の詳細については、「ディープラーニングに関するよくある質問」をご参照ください。
ディープラーニングの詳細については、「ArcGIS Image Analyst エクステンションを使用したディープラーニング」をご参照ください。

パラメーター

ラベル	説明	データタイプ
入力トレーニングデータ	モデルのトレーニングに必要な画像チップ、ラベル、統計情報を含むフォルダー。 [ディープラーニング用のトレーニングデータをエクスポート (Export Training Data For Deep Learning)] ツールからの出力です。次の条件を満たしている場合は複数の入力フォルダーがサポートされます。メタデータの形式タイプは、分類済みタイル、ラベル付きタイル、複数ラベル付きタイル、Pascal Visual Object Classes、または RCNN マスクである必要があります。すべてのトレーニングデータのメタデータ形式が同じになっている必要があります。すべてのトレーニングデータでバンドの数が同じになっている必要があります。	Folder
出力フォルダー	トレーニング済みモデルが格納される出力フォルダーの場所。	Folder
最大エポック (オプション)	モデルをトレーニングする場合の対象となるエポックの最大数。最大エポックを 1 に設定すると、データセットがニューラルネットワークを通って前後に 1 回渡されます。デフォルト値は 20 です。	Long
モデルタイプ (オプション)	ディープラーニングモデルのトレーニングに使用されるモデルタイプを指定します。 3D-RCNet (ピクセル分類)—3D-RCNet (3D Relational Convolutional Neural Network) アーキテクチャーがモデルのトレーニングに使用されます。これは ConvNet および ViT の強みを継承し、結果として高いパフォーマンスのハイパースペクトル画像分類を実現します。 BDCN Edge Detector (ピクセル分類)—BDCN (Bi-Directional Cascade Network) アーキテクチャーがモデルのトレーニングに使用されます。 BDCN Edge Detector の使用目的はピクセル分類です。この手法は、さまざまな縮尺でオブジェクトのエッジ検出を改善するのに便利です。変化検出器 (ピクセル分類)—変化検出器アーキテクチャーがモデルのトレーニングに使用されます。変化検出器の使用目的はピクセル分類です。この手法は、2 つの空間的、時間的な画像を使用して変化の分類ラスターを作成するモデルオブジェクトを作成します。このモデルタイプの入力トレーニングデータは、Classified Tiles メタデータ形式を使用します。 ClimaX (ピクセル分類)—ClimaX アーキテクチャーがモデルのトレーニングに使用されます。 ClimaX の使用目的はピクセル分類です。この手法は主に天気と気候の解析に使用されます。このモデルタイプで使用される事前データは多次元データです。 ConnectNet (ピクセル分類)—ConnectNet アーキテクチャーがモデルのトレーニングに使用されます。 ConnectNet の使用目的はピクセル分類です。この手法は、衛星画像から道路網を抽出するのに便利です。 CycleGAN (画像変換)—CycleGAN アーキテクチャーがモデルのトレーニングに使用されます。 CycleGAN は画像間変換に使用されます。この手法は、あるタイプの画像から別のタイプの画像を生成するモデルオブジェクトを作成します。この手法は、トレーニングする画像が重なっている必要がない点で独特です。このモデルタイプの入力トレーニングデータは、CycleGAN メタデータ形式を使用します。 DeepLabV3 (ピクセル分類)—DeepLabV3 アーキテクチャーがモデルのトレーニングに使用されます。 DeepLab の使用目的はピクセル分類です。 Deep Sort (オブジェクト追跡)—Deep Sort アーキテクチャーがモデルのトレーニングに使用されます。動画のオブジェクト検出には Deep Sort が使用されます。動画のフレームを使用してモデルのトレーニングが行われ、各フレームのオブジェクトのクラスと境界四角形が検出されます。このモデルタイプの入力トレーニングデータは、Imagenet メタデータ形式を使用します。 Siam Mask はオブジェクトを追跡するときに便利です。一方、Deep Sort は複数のオブジェクトを追跡するモデルをトレーニングするのに便利です。 DETReg (オブジェクト検出)—DETReg アーキテクチャーがモデルのトレーニングに使用されます。 DETReg はオブジェクト検出に使用されます。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes を使用します。このモデルタイプは GPU の負荷が高くなります。正しく動作させるには、専用 GPU と 16 GB 以上のメモリーが必要です。 FasterRCNN (オブジェクト検出)—FasterRCNN アーキテクチャーがモデルのトレーニングに使用されます。 FasterRCNN の使用目的はオブジェクト検出です。フィーチャ分類器 (オブジェクト分類)—フィーチャ分類器アーキテクチャーがモデルのトレーニングに使用されます。フィーチャ分類器がオブジェクトまたは画像の分類に使用されます。 HED Edge Detector (ピクセル分類)—HED (Holistically-Nested Edge Detection) アーキテクチャーがモデルのトレーニングに使用されます。 HED Edge Detector の使用目的はピクセル分類です。この手法は、エッジとオブジェクト境界の検出に便利です。画像キャプショナー (画像変換)—画像キャプショナーアーキテクチャーがモデルのトレーニングに使用されます。画像キャプショナーの使用目的は画像からテキストへの変換です。この手法は、ある画像のテキストキャプションを生成するモデルを作成します。 MaskRCNN (オブジェクト検出)—MaskRCNN アーキテクチャーがモデルのトレーニングに使用されます。 MaskRCNN の使用目的はオブジェクト検出です。この手法は、インスタンスセグメンテーション (つまり、画像内のオブジェクトの正確な描写) に使用できます。このモデルタイプを使用して、建物フットプリントを検出することができます。トレーニングデータを入力データにする場合は、MaskRCNN メタ形式を使用します。入力トレーニングデータのクラス値は、1 で始める必要があります。このモデルタイプは、CUDA 対応 GPU を使用する場合にのみトレーニングできます。 MaX-DeepLab (パノプティックセグメンテーション)—MaX-DeepLab アーキテクチャーがモデルのトレーニングに使用されます。 MaX-DeepLab はパノプティックセグメンテーションで使用されます。この手法は、画像とフィーチャを生成するモデルオブジェクトを作成します。このモデルタイプの入力トレーニングデータではパノプティックセグメンテーションメタデータ形式を使用します。 MMDetection (オブジェクト検出)—MMDetection アーキテクチャーがモデルのトレーニングに使用されます。 MMDetection がオブジェクト検出に使用されます。サポートされているメタデータ形式は Pascal Visual Object Class と KITTI の四角形です。 MMSegmentation (ピクセル分類)—MMSegmentation アーキテクチャーがモデルのトレーニングに使用されます。 MMSegmentation の使用目的はピクセル分類です。サポートされているメタデータ形式は分類済みタイルです。 Multi Task Road Extractor (ピクセル分類)—Multi Task Road Extractor アーキテクチャーがモデルのトレーニングに使用されます。 Multi Task Road Extractor の使用目的はピクセル分類です。この手法は、衛星画像から道路網を抽出するのに便利です。 Pix2Pix (画像変換)—Pix2Pix アーキテクチャーがモデルのトレーニングに使用されます。 Pix2Pix は、画像間変換に使用されます。この手法は、あるタイプの画像から別のタイプの画像を生成するモデルオブジェクトを作成します。このモデルタイプの入力トレーニングデータは、Export Tiles メタデータ形式を使用します。 Pix2PixHD (画像変換)—Pix2PixHD アーキテクチャーがモデルのトレーニングに使用されます。 Pix2PixHD が画像間変換に使用されます。この手法は、あるタイプの画像から別のタイプの画像を生成するモデルオブジェクトを作成します。このモデルタイプの入力トレーニングデータは、Export Tiles メタデータ形式を使用します。 PSETAE (ピクセル分類)—Pixel-Set Encoders and Temporal Self-Attentionn (PSETAE) アーキテクチャーが時系列分類用モデルのトレーニングに使用されます。 PSETAE の使用目的はピクセル分類です。このモデルタイプで使用される事前データは多次元データです。ピラミッド型解析ネットワーク (ピクセル分類)—ピラミッド型解析ネットワーク (PSPNET) アーキテクチャーがモデルのトレーニングに使用されます。 PSPNET の使用目的はピクセル分類です。 RetinaNet (オブジェクト検出)—RetinaNet アーキテクチャーがモデルのトレーニングに使用されます。 RetinaNet の使用目的はオブジェクト検出です。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes メタデータ形式を使用します。 RTDetrV2 (オブジェクト検出)—改善された Real-Time DEtection TRansformer (RTDetrV2) アーキテクチャーがモデルのトレーニングに使用されます。 RTDetrV2 は、前のリアルタイム検出器の RT-DETR を基に構築されています。 RTDetrV2 の使用目的はオブジェクト検出です。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes および KITTI の四角形メタデータ形式を使用します。 SAMLoRA (ピクセル分類)—Low Rank Adaption (LoRA) による Segment Anything Model (SAM) は、モデルのトレーニングに使用されます。このモデルタイプは、SAM を基礎モデルとして使用し、比較的低い演算要件と小さなデータセットの特定のタスクに合わせて微調整します。 Siam Mask (オブジェクト追跡)—Siam Mask アーキテクチャーがモデルのトレーニングに使用されます。動画のオブジェクト検出には Siam Mask が使用されます。動画のフレームを使用してモデルのトレーニングが行われ、各フレームのオブジェクトのクラスと境界四角形が検出されます。このモデルタイプの入力トレーニングデータでは MaskRCNN メタデータ形式を使用します。シングルショット検出器 (オブジェクト検出)—シングルショット検出器 (SSD) アーキテクチャーがモデルのトレーニングに使用されます。 SSD の使用目的はオブジェクト検出です。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes メタデータ形式を使用します。超解像 (画像変換)—超解像アーキテクチャーがモデルのトレーニングに使用されます。超解像は画像間変換に使用されます。この手法は、解像度を上げて画像の品質を高めるモデルオブジェクトを作成します。このモデルタイプの入力トレーニングデータは、Export Tiles メタデータ形式を使用します。 U-Net (ピクセル分類)—U-Net アーキテクチャーがモデルのトレーニングに使用されます。 U-Net の使用目的はピクセル分類です。 YOLOv3 (オブジェクト検出)—YOLOv3 アーキテクチャーがモデルのトレーニングに使用されます。 YOLOv3 の使用目的はオブジェクト検出です。	String
バッチサイズ (オプション)	1 回のトレーニングで処理されるトレーニングサンプルの数。バッチサイズを大きくすると、ツールのパフォーマンスが向上しますが、バッチサイズが増加するにつれて、使用されるメモリー量が増加します。設定されたバッチサイズに対して GPU メモリーが足りない場合、ツールが最適なバッチサイズを計算して使用するよう試みます。メモリー不足エラーが発生した場合は、より小さなバッチサイズを使用してください。	Long
モデル引数 (オプション)	[モデルタイプ] パラメーターの情報は、このパラメーターに値を取り込むために使用されます。これらの引数はモデルアーキテクチャーによって異なります。 ArcGIS 事前トレーニング済みモデルとカスタムディープラーニングモデルでは、このツールでサポートされている追加の引数を利用できることがあります。各モデルタイプで利用可能な引数の詳細については、「ディープラーニングの引数」をご参照ください。	Value Table
学習率 (オプション)	トレーニング処理全体で、既存の情報を新たに取得した情報に上書きする割合。値を指定しないと、トレーニングプロセス中に最適な学習率が学習曲線から抽出されます。	Double
バックボーンモデル (オプション)	新しいモデルをトレーニングするアーキテクチャーとして使用する、事前構成済みのニューラルネットワークを指定します。この方法は「転移学習」と呼ばれます。また、たとえば timm:resnet31、timm:inception_v4、timm:efficientnet_b3 などのように timm を接頭辞として使用することで、PyTorch Image Models (timm) でサポートされている畳み込みニューラルネットワークを指定できます。 1.40625 degrees—このバックボーンは、各グリッドセルが 1.40625 度 x 1.40625 度のエリアをカバーする解像度の画像でトレーニングされました。これは天気と気候の予測に使用されます。これは解像度が高く設定されているため、出力の精度は高くなりますが、より多くの処理能力を必要とします。 5.625 degrees—このバックボーンは、各グリッドセルが 5.625 度 x 5.625 度のエリアをカバーする解像度の画像でトレーニングされました。これは天気と気候の予測に使用されます。これは低解像度設定となりますが、必要な処理能力は少なくなります。 DenseNet-121—構成済みモデルは、100 万を超える画像が含まれており、深さが 121 個のレイヤーである Imagenet データセット上でトレーニングされた高密度のネットワークになります。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 DenseNet-161—構成済みモデルは、100 万を超える画像が含まれており、深さが 161 個のレイヤーである Imagenet データセット上でトレーニングされた高密度のネットワークになります。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 DenseNet-169—構成済みモデルは、100 万を超える画像が含まれており、深さが 169 個のレイヤーである Imagenet データセット上でトレーニングされた高密度のネットワークになります。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 DenseNet-201—構成済みモデルは、100 万を超える画像が含まれており、深さが 201 個のレイヤーである Imagenet データセット上でトレーニングされた高密度のネットワークになります。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 MobileNet バージョン 2—事前構成済みモデルは、Imagenet データベースでトレーニングされます。深さは 54 層で、メモリーの使用量が少ないのでエッジデバイスコンピューティングに適しています。 ResNet-18—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、18 層の深さがあります。 ResNet-34—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、34 層の深さがあります。これがデフォルトです。 ResNet-50—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、50 層の深さがあります。 ResNet-101—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、101 層の深さがあります。 ResNet-152—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、152 層の深さがあります。 VGG-11—事前構成済みのモデルは、Imagenet データセットでトレーニングされるたたみ込みニューラルネットワークです。このネットワークには 100 万以上の画像が含まれ、画像を 1,000 のオブジェクトカテゴリーに分類し、11 層の深さがあります。 VGG-11 (バッチ正規化あり)—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセットでトレーニングされ、11 層の深さがあります。 VGG-13—事前構成済みのモデルは、Imagenet データセットでトレーニングされるたたみ込みニューラルネットワークです。このネットワークには 100 万以上の画像が含まれ、画像を 1,000 のオブジェクトカテゴリーに分類し、13 層の深さがあります。 VGG-13 (バッチ正規化あり)—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセットでトレーニングされ、13 層の深さがあります。 VGG-16—事前構成済みのモデルは、Imagenet データセットでトレーニングされるたたみ込みニューラルネットワークです。このネットワークには 100 万以上の画像が含まれ、画像を 1,000 のオブジェクトカテゴリーに分類し、16 層の深さがあります。 VGG-16 (バッチ正規化あり)—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセットでトレーニングされ、16 層の深さがあります。 VGG-19—事前構成済みのモデルは、Imagenet データセットでトレーニングされるたたみ込みニューラルネットワークです。このネットワークには 100 万以上の画像が含まれ、画像を 1,000 のオブジェクトカテゴリーに分類し、19 層の深さがあります。 VGG-19 (バッチ正規化あり)—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセットでトレーニングされ、19 層の深さがあります。 DarkNet-53—構成済みモデルは、100 万を超える画像が含まれており、深さが 53 個のレイヤーである Imagenet データセット上でトレーニングされた畳み込みニューラルネットワークになります。 Reid_v1—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、オブジェクトの追跡に使用されます。 Reid_v2—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、オブジェクトの追跡に使用されます。 ResNeXt-50—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、深さは 50 層です。これは同質のニューラルネットワークであり、従来の ResNet により求められるハイパーパラメーターの数が削減されます。 Wide ResNet-50—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、深さは 50 層です。アーキテクチャーは ResNet と同じですが、より多くのチャネルがあります。 SR3—事前構成済みモデルは、Super Resolution via Repeated Refinement (SR3) モデルを使用します。 SR3 は、ノイズ除去拡散確率論的モデルを条件付き画像生成に適応させ、確率論的ノイズ除去プロセスを通じて超解像度を実行します。詳細については、arXiv サイトの「Image Super-Resolution via Iterative Refinement」をご参照ください。 SR3 U-ViT—このバックボーンモデルは、画像生成および SR3 タスク内の拡散モデル用に設計された Vision Transformer (ViT) ベースのアーキテクチャーの具体的な実装を参照しています。 ViT-B—事前構成済みの Segment Anything Model (SAM) は、基本のニューラルネットワークサイズで使用されます。これが最小のサイズです。詳細については、arXiv サイトの「Segment Anything」をご参照ください。 ViT-L—事前構成済みの Segment Anything Model (SAM) は、大きなニューラルネットワークサイズで使用されます。詳細については、arXiv サイトの「Segment Anything」をご参照ください。 ViT-H—事前構成済みの Segment Anything Model (SAM) は、非常に大きなニューラルネットワークサイズで使用されます。これが最大のサイズです。詳細については、arXiv サイトの「Segment Anything」をご参照ください。	String
事前トレーニング済みモデル (オプション)	新しいモデルの微調整に使用される事前トレーニング済みモデル。入力は、Esri モデル定義ファイル (.emd) またはディープラーニングパッケージファイル (.dlpk) です。類似したクラスを持つ事前トレーニング済みモデルは、新しいモデルに合わせて微調整することができます。事前トレーニング済みモデルは、新しいモデルのトレーニングに使用される同じモデルタイプおよびバックボーンモデルでトレーニングされている必要があります。ファインチューニングは、ArcGIS を使用してトレーニングされたモデルでのみサポートされます。	File
検証 % (オプション)	モデルの検証に使用するトレーニングサンプルの割合。デフォルト値は 10 です。	Double
モデルの改善が見込めなくなった時点で停止 (オプション)	早期停止を実施するかどうかを指定します。オン - 早期停止が実施され、指定した [最大エポック] パラメーター値にかかわらず、モデルの改善がなくなった時点でモデルのトレーニングを停止します。これがデフォルトです。オフ - 早期停止は実施されず、[最大エポック] パラメーター値に到達するまで、モデルのトレーニングが続行されます。	Boolean
モデルの固定 (オプション)	事前トレーニング済みモデルのバックボーンレイヤーを固定するかどうかを指定します。これにより、加重とバイアスが本来の設計どおりになります。オン - バックボーンレイヤーが固定され、事前定義済みの加重とバイアスを [バックボーンモデル] パラメーターで変更しません。これがデフォルトです。オフ - バックボーンレイヤーは固定されず、[バックボーンモデル] パラメーターの加重とバイアスを、トレーニングサンプルに合わせて変更できます。この処理には時間がかかりますが、通常は優れた結果が得られます。	Boolean
データ拡張 (オプション)	使用されるデータ拡張のタイプを指定します。データ拡張は、既存のデータを使用してデータセットの変更済みコピーを作成することで人為的にトレーニングセットを増やす手法です。デフォルト—デフォルトのデータ拡張手法とデフォルト値が使用されます。デフォルトのデータ拡張方法は crop、dihedral_affine、brightness、contrast、zoom です。これらのデフォルト値は通常、衛星画像に適しています。なし—データ拡張は使用されません。カスタム—データ拡張値は、[拡張パラメーター] パラメーターを使用して指定されます。これにより、crop、rotate、brightness、contrast、zoom 変換を直接制御できます。ファイル—トレーニングデータセットと検証データセットのデータ拡張のための fastai の変換は、トレーニングデータと同じフォルダーに格納されている transforms.json ファイルを使用して指定されます。さまざまな変換に関する詳細については、fastai の Web サイトの視覚変換をご参照ください。	String
拡張パラメーター (オプション)	拡張パラメーター内の各変換の値を指定します。 rotate - 画像は、確率 (p) の分だけ無作為に (角度単位で) 回転します。角度が範囲 (a,b) の場合、値は、a から b の範囲で均等に割り当てられます。デフォルト値は 30.0; 0.5 です。 brightness - 画像の明るさは、確率 (p) を適用して、変化の値に応じて無作為に調整されます。変化が 0 の場合は画像が最も暗くなり、変化が 1 の場合は画像が最も明るくなります。変化が 0.5 の場合は、明るさは調整されません。変化が範囲 (a,b) の場合、拡張によって a から b の範囲の値が均等に割り当てられます。デフォルト値は (0.4,0.6); 1.0 です。 contrast - 画像のコントラストは、確率 (p) を適用して、スケールの値に応じて無作為に調整されます。スケールが 0 の場合は画像がグレースケールになり、スケールが 1 より大きい場合は画像がスーパーコントラストになります。スケールが 1 の場合は、コントラストが調整されません。スケールが範囲 (a,b) の場合、拡張によって a から b の範囲の値が均等に割り当てられます。デフォルト値は (0.75, 1.5); 1.0 です。 zoom - 画像がスケールの値に応じて無作為にズームインされます。ズームの値は、scale(a,b); p の形式を取ります。デフォルト値は (1.0, 1.2); 1.0 で、p は確率です。スケールが 1.0 を超える場合のみ、画像のズームインが行われます。スケールが範囲 (a,b) の場合は、a から b の範囲の値が均等に割り当てられます。 crop - 画像が無作為にトリミングされます。トリミングの値は、size;p;row_pct;col_pct の形式を取り、p は確率を表します。位置は (col_pct, row_pct), によって与えられ、col_pct と row_pct は 0 ～ 1 に正規化されます。 col_pct または row_pct が範囲 (a,b) の場合は、a から b の範囲の値が均等に割り当てられます。デフォルト値は chip_size;1.0; (0, 1); (0, 1) で、224 がデフォルトのチップサイズとなります。	Value Table
チップサイズ (オプション)	モデルのトレーニングに使用される画像のサイズ。画像は、指定のチップサイズにトリミングされます。デフォルトのチップサイズは、トレーニングデータのタイルサイズと同じになります。 x タイルサイズと y タイルサイズが異なる場合は、小さい方の値がデフォルトのチップサイズとして使用されます。チップサイズは、入力フォルダー内のすべての画像の最小の x タイルサイズまたは y タイルサイズより小さくなければなりません。	Long
サイズ変更 (オプション)	画像のチップのサイズを変更します。チップのサイズを変更したら、チップサイズのピクセルブロックがトリミングされ、トレーニングに使用されます。このパラメーターは、オブジェクト検出 (PASCAL VOC)、オブジェクト分類 (ラベル付きタイル)、super-resolution データにのみ適用されます。サイズ変更の値は、多くの場合、チップサイズの半分です。サイズ変更の値がチップサイズの値より小さい場合、サイズ変更の値は、トレーニング用ピクセルブロックの作成に使用されます。	String
Weight Initialization Scheme (オプション)	レイヤーの加重を初期化するために使用されるスキーマを指定します。マルチスペクトルデータを使用してモデルをトレーニングするには、モデルが使用可能なさまざまなタイプのバンドに対応する必要があります。これは、モデルの第 1 レイヤーを再度初期化することで行われます。このパラメーターは、マルチスペクトル画像がモデルで使用される場合のみ適用されます。ランダム—非 RGB バンドでは、ランダムな重みが初期化され、RGB バンドでは、事前トレーニング済みの重みが維持されます。これがデフォルトです。 Red band—非 RGB バンドでは、事前トレーニング済みモデルのレイヤーの Red バンドに対応する重みのクローンが作成され、RGB バンドでは、事前トレーニング済みの重みが維持されます。すべてランダム—RGB バンドと非 RGB バンドで、ランダムな重みが初期化されます。このオプションは、マルチスペクトル画像にのみ適用されます。	String
監視指標 (オプション)	チェックポイントおよび早期停止中に監視する指標を指定します。検証ロス—検証ロスが監視されます。検証ロスが大きく変更されなくなると、モデルが停止します。これがデフォルトです。平均精度—各閾値の加重平均精度が監視されます。この値が大きく変更されなくなると、モデルが停止します。精度—正しい予測の数と予測の合計数の比が監視されます。この値が大きく変更されなくなると、モデルが停止します。 F1 スコア—モデルの精度スコアと再現率スコアの組み合わせが監視されます。この値が大きく変更されなくなると、モデルが停止します。 MIoU—テストデータセットのすべての画像上のセグメント化されたオブジェクトの Intersection over Union (IoU) 間の平均値が監視されます。この値が大きく変更されなくなると、モデルが停止します。フィーチャの分割 (Dice)—Dice 指標を使用して、モデルのパフォーマンスが監視されます。この値が大きく変更されなくなると、モデルが停止します。この値の範囲は 0 〜 1 です。値 1 は、検証データとトレーニングデータ間でピクセルが完全一致していることを示します。精度—サンプルを分類する際のモデルの正確性を示す正の値である精度が監視されます。この値が大きく変更されなくなると、モデルが停止します。精度は、正確に分類された正のサンプルの数と (正確か不正確かを問わず) 分類されたサンプルの総数の比です。再現率—モデルが正のサンプルを検出できる能力の指標である再現率が監視されます。この値が大きく変更されなくなると、モデルが停止します。再現率が高いほど、正のサンプルがより多く検出されます。再現率の値は、正確に分類された正のサンプルの数と正のサンプルの合計数の比です。 Corpus BLEU—Corpus BLEU スコアが監視されます。この値が大きく変更されなくなると、モデルが停止します。このスコアは、段落やドキュメントなどの複数の文の正確性を計算するために使用されます。マルチラベル F-beta—加重調和平均精度と加重調和平均再現率が監視されます。この値が大きく変更されなくなると、モデルが停止します。これは、多くの場合、F-beta スコアと呼ばれます。	String
Tensorboard の有効化 (オプション)	ツールのトレーニング中に Tensorboard 指標を有効にするかどうかを指定します。 Tensorboard には、ツールメッセージ内の URL を使用してアクセスできます。このパラメーターは、CycleGAN、DeepLab、Faster RCNN、Feature Classifier、Image Captioner、Mask RCNN、Multi-Task Road Extractor、Pix2Pix、PSPNet Classifier、RetinaNet、Single-Shot Detector、SuperResolution、U-Net Classifier のモデルのみでサポートされています。オフ - Tensorboard 指標は有効になりません。これがデフォルトです。オン - Tensorboard 指標が有効になります。	Boolean

派生した出力

ラベル	説明	データタイプ
出力モデル	出力トレーニング済みモデルファイル	File

TrainDeepLearningModel(in_folder, out_folder, {max_epochs}, {model_type}, {batch_size}, {arguments}, {learning_rate}, {backbone_model}, {pretrained_model}, {validation_percentage}, {stop_training}, {freeze}, {augmentation}, {augmentation_parameters}, {chip_size}, {resize_to}, {weight_init_scheme}, {monitor}, {tensorboard})

名前	説明	データタイプ
in_folder [in_folder,...]	モデルのトレーニングに必要な画像チップ、ラベル、統計情報を含むフォルダー。 [ディープラーニング用のトレーニングデータをエクスポート (Export Training Data For Deep Learning)] ツールからの出力です。次の条件を満たしている場合は複数の入力フォルダーがサポートされます。メタデータの形式タイプは、分類済みタイル、ラベル付きタイル、複数ラベル付きタイル、Pascal Visual Object Classes、または RCNN マスクである必要があります。すべてのトレーニングデータのメタデータ形式が同じになっている必要があります。すべてのトレーニングデータでバンドの数が同じになっている必要があります。	Folder
out_folder	トレーニング済みモデルが格納される出力フォルダーの場所。	Folder
max_epochs (オプション)	モデルをトレーニングする場合の対象となるエポックの最大数。最大エポックを 1 に設定すると、データセットがニューラルネットワークを通って前後に 1 回渡されます。デフォルト値は 20 です。	Long
model_type (オプション)	ディープラーニングモデルのトレーニングに使用されるモデルタイプを指定します。 3DRCNET—3D-RCNet (3D Relational Convolutional Neural Network) アーキテクチャーがモデルのトレーニングに使用されます。これは ConvNet および ViT の強みを継承し、結果として高いパフォーマンスのハイパースペクトル画像分類を実現します。 BDCN_EDGEDETECTOR—BDCN (Bi-Directional Cascade Network) アーキテクチャーがモデルのトレーニングに使用されます。 BDCN Edge Detector の使用目的はピクセル分類です。この手法は、さまざまな縮尺でオブジェクトのエッジ検出を改善するのに便利です。 CHANGEDETECTOR—変化検出器アーキテクチャーがモデルのトレーニングに使用されます。変化検出器の使用目的はピクセル分類です。この手法は、2 つの空間的、時間的な画像を使用して変化の分類ラスターを作成するモデルオブジェクトを作成します。このモデルタイプの入力トレーニングデータは、Classified Tiles メタデータ形式を使用します。 CLIMAX—ClimaX アーキテクチャーがモデルのトレーニングに使用されます。 ClimaX の使用目的はピクセル分類です。この手法は主に天気と気候の解析に使用されます。このモデルタイプで使用される事前データは多次元データです。 CONNECTNET—ConnectNet アーキテクチャーがモデルのトレーニングに使用されます。 ConnectNet の使用目的はピクセル分類です。この手法は、衛星画像から道路網を抽出するのに便利です。 CYCLEGAN—CycleGAN アーキテクチャーがモデルのトレーニングに使用されます。 CycleGAN は画像間変換に使用されます。この手法は、あるタイプの画像から別のタイプの画像を生成するモデルオブジェクトを作成します。この手法は、トレーニングする画像が重なっている必要がない点で独特です。このモデルタイプの入力トレーニングデータは、CycleGAN メタデータ形式を使用します。 DEEPLAB—DeepLabV3 アーキテクチャーがモデルのトレーニングに使用されます。 DeepLab の使用目的はピクセル分類です。 DEEPSORT—Deep Sort アーキテクチャーがモデルのトレーニングに使用されます。動画のオブジェクト検出には Deep Sort が使用されます。動画のフレームを使用してモデルのトレーニングが行われ、各フレームのオブジェクトのクラスと境界四角形が検出されます。このモデルタイプの入力トレーニングデータは、Imagenet メタデータ形式を使用します。 Siam Mask はオブジェクトを追跡するときに便利です。一方、Deep Sort は複数のオブジェクトを追跡するモデルをトレーニングするのに便利です。 DETREG—DETReg アーキテクチャーがモデルのトレーニングに使用されます。 DETReg はオブジェクト検出に使用されます。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes を使用します。このモデルタイプは GPU の負荷が高くなります。正しく動作させるには、専用 GPU と 16 GB 以上のメモリーが必要です。 FASTERRCNN—FasterRCNN アーキテクチャーがモデルのトレーニングに使用されます。 FasterRCNN の使用目的はオブジェクト検出です。 FEATURE_CLASSIFIER—フィーチャ分類器アーキテクチャーがモデルのトレーニングに使用されます。フィーチャ分類器がオブジェクトまたは画像の分類に使用されます。 HED_EDGEDETECTOR—HED (Holistically-Nested Edge Detection) アーキテクチャーがモデルのトレーニングに使用されます。 HED Edge Detector の使用目的はピクセル分類です。この手法は、エッジとオブジェクト境界の検出に便利です。 IMAGECAPTIONER—画像キャプショナーアーキテクチャーがモデルのトレーニングに使用されます。画像キャプショナーの使用目的は画像からテキストへの変換です。この手法は、ある画像のテキストキャプションを生成するモデルを作成します。 MASKRCNN—MaskRCNN アーキテクチャーがモデルのトレーニングに使用されます。 MaskRCNN の使用目的はオブジェクト検出です。この手法は、インスタンスセグメンテーション (つまり、画像内のオブジェクトの正確な描写) に使用できます。このモデルタイプを使用して、建物フットプリントを検出することができます。トレーニングデータを入力データにする場合は、MaskRCNN メタ形式を使用します。入力トレーニングデータのクラス値は、1 で始める必要があります。このモデルタイプは、CUDA 対応 GPU を使用する場合にのみトレーニングできます。 MAXDEEPLAB—MaX-DeepLab アーキテクチャーがモデルのトレーニングに使用されます。 MaX-DeepLab はパノプティックセグメンテーションで使用されます。この手法は、画像とフィーチャを生成するモデルオブジェクトを作成します。このモデルタイプの入力トレーニングデータではパノプティックセグメンテーションメタデータ形式を使用します。 MMDETECTION—MMDetection アーキテクチャーがモデルのトレーニングに使用されます。 MMDetection がオブジェクト検出に使用されます。サポートされているメタデータ形式は Pascal Visual Object Class と KITTI の四角形です。 MMSEGMENTATION—MMSegmentation アーキテクチャーがモデルのトレーニングに使用されます。 MMSegmentation の使用目的はピクセル分類です。サポートされているメタデータ形式は分類済みタイルです。 MULTITASK_ROADEXTRACTOR—Multi Task Road Extractor アーキテクチャーがモデルのトレーニングに使用されます。 Multi Task Road Extractor の使用目的はピクセル分類です。この手法は、衛星画像から道路網を抽出するのに便利です。 PIX2PIX—Pix2Pix アーキテクチャーがモデルのトレーニングに使用されます。 Pix2Pix は、画像間変換に使用されます。この手法は、あるタイプの画像から別のタイプの画像を生成するモデルオブジェクトを作成します。このモデルタイプの入力トレーニングデータは、Export Tiles メタデータ形式を使用します。 PIX2PIXHD—Pix2PixHD アーキテクチャーがモデルのトレーニングに使用されます。 Pix2PixHD が画像間変換に使用されます。この手法は、あるタイプの画像から別のタイプの画像を生成するモデルオブジェクトを作成します。このモデルタイプの入力トレーニングデータは、Export Tiles メタデータ形式を使用します。 PSETAE—Pixel-Set Encoders and Temporal Self-Attentionn (PSETAE) アーキテクチャーが時系列分類用モデルのトレーニングに使用されます。 PSETAE の使用目的はピクセル分類です。このモデルタイプで使用される事前データは多次元データです。 PSPNET—ピラミッド型解析ネットワーク (PSPNET) アーキテクチャーがモデルのトレーニングに使用されます。 PSPNET の使用目的はピクセル分類です。 RETINANET—RetinaNet アーキテクチャーがモデルのトレーニングに使用されます。 RetinaNet の使用目的はオブジェクト検出です。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes メタデータ形式を使用します。 RTDETRV2—改善された Real-Time DEtection TRansformer (RTDetrV2) アーキテクチャーがモデルのトレーニングに使用されます。 RTDetrV2 は、前のリアルタイム検出器の RT-DETR を基に構築されています。 RTDetrV2 の使用目的はオブジェクト検出です。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes および KITTI の四角形メタデータ形式を使用します。 SAMLORA—Low Rank Adaption (LoRA) による Segment Anything Model (SAM) は、モデルのトレーニングに使用されます。このモデルタイプは、SAM を基礎モデルとして使用し、比較的低い演算要件と小さなデータセットの特定のタスクに合わせて微調整します。 SIAMMASK—Siam Mask アーキテクチャーがモデルのトレーニングに使用されます。動画のオブジェクト検出には Siam Mask が使用されます。動画のフレームを使用してモデルのトレーニングが行われ、各フレームのオブジェクトのクラスと境界四角形が検出されます。このモデルタイプの入力トレーニングデータでは MaskRCNN メタデータ形式を使用します。 SSD—シングルショット検出器 (SSD) アーキテクチャーがモデルのトレーニングに使用されます。 SSD の使用目的はオブジェクト検出です。このモデルタイプの入力トレーニングデータは、Pascal Visual Object Classes メタデータ形式を使用します。 SUPERRESOLUTION—超解像アーキテクチャーがモデルのトレーニングに使用されます。超解像は画像間変換に使用されます。この手法は、解像度を上げて画像の品質を高めるモデルオブジェクトを作成します。このモデルタイプの入力トレーニングデータは、Export Tiles メタデータ形式を使用します。 UNET—U-Net アーキテクチャーがモデルのトレーニングに使用されます。 U-Net の使用目的はピクセル分類です。 YOLOV3—YOLOv3 アーキテクチャーがモデルのトレーニングに使用されます。 YOLOv3 の使用目的はオブジェクト検出です。	String
batch_size (オプション)	1 回のトレーニングで処理されるトレーニングサンプルの数。バッチサイズを大きくすると、ツールのパフォーマンスが向上しますが、バッチサイズが増加するにつれて、使用されるメモリー量が増加します。設定されたバッチサイズに対して GPU メモリーが足りない場合、ツールが最適なバッチサイズを計算して使用するよう試みます。メモリー不足エラーが発生した場合は、より小さなバッチサイズを使用してください。	Long
arguments [arguments,...] (オプション)	model_type パラメーターの情報は、このパラメーターのデフォルト値を設定するために使用されます。これらの引数はモデルアーキテクチャーによって異なります。 ArcGIS 事前トレーニング済みモデルとカスタムディープラーニングモデルでは、このツールでサポートされている追加の引数を利用できることがあります。各モデルタイプで利用可能な引数の詳細については、「ディープラーニングの引数」をご参照ください。	Value Table
learning_rate (オプション)	トレーニング処理全体で、既存の情報を新たに取得した情報に上書きする割合。値を指定しないと、トレーニングプロセス中に最適な学習率が学習曲線から抽出されます。	Double
backbone_model (オプション)	新しいモデルをトレーニングするアーキテクチャーとして使用する、事前構成済みのニューラルネットワークを指定します。この方法は「転移学習」と呼ばれます。 1.40625deg—このバックボーンは、各グリッドセルが 1.40625 度 x 1.40625 度のエリアをカバーする解像度の画像でトレーニングされました。これは天気と気候の予測に使用されます。これは解像度が高く設定されているため、出力の精度は高くなりますが、より多くの処理能力を必要とします。 5.625deg—このバックボーンは、各グリッドセルが 5.625 度 x 5.625 度のエリアをカバーする解像度の画像でトレーニングされました。これは天気と気候の予測に使用されます。これは低解像度設定となりますが、必要な処理能力は少なくなります。 DENSENET121—構成済みモデルは、100 万を超える画像が含まれており、深さが 121 個のレイヤーである Imagenet データセット上でトレーニングされた高密度のネットワークになります。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 DENSENET161—構成済みモデルは、100 万を超える画像が含まれており、深さが 161 個のレイヤーである Imagenet データセット上でトレーニングされた高密度のネットワークになります。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 DENSENET169—構成済みモデルは、100 万を超える画像が含まれており、深さが 169 個のレイヤーである Imagenet データセット上でトレーニングされた高密度のネットワークになります。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 DENSENET201—構成済みモデルは、100 万を超える画像が含まれており、深さが 201 個のレイヤーである Imagenet データセット上でトレーニングされた高密度のネットワークになります。加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。 MOBILENET_V2—事前構成済みモデルは、Imagenet データベースでトレーニングされます。深さは 54 層で、メモリーの使用量が少ないのでエッジデバイスコンピューティングに適しています。 RESNET18—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、18 層の深さがあります。 RESNET34—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、34 層の深さがあります。これがデフォルトです。 RESNET50—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、50 層の深さがあります。 RESNET101—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、101 層の深さがあります。 RESNET152—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、152 層の深さがあります。 VGG11—事前構成済みのモデルは、Imagenet データセットでトレーニングされるたたみ込みニューラルネットワークです。このネットワークには 100 万以上の画像が含まれ、画像を 1,000 のオブジェクトカテゴリーに分類し、11 層の深さがあります。 VGG11_BN—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセットでトレーニングされ、11 層の深さがあります。 VGG13—事前構成済みのモデルは、Imagenet データセットでトレーニングされるたたみ込みニューラルネットワークです。このネットワークには 100 万以上の画像が含まれ、画像を 1,000 のオブジェクトカテゴリーに分類し、13 層の深さがあります。 VGG13_BN—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセットでトレーニングされ、13 層の深さがあります。 VGG16—事前構成済みのモデルは、Imagenet データセットでトレーニングされるたたみ込みニューラルネットワークです。このネットワークには 100 万以上の画像が含まれ、画像を 1,000 のオブジェクトカテゴリーに分類し、16 層の深さがあります。 VGG16_BN—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセットでトレーニングされ、16 層の深さがあります。 VGG19—事前構成済みのモデルは、Imagenet データセットでトレーニングされるたたみ込みニューラルネットワークです。このネットワークには 100 万以上の画像が含まれ、画像を 1,000 のオブジェクトカテゴリーに分類し、19 層の深さがあります。 VGG19_BN—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセットでトレーニングされ、19 層の深さがあります。 DARKNET53—構成済みモデルは、100 万を超える画像が含まれており、深さが 53 個のレイヤーである Imagenet データセット上でトレーニングされた畳み込みニューラルネットワークになります。 REID_V1—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、オブジェクトの追跡に使用されます。 REID_V2—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、オブジェクトの追跡に使用されます。 RESNEXT50—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、深さは 50 層です。これは同質のニューラルネットワークであり、従来の ResNet により求められるハイパーパラメーターの数が削減されます。 WIDE_RESNET50—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラルネットワークであり、深さは 50 層です。アーキテクチャーは ResNet と同じですが、より多くのチャネルがあります。 SR3—事前構成済みモデルは、Super Resolution via Repeated Refinement (SR3) モデルを使用します。 SR3 は、ノイズ除去拡散確率論的モデルを条件付き画像生成に適応させ、確率論的ノイズ除去プロセスを通じて超解像度を実行します。詳細については、arXiv サイトの「Image Super-Resolution via Iterative Refinement」をご参照ください。 SR3_UVIT—このバックボーンモデルは、画像生成および SR3 タスク内の拡散モデル用に設計された Vision Transformer (ViT) ベースのアーキテクチャーの具体的な実装を参照しています。 VIT_B—事前構成済みの Segment Anything Model (SAM) は、基本のニューラルネットワークサイズで使用されます。これが最小のサイズです。詳細については、arXiv サイトの「Segment Anything」をご参照ください。 VIT_L—事前構成済みの Segment Anything Model (SAM) は、大きなニューラルネットワークサイズで使用されます。詳細については、arXiv サイトの「Segment Anything」をご参照ください。 VIT_H—事前構成済みの Segment Anything Model (SAM) は、非常に大きなニューラルネットワークサイズで使用されます。これが最大のサイズです。詳細については、arXiv サイトの「Segment Anything」をご参照ください。また、たとえば timm:resnet31、timm:inception_v4、timm:efficientnet_b3 などのように timm を接頭辞として使用することで、PyTorch Image Models (timm) でサポートされている畳み込みニューラルネットワークを指定できます。	String
pretrained_model (オプション)	新しいモデルの微調整に使用される事前トレーニング済みモデル。入力は、Esri モデル定義ファイル (.emd) またはディープラーニングパッケージファイル (.dlpk) です。類似したクラスを持つ事前トレーニング済みモデルは、新しいモデルに合わせて微調整することができます。事前トレーニング済みモデルは、新しいモデルのトレーニングに使用される同じモデルタイプおよびバックボーンモデルでトレーニングされている必要があります。ファインチューニングは、ArcGIS を使用してトレーニングされたモデルでのみサポートされます。	File
validation_percentage (オプション)	モデルの検証に使用するトレーニングサンプルの割合。デフォルト値は 10 です。	Double
stop_training (オプション)	早期停止を実施するかどうかを指定します。 STOP_TRAINING—早期停止が実施され、指定した max_epochs パラメーター値にかかわらず、モデルの改善がなくなった時点でモデルのトレーニングを停止します。これがデフォルトです。 CONTINUE_TRAINING—早期停止は実施されず、max_epochs パラメーター値に到達するまで、モデルのトレーニングが続行されます。	Boolean
freeze (オプション)	事前トレーニング済みモデルのバックボーンレイヤーを固定するかどうかを指定します。これにより、加重とバイアスが本来の設計どおりになります。 FREEZE_MODEL—バックボーンレイヤーが固定され、事前定義済みの加重とバイアスを backbone_model パラメーターで変更しません。これがデフォルトです。 UNFREEZE_MODEL—バックボーンレイヤーは固定されず、backbone_model パラメーターの加重とバイアスを、トレーニングサンプルに合わせて変更できます。この処理には時間がかかりますが、通常は優れた結果が得られます。	Boolean
augmentation (オプション)	使用されるデータ拡張のタイプを指定します。データ拡張は、既存のデータを使用してデータセットの変更済みコピーを作成することで人為的にトレーニングセットを増やす手法です。 DEFAULT—デフォルトのデータ拡張手法とデフォルト値が使用されます。デフォルトのデータ拡張方法は crop、dihedral_affine、brightness、contrast、zoom です。これらのデフォルト値は通常、衛星画像に適しています。 NONE—データ拡張は使用されません。 CUSTOM—データ拡張値は、augmentation_parameters パラメーターを使用して指定されます。これにより、crop、rotate、brightness、contrast、zoom 変換を直接制御できます。 FILE—トレーニングデータセットと検証データセットのデータ拡張のための fastai の変換は、トレーニングデータと同じフォルダーに格納されている transforms.json ファイルを使用して指定されます。さまざまな変換に関する詳細については、fastai の Web サイトの視覚変換をご参照ください。	String
augmentation_parameters [augmentation_parameters,...] (オプション)	拡張パラメーター内の各変換の値を指定します。 rotate - 画像は、確率 (p) の分だけ無作為に (角度単位で) 回転します。角度が範囲 (a,b) の場合、値は、a から b の範囲で均等に割り当てられます。デフォルト値は 30.0; 0.5 です。 brightness - 画像の明るさは、確率 (p) を適用して、変化の値に応じて無作為に調整されます。変化が 0 の場合は画像が最も暗くなり、変化が 1 の場合は画像が最も明るくなります。変化が 0.5 の場合は、明るさは調整されません。変化が範囲 (a,b) の場合、拡張によって a から b の範囲の値が均等に割り当てられます。デフォルト値は (0.4,0.6); 1.0 です。 contrast - 画像のコントラストは、確率 (p) を適用して、スケールの値に応じて無作為に調整されます。スケールが 0 の場合は画像がグレースケールになり、スケールが 1 より大きい場合は画像がスーパーコントラストになります。スケールが 1 の場合は、コントラストが調整されません。スケールが範囲 (a,b) の場合、拡張によって a から b の範囲の値が均等に割り当てられます。デフォルト値は (0.75, 1.5); 1.0 です。 zoom - 画像がスケールの値に応じて無作為にズームインされます。ズームの値は、scale(a,b); p の形式を取ります。デフォルト値は (1.0, 1.2); 1.0 で、p は確率です。スケールが 1.0 を超える場合のみ、画像のズームインが行われます。スケールが範囲 (a,b) の場合は、a から b の範囲の値が均等に割り当てられます。 crop - 画像が無作為にトリミングされます。トリミングの値は、size;p;row_pct;col_pct の形式を取り、p は確率を表します。位置は (col_pct, row_pct), によって与えられ、col_pct と row_pct は 0 ～ 1 に正規化されます。 col_pct または row_pct が範囲 (a,b) の場合は、a から b の範囲の値が均等に割り当てられます。デフォルト値は chip_size;1.0; (0, 1); (0, 1) で、224 がデフォルトのチップサイズとなります。	Value Table
chip_size (オプション)	モデルのトレーニングに使用される画像のサイズ。画像は、指定のチップサイズにトリミングされます。デフォルトのチップサイズは、トレーニングデータのタイルサイズと同じになります。 x タイルサイズと y タイルサイズが異なる場合は、小さい方の値がデフォルトのチップサイズとして使用されます。チップサイズは、入力フォルダー内のすべての画像の最小の x タイルサイズまたは y タイルサイズより小さくなければなりません。	Long
resize_to (オプション)	画像のチップのサイズを変更します。チップのサイズを変更したら、チップサイズのピクセルブロックがトリミングされ、トレーニングに使用されます。このパラメーターは、オブジェクト検出 (PASCAL VOC)、オブジェクト分類 (ラベル付きタイル)、super-resolution データにのみ適用されます。サイズ変更の値は、多くの場合、チップサイズの半分です。サイズ変更の値がチップサイズの値より小さい場合、サイズ変更の値は、トレーニング用ピクセルブロックの作成に使用されます。	String
weight_init_scheme (オプション)	レイヤーの加重を初期化するために使用されるスキーマを指定します。マルチスペクトルデータを使用してモデルをトレーニングするには、モデルが使用可能なさまざまなタイプのバンドに対応する必要があります。これは、モデルの第 1 レイヤーを再度初期化することで行われます。 RANDOM—非 RGB バンドでは、ランダムな重みが初期化され、RGB バンドでは、事前トレーニング済みの重みが維持されます。これがデフォルトです。 RED_BAND—非 RGB バンドでは、事前トレーニング済みモデルのレイヤーの Red バンドに対応する重みのクローンが作成され、RGB バンドでは、事前トレーニング済みの重みが維持されます。 ALL_RANDOM—RGB バンドと非 RGB バンドで、ランダムな重みが初期化されます。このオプションは、マルチスペクトル画像にのみ適用されます。このパラメーターは、マルチスペクトル画像がモデルで使用される場合のみ適用されます。	String
monitor (オプション)	チェックポイントおよび早期停止中に監視する指標を指定します。 VALID_LOSS—検証ロスが監視されます。検証ロスが大きく変更されなくなると、モデルが停止します。これがデフォルトです。 AVERAGE_PRECISION—各閾値の加重平均精度が監視されます。この値が大きく変更されなくなると、モデルが停止します。 ACCURACY—正しい予測の数と予測の合計数の比が監視されます。この値が大きく変更されなくなると、モデルが停止します。 F1_SCORE—モデルの精度スコアと再現率スコアの組み合わせが監視されます。この値が大きく変更されなくなると、モデルが停止します。 MIOU—テストデータセットのすべての画像上のセグメント化されたオブジェクトの Intersection over Union (IoU) 間の平均値が監視されます。この値が大きく変更されなくなると、モデルが停止します。 DICE—Dice 指標を使用して、モデルのパフォーマンスが監視されます。この値が大きく変更されなくなると、モデルが停止します。この値の範囲は 0 〜 1 です。値 1 は、検証データとトレーニングデータ間でピクセルが完全一致していることを示します。 PRECISION—サンプルを分類する際のモデルの正確性を示す正の値である精度が監視されます。この値が大きく変更されなくなると、モデルが停止します。精度は、正確に分類された正のサンプルの数と (正確か不正確かを問わず) 分類されたサンプルの総数の比です。 RECALL—モデルが正のサンプルを検出できる能力の指標である再現率が監視されます。この値が大きく変更されなくなると、モデルが停止します。再現率が高いほど、正のサンプルがより多く検出されます。再現率の値は、正確に分類された正のサンプルの数と正のサンプルの合計数の比です。 CORPUS_BLEU—Corpus BLEU スコアが監視されます。この値が大きく変更されなくなると、モデルが停止します。このスコアは、段落やドキュメントなどの複数の文の正確性を計算するために使用されます。 MULTI_LABEL_FBETA—加重調和平均精度と加重調和平均再現率が監視されます。この値が大きく変更されなくなると、モデルが停止します。これは、多くの場合、F-beta スコアと呼ばれます。	String
tensorboard (オプション)	ツールのトレーニング中に Tensorboard 指標を有効にするかどうかを指定します。 Tensorboard には、ツールメッセージ内の URL を使用してアクセスできます。このパラメーターは、CycleGAN、DeepLab、Faster RCNN、Feature Classifier、Image Captioner、Mask RCNN、Multi-Task Road Extractor、Pix2Pix、PSPNet Classifier、RetinaNet、Single-Shot Detector、SuperResolution、U-Net Classifier のモデルのみでサポートされています。 DISABLE_TENSORBOARD—Tensorboard 指標は有効になりません。これがデフォルトです。 ENABLE_TENSORBOARD—Tensorboard 指標が有効になります。	Boolean

派生した出力

名前	説明	データタイプ
out_model_file	出力トレーニング済みモデルファイル	File

コードのサンプル

TrainDeepLearningModel の例 1 (Python ウィンドウ)

この例では、事前トレーニング済みモデルを使用した転移学習を使用しました。

import arcpy
arcpy.env.workspace = r"C:\Data\DL.gdb"

arcpy.ia.TrainDeepLearningModel("Labeled_RoadImageChips",
    "TransferLearning_UnsurfacedRoads", 500, "", 2, None, None, "", 
    r"C:\data\PreTrainedModels\RoadsExtraction_NorthAmerica.dlpk", 
    10, "STOP_TRAINING", "UNFREEZE_MODEL", "DEFAULT", None, 224, "", 
    "", "VALID_LOSS")

TrainDeepLearningModel の例 2 (スタンドアロンスクリプト)

この例では、SSD 手法を使用してオブジェクト検出モデルをトレーニングします。

# Import system modules and check out ArcGIS Image Analyst extension license
import arcpy
arcpy.CheckOutExtension("ImageAnalyst")
from arcpy.ia import *
 
# Set local variables
in_folder=r"C:\DL_models\training\Trees"
out_folder=r"C:\DL_models\model\Trees_DL1"
max_epochs=20
model_type="SSD"
batch_size=8
arguments="grids #;zooms 1.0;ratios '[1.0, 1.0]';drop 0.3;bias -0.4;focal_loss False;location_loss_factor #;backend pytorch"
learning_rate=None
backbone_model="VGG19"
pretrained_model=None
validation_percent=10
stop_training="STOP_TRAINING"
freeze="FREEZE_MODEL"
augmentation="DEFAULT"
augmentation_parameters=None
chip_size=224
resize_to=""
weight_init_scheme=""
monitor="VALID_LOSS"
tensorboard="ENABLE_TENSORBOARD"


# Execute
arcpy.ia.TrainDeepLearningModel(in_folder, out_folder, max_epochs, 
    model_type, batch_size, arguments, learning_rate, backbone_model, 
    pretrained_model, validation_percent, stop_training, freeze, 
    augmentation, augmentation_parameters, chip_size, resize_to, 
    weight_init_scheme, monitor, tensorboard)

環境

現在のワークスペース, プロセッサタイプ, GPU ID, テンポラリワークスペース

ライセンス情報

Basic: 次のものが必要 Image Analyst
Standard: 次のものが必要 Image Analyst
Advanced: 次のものが必要 Image Analyst

サマリー

使用法

パラメーター

派生した出力

派生した出力

コードのサンプル

環境

ライセンス情報

関連トピック

このトピックの内容