in_folder [in_folder,...] | モデルのトレーニングに必要な画像チップ、ラベル、統計情報を含むフォルダー。 [ディープ ラーニング用のトレーニング データをエクスポート (Export Training Data For Deep Learning)] ツールからの出力です。 次の条件を満たしている場合は複数の入力フォルダーがサポートされます。 - メタデータの形式タイプは、分類済みタイル、ラベル付きタイル、複数ラベル付きタイル、Pascal Visual Object Classes、または RCNN マスクである必要があります。
- すべてのトレーニング データのメタデータ形式が同じになっている必要があります。
- すべてのトレーニング データでバンドの数が同じになっている必要があります。
- すべてのトレーニング データでタイル サイズが同じになっている必要があります。
| Folder |
out_folder | トレーニング済みモデルが格納される出力フォルダーの場所。 | Folder |
max_epochs (オプション) | モデルをトレーニングする場合の対象となるエポックの最大数。 最大エポックを 1 に設定すると、データセットがニューラル ネットワークを通って前後に 1 回渡されます。 デフォルト値は 20 です。
| Long |
model_type (オプション) | ディープ ラーニング モデルのトレーニングに使用されるモデル タイプを指定します。 - SSD—シングル ショット検出器 (SSD) アーキテクチャがモデルのトレーニングに使用されます。 SSD の使用目的はオブジェクト検出です。 このモデル タイプの入力トレーニング データは、Pascal Visual Object Classes メタデータ形式を使用します。
- UNET—U-Net アーキテクチャがモデルのトレーニングに使用されます。 U-Net の使用目的はピクセル分類です。
- FEATURE_CLASSIFIER—フィーチャ分類器アーキテクチャがモデルのトレーニングに使用されます。 フィーチャ分類器がオブジェクトまたは画像の分類に使用されます。
- PSPNET—ピラミッド型解析ネットワーク (PSPNET) アーキテクチャがモデルのトレーニングに使用されます。 PSPNET の使用目的はピクセル分類です。
- RETINANET—RetinaNet アーキテクチャがモデルのトレーニングに使用されます。 RetinaNet の使用目的はオブジェクト検出です。 このモデル タイプの入力トレーニング データは、Pascal Visual Object Classes メタデータ形式を使用します。
- MASKRCNN—MaskRCNN アーキテクチャがモデルのトレーニングに使用されます。 MaskRCNN の使用目的はオブジェクト検出です。 この手法は、インスタンス セグメンテーション (つまり、画像内のオブジェクトの正確な描写) に使用できます。 このモデル タイプを使用して、建物フットプリントを検出することができます。 トレーニング データを入力データにする場合は、MaskRCNN メタ形式を使用します。 入力トレーニング データのクラス値は、1 で始める必要があります。 このモデル タイプは、CUDA 対応 GPU を使用する場合にのみトレーニングできます。
- YOLOV3—YOLOv3 アーキテクチャがモデルのトレーニングに使用されます。 YOLOv3 の使用目的はオブジェクト検出です。
- DEEPLAB—DeepLabV3 アーキテクチャがモデルのトレーニングに使用されます。 DeepLab の使用目的はピクセル分類です。
- FASTERRCNN—FasterRCNN アーキテクチャがモデルのトレーニングに使用されます。 FasterRCNN の使用目的はオブジェクト検出です。
- BDCN_EDGEDETECTOR—BDCN (Bi-Directional Cascade Network) アーキテクチャがモデルのトレーニングに使用されます。 BDCN Edge Detector の使用目的はピクセル分類です。 この手法は、さまざまな縮尺でオブジェクトのエッジ検出を改善するのに便利です。
- HED_EDGEDETECTOR—HED (Holistically-Nested Edge Detection) アーキテクチャがモデルのトレーニングに使用されます。 HED Edge Detector の使用目的はピクセル分類です。 この手法は、エッジおよびオブジェクト境界検出に便利です。
- MULTITASK_ROADEXTRACTOR—Multi Task Road Extractor アーキテクチャがモデルのトレーニングに使用されます。 Multi Task Road Extractor の使用目的はピクセル分類です。 この手法は、衛星画像から道路網を抽出するのに便利です。
- CONNECTNET—ConnectNet アーキテクチャがモデルのトレーニングに使用されます。 ConnectNet の使用目的はピクセル分類です。 この手法は、衛星画像から道路網を抽出するのに便利です。
- PIX2PIX—Pix2Pix アーキテクチャがモデルのトレーニングに使用されます。 Pix2Pix は、画像間変換に使用されます。 この手法は、あるタイプの画像から別のタイプの画像を生成するモデル オブジェクトを作成します。 このモデル タイプの入力トレーニング データは、Export Tiles メタデータ形式を使用します。
- CYCLEGAN—CycleGAN アーキテクチャがモデルのトレーニングに使用されます。 CycleGAN は画像間変換に使用されます。 この手法は、あるタイプの画像から別のタイプの画像を生成するモデル オブジェクトを作成します。 この手法は、トレーニングする画像が重なっている必要がない点で独特です。 このモデル タイプの入力トレーニング データは、CycleGAN メタデータ形式を使用します。
- SUPERRESOLUTION—超解像アーキテクチャがモデルのトレーニングに使用されます。 超解像は画像間変換に使用されます。 この手法は、解像度を上げて画像の品質を高めるモデル オブジェクトを作成します。 このモデル タイプの入力トレーニング データは、Export Tiles メタデータ形式を使用します。
- CHANGEDETECTOR—変化検出器アーキテクチャがモデルのトレーニングに使用されます。 変化検出器の使用目的はピクセル分類です。 この手法は、2 つの空間的、時間的な画像を使用して変化の分類ラスターを作成するモデル オブジェクトを作成します。 このモデル タイプの入力トレーニング データは、Classified Tiles メタデータ形式を使用します。
- IMAGECAPTIONER—画像キャプショナー アーキテクチャがモデルのトレーニングに使用されます。 画像キャプショナーの使用目的は画像からテキストへの変換です。 この手法は、ある画像のテキスト キャプションを生成するモデルを作成します。
- SIAMMASK—Siam Mask アーキテクチャがモデルのトレーニングに使用されます。 動画のオブジェクト検出には Siam Mask が使用されます。 動画のフレームを使用してモデルのトレーニングが行われ、各フレームのオブジェクトのクラスと境界四角形が検出されます。 このモデル タイプの入力トレーニング データでは MaskRCNN メタデータ形式を使用します。
- MMDETECTION—MMDetection アーキテクチャがモデルのトレーニングに使用されます。 MMDetection がオブジェクト検出に使用されます。 サポートされているメタデータ形式は Pascal Visual Object Class と KITTI の四角形です。
- MMSEGMENTATION—MMSegmentation アーキテクチャがモデルのトレーニングに使用されます。 MMSegmentation の使用目的はピクセル分類です。 サポートされているメタデータ形式は分類済みタイルです。
- DEEPSORT—Deep Sort アーキテクチャがモデルのトレーニングに使用されます。 動画のオブジェクト検出には Deep Sort が使用されます。 動画のフレームを使用してモデルのトレーニングが行われ、各フレームのオブジェクトのクラスと境界四角形が検出されます。 このモデル タイプの入力トレーニング データは、Imagenet メタデータ形式を使用します。 Siam Mask はオブジェクトを追跡するときに便利です。一方、Deep Sort は複数のオブジェクトを追跡するモデルをトレーニングするのに便利です。
- PIX2PIXHD—Pix2PixHD アーキテクチャがモデルのトレーニングに使用されます。 Pix2PixHD が画像間変換に使用されます。 この手法は、あるタイプの画像から別のタイプの画像を生成するモデル オブジェクトを作成します。 このモデル タイプの入力トレーニング データは、Export Tiles メタデータ形式を使用します。
- MAXDEEPLAB—MaX-DeepLab アーキテクチャがモデルのトレーニングに使用されます。 MaX-DeepLab はパノプティック セグメンテーションで使用されます。 この手法は、画像とフィーチャを生成するモデル オブジェクトを作成します。 このモデル タイプの入力トレーニング データではパノプティック セグメンテーション メタデータ形式を使用します。
- DETREG—DETReg アーキテクチャがモデルのトレーニングに使用されます。 DETReg はオブジェクト検出に使用されます。 このモデル タイプの入力トレーニング データは、Pascal Visual Object Classes を使用します。 このモデル タイプは GPU の負荷が高くなります。正しく動作させるには、専用 GPU と 16 GB 以上のメモリが必要です。
- PSETAE—Pixel-Set Encoders and Temporal Self-Attentionn (PSETAE) アーキテクチャが時系列分類用モデルのトレーニングに使用されます。 PSETAE の使用目的はピクセル分類です。 この手法で使用される事前データは多次元データです。
| String |
batch_size (オプション) | 1 回のトレーニングで処理されるトレーニング サンプルの数。 バッチ サイズを大きくすると、ツールのパフォーマンスが向上しますが、バッチ サイズが増加するにつれて、使用されるメモリ量が増加します。 設定されたバッチ サイズに対して GPU メモリが足りない場合、ツールが最適なバッチ サイズを計算して使用するよう試みます。 メモリ不足エラーが発生した場合は、より小さなバッチ サイズを使用してください。 | Long |
arguments [arguments,...] (オプション) | model_type パラメーターからの情報が、このパラメーターのデフォルト値の設定に使用されます。 これらの引数はモデル アーキテクチャによって異なります。 ArcGIS でトレーニングされるモデルのサポート対象モデル引数を以下で説明します。 ArcGIS 事前トレーニング済みモデルとカスタム ディープ ラーニング モデルでは、このツールでサポートされている追加の引数を利用できることがあります。 各モデル タイプで利用可能な引数の詳細については、「ディープ ラーニングの引数」をご参照ください。 - attention_type - モジュール タイプを指定します。 モジュール オプションは PAM (Pyramid Attention Module) または BAM (Basic Attention Module) です。 デフォルトは、PAM です。
- chip_size - モデルのトレーニングに適用される画像サイズ。 トレーニング サンプルのタイルのチップ サイズを示す chip_size 引数が、すべてのモデル タイプでサポートされています。 画像は指定したチップ サイズにトリミングされます。 画像サイズがチップ サイズより小さい場合は、画像サイズが使用されます。 デフォルトのサイズは 224 ピクセルです。
- CLASS_BALANCING - クラスあたりのピクセルの頻度に逆比例する交差エントロピー誤差のバランスを調整するかどうかを指定します。 デフォルトは、False です。
- decode_params - 画像キャプショナーの実行方法を制御するディクショナリです。 デフォルト値は {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False}. です。decode_params 引数は、以下のパラメーターで構成されています。
- embed_size - 埋め込みサイズ。 ニューラル ネットワークにおけるデフォルトは 100 レイヤーです。
- hidden_size - 非表示レイヤーのサイズ。 ニューラル ネットワークにおけるデフォルトは 100 レイヤーです。
- attention_size - 中間アテンション レイヤーのサイズ。 ニューラル ネットワークにおけるデフォルトは 100 レイヤーです。
- teacher_forcing - 教師強制の確率。 Teacher Forcing はリカレント ニューラル ネットワークのトレーニング戦略です。 バック プロパゲーション時に、前の出力ではなく、前の時間ステップから出力されたモデルを入力として使用します。 有効な範囲は 0.0 ~ 1.0 です。 デフォルトは 1 です。
- dropout - ドロップアウト率。 有効な範囲は 0.0 ~ 1.0 です。 デフォルトは 0.1 です。
- pretrained_emb - 事前トレーニング済みテキスト埋め込みを使用するかどうかを指定します。 True の場合、高速のテキスト埋め込みを使用します。 False の場合、事前トレーニング済みテキスト埋め込みは使用されません。 デフォルトは、False です。
- FOCAL_LOSS - 焦点損失を使用するかどうかを指定します。 デフォルトは、False です。
- gaussian_thresh - 必要な道幅を設定するガウス閾値。 有効な範囲は 0.0 ~ 1.0 です。 デフォルト値は 0.76 です。
- grids - 処理中に画像が分割されるグリッドの数です。 たとえば、この引数を 4 に設定すると、画像が 4 x 4、つまり 16 個のグリッド セルに分割されます。 値が指定されない場合は、入力イメージに基づいて最適なグリッド値が計算されます。
- IGNORE_CLASSES - モデルで損失が発生しないクラス値のリスト。
- MIXUP - mixup 補強および mixup 損失を使用するかどうかを指定します。 デフォルトは、False です。
- model - モデルのトレーニングに使用されるバックボーン モデル。 選択可能なオプションは、model_type パラメーターの値によって決まります。 MMDetection のデフォルトは cascade_rcnn です。 MMSegmentation のデフォルトは deeplabv3 です。
- model_weight - 事前トレーニング済みモデルのウェイトを使用するかどうかを指定します。 デフォルトは、False です。 この値は、モデルのウェイトを含む構成ファイルへの、MMDetection リポジトリまたは MMSegmentation リポジトリからのパスにすることもできます。
- monitor - チェックポイントでのチェックと早期停止の最中にモニタリングするメトリックを指定します。 選択可能なオプションは、model_type パラメーターの値によって決まります。 デフォルトは、valid_loss です。
- mtl_model - モデルの作成に使用されるアーキテクチャ タイプを指定します。 選択肢は LinkNet ベースのニューラル アーキテクチャを示す linknet と Hourglass ベースのニューラル アーキテクチャを示す hourglass です。 デフォルトは、hourglass です。
- orient_bin_size - 方位角のビン サイズ。 デフォルトは 20 です。
- orient_theta - 方位マスクの幅。 デフォルトは 8 です。
- PYRAMID_SIZES - それぞれの小区域に適用される畳み込みレイヤーの数とサイズです。 デフォルト値は [1,2,3,6] です。 この引数は、PSPNET モデルに固有のものです。
- ratios - アンカー ボックスで使用する縦横比のリストです。 オブジェクト検出を行う場合、アンカー ボックスは予測対象のオブジェクトに最適な位置、形状、サイズを表します。 たとえば、この引数を [1.0, 1.0]、[1.0, 0.5] に設定すると、アンカー ボックスが正方形 (1:1) になるか、水平側が鉛直側の半分の長方形 (1:0.5) になります。 RetinaNet のデフォルトは [0.5,1,2] です。 SSD のデフォルトは [1.0, 1.0] です。
- SCALES - 各セルが拡大/縮小される縮尺レベルの数です。 デフォルト値は [1, 0.8, 0.63] です。
- USE_UNET - ピラミッド プーリングが完了した時点で U-Net デコーダーを使用してデータを復元するかどうかを指定します。 デフォルトは、True です。 この引数は、PSPNET モデルに固有のものです。
- zooms - 各グリッド セルが拡大/縮小されるズーム レベルの数です。 この引数を 1 に設定すると、すべてのグリッド セルが同じサイズまたはズーム レベルで維持されます。 ズーム レベルが 2 の場合は、すべてのグリッド セルが 2 倍の大きさになります (100 パーセントでズームされる)。 ズーム レベルのリストを指定すると、そのリスト内のすべての数値を使用して、すべてのグリッド セルが拡大/縮小されます。 デフォルトは 1 です。
| Value Table |
learning_rate (オプション) | トレーニング処理全体で、既存の情報を新たに取得した情報に上書きする割合。 値を指定しないと、トレーニング プロセス中に最適な学習率が学習曲線から抽出されます。 | Double |
backbone_model (オプション) | 新しいモデルをトレーニングするアーキテクチャとして使用する、事前構成済みのニューラル ネットワークを指定します。 この方法は「転移学習」と呼ばれます。 - DENSENET121—構成済みモデルは、100 万を超える画像が含まれており、深さが 121 個のレイヤーである Imagenet データセット上でトレーニングされた高密度のネットワークになります。 加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。
- DENSENET161—構成済みモデルは、100 万を超える画像が含まれており、深さが 161 個のレイヤーである Imagenet データセット上でトレーニングされた高密度のネットワークになります。 加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。
- DENSENET169—構成済みモデルは、100 万を超える画像が含まれており、深さが 169 個のレイヤーである Imagenet データセット上でトレーニングされた高密度のネットワークになります。 加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。
- DENSENET201—構成済みモデルは、100 万を超える画像が含まれており、深さが 201 個のレイヤーである Imagenet データセット上でトレーニングされた高密度のネットワークになります。 加算を使用してレイヤーを結合する ResNET とは異なり、DenseNet は連結を使用してレイヤーを結合します。
- MOBILENET_V2—事前構成済みモデルは、Imagenet データベースでトレーニングされます。深さは 54 層で、メモリの使用量が少ないのでエッジ デバイス コンピューティングに適しています。
- RESNET18—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、18 層の深さがあります。
- RESNET34—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、34 層の深さがあります。 これがデフォルトです。
- RESNET50—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、50 層の深さがあります。
- RESNET101—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、101 層の深さがあります。
- RESNET152—事前構成済みのモデルは、Imagenet データセットでトレーニングされる残留ネットワークです。このネットワークには 100 万以上の画像が含まれ、152 層の深さがあります。
- VGG11—事前構成済みのモデルは、Imagenet データセットでトレーニングされるたたみ込みニューラル ネットワークです。このネットワークには 100 万以上の画像が含まれ、画像を 1,000 のオブジェクト カテゴリに分類し、11 層の深さがあります。
- VGG11_BN—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセットでトレーニングされ、11 層の深さがあります。
- VGG13—事前構成済みのモデルは、Imagenet データセットでトレーニングされるたたみ込みニューラル ネットワークです。このネットワークには 100 万以上の画像が含まれ、画像を 1,000 のオブジェクト カテゴリに分類し、13 層の深さがあります。
- VGG13_BN—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセットでトレーニングされ、13 層の深さがあります。
- VGG16—事前構成済みのモデルは、Imagenet データセットでトレーニングされるたたみ込みニューラル ネットワークです。このネットワークには 100 万以上の画像が含まれ、画像を 1,000 のオブジェクト カテゴリに分類し、16 層の深さがあります。
- VGG16_BN—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセットでトレーニングされ、16 層の深さがあります。
- VGG19—事前構成済みのモデルは、Imagenet データセットでトレーニングされるたたみ込みニューラル ネットワークです。このネットワークには 100 万以上の画像が含まれ、画像を 1,000 のオブジェクト カテゴリに分類し、19 層の深さがあります。
- VGG19_BN—事前構成済みモデルは VGG ネットワークに基づきますが、バッチ正規化が使用されているため、ネットワークの各層が正規化されています。 Imagenet データセットでトレーニングされ、19 層の深さがあります。
- DARKNET53—構成済みモデルは、100 万を超える画像が含まれており、深さが 53 個のレイヤーである Imagenet データセット上でトレーニングされた畳み込みニューラル ネットワークになります。
- REID_V1—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークであり、オブジェクトの追跡に使用されます。
- REID_V2—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークであり、オブジェクトの追跡に使用されます。
- RESNEXT50—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークであり、深さは 50 層です。 これは同質のニューラル ネットワークであり、従来の ResNet により求められるハイパーパラメーターの数が削減されます。
- WIDE_RESNET50—事前構成済みモデルは、Imagenet データセット上でトレーニングされる畳み込みニューラル ネットワークであり、深さは 50 層です。 アーキテクチャは ResNet と同じですが、より多くのチャンネルがあります。
また、たとえば timm:resnet31、timm:inception_v4、timm:efficientnet_b3 などのように timm を接頭辞として使用することで、PyTorch Image Models (timm) でサポートされている畳み込みニューラル ネットワークを指定できます。 | String |
pretrained_model (オプション) | 新しいモデルの微調整に使用される事前トレーニング済みモデル。 入力は、Esri モデル定義ファイル (.emd) またはディープ ラーニング パッケージ ファイル (.dlpk) です。 類似したクラスを持つ事前トレーニング済みモデルは、新しいモデルに合わせて微調整することができます。 事前トレーニング済みモデルは、新しいモデルのトレーニングに使用される同じモデル タイプおよびバックボーン モデルでトレーニングされている必要があります。 | File |
validation_percentage (オプション) | モデルの検証に使用するトレーニング サンプルの割合。 デフォルト値は 10 です。 | Double |
stop_training (オプション) | 早期停止を実施するかどうかを指定します。 - STOP_TRAINING—早期停止が実施され、指定した max_epochs パラメーター値にかかわらず、モデルの改善がなくなった時点でモデルのトレーニングを停止します。 これがデフォルトです。
- CONTINUE_TRAINING—早期停止は実施されず、max_epochs パラメーター値に到達するまで、モデルのトレーニングが続行されます。
| Boolean |
freeze (オプション) | 事前トレーニング済みモデルのバックボーン レイヤーを固定するかどうかを指定します。これにより、ウェイトとバイアスが本来の設計どおりになります。 - FREEZE_MODEL—バックボーン レイヤーが固定され、事前定義済みのウェイトとバイアスを backbone_model パラメーターで変更しません。 これがデフォルトです。
- UNFREEZE_MODEL—バックボーン レイヤーは固定されず、backbone_model パラメーターのウェイトとバイアスを、トレーニング サンプルに合わせて変更できます。 この処理には時間がかかりますが、通常は優れた結果が得られます。
| Boolean |
augmentation (オプション) | 使用されるデータ拡張のタイプを指定します。 データ拡張は、既存のデータを使用してデータセットの変更済みコピーを作成することで人為的にトレーニング セットを増やす手法です。 - DEFAULT—デフォルトのデータ拡張手法とデフォルト値が使用されます。デフォルトのデータ拡張手法は、crop、dihedral_affine、brightness、contrast、zoom です。 これらのデフォルト値は通常、衛星画像に適しています。
- NONE—データ拡張は使用されません。
- CUSTOM—データ拡張値は、augmentation_parameters パラメーターを使用して指定されます。
- FILE—トレーニング データセットと整合チェック データセットのデータ拡張のための fastai の変換は、トレーニング データと同じフォルダーに格納されている transforms.json ファイルを使用して指定されます。さまざまな変換に関する詳細については、fastai の Web サイトの視覚変換をご参照ください。
| String |
augmentation_parameters [augmentation_parameters,...] (オプション) | 拡張パラメーター内の各変換の値を指定します。 - rotate - 画像は、確率 (p) の分だけ無作為に (角度単位で) 回転します。 角度が範囲 (a,b) の場合、値は、a から b の範囲で均等に割り当てられます。 デフォルト値は 30.0; 0.5 です。
- brightness - 画像の明るさは、確率 (p) を適用して、変化の値に応じて無作為に調整されます。 変化が 0 の場合は画像が最も暗くなり、変化が 1 の場合は画像が最も明るくなります。 変化が 0.5 の場合は、明るさは調整されません。 変化が範囲 (a,b) の場合、拡張によって a から b の範囲の値が均等に割り当てられます。 デフォルト値は (0.4,0.6); 1.0 です。
- contrast - 画像のコントラストは、確率 (p) を適用して、スケールの値に応じて無作為に調整されます。 スケールが 0 の場合は画像がグレー スケールになり、スケールが 1 より大きい場合は画像がスーパーコントラストになります。 スケールが 1 の場合は、コントラストが調整されません。 スケールが範囲 (a,b) の場合、拡張によって a から b の範囲の値が均等に割り当てられます。 デフォルト値は (0.75, 1.5); 1.0 です。
- zoom - 画像がスケールの値に応じて無作為にズーム インされます。 ズームの値は、scale(a,b); p の形式を取ります。 デフォルト値は (1.0, 1.2); 1.0 で、p は確率です。 スケールが 1.0 を超える場合のみ、画像のズーム インが行われます。 スケールが範囲 (a,b) の場合は、a から b の範囲の値が均等に割り当てられます。
- crop - 画像が無作為にトリミングされます。 トリミングの値は、size;p;row_pct;col_pct の形式を取り、p は確率を表します。 位置は (col_pct, row_pct), によって与えられ、col_pct と row_pct は 0 ~ 1 に正規化されます。col_pct または row_pct が範囲 (a,b) の場合は、a から b の範囲の値が均等に割り当てられます。 デフォルト値は chip_size;1.0; (0, 1); (0, 1) で、224 がデフォルトのチップ サイズとなります。
| Value Table |
chip_size (オプション) | モデルをトレーニングするための画像のサイズ。 画像は、指定のチップ サイズにトリミングされます。 画像サイズがパラメーター値より小さい場合は、画像サイズが適用されます。 デフォルト サイズは 224 ピクセルです。 | Long |
resize_to (オプション) | 画像のチップのサイズを変更します。 チップのサイズを変更したら、チップ サイズのピクセル ブロックがトリミングされ、トレーニングに使用されます。 このパラメーターは、オブジェクト検出 (PASCAL VOC)、オブジェクト分類 (ラベル付きタイル)、super-resolution データにのみ適用されます。 サイズ変更の値は、多くの場合、チップ サイズの半分です。 このサイズ変更の値がチップ サイズの値より小さい場合、サイズ変更の値は、トレーニング用ピクセル ブロックの作成に使用されます。 | String |
weight_init_scheme (オプション) | レイヤーの重みが初期化される Scheme を指定します。 マルチスペクトル データを使用してモデルをトレーニングするには、モデルが使用可能なさまざまなタイプのバンドに対応する必要があります。 これは、モデルの第 1 レイヤーを再度初期化することで行われます。 - RANDOM—非 RGB バンドでは、ランダムな重みが初期化され、RGB バンドでは、事前トレーニング済みの重みが維持されます。 これがデフォルトです。
- RED_BAND—非 RGB バンドでは、事前トレーニング済みモデルのレイヤーの Red バンドに対応する重みのクローンが作成され、RGB バンドでは、事前トレーニング済みの重みが維持されます。
- ALL_RANDOM—RGB バンドと非 RGB バンドで、ランダムな重みが初期化されます。 このオプションは、マルチスペクトル画像にのみ適用されます。
このパラメーターは、マルチスペクトル画像がモデルで使用される場合のみ適用されます。 | String |
monitor (オプション) | チェックポイントおよび早期停止中に監視する指標を指定します。 - VALID_LOSS—検証ロスが監視されます。 検証ロスが大きく変更されなくなると、モデルが停止します。 これがデフォルトです。
- AVERAGE_PRECISION—各閾値の加重平均精度が監視されます。 この値が大きく変更されなくなると、モデルが停止します。
- ACCURACY—正しい予測の数と予測の合計数の比が監視されます。 この値が大きく変更されなくなると、モデルが停止します。
- F1_SCORE—モデルの精度スコアと再現率スコアの組み合わせが監視されます。 この値が大きく変更されなくなると、モデルが停止します。
- MIOU—テスト データセットのすべての画像上のセグメント化されたオブジェクトの Intersection over Union (IoU) 間の平均値が監視されます。 この値が大きく変更されなくなると、モデルが停止します。
- DICE—Dice 指標を使用して、モデルのパフォーマンスが監視されます。 この値が大きく変更されなくなると、モデルが停止します。この値の範囲は 0 〜 1 です。 値 1 は、整合チェック データとトレーニング データ間でピクセルが完全一致していることを示します。
- PRECISION—サンプルを分類する際のモデルの正確性を示す正の値である精度が監視されます。 この値が大きく変更されなくなると、モデルが停止します。精度は、正確に分類された正のサンプルの数と (正確か不正確かを問わず) 分類されたサンプルの総数の比です。
- RECALL—モデルが正のサンプルを検出できる能力の指標である再現率が監視されます。 この値が大きく変更されなくなると、モデルが停止します。再現率が高いほど、正のサンプルがより多く検出されます。 再現率の値は、正確に分類された正のサンプルの数と正のサンプルの合計数の比です。
- CORPUS_BLEU—Corpus BLUE スコアが監視されます。 この値が大きく変更されなくなると、モデルが停止します。このスコアは、段落やドキュメントなどの複数の文の正確性を計算するために使用されます。
- MULTI_LABEL_FBETA—加重調和平均精度と加重調和平均再現率が監視されます。 この値が大きく変更されなくなると、モデルが停止します。これは、多くの場合、F-beta スコアと呼ばれます。
| String |