Arguments de Deep learning

Disponible avec une licence Image Analyst.

Les arguments sont l’un des nombreux moyens qui permettent de contrôler la façon dont les modèles de Deep Learning sont entraînés et utilisés. Dans cette rubrique, le premier tableau répertorie les arguments de modèle pris en charge pour l’entraînement des modèles de Deep Learning. Le second tableau répertorie les arguments qui permettent de contrôler la manière dont les modèles de Deep Learning sont utilisés pour l’inférence.

Arguments d’entraînement

L’outil Entraîner le modèle de Deep Learning inclut les arguments pour entraîner les modèles de Deep Learning. Ces arguments varient selon l’architecture du modèle. Vous pouvez modifier les valeurs de ces arguments pour entraîner un modèle. Les arguments sont les suivants :

  • attention_type : indique le type de module. La valeur par défaut est PAM.
  • attn_res : nombre d’attentions dans les blocs résiduels. Il s’agit d’une valeur entière facultative, par défaut elle est définie sur 16. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
  • backend : contrôle la structure de backend à utiliser pour ce modèle. Pour utiliser Tensorflow, passez le type de processeur sur l’unité centrale. La valeur par défaut est pytorch.
  • bias : il s’agit de la distorsion pour la tête Single Shot Detector (SSD). La valeur par défaut est -0,4.
  • box_batch_size_per_image : le nombre de propositions échantillonnées lors de l’entraînement de la classification. La valeur par défaut est 512.
  • box_bg_iou_thresh : l’intersection sur union (IoU) maximale entre les propositions et la zone GT (réalité sur le terrain), afin qu’elles puissent être considérées comme négatives lors de l’entraînement de la tête de classification. La valeur par défaut est 0,5.
  • box_detections_per_img : le nombre maximum de détections par image, pour toutes les classes. La valeur par défaut est 100.
  • box_fg_iou_thresh : l’intersection sur union (IoU) minimale entre les propositions et la zone GT, afin qu’elles puissent être considérées comme positives lors de l’entraînement de la tête de classification. La valeur par défaut est 0,5.
  • box_nms_thresh : le seuil de la suppression non maximale (NMS) pour la tête de prévision ; utilisé lors de l’inférence. La valeur par défaut est 0,5.
  • box_positive_fraction : la proportion de propositions positives dans un mini-lot lors de l’entraînement de la tête de classification. La valeur par défaut est 0,25.
  • box_score_thresh : le seuil du score de classification à atteindre afin de renvoyer des propositions lors de l’inférence. La valeur par défaut est 0,05.
  • channel_mults : multiplicateurs de profondeur facultatifs pour les résolutions suivantes dans U-Net. La valeur par défaut est 1, 2, 4, 4, 8, 8. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
  • channels_of_interest : liste des canaux spectraux d’intérêt. Ainsi les canaux des rasters de séries chronologiques multitemporelles sont filtrés en fonction de cette liste. Par exemple, si notre jeu de données dispose des canaux 0-4, mais que l’entraînement ne va utiliser que les canaux 0, 1, et 2, la liste est [0,1,2].
  • chip_size : taille de l’image utilisée pour entraîner le modèle. Les images sont rognées en fonction de la taille de fragment spécifiée.
  • class_balancing : indique si la perte d’entropie croisée inverse est équilibrée avec la fréquence des pixels par classe. La valeur par défaut est False.
  • d_k : dimension des vecteurs de clé et de requête. La valeur par défaut est 32.
  • decode_params : dictionnaire qui contrôle le mode de fonctionnement du créateur de légende d’image. Il se compose des paramètres suivants : embed_size, hidden_size, attention_size, teacher_forcing, dropout, et pretrained_emb. Le teacher_forcing est la probabilité de contrainte par l’enseignant. Le forçage des enseignants est une stratégie destinée à entraîner les réseaux neuronaux récurrents. Il utilise en entrée la sortie du modèle d’un intervalle temporel précédent au lieu de la sortie précédente, au cours de la rétro-propagation. Le pretrained_emb précise si l’incorporation du texte pré-entraînée est utilisée. Si la valeur est Vrai, il utilise l’intégration de texte rapide. Si la valeur est Faux, il n’utilise pas l’intégration de texte pré-entraînée.
  • depth : profondeur du modèle. La valeur par défaut est 17.
  • dice_loss_average : indique l’option de choix du recours à la micro ou à la macro moyenne. Une macro moyenne calcule la métrique individuellement pour chaque classe, puis prend la moyenne, tenant ainsi compte de toutes les classes de la même façon). Une micro moyenne agrège les contributions de toutes les classes pour calculer la métrique moyenne. Dans une configuration de classification multiclasses, la micro moyenne est préférable si vous suspectez un déséquilibre lorsqu’il y a beaucoup plus d’échantillons d’une classe par rapport aux autres classes. La valeur par défaut est micro.
  • dice_loss_fraction : utilisée pour ajuster la pondération de la perte par défaut (ou perte focale) par rapport à la perte de segmentation, dans la perte totale pour guider l’entraînement. La valeur par défaut est 0. Si focal_loss est définie sur true, la perte focale est utilisée plutôt que la perte par défaut. Si dice_loss_fraction est définie sur 0, l’entraînement utilise la perte par défaut (ou perte focale) comme perte totale pour guider l’entraînement. Si la fraction dice_loss (perte_segmentation) est supérieure à 0, l’entraînement utilise une formule comme perte totale pour guider l’entraînement :
    =(1 – dice_loss_fraction)*default_loss + dice_loss_fraction*dice_loss (1 - fraction_perte_segmentation)*perte_par défaut + fraction_perte_segmentation*perte_segmentation
  • downsample_factor : facteur pour échantillonner les images. La valeur par défaut est 4.
  • drop : probabilité d’abandon. Pour réduire l’overfitting, augmentez la valeur. La valeur par défaut est de 0,3.
  • dropout : probabilité d’abandon. Pour réduire l’overfitting, augmentez la valeur. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
  • embed_dim : dimension des intégrations. La valeur par défaut est 768.
  • feat_loss : indique si vous souhaitez utiliser ou non la perte d’adéquation des entités du discriminateur. La valeur par défaut est True.
  • focal_loss : indique si la perte focale est utilisée. La valeur par défaut est False.
  • gaussian_thresh : seuil gaussien, qui définit la largeur de route requise. La plage valide est comprise entre 0,0 et 1,0. La valeur par défaut est 0,76.
  • gen_blocks : nombre de blocs ResNet à utiliser dans le générateur. La valeur par défaut est 9.
  • gen_network : sélectionnez le modèle à utiliser pour le générateur. Utilisez global si la mémoire de l’unité centrale de la machine est faible. La valeur par défaut est local.
  • grids : nombre de grilles selon lequel l’image est divisée pour le traitement. Par exemple, si vous définissez cet argument sur 4, l’image est divisée en 4 x 4 ou 16 cellules de grille. Si aucune valeur n’est spécifiée, la valeur de grille optimale est calculée en fonction de l’imagerie en entrée.
  • ignore_classes : liste des valeurs de classe pour lesquelles le modèle ne subit pas de perte.
  • inner_channel : dimension de la première couche U-net. Il s’agit d’une valeur entière facultative. La valeur par défaut est 64. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
  • keep_dilation : indiquez si keep_dilation doit être utilisée. Lorsqu’elle est définie sur True (Vrai) et que l’architecture pointrend est utilisée, elle peut potentiellement améliorer la précision aux dépens de la consommation de la mémoire. La valeur par défaut est False.
  • lambda_feat : pondération pour la perte d’adéquation des entités. La valeur par défaut est 10.
  • lambda_l1 : pondération pour la perte d’adéquation des entités. La valeur par défaut est 100. Cette option n’est pas prise en charge pour l’imagerie à 3 canaux.
  • linear_end : entier facultatif qui permet de planifier la fin. La valeur par défaut est 1e-06. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
  • linear_start : entier facultatif qui permet de planifier le début. La valeur par défaut est 1e-02. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
  • lsgan : indique si vous souhaitez utiliser l’erreur quadratique moyenne dans l’entraînement. Si définie sur False (Faux), l’entropie croisée est utilisée. La valeur par défaut est True.
  • location_loss_factor : définit la pondération de la perte d’emprise. Ce facteur ajuste la concentration du modèle sur l’emplacement de l’emprise. Lorsqu’il est défini sur Aucun, cela donne une pondération équivalente à la perte d’emplacement et de classification.
  • min_points : nombre de pixels dans chaque échantillon depuis chaque région masquée de l’entraînement ; cette valeur doit être un multiple de 64.
  • mixup : indiquez si mixup doit être utilisée. Si cette option est définie sur True (Vrai), cela génère de nouvelles images d’entraînement en mélangeant de façon aléatoire des images de définition d’entraînement. La valeur par défaut est False.
  • mlp_ratio : ratio du perceptron multicouche (MLP). La valeur par défaut est 4.
  • mlp1 : dimensions des espaces d’entité successifs de MLP1. La valeur par défaut est 32,64.
  • mlp2 : dimensions des espaces d’entité successifs de MLP2. La valeur par défaut est 128,128.
  • mlp4 : dimensions du décodeur MLP. La valeur par défaut est 64,32.
  • model : modèle backbone utilisé pour entraîner le modèle. Les backbones disponibles dépendent de la valeur spécifiée pour le paramètre Type de modèle. Cet argument est uniquement pris en charge pour les types de modèles MMDetection et MMSegmentation. La valeur par défaut pour MMDetection est cascade_rcnn. La valeur MMSegmentation par défaut est mask2former.
  • model_weight : détermine l’utilisation ou non des pondérations du modèle pré-entraîné. La valeur par défaut est False. La valeur peut également être un chemin d’accès à un fichier de configuration contenant les pondérations d’un modèle provenant du référentiel MMDetection ou MMSegmentation.
  • monitor : indique la métrique à surveiller lors de la création des points de contrôle et de l’arrêt prématuré. Les métriques disponibles dépendent de la valeur du paramètre Model Type (Type de modèle). La valeur par défaut est valid_loss.
  • mtl_model : spécifie le type d’architecture utilisé pour créer le modèle. Les options sont linknet ou hourglass pour les architectures neuronales basées sur linknet ou hourglass, respectivement. La valeur par défaut est hourglass.
  • n_blocks_global : nombre de blocs résiduels dans le réseau du générateur global. La valeur par défaut est 9.
  • n_blocks_local : nombre de blocs résiduels dans le réseau d’améliorations locales. La valeur par défaut est 3.
  • n_downsample_global : nombre de couches de rééchantillonnage dans le réseau du générateur global.
  • n_dscr : nombre de discriminateurs à utiliser. La valeur par défaut est 2.
  • n_dscr_filters : nombre de filtres de discriminateur dans la première couche de convolution. La valeur par défaut est 64.
  • n_gen_filters : nombre de filtres gen dans la première couche de convolution. La valeur par défaut est 64.
  • n_head : nombre d’avertissements. La valeur par défaut est 4.
  • n_layers_dscr : nombre de couches pour le réseau de discriminateur utilisé dans Pix2PixHD. La valeur par défaut est 3.
  • n_local_enhancers : nombre d’améliorations locales à utiliser. La valeur par défaut est 1.
  • n_masks : représente le nombre maximum d’étiquettes de classe et d’instances que toute image peut contenir. La valeur par défaut est 30.
  • n_timestep : valeur facultative indiquant le nombre d’intervalles temporels de diffusion. La valeur par défaut est 1000. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
  • norm : indique si vous souhaitez utiliser la normalisation par instance ou la normalisation par lot. La valeur par défaut est instance.
  • norm_groups : nombre de groupes pour la normalisation des groupes. Il s’agit d’une valeur entière facultative. La valeur par défaut est 32. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
  • num_heads : nombre d’avertissements. La valeur par défaut est 12.
  • orient_bin_size : taille de groupe pour les angles d’orientation. La valeur par défaut est 20.
  • orient_theta : largeur du masque d’orientation. La valeur par défaut est 8.
  • oversample : indique si vous souhaitez utiliser le suréchantillonnage. Si cette option est définie sur True (Vrai), cela suréchantillonne les classes déséquilibrées du jeu de données lors de l’entraînement. Cette option n’est pas prise en charge avec les jeux de données MultiLabel. La valeur par défaut est False.
  • patch_size : taille du gabarit pour générer les intégrations de gabarit. La valeur par défaut est 16.
  • perceptual_loss : indique si vous souhaitez utiliser la perte perceptuelle dans l’entraînement. La valeur par défaut est False.
  • pointrend : indique si vous souhaitez utiliser l’architecture PointRend en haut de la tête de segmentation. Pour en savoir plus sur l’architecture PointRend, consultez le PDF PointRend. La valeur par défaut est False.
  • pooling : stratégie de groupage de l’intégration des pixels à utiliser. La valeur par défaut est mean
  • pyramid_sizes : nombre et taille des couches de convolution à appliquer aux différentes sous-régions. La valeur par défaut est [1, 2, 3, 6]. Cet argument est propre au modèle Pyramid Scene Parsing Network.
  • qkv_bias : indique si vous souhaitez utiliser la distorsion du vecteur QK dans l’entraînement. La valeur par défaut est False.
  • ratios : liste des proportions à utiliser pour les zones d’ancrage. Dans le domaine de la détection d’objet, une zone d’ancrage représente la localisation, la forme et la taille idéales de l’objet qui fait l’objet d’une prédiction. Par exemple, si vous définissez cet argument sur [1.0,1.0], [1.0, 0.5], la boîte englobante est un carré (1:1) ou un rectangle pour lequel la longueur du côté horizontal correspond à la moitié de la longueur du côté vertical (1:0.5). La valeur par défaut pour RetinaNet est [0.5,1,2]. La valeur par défaut pour Single Shot Detector est [1.0, 1.0].
  • res_blocks : nombre de blocs résiduels. Il s’agit d’une valeur entière facultative. La valeur par défaut est 3. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
  • rpn_batch_size_per_image : nombre d’ancrages échantillonnés lors de l’entraînement du RPN pour calculer la perte. La valeur par défaut est 256.
  • rpn_bg_iou_thresh. : l’intersection sur union (IoU) maximale entre l’ancrage et la zone GT afin qu’ils puissent être considérés comme négatifs lors de l’entraînement du RPN. La valeur par défaut est de 0,3.
  • rpn_fg_iou_thresh : l’intersection sur union (IoU) minimale entre l’ancrage et la zone GT afin qu’ils puissent être considérés comme positifs lors de l’entraînement du RPN. La valeur par défaut est 0,7.
  • rpn_nms_thresh : le seuil NMS utilisé pour post-traiter les propositions RPN. La valeur par défaut est 0,7.
  • rpn_positive_fraction : la proportion des ancrages positifs dans un mini-lot lors de l’entraînement du RPN. La valeur par défaut est 0,5.
  • rpn_post_nms_top_n_test : le nombre de propositions à conserver une fois le NMS appliqué lors du test. La valeur par défaut est 1000.
  • rpn_post_nms_top_n_train : le nombre de propositions à conserver une fois le NMS appliqué lors de l’entraînement. La valeur par défaut est 2000.
  • rpn_pre_nms_top_n_test : le nombre de propositions à conserver avant l’application du NMS lors du test. La valeur par défaut est 1000.
  • rpn_pre_nms_top_n_train : le nombre de propositions à conserver avant l’application du NMS lors de l’entraînement. La valeur par défaut est 2000.
  • scales : nombre de niveaux d’échelle selon lequel chaque cellule est réduite ou agrandie. La valeur par défaut est [1, 0,8, 0,63].
  • schedule : argument facultatif pour définir le type de planification à utiliser. Les options sont linear, warmup10, warmup50, const, jsd et cosine. La valeur par défaut est linear. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
  • T : période à utiliser pour l’encodage positionnel. La valeur par défaut est 1000.
  • timesteps_of_interest : la liste des intervalles d’intérêt ; elle permet de filtrer les séries chronologiques multitemporelles en fonction de la liste des intervalles spécifiés. Par exemple, si le jeu de données est associé aux intervalles 0, 1, 2 et 3, mais que seuls les intervalles 0, 1 et 2 sont utilisés dans l’entraînement, ce paramètre est défini sur [0,1,2]; the rest of the time-steps will be filtered out.
  • use_net : indique si le décodeur U-Net est utilisé pour récupérer les données une fois le regroupement des pyramides effectué. La valeur par défaut est True. Cet argument est propre au modèle Pyramid Scene Parsing Network.
  • vgg_loss : indique si vous souhaitez utiliser la perte d’adéquation des entités VGG. Cette option n’est prise en charge que pour l’imagerie à 3 canaux. La valeur par défaut est True.
  • zooms : nombre de niveaux de zoom selon lequel chaque cellule de grille est réduite ou agrandie. Si vous définissez cet argument sur 1, toutes les cellules de grille restent à la même taille ou au même niveau de zoom. Un niveau de zoom égal à 2 signifie que toutes les cellules de grille deviennent deux fois plus grandes (agrandies à 100 pour cent). Si vous fournissez une liste de niveaux de zoom, toutes les cellules de grille sont mises à l’échelle avec tous les nombres de la liste. La valeur par défaut est 1.

Model typeArgumentValeur valides

Détecteur de changements

(classification de pixels)

attention_type

PAM (Pyramid Attention Module) ou BAM (Basic Attention Module). La valeur par défaut est PAM.

chip_size

Entiers compris entre 0 et la taille de l’image.

monitor

valid_loss, precision, recall et f1.

ConnectNet

(classification de pixels)

chip_size

Entiers compris entre 0 et la taille de l’image.

gaussian_thresh

0,0 à 1,0. La valeur par défaut est 0,76.

monitor

valid_loss, accuracy, miou et dice.

mtl_model

linknet ou hourglass.

orient_bin_size

Nombre positif. La valeur par défaut est 20.

orient_theta

Nombre positif. La valeur par défaut est 8.

CycleGAN

(conversion d’images)

gen_blocks

Entier positif. La valeur par défaut est 9.

lsgan

true ou false. La valeur par défaut est true.

DeepLabv

(classification de pixels)

chip_size

Entiers compris entre 0 et la taille de l’image.

class_balancing

true ou false.

dice_loss_average

micro ou macro. La valeur par défaut est micro.

dice_loss_fraction

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0.

focal_loss

true ou false.

ignore_classes

Valeurs de classe valides.

keep_dilation

true ou false. La valeur par défaut est false.

mixup

true ou false.

monitor

valid_loss et accuracy.

pointrend

true ou false. La valeur par défaut est false.

FasterRCNN

(Détection des objets)

box_batch_size_per_image

Entiers positifs. La valeur par défaut est 512.

box_bg_iou_thresh

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5.

box_detections_per_img

Entiers positifs. La valeur par défaut est 100.

box_fg_iou_thresh

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5.

box_nms_thresh

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5.

box_positive_fraction

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,25.

box_score_thresh

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,05.

rpn_batch_size_per_image

Entiers positifs. La valeur par défaut est 256.

rpn_bg_iou_thresh

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est de 0,3.

rpn_fg_iou_thresh

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,7.

rpn_nms_thresh

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,7.

rpn_positive_fraction

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5.

rpn_post_nms_top_n_test

Entiers positifs. La valeur par défaut est 1000.

rpn_post_nms_top_n_train

Entiers positifs. La valeur par défaut est 2000.

rpn_pre_nms_top_n_test

Entiers positifs. La valeur par défaut est 1000.

rpn_pre_nms_top_n_train

Entiers positifs. La valeur par défaut est 2000.

Classificateur d’entités

(Classification d’objets)

backend

pytorch ou tensorflow. La valeur par défaut est pytorch.

mixup

true ou false. La valeur par défaut est false.

oversample

true ou false. La valeur par défaut est false.

Sous-titreur d’images

(conversion d’images)

chip_size

Entiers compris entre 0 et la taille de l’image.

L’argument decode_params se compose des paramètres suivants :

  • embed_size
  • hidden_size
  • attention_size
  • teacher_forcing
  • dropout
  • pretrained_emb

La valeur par défaut est {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False}.

monitor

valid_loss, accuracy, corpus_bleu etmulti_label_fbeta.

MaskRCNN

(Détection des objets)

box_batch_size_per_image

Entiers positifs. La valeur par défaut est 512.

box_bg_iou_thresh

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5.

box_detections_per_img

Entiers positifs. La valeur par défaut est 100.

box_fg_iou_thresh

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5.

box_nms_thresh

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5.

box_positive_fraction

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,25.

box_score_thresh

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,05.

rpn_batch_size_per_image

Entiers positifs. La valeur par défaut est 256.

rpn_bg_iou_thresh

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est de 0,3.

rpn_fg_iou_thresh

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,7.

rpn_nms_thresh

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,7.

rpn_positive_fraction

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5.

rpn_post_nms_top_n_test

Entiers positifs. La valeur par défaut est 1000.

rpn_post_nms_top_n_train

Entiers positifs. La valeur par défaut est 2000.

rpn_pre_nms_top_n_test

Entiers positifs. La valeur par défaut est 1000.

rpn_pre_nms_top_n_train

Entiers positifs. La valeur par défaut est 2000.

MaXDeepLab

(segmentation panoptique)

n_masks

Entiers positifs. La valeur par défaut est 30.

MMDetection

(détection d’objets)

chip_size

Entiers compris entre 0 et la taille de l’image.

model

atss, carafe, cascade_rcnn, cascade_rpn, dcn, deeplabv3, detectors, dino, double_heads, dynamic_rcnn, empirical_attention, fcos, foveabox, fsaf, ghm, hrnet, libra_rcnn, nas_fcos, pafpn, pisa, regnet, reppoints, res2net, sabl, et vfnet.

La valeur par défaut est deeplabv3.

model_weight

true ou false.

MMSegmentation

(classification de pixels)

chip_size

Entiers compris entre 0 et la taille de l’image.

model

ann, apcnet, ccnet, cgnet, deeplabv3, deeplabv3plus, dmnet , dnlnet, emanet, fastscnn, fcn, gcnet, hrnet, mask2former, mobilenet_v2, nonlocal_net, ocrnet, prithvi100m, psanet, pspnet, resnest, sem_fpn, unet et upernet.

La valeur par défaut est mask2former.

model_weight

true ou false.

Extracteur de routes multitâche

(classification de pixels)

chip_size

Entiers compris entre 0 et la taille de l’image.

gaussian_thresh

0,0 à 1,0. La valeur par défaut est 0,76.

monitor

valid_loss, accuracy, miou et dice.

mtl_model

linknet ou hourglass.

orient_bin_size

Nombre positif. La valeur par défaut est 20.

orient_theta

Nombre positif. La valeur par défaut est 8.

Pix2Pix

(conversion d’images)

perceptual_loss

true ou false. La valeur par défaut est false.

Pix2PixHD

(conversion d’images)

gen_network

local ou global. La valeur par défaut est local.

feat_loss

true ou false. La valeur par défaut est true.

lambda_feat

Valeurs des entiers positifs. La valeur par défaut est 10.

lambda_l1

Valeurs des entiers positifs. La valeur par défaut est 100.

lsgan

true ou false. La valeur par défaut est true.

n_blocks_global

Valeurs des entiers positifs. La valeur par défaut est 9.

n_blocks_local

Valeurs des entiers positifs. La valeur par défaut est 3.

n_downsample_global

Valeurs des entiers positifs. La valeur par défaut est 4.

n_dscr

Valeurs des entiers positifs. La valeur par défaut est 2.

n_dscr_filters

Valeurs des entiers positifs. La valeur par défaut est 64.

n_gen_filters

Valeurs des entiers positifs. La valeur par défaut est 64.

n_layers_dscr

Valeurs des entiers positifs. La valeur par défaut est 3.

n_local_enhancers

Valeurs des entiers positifs. La valeur par défaut est 1.

norm

instance ou batch. La valeur par défaut est instance.

vgg_loss

true ou false. La valeur par défaut est true.

PSETAE

(classification de pixels)

channels_of_interest

Liste des numéros de canaux (entiers positifs).

d_k

Valeurs des entiers positifs. La valeur par défaut est 32.

dropout

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,2.

min_points

Multiples entiers de 64.

mlp1

Liste des entiers positifs. La valeur par défaut est 32, 64.

mlp2

Liste des entiers positifs. La valeur par défaut est 128, 128.

mlp4

Liste des entiers positifs. La valeur par défaut est 64, 32.

n_head

Valeurs des entiers positifs. La valeur par défaut est 4.

pooling

mean, std, max, ou min.

T

Valeurs des entiers positifs. La valeur par défaut est 1000.

timesteps_of_interest

Liste des entiers positifs.

Pyramid Scene Parsing Network

(classification de pixels)

chip_size

Entiers compris entre 0 et la taille de l’image.

class_balancing

true ou false.

dice_loss_average

micro ou macro. La valeur par défaut est micro.

dice_loss_fraction

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0.

focal_loss

true ou false.

ignore_classes

Valeurs de classe valides.

keep_dilation

true ou false. La valeur par défaut est false.

monitor

valid_loss ou accuracy.

mixup

true ou false.

pointrend

true ou false. La valeur par défaut est false.

pyramid_sizes

[couche de convolution 1, couche de convolution 2, ... , couche de convolution n]

use_net

true ou false.

RetinaNet

(détection d’objets)

chip_size

Entiers compris entre 0 et la taille de l’image.

monitor

valid_loss ou average_precision.

ratios

Valeur de ratio 1, valeur de ratio 2, valeur de ratio 3.

La valeur par défaut est 0.5,1,2.

scales

[valeur d’échelle 1, valeur d’échelle 2, valeur d’échelle 3]

La valeur par défaut est [1, 0.8, 0.63].

SAMLoRA

(classification de pixels)

class_balancing

true ou false.

ignore_classes

Valeurs de classe valides.

Single Shot Detector

(détection d’objets)

backend

pytorch ou tensorflow. La valeur par défaut est pytorch.

bias

Valeur à virgule flottante. La valeur par défaut est -0,4.

chip_size

Entiers compris entre 0 et la taille de l’image. La valeur par défaut est de 0,3.

drop

Valeur à virgule flottante entre 0 et 1.

focal_loss

true ou false. La valeur par défaut est false.

grids

Valeurs entières supérieures à 0.

location_loss_factor

Valeur à virgule flottante entre 0 et 1.

monitor

valid_loss ou average_precision.

ratios

[valeur horizontale, valeur verticale]

zooms

Valeur de zoom où 1,0 est le zoom normal.

Super-résolution avec backbone SR3

(conversion d’images)

attn_res

Entiers supérieurs à 0. La valeur par défaut est 16.

channel_mults

Ensembles de multiplicateurs entiers. La valeur par défaut est [1, 2, 4, 4, 8, 8].

downsample_factor

Valeur de l’entier positif. La valeur par défaut est 4.

dropout

Valeur à virgule flottante. La valeur par défaut est 0.

inner_channel

Valeur entière supérieure à 0. La valeur par défaut est 64.

linear_start

Entier horaire. La valeur par défaut est 1e-02.

linear_end

Entier horaire. La valeur par défaut est 1e-06.

n_timestep 

Valeur entière supérieure à 0. La valeur par défaut est 1000.

norm_groups

Valeur entière supérieure à 0. La valeur par défaut est 32.

res_blocks

Valeur entière supérieure à 0. La valeur par défaut est 3.

schedule 

linear, warmup10, warmup50, const, jsd ou cosine.

La valeur par défaut est linear.

Super-résolution avec backbone SR3_UViT

(conversion d’images)

depth

Valeur du point d’entier positif. La valeur par défaut est 17.

embed_dim

Valeur du point d’entier positif. La valeur par défaut est 768.

mlp_ratio

Valeur de la virgule flottante positive. La valeur par défaut est 4.0.

num_heads

Valeur du point d’entier positif. La valeur par défaut est 12.

patch_size

Valeur du point d’entier positif. La valeur par défaut est 16.

qkv_bias

true ou false. La valeur par défaut est false.

U-Net

(classification de pixels)

chip_size

Entiers compris entre 0 et la taille de l’image.

class_balancing

true ou false.

dice_loss_average

micro ou macro. La valeur par défaut est micro.

dice_loss_fraction

Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0.

focal_loss

true ou false.

ignore_classes

Valeurs de classe valides.

monitor

valid_loss ou accuracy.

mixup

true ou false.

Arguments d’inférence

Les arguments ci-après permettent de contrôler la manière dont les modèles de Deep Learning sont entraînés pour l’inférence. Les informations du paramètre Définition de modèle sont utilisées pour renseigner le paramètre Arguments dans les outils d’inférence. Ces arguments varient selon l’architecture du modèle. Les modèles pré-entraînés ArcGIS et les modèles de Deep Learning personnalisés peuvent comporter des arguments supplémentaires pris en charge par l’outil.

ArgumentType d’inférenceValeur valides

batch_size

Nombre de tuiles d’image traitées à chaque étape de l’inférence du modèle. Ce nombre dépend de la mémoire de la carte graphique. L’argument est disponible pour toutes les architectures de modèle.

Classer les objets

Classer les pixels

Détecter les modifications

Détecter des objets

Valeurs entières supérieures à 0 ; généralement un entier à la puissance 2n.

direction

L’image est convertie d’un domaine à un autre. Pour plus d’informations sur cet argument, reportez-vous à la rubrique Fonctionnement de CycleGAN.

L’argument est uniquement disponible pour l’architecture CycleGAN.

Classer les pixels

Les options disponibles sont AtoB et BtoA.

exclude_pad_detections

\Si la valeur est vraie, les détections potentiellement tronquées sur les arêtes qui se trouvent dans la région remplie de fragments d’image sont filtrées.

L’argument est disponible pour SSD, RetinaNet, YOLOv3, DETReg, MMDetection et Faster RCNN uniquement.

Détecter des objets

true ou false.

merge_policy

La stratégie utilisée pour fusionner les prévisions augmentées. Applicable uniquement si l’augmentation du temps de test est utilisée.

Pour l’outil Classer des pixels à l’aide du Deep Learning, l’argument est disponible pour les architectures MultiTaskRoadExtractor et ConnectNet. Si IsEdgeDetection est présent dans le fichier .emd du modèle, les architectures BDCNEdgeDetector, HEDEdgeDetector et MMSegmentation sont également disponibles.

Pour l’outil Détecter des objets à l’aide du Deep Learning, l’argument est uniquement disponible pour MaskRCNN.

Classer les pixels

Détecter des objets

Les options disponibles sont mean, max et min.

nms_overlap

Ratio de superposition maximale de deux entités se chevauchant, défini comme le rapport entre la zone d’intersection et la zone d’union. L’argument est disponible pour toutes les architectures de modèle.

Détecter des objets

Valeur à virgule flottante comprise entre 0,0 et 1,0. La valeur par défaut est 0,1.

output_classified_raster

Chemin vers le raster de sortie. L’argument est disponible uniquement pour MaXDeepLab.

Détecter des objets

Chemin et nom de fichier du raster classé en sortie.

padding

Le nombre de pixels en bordure des tuiles d’image à partir duquel les prévisions sont fusionnées pour les tuiles adjacentes. Pour lisser la sortie tout en réduisant les artefacts, augmentez la valeur. La valeur maximale de la marge intérieure peut représenter la moitié de la valeur de la taille d’une tuile. L’argument est disponible pour toutes les architectures de modèle.

Classer les pixels

Détecter les modifications

Détecter des objets

Valeurs entières supérieures à 0 et inférieures à la moitié de la valeur de la taille de tuile.

predict_background

S’il est défini sur Vrai, la classe d’arrière-plan est également classée. L’argument est disponible pour UNET, PSPNET, DeepLab et MMSegmentation.

Classer les pixels

true ou false.

return_probability_raster

Si l’option est définie sur True (Vrai), la sortie est un raster de probabilité. Un raster de probabilité est un raster dont les pixels définissent la probabilité selon laquelle la variable d’intérêt est supérieure ou inférieure à une valeur seuil définie.

Si ArcGISLearnVersion est de version 1.8.4 ou supérieure dans le fichier .emd du modèle, les architectures MultiTaskRoadExtractor et ConnectNet sont disponibles. Si ArcGISLearnVersion est de version 1.8.4 ou supérieure et que IsEdgeDetection est présent dans le fichier .emd du modèle, les architectures BDCNEdgeDetector, HEDEdgeDetector et MMSegmentation sont également disponibles.

Classer les pixels

true ou false.

score_threshold

Les prévisions au-dessus du score de confiance sont incluses dans le résultat. L’argument est disponible pour toutes les architectures de modèle.

Classer les objets

Compris entre 0 et 1,0.

test_time_augmentation

Procède à l’augmentation du temps de test lors de la prévision. Si la valeur est vraie, les prévisions des variants inversés et pivotés de l’image en entrée sont fusionnées dans la sortie finale. L’argument est disponible pour quasiment toutes les architectures de modèle.

Classer les objets

Classer les pixels

true ou false.

threshold

Les prévisions dont le score de confiance est supérieure à ce seuil sont incluses dans le résultat.

Pour l’outil Classer des pixels à l’aide du Deep Learning, si ArcGISLearnVersion est de version 1.8.4 ou supérieure dans le fichier .emd du modèle, les architectures MultiTaskRoadExtractor et ConnectNet sont disponibles. Si ArcGISLearnVersion est de version 1.8.4 ou supérieure et que IsEdgeDetection est présent dans le fichier .emd du modèle, les architectures BDCNEdgeDetector, HEDEdgeDetector et MMSegmentation sont également disponibles.

Pour l’outil Détecter des objets à l’aide du Deep Learning, l’argument est disponible pour toutes les architectures de modèle.

Classer les pixels

Détecter des objets

Compris entre 0 et 1,0.

thinning

Affine ou simplifie les bords prévus.

Si IsEdgeDetection est présent dans le fichier .emd du modèle, les architectures BDCNEdgeDetector, HEDEdgeDetector et MMSegmentation sont disponibles.

Classer les pixels

true ou false.

tile_size

tile_size : la largeur et la hauteur des tuiles d’image dans l’imagerie est fractionnée en vue de la prévision.

Pour l’outil Classer des pixels à l’aide du Deep Learning, l’argument est disponible uniquement pour l’architecture CycleGAN.

Pour l’outil Détecter des objets à l’aide du Deep Learning, l’argument est uniquement disponible pour MaskRCNN.

Classer les pixels

Détecter des objets

Valeurs entières supérieures à 0 et inférieures à la taille de l’image.

Rubriques connexes