Disponible avec une licence Image Analyst.
Les arguments sont l’un des nombreux moyens qui permettent de contrôler la façon dont les modèles de Deep Learning sont entraînés et utilisés. Dans cette rubrique, le premier tableau répertorie les arguments de modèle pris en charge pour l’entraînement des modèles de Deep Learning. Le second tableau répertorie les arguments qui permettent de contrôler la manière dont les modèles de Deep Learning sont utilisés pour l’inférence.
Arguments d’entraînement
L’outil Entraîner le modèle de Deep Learning inclut les arguments pour entraîner les modèles de Deep Learning. Ces arguments varient selon l’architecture du modèle. Vous pouvez modifier les valeurs de ces arguments pour entraîner un modèle. Les arguments sont les suivants :
- attention_type : indique le type de module. La valeur par défaut est PAM.
- attn_res : nombre d’attentions dans les blocs résiduels. Il s’agit d’une valeur entière facultative, par défaut elle est définie sur 16. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
- backend : contrôle la structure de backend à utiliser pour ce modèle. Pour utiliser Tensorflow, passez le type de processeur sur l’unité centrale. La valeur par défaut est pytorch.
- bias : il s’agit de la distorsion pour la tête Single Shot Detector (SSD). La valeur par défaut est -0,4.
- box_batch_size_per_image : le nombre de propositions échantillonnées lors de l’entraînement de la classification. La valeur par défaut est 512.
- box_bg_iou_thresh : l’intersection sur union (IoU) maximale entre les propositions et la zone GT (réalité sur le terrain), afin qu’elles puissent être considérées comme négatives lors de l’entraînement de la tête de classification. La valeur par défaut est 0,5.
- box_detections_per_img : le nombre maximum de détections par image, pour toutes les classes. La valeur par défaut est 100.
- box_fg_iou_thresh : l’intersection sur union (IoU) minimale entre les propositions et la zone GT, afin qu’elles puissent être considérées comme positives lors de l’entraînement de la tête de classification. La valeur par défaut est 0,5.
- box_nms_thresh : le seuil de la suppression non maximale (NMS) pour la tête de prévision ; utilisé lors de l’inférence. La valeur par défaut est 0,5.
- box_positive_fraction : la proportion de propositions positives dans un mini-lot lors de l’entraînement de la tête de classification. La valeur par défaut est 0,25.
- box_score_thresh : le seuil du score de classification à atteindre afin de renvoyer des propositions lors de l’inférence. La valeur par défaut est 0,05.
- channel_mults : multiplicateurs de profondeur facultatifs pour les résolutions suivantes dans U-Net. La valeur par défaut est 1, 2, 4, 4, 8, 8. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
- channels_of_interest : liste des canaux spectraux d’intérêt. Ainsi les canaux des rasters de séries chronologiques multitemporelles sont filtrés en fonction de cette liste. Par exemple, si notre jeu de données dispose des canaux 0-4, mais que l’entraînement ne va utiliser que les canaux 0, 1, et 2, la liste est [0,1,2].
- chip_size : taille de l’image utilisée pour entraîner le modèle. Les images sont rognées en fonction de la taille de fragment spécifiée.
- class_balancing : indique si la perte d’entropie croisée inverse est équilibrée avec la fréquence des pixels par classe. La valeur par défaut est False.
- d_k : dimension des vecteurs de clé et de requête. La valeur par défaut est 32.
- decode_params : dictionnaire qui contrôle le mode de fonctionnement du créateur de légende d’image. Il se compose des paramètres suivants : embed_size, hidden_size, attention_size, teacher_forcing, dropout, et pretrained_emb. Le teacher_forcing est la probabilité de contrainte par l’enseignant. Le forçage des enseignants est une stratégie destinée à entraîner les réseaux neuronaux récurrents. Il utilise en entrée la sortie du modèle d’un intervalle temporel précédent au lieu de la sortie précédente, au cours de la rétro-propagation. Le pretrained_emb précise si l’incorporation du texte pré-entraînée est utilisée. Si la valeur est Vrai, il utilise l’intégration de texte rapide. Si la valeur est Faux, il n’utilise pas l’intégration de texte pré-entraînée.
- depth : profondeur du modèle. La valeur par défaut est 17.
- dice_loss_average : indique l’option de choix du recours à la micro ou à la macro moyenne. Une macro moyenne calcule la métrique individuellement pour chaque classe, puis prend la moyenne, tenant ainsi compte de toutes les classes de la même façon). Une micro moyenne agrège les contributions de toutes les classes pour calculer la métrique moyenne. Dans une configuration de classification multiclasses, la micro moyenne est préférable si vous suspectez un déséquilibre lorsqu’il y a beaucoup plus d’échantillons d’une classe par rapport aux autres classes. La valeur par défaut est micro.
- dice_loss_fraction : utilisée pour ajuster la pondération de la perte par défaut (ou perte focale) par rapport à la perte de segmentation, dans la perte totale pour guider l’entraînement. La valeur par défaut est 0. Si focal_loss est définie sur true, la perte focale est utilisée plutôt que la perte par défaut. Si dice_loss_fraction est définie sur 0, l’entraînement utilise la perte par défaut (ou perte focale) comme perte totale pour guider l’entraînement. Si la fraction dice_loss (perte_segmentation) est supérieure à 0, l’entraînement utilise une formule comme perte totale pour guider l’entraînement :
=(1 – dice_loss_fraction)*default_loss + dice_loss_fraction*dice_loss (1 - fraction_perte_segmentation)*perte_par défaut + fraction_perte_segmentation*perte_segmentation
- downsample_factor : facteur pour échantillonner les images. La valeur par défaut est 4.
- drop : probabilité d’abandon. Pour réduire l’overfitting, augmentez la valeur. La valeur par défaut est de 0,3.
- dropout : probabilité d’abandon. Pour réduire l’overfitting, augmentez la valeur. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
- embed_dim : dimension des intégrations. La valeur par défaut est 768.
- feat_loss : indique si vous souhaitez utiliser ou non la perte d’adéquation des entités du discriminateur. La valeur par défaut est True.
- focal_loss : indique si la perte focale est utilisée. La valeur par défaut est False.
- gaussian_thresh : seuil gaussien, qui définit la largeur de route requise. La plage valide est comprise entre 0,0 et 1,0. La valeur par défaut est 0,76.
- gen_blocks : nombre de blocs ResNet à utiliser dans le générateur. La valeur par défaut est 9.
- gen_network : sélectionnez le modèle à utiliser pour le générateur. Utilisez global si la mémoire de l’unité centrale de la machine est faible. La valeur par défaut est local.
- grids : nombre de grilles selon lequel l’image est divisée pour le traitement. Par exemple, si vous définissez cet argument sur 4, l’image est divisée en 4 x 4 ou 16 cellules de grille. Si aucune valeur n’est spécifiée, la valeur de grille optimale est calculée en fonction de l’imagerie en entrée.
- ignore_classes : liste des valeurs de classe pour lesquelles le modèle ne subit pas de perte.
- inner_channel : dimension de la première couche U-net. Il s’agit d’une valeur entière facultative. La valeur par défaut est 64. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
- keep_dilation : indiquez si keep_dilation doit être utilisée. Lorsqu’elle est définie sur True (Vrai) et que l’architecture pointrend est utilisée, elle peut potentiellement améliorer la précision aux dépens de la consommation de la mémoire. La valeur par défaut est False.
- lambda_feat : pondération pour la perte d’adéquation des entités. La valeur par défaut est 10.
- lambda_l1 : pondération pour la perte d’adéquation des entités. La valeur par défaut est 100. Cette option n’est pas prise en charge pour l’imagerie à 3 canaux.
- linear_end : entier facultatif qui permet de planifier la fin. La valeur par défaut est 1e-06. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
- linear_start : entier facultatif qui permet de planifier le début. La valeur par défaut est 1e-02. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
- lsgan : indique si vous souhaitez utiliser l’erreur quadratique moyenne dans l’entraînement. Si définie sur False (Faux), l’entropie croisée est utilisée. La valeur par défaut est True.
- location_loss_factor : définit la pondération de la perte d’emprise. Ce facteur ajuste la concentration du modèle sur l’emplacement de l’emprise. Lorsqu’il est défini sur Aucun, cela donne une pondération équivalente à la perte d’emplacement et de classification.
- min_points : nombre de pixels dans chaque échantillon depuis chaque région masquée de l’entraînement ; cette valeur doit être un multiple de 64.
- mixup : indiquez si mixup doit être utilisée. Si cette option est définie sur True (Vrai), cela génère de nouvelles images d’entraînement en mélangeant de façon aléatoire des images de définition d’entraînement. La valeur par défaut est False.
- mlp_ratio : ratio du perceptron multicouche (MLP). La valeur par défaut est 4.
- mlp1 : dimensions des espaces d’entité successifs de MLP1. La valeur par défaut est 32,64.
- mlp2 : dimensions des espaces d’entité successifs de MLP2. La valeur par défaut est 128,128.
- mlp4 : dimensions du décodeur MLP. La valeur par défaut est 64,32.
- model : modèle backbone utilisé pour entraîner le modèle. Les backbones disponibles dépendent de la valeur spécifiée pour le paramètre Type de modèle. Cet argument est uniquement pris en charge pour les types de modèles MMDetection et MMSegmentation. La valeur par défaut pour MMDetection est cascade_rcnn. La valeur MMSegmentation par défaut est mask2former.
- model_weight : détermine l’utilisation ou non des pondérations du modèle pré-entraîné. La valeur par défaut est False. La valeur peut également être un chemin d’accès à un fichier de configuration contenant les pondérations d’un modèle provenant du référentiel MMDetection ou MMSegmentation.
- monitor : indique la métrique à surveiller lors de la création des points de contrôle et de l’arrêt prématuré. Les métriques disponibles dépendent de la valeur du paramètre Model Type (Type de modèle). La valeur par défaut est valid_loss.
- mtl_model : spécifie le type d’architecture utilisé pour créer le modèle. Les options sont linknet ou hourglass pour les architectures neuronales basées sur linknet ou hourglass, respectivement. La valeur par défaut est hourglass.
- n_blocks_global : nombre de blocs résiduels dans le réseau du générateur global. La valeur par défaut est 9.
- n_blocks_local : nombre de blocs résiduels dans le réseau d’améliorations locales. La valeur par défaut est 3.
- n_downsample_global : nombre de couches de rééchantillonnage dans le réseau du générateur global.
- n_dscr : nombre de discriminateurs à utiliser. La valeur par défaut est 2.
- n_dscr_filters : nombre de filtres de discriminateur dans la première couche de convolution. La valeur par défaut est 64.
- n_gen_filters : nombre de filtres gen dans la première couche de convolution. La valeur par défaut est 64.
- n_head : nombre d’avertissements. La valeur par défaut est 4.
- n_layers_dscr : nombre de couches pour le réseau de discriminateur utilisé dans Pix2PixHD. La valeur par défaut est 3.
- n_local_enhancers : nombre d’améliorations locales à utiliser. La valeur par défaut est 1.
- n_masks : représente le nombre maximum d’étiquettes de classe et d’instances que toute image peut contenir. La valeur par défaut est 30.
- n_timestep : valeur facultative indiquant le nombre d’intervalles temporels de diffusion. La valeur par défaut est 1000. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
- norm : indique si vous souhaitez utiliser la normalisation par instance ou la normalisation par lot. La valeur par défaut est instance.
- norm_groups : nombre de groupes pour la normalisation des groupes. Il s’agit d’une valeur entière facultative. La valeur par défaut est 32. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
- num_heads : nombre d’avertissements. La valeur par défaut est 12.
- orient_bin_size : taille de groupe pour les angles d’orientation. La valeur par défaut est 20.
- orient_theta : largeur du masque d’orientation. La valeur par défaut est 8.
- oversample : indique si vous souhaitez utiliser le suréchantillonnage. Si cette option est définie sur True (Vrai), cela suréchantillonne les classes déséquilibrées du jeu de données lors de l’entraînement. Cette option n’est pas prise en charge avec les jeux de données MultiLabel. La valeur par défaut est False.
- patch_size : taille du gabarit pour générer les intégrations de gabarit. La valeur par défaut est 16.
- perceptual_loss : indique si vous souhaitez utiliser la perte perceptuelle dans l’entraînement. La valeur par défaut est False.
- pointrend : indique si vous souhaitez utiliser l’architecture PointRend en haut de la tête de segmentation. Pour en savoir plus sur l’architecture PointRend, consultez le PDF PointRend. La valeur par défaut est False.
- pooling : stratégie de groupage de l’intégration des pixels à utiliser. La valeur par défaut est mean
- pyramid_sizes : nombre et taille des couches de convolution à appliquer aux différentes sous-régions. La valeur par défaut est [1, 2, 3, 6]. Cet argument est propre au modèle Pyramid Scene Parsing Network.
- qkv_bias : indique si vous souhaitez utiliser la distorsion du vecteur QK dans l’entraînement. La valeur par défaut est False.
- ratios : liste des proportions à utiliser pour les zones d’ancrage. Dans le domaine de la détection d’objet, une zone d’ancrage représente la localisation, la forme et la taille idéales de l’objet qui fait l’objet d’une prédiction. Par exemple, si vous définissez cet argument sur [1.0,1.0], [1.0, 0.5], la boîte englobante est un carré (1:1) ou un rectangle pour lequel la longueur du côté horizontal correspond à la moitié de la longueur du côté vertical (1:0.5). La valeur par défaut pour RetinaNet est [0.5,1,2]. La valeur par défaut pour Single Shot Detector est [1.0, 1.0].
- res_blocks : nombre de blocs résiduels. Il s’agit d’une valeur entière facultative. La valeur par défaut est 3. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
- rpn_batch_size_per_image : nombre d’ancrages échantillonnés lors de l’entraînement du RPN pour calculer la perte. La valeur par défaut est 256.
- rpn_bg_iou_thresh. : l’intersection sur union (IoU) maximale entre l’ancrage et la zone GT afin qu’ils puissent être considérés comme négatifs lors de l’entraînement du RPN. La valeur par défaut est de 0,3.
- rpn_fg_iou_thresh : l’intersection sur union (IoU) minimale entre l’ancrage et la zone GT afin qu’ils puissent être considérés comme positifs lors de l’entraînement du RPN. La valeur par défaut est 0,7.
- rpn_nms_thresh : le seuil NMS utilisé pour post-traiter les propositions RPN. La valeur par défaut est 0,7.
- rpn_positive_fraction : la proportion des ancrages positifs dans un mini-lot lors de l’entraînement du RPN. La valeur par défaut est 0,5.
- rpn_post_nms_top_n_test : le nombre de propositions à conserver une fois le NMS appliqué lors du test. La valeur par défaut est 1000.
- rpn_post_nms_top_n_train : le nombre de propositions à conserver une fois le NMS appliqué lors de l’entraînement. La valeur par défaut est 2000.
- rpn_pre_nms_top_n_test : le nombre de propositions à conserver avant l’application du NMS lors du test. La valeur par défaut est 1000.
- rpn_pre_nms_top_n_train : le nombre de propositions à conserver avant l’application du NMS lors de l’entraînement. La valeur par défaut est 2000.
- scales : nombre de niveaux d’échelle selon lequel chaque cellule est réduite ou agrandie. La valeur par défaut est [1, 0,8, 0,63].
- schedule : argument facultatif pour définir le type de planification à utiliser. Les options sont linear, warmup10, warmup50, const, jsd et cosine. La valeur par défaut est linear. Cet argument est pris en charge uniquement lorsque le paramètre Backbone Model (Modèle de backbone) a pour valeur SR3.
- T : période à utiliser pour l’encodage positionnel. La valeur par défaut est 1000.
- timesteps_of_interest : la liste des intervalles d’intérêt ; elle permet de filtrer les séries chronologiques multitemporelles en fonction de la liste des intervalles spécifiés. Par exemple, si le jeu de données est associé aux intervalles 0, 1, 2 et 3, mais que seuls les intervalles 0, 1 et 2 sont utilisés dans l’entraînement, ce paramètre est défini sur [0,1,2]; the rest of the time-steps will be filtered out.
- use_net : indique si le décodeur U-Net est utilisé pour récupérer les données une fois le regroupement des pyramides effectué. La valeur par défaut est True. Cet argument est propre au modèle Pyramid Scene Parsing Network.
- vgg_loss : indique si vous souhaitez utiliser la perte d’adéquation des entités VGG. Cette option n’est prise en charge que pour l’imagerie à 3 canaux. La valeur par défaut est True.
- zooms : nombre de niveaux de zoom selon lequel chaque cellule de grille est réduite ou agrandie. Si vous définissez cet argument sur 1, toutes les cellules de grille restent à la même taille ou au même niveau de zoom. Un niveau de zoom égal à 2 signifie que toutes les cellules de grille deviennent deux fois plus grandes (agrandies à 100 pour cent). Si vous fournissez une liste de niveaux de zoom, toutes les cellules de grille sont mises à l’échelle avec tous les nombres de la liste. La valeur par défaut est 1.
Model type | Argument | Valeur valides |
---|---|---|
Détecteur de changements (classification de pixels) | attention_type | PAM (Pyramid Attention Module) ou BAM (Basic Attention Module). La valeur par défaut est PAM. |
chip_size | Entiers compris entre 0 et la taille de l’image. | |
monitor | valid_loss, precision, recall et f1. | |
ConnectNet (classification de pixels) | chip_size | Entiers compris entre 0 et la taille de l’image. |
gaussian_thresh | 0,0 à 1,0. La valeur par défaut est 0,76. | |
monitor | valid_loss, accuracy, miou et dice. | |
mtl_model | linknet ou hourglass. | |
orient_bin_size | Nombre positif. La valeur par défaut est 20. | |
orient_theta | Nombre positif. La valeur par défaut est 8. | |
CycleGAN (conversion d’images) | gen_blocks | Entier positif. La valeur par défaut est 9. |
lsgan | true ou false. La valeur par défaut est true. | |
DeepLabv (classification de pixels) | chip_size | Entiers compris entre 0 et la taille de l’image. |
class_balancing | true ou false. | |
dice_loss_average | micro ou macro. La valeur par défaut est micro. | |
dice_loss_fraction | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0. | |
focal_loss | true ou false. | |
ignore_classes | Valeurs de classe valides. | |
keep_dilation | true ou false. La valeur par défaut est false. | |
mixup | true ou false. | |
monitor | valid_loss et accuracy. | |
pointrend | true ou false. La valeur par défaut est false. | |
FasterRCNN (Détection des objets) | box_batch_size_per_image | Entiers positifs. La valeur par défaut est 512. |
box_bg_iou_thresh | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5. | |
box_detections_per_img | Entiers positifs. La valeur par défaut est 100. | |
box_fg_iou_thresh | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5. | |
box_nms_thresh | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5. | |
box_positive_fraction | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,25. | |
box_score_thresh | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,05. | |
rpn_batch_size_per_image | Entiers positifs. La valeur par défaut est 256. | |
rpn_bg_iou_thresh | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est de 0,3. | |
rpn_fg_iou_thresh | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,7. | |
rpn_nms_thresh | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,7. | |
rpn_positive_fraction | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5. | |
rpn_post_nms_top_n_test | Entiers positifs. La valeur par défaut est 1000. | |
rpn_post_nms_top_n_train | Entiers positifs. La valeur par défaut est 2000. | |
rpn_pre_nms_top_n_test | Entiers positifs. La valeur par défaut est 1000. | |
rpn_pre_nms_top_n_train | Entiers positifs. La valeur par défaut est 2000. | |
Classificateur d’entités (Classification d’objets) | backend | pytorch ou tensorflow. La valeur par défaut est pytorch. |
mixup | true ou false. La valeur par défaut est false. | |
oversample | true ou false. La valeur par défaut est false. | |
Sous-titreur d’images (conversion d’images) | chip_size | Entiers compris entre 0 et la taille de l’image. |
L’argument decode_params se compose des paramètres suivants :
| La valeur par défaut est {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False}. | |
monitor | valid_loss, accuracy, corpus_bleu etmulti_label_fbeta. | |
MaskRCNN (Détection des objets) | box_batch_size_per_image | Entiers positifs. La valeur par défaut est 512. |
box_bg_iou_thresh | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5. | |
box_detections_per_img | Entiers positifs. La valeur par défaut est 100. | |
box_fg_iou_thresh | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5. | |
box_nms_thresh | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5. | |
box_positive_fraction | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,25. | |
box_score_thresh | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,05. | |
rpn_batch_size_per_image | Entiers positifs. La valeur par défaut est 256. | |
rpn_bg_iou_thresh | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est de 0,3. | |
rpn_fg_iou_thresh | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,7. | |
rpn_nms_thresh | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,7. | |
rpn_positive_fraction | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,5. | |
rpn_post_nms_top_n_test | Entiers positifs. La valeur par défaut est 1000. | |
rpn_post_nms_top_n_train | Entiers positifs. La valeur par défaut est 2000. | |
rpn_pre_nms_top_n_test | Entiers positifs. La valeur par défaut est 1000. | |
rpn_pre_nms_top_n_train | Entiers positifs. La valeur par défaut est 2000. | |
MaXDeepLab (segmentation panoptique) | n_masks | Entiers positifs. La valeur par défaut est 30. |
MMDetection (détection d’objets) | chip_size | Entiers compris entre 0 et la taille de l’image. |
model | atss, carafe, cascade_rcnn, cascade_rpn, dcn, deeplabv3, detectors, dino, double_heads, dynamic_rcnn, empirical_attention, fcos, foveabox, fsaf, ghm, hrnet, libra_rcnn, nas_fcos, pafpn, pisa, regnet, reppoints, res2net, sabl, et vfnet. La valeur par défaut est deeplabv3. | |
model_weight | true ou false. | |
MMSegmentation (classification de pixels) | chip_size | Entiers compris entre 0 et la taille de l’image. |
model | ann, apcnet, ccnet, cgnet, deeplabv3, deeplabv3plus, dmnet , dnlnet, emanet, fastscnn, fcn, gcnet, hrnet, mask2former, mobilenet_v2, nonlocal_net, ocrnet, prithvi100m, psanet, pspnet, resnest, sem_fpn, unet et upernet. La valeur par défaut est mask2former. | |
model_weight | true ou false. | |
Extracteur de routes multitâche (classification de pixels) | chip_size | Entiers compris entre 0 et la taille de l’image. |
gaussian_thresh | 0,0 à 1,0. La valeur par défaut est 0,76. | |
monitor | valid_loss, accuracy, miou et dice. | |
mtl_model | linknet ou hourglass. | |
orient_bin_size | Nombre positif. La valeur par défaut est 20. | |
orient_theta | Nombre positif. La valeur par défaut est 8. | |
Pix2Pix (conversion d’images) | perceptual_loss | true ou false. La valeur par défaut est false. |
Pix2PixHD (conversion d’images) | gen_network | local ou global. La valeur par défaut est local. |
feat_loss | true ou false. La valeur par défaut est true. | |
lambda_feat | Valeurs des entiers positifs. La valeur par défaut est 10. | |
lambda_l1 | Valeurs des entiers positifs. La valeur par défaut est 100. | |
lsgan | true ou false. La valeur par défaut est true. | |
n_blocks_global | Valeurs des entiers positifs. La valeur par défaut est 9. | |
n_blocks_local | Valeurs des entiers positifs. La valeur par défaut est 3. | |
n_downsample_global | Valeurs des entiers positifs. La valeur par défaut est 4. | |
n_dscr | Valeurs des entiers positifs. La valeur par défaut est 2. | |
n_dscr_filters | Valeurs des entiers positifs. La valeur par défaut est 64. | |
n_gen_filters | Valeurs des entiers positifs. La valeur par défaut est 64. | |
n_layers_dscr | Valeurs des entiers positifs. La valeur par défaut est 3. | |
n_local_enhancers | Valeurs des entiers positifs. La valeur par défaut est 1. | |
norm | instance ou batch. La valeur par défaut est instance. | |
vgg_loss | true ou false. La valeur par défaut est true. | |
PSETAE (classification de pixels) | channels_of_interest | Liste des numéros de canaux (entiers positifs). |
d_k | Valeurs des entiers positifs. La valeur par défaut est 32. | |
dropout | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0,2. | |
min_points | Multiples entiers de 64. | |
mlp1 | Liste des entiers positifs. La valeur par défaut est 32, 64. | |
mlp2 | Liste des entiers positifs. La valeur par défaut est 128, 128. | |
mlp4 | Liste des entiers positifs. La valeur par défaut est 64, 32. | |
n_head | Valeurs des entiers positifs. La valeur par défaut est 4. | |
pooling | mean, std, max, ou min. | |
T | Valeurs des entiers positifs. La valeur par défaut est 1000. | |
timesteps_of_interest | Liste des entiers positifs. | |
Pyramid Scene Parsing Network (classification de pixels) | chip_size | Entiers compris entre 0 et la taille de l’image. |
class_balancing | true ou false. | |
dice_loss_average | micro ou macro. La valeur par défaut est micro. | |
dice_loss_fraction | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0. | |
focal_loss | true ou false. | |
ignore_classes | Valeurs de classe valides. | |
keep_dilation | true ou false. La valeur par défaut est false. | |
monitor | valid_loss ou accuracy. | |
mixup | true ou false. | |
pointrend | true ou false. La valeur par défaut est false. | |
pyramid_sizes | [couche de convolution 1, couche de convolution 2, ... , couche de convolution n] | |
use_net | true ou false. | |
RetinaNet (détection d’objets) | chip_size | Entiers compris entre 0 et la taille de l’image. |
monitor | valid_loss ou average_precision. | |
ratios | Valeur de ratio 1, valeur de ratio 2, valeur de ratio 3. La valeur par défaut est 0.5,1,2. | |
scales | [valeur d’échelle 1, valeur d’échelle 2, valeur d’échelle 3] La valeur par défaut est [1, 0.8, 0.63]. | |
SAMLoRA (classification de pixels) | class_balancing | true ou false. |
ignore_classes | Valeurs de classe valides. | |
Single Shot Detector (détection d’objets) | backend | pytorch ou tensorflow. La valeur par défaut est pytorch. |
bias | Valeur à virgule flottante. La valeur par défaut est -0,4. | |
chip_size | Entiers compris entre 0 et la taille de l’image. La valeur par défaut est de 0,3. | |
drop | Valeur à virgule flottante entre 0 et 1. | |
focal_loss | true ou false. La valeur par défaut est false. | |
grids | Valeurs entières supérieures à 0. | |
location_loss_factor | Valeur à virgule flottante entre 0 et 1. | |
monitor | valid_loss ou average_precision. | |
ratios | [valeur horizontale, valeur verticale] | |
zooms | Valeur de zoom où 1,0 est le zoom normal. | |
Super-résolution avec backbone SR3 (conversion d’images) | attn_res | Entiers supérieurs à 0. La valeur par défaut est 16. |
channel_mults | Ensembles de multiplicateurs entiers. La valeur par défaut est [1, 2, 4, 4, 8, 8]. | |
downsample_factor | Valeur de l’entier positif. La valeur par défaut est 4. | |
dropout | Valeur à virgule flottante. La valeur par défaut est 0. | |
inner_channel | Valeur entière supérieure à 0. La valeur par défaut est 64. | |
linear_start | Entier horaire. La valeur par défaut est 1e-02. | |
linear_end | Entier horaire. La valeur par défaut est 1e-06. | |
n_timestep | Valeur entière supérieure à 0. La valeur par défaut est 1000. | |
norm_groups | Valeur entière supérieure à 0. La valeur par défaut est 32. | |
res_blocks | Valeur entière supérieure à 0. La valeur par défaut est 3. | |
schedule | linear, warmup10, warmup50, const, jsd ou cosine. La valeur par défaut est linear. | |
Super-résolution avec backbone SR3_UViT (conversion d’images) | depth | Valeur du point d’entier positif. La valeur par défaut est 17. |
embed_dim | Valeur du point d’entier positif. La valeur par défaut est 768. | |
mlp_ratio | Valeur de la virgule flottante positive. La valeur par défaut est 4.0. | |
num_heads | Valeur du point d’entier positif. La valeur par défaut est 12. | |
patch_size | Valeur du point d’entier positif. La valeur par défaut est 16. | |
qkv_bias | true ou false. La valeur par défaut est false. | |
U-Net (classification de pixels) | chip_size | Entiers compris entre 0 et la taille de l’image. |
class_balancing | true ou false. | |
dice_loss_average | micro ou macro. La valeur par défaut est micro. | |
dice_loss_fraction | Valeur à virgule flottante entre 0 et 1. La valeur par défaut est 0. | |
focal_loss | true ou false. | |
ignore_classes | Valeurs de classe valides. | |
monitor | valid_loss ou accuracy. | |
mixup | true ou false. |
Arguments d’inférence
Les arguments ci-après permettent de contrôler la manière dont les modèles de Deep Learning sont entraînés pour l’inférence. Les informations du paramètre Définition de modèle sont utilisées pour renseigner le paramètre Arguments dans les outils d’inférence. Ces arguments varient selon l’architecture du modèle. Les modèles pré-entraînés ArcGIS et les modèles de Deep Learning personnalisés peuvent comporter des arguments supplémentaires pris en charge par l’outil.
Argument | Type d’inférence | Valeur valides | |
---|---|---|---|
batch_size | Nombre de tuiles d’image traitées à chaque étape de l’inférence du modèle. Ce nombre dépend de la mémoire de la carte graphique. L’argument est disponible pour toutes les architectures de modèle. | Classer les objets Classer les pixels Détecter les modifications Détecter des objets | Valeurs entières supérieures à 0 ; généralement un entier à la puissance 2n. |
direction | L’image est convertie d’un domaine à un autre. Pour plus d’informations sur cet argument, reportez-vous à la rubrique Fonctionnement de CycleGAN. L’argument est uniquement disponible pour l’architecture CycleGAN. | Classer les pixels | Les options disponibles sont AtoB et BtoA. |
exclude_pad_detections | \Si la valeur est vraie, les détections potentiellement tronquées sur les arêtes qui se trouvent dans la région remplie de fragments d’image sont filtrées. L’argument est disponible pour SSD, RetinaNet, YOLOv3, DETReg, MMDetection et Faster RCNN uniquement. | Détecter des objets | true ou false. |
merge_policy | La stratégie utilisée pour fusionner les prévisions augmentées. Applicable uniquement si l’augmentation du temps de test est utilisée. Pour l’outil Classer des pixels à l’aide du Deep Learning, l’argument est disponible pour les architectures MultiTaskRoadExtractor et ConnectNet. Si IsEdgeDetection est présent dans le fichier .emd du modèle, les architectures BDCNEdgeDetector, HEDEdgeDetector et MMSegmentation sont également disponibles. Pour l’outil Détecter des objets à l’aide du Deep Learning, l’argument est uniquement disponible pour MaskRCNN. | Classer les pixels Détecter des objets | Les options disponibles sont mean, max et min. |
nms_overlap | Ratio de superposition maximale de deux entités se chevauchant, défini comme le rapport entre la zone d’intersection et la zone d’union. L’argument est disponible pour toutes les architectures de modèle. | Détecter des objets | Valeur à virgule flottante comprise entre 0,0 et 1,0. La valeur par défaut est 0,1. |
output_classified_raster | Chemin vers le raster de sortie. L’argument est disponible uniquement pour MaXDeepLab. | Détecter des objets | Chemin et nom de fichier du raster classé en sortie. |
padding | Le nombre de pixels en bordure des tuiles d’image à partir duquel les prévisions sont fusionnées pour les tuiles adjacentes. Pour lisser la sortie tout en réduisant les artefacts, augmentez la valeur. La valeur maximale de la marge intérieure peut représenter la moitié de la valeur de la taille d’une tuile. L’argument est disponible pour toutes les architectures de modèle. | Classer les pixels Détecter les modifications Détecter des objets | Valeurs entières supérieures à 0 et inférieures à la moitié de la valeur de la taille de tuile. |
predict_background | S’il est défini sur Vrai, la classe d’arrière-plan est également classée. L’argument est disponible pour UNET, PSPNET, DeepLab et MMSegmentation. | Classer les pixels | true ou false. |
return_probability_raster | Si l’option est définie sur True (Vrai), la sortie est un raster de probabilité. Un raster de probabilité est un raster dont les pixels définissent la probabilité selon laquelle la variable d’intérêt est supérieure ou inférieure à une valeur seuil définie. Si ArcGISLearnVersion est de version 1.8.4 ou supérieure dans le fichier .emd du modèle, les architectures MultiTaskRoadExtractor et ConnectNet sont disponibles. Si ArcGISLearnVersion est de version 1.8.4 ou supérieure et que IsEdgeDetection est présent dans le fichier .emd du modèle, les architectures BDCNEdgeDetector, HEDEdgeDetector et MMSegmentation sont également disponibles. | Classer les pixels | true ou false. |
score_threshold | Les prévisions au-dessus du score de confiance sont incluses dans le résultat. L’argument est disponible pour toutes les architectures de modèle. | Classer les objets | Compris entre 0 et 1,0. |
test_time_augmentation | Procède à l’augmentation du temps de test lors de la prévision. Si la valeur est vraie, les prévisions des variants inversés et pivotés de l’image en entrée sont fusionnées dans la sortie finale. L’argument est disponible pour quasiment toutes les architectures de modèle. | Classer les objets Classer les pixels | true ou false. |
threshold | Les prévisions dont le score de confiance est supérieure à ce seuil sont incluses dans le résultat. Pour l’outil Classer des pixels à l’aide du Deep Learning, si ArcGISLearnVersion est de version 1.8.4 ou supérieure dans le fichier .emd du modèle, les architectures MultiTaskRoadExtractor et ConnectNet sont disponibles. Si ArcGISLearnVersion est de version 1.8.4 ou supérieure et que IsEdgeDetection est présent dans le fichier .emd du modèle, les architectures BDCNEdgeDetector, HEDEdgeDetector et MMSegmentation sont également disponibles. Pour l’outil Détecter des objets à l’aide du Deep Learning, l’argument est disponible pour toutes les architectures de modèle. | Classer les pixels Détecter des objets | Compris entre 0 et 1,0. |
thinning | Affine ou simplifie les bords prévus. Si IsEdgeDetection est présent dans le fichier .emd du modèle, les architectures BDCNEdgeDetector, HEDEdgeDetector et MMSegmentation sont disponibles. | Classer les pixels | true ou false. |
tile_size | tile_size : la largeur et la hauteur des tuiles d’image dans l’imagerie est fractionnée en vue de la prévision. Pour l’outil Classer des pixels à l’aide du Deep Learning, l’argument est disponible uniquement pour l’architecture CycleGAN. Pour l’outil Détecter des objets à l’aide du Deep Learning, l’argument est uniquement disponible pour MaskRCNN. | Classer les pixels Détecter des objets | Valeurs entières supérieures à 0 et inférieures à la taille de l’image. |
Rubriques connexes
Vous avez un commentaire à formuler concernant cette rubrique ?