Arguments du modèle (Facultatif) | Les arguments de la fonction sont définis dans la classe de fonction raster Python. C’est là que vous répertoriez les paramètres d’apprentissage profond supplémentaires et les arguments des expériences et améliorations, tels qu’un seuil de confiance pour l’ajustement de la sensibilité. Les noms des arguments sont alimentés lors de la lecture du module Python. Lorsque vous sélectionnez Détecteur de tir unique (détection des objets) comme valeur du paramètre Type de modèle, le paramètre Arguments du modèle est renseigné avec les arguments suivants : - grids : nombre de grilles selon lequel l’image est divisée pour le traitement. Si vous définissez cet argument sur 4, l’image est divisée en 4 x 4 ou 16 cellules de grille. Si aucune valeur n’est spécifiée, la valeur de grille optimale est calculée en fonction de l’imagerie en entrée.
- zooms : nombre de niveaux de zoom selon lequel chaque cellule de grille est réduite ou agrandie. Si vous définissez cet argument sur 1, toutes les cellules de grille restent à la même taille ou au même niveau de zoom. Un niveau de zoom égal à 2 signifie que toutes les cellules de grille deviennent deux fois plus grandes (agrandies à 100 pour cent). Si vous fournissez une liste de niveaux de zoom, toutes les cellules de grille sont mises à l’échelle avec tous les nombres de la liste. La valeur par défaut est 1,0.
- ratios : liste des proportions à utiliser pour les zones d’ancrage. Dans le domaine de la détection d’objet, une zone d’ancrage représente la localisation, la forme et la taille idéales de l’objet qui fait l’objet d’une prédiction. Si vous définissez cet argument sur [1,0, 1,0], [1,0, 0,5], la zone d’ancrage est un carré (1:1) ou un rectangle dans lequel le côté horizontal fait la moitié de la taille du côté vertical (1:0,5). La valeur par défaut est [1,0, 1,0].
- monitor : indique la métrique à surveiller lors de la création des points de contrôle et de l’arrêt prématuré. Les métriques disponibles sont valid_loss et average_precision. La métrique par défaut est valid_loss.
Lorsque vous choisissez un modèle de classification des pixels tel que Pyramid Scene Parsing Network (classification de pixels), U-Net (classification de pixels) ou DeepLabv3 (classification de pixels) comme valeur du paramètre Type de modèle, le paramètre Arguments du modèle est renseigné avec les arguments suivants : - use_net : indique si le décodeur U-Net est utilisé pour récupérer les données une fois le regroupement pyramidal opéré. La valeur par défaut est Vrai. Cet argument est propre au modèle Pyramid Scene Parsing Network.
- pyramid_sizes : nombre et taille des couches de convolution à appliquer aux différentes sous-régions. La valeur par défaut est [1, 2 , 3, 6]. Cet argument est propre au modèle Pyramid Scene Parsing Network.
- mixup : indique si l’augmentation MixUp et la perte MixUp sont utilisées. La valeur par défaut est Faux.
- class_balancing : indique si la perte d’entropie croisée inverse est équilibrée avec la fréquence des pixels par classe. La valeur par défaut est Faux.
- focal_loss : indique si la perte focale est utilisée. La valeur par défaut est Faux.
- ignore_classes : contient la liste des valeurs de classe sur lesquelles le modèle n’encourt pas de perte.
- monitor : indique la métrique à surveiller lors de la création des points de contrôle et de l’arrêt prématuré. Les métriques disponibles sont valid_loss et accuracy. La métrique par défaut est valid_loss.
Lorsque vous sélectionnez RetinaNet (détection des objets) comme valeur du paramètre Type de modèle, le paramètre Arguments du modèle est renseigné avec les arguments suivants : - scales : nombre de niveaux d’échelle selon lequel chaque cellule est réduite ou agrandie. La valeur par défaut est [1, 0,8, 0,63].
- ratios : proportions de la zone d’ancrage. La valeur par défaut est 0,5, 1, 2.
- monitor : indique la métrique à surveiller lors de la création des points de contrôle et de l’arrêt prématuré. Les métriques disponibles sont valid_loss et average_precision. La métrique par défaut est valid_loss.
Lorsque vous sélectionnez Extracteur de route multitâche (classification de pixels) ou ConnectNet (classification de pixels) comme valeur du paramètre Type de modèle, le paramètre Arguments du modèle est renseigné avec les arguments suivants : - gaussian_thresh : définit le seuil gaussien, qui configure la largeur de route requise. La plage valide est comprise entre 0,0 et 1,0. La valeur par défaut est 0,76.
- orient_bin_size : définit la taille de groupe pour les angles d’orientation. La valeur par défaut est 20.
- orient_theta : définit la largeur du masque d’orientation. La valeur par défaut est 8.
- mtl_model : définit le type d’architecture à utiliser pour créer le modèle. Les choix valides sont linknet ou hourglass pour les architectures neuronales basées respectivement sur linknet ou sur hourglass. La valeur par défaut est hourglass.
- monitor : indique la métrique à surveiller lors de la création des points de contrôle et de l’arrêt prématuré. Les métriques disponibles sont valid_loss, accuracy, miou et dice. La métrique par défaut est valid_loss.
Lorsque vous sélectionnez Créateur de légende d’image (conversion d’image) comme valeur du paramètre Type de modèle, le paramètre Arguments du modèle est renseigné avec les arguments suivants : - decode_params : dictionnaire qui contrôle le mode de fonctionnement du créateur de légende d’image. La valeur par défaut est {'embed_size':100, 'hidden_size':100, 'attention_size':100, 'teacher_forcing':1, 'dropout':0.1, 'pretrained_emb':False}.
- chip_size : définit la taille d’image pour entraîner le modèle. Les images sont rognées selon la taille de fragment spécifiée. Si la taille de l’image est inférieure à la taille du fragment, la taille de l’image est utilisée. La taille par défaut est 224 pixels.
- monitor : indique la métrique à surveiller lors de la création des points de contrôle et de l’arrêt prématuré. Les métriques disponibles sont valid_loss, accuracy, corpus_bleu et multi_label_fbeta. La métrique par défaut est valid_loss.
L’argument decode_params se compose des six paramètres suivants :- embed_size : définit la taille d’intégration. La valeur par défaut est de 100 couches dans le réseau neuronal.
- hidden_size : définit la taille de la couche masquée. La valeur par défaut est de 100 couches dans le réseau neuronal.
- attention_size : définit la taille de la couche d’attention intermédiaire. La valeur par défaut est de 100 couches dans le réseau neuronal.
- teacher_forcing : définit la probabilité de forçage des enseignants. Le forçage des enseignants est une stratégie destinée à entraîner les réseaux neuronaux récurrents. Il utilise en entrée la sortie du modèle d’un intervalle temporel précédent au lieu de la sortie précédente, au cours de la rétro-propagation. La plage valide est comprise entre 0,0 et 1,0. La valeur par défaut est 1.
- dropout : définit la probabilité d’abandon. La plage valide est comprise entre 0,0 et 1,0. La valeur par défaut est 0,1.
- pretrained_emb : définit l’indicateur d’intégration pré-entraînée. Si la valeur est Vrai, il utilise l’intégration de texte rapide. Si la valeur est Faux, il n’utilise pas l’intégration de texte pré-entraînée. La valeur par défaut est Faux.
Lorsque vous sélectionnez Détecteur des changements (classification de pixels) comme valeur du paramètre Type de modèle, le paramètre Arguments du modèle est renseigné avec les arguments suivants : - attention_type : indique le type de module. Les modules disponibles sont PAM (Pyramid Attention Module) ou BAM (Basic Attention Module). La valeur par défaut est PAM.
- monitor : indique la métrique à surveiller lors de la création des points de contrôle et de l’arrêt prématuré. Les métriques disponibles sont valid_loss, precision, recall et f1. La métrique par défaut est valid_loss.
Lorsque vous sélectionnez MMDetection (détection des objets) comme valeur du paramètre Type de modèle, le paramètre Arguments du modèle est renseigné avec les arguments suivants : - model : modèle backbone utilisé pour entraîner le modèle. Les choix disponibles sont les suivants : atss, carafe, cascade_rcnn, cascade_rpn, dcn, detectors, double_heads, dynamic_rcnn, empirical_attention, fcos, foveabox, fsaf, ghm, hrnet, libra_rcnn, nas_fcos, pafpn, pisa, regnet, reppoints, res2net, sabl et vfnet. La valeur par défaut est cascade_rcnn.
- model_weight : détermine l’utilisation ou non des pondérations du modèle pré-entraîné. Par défaut, cette propriété est définie sur faux. La valeur peut également être un chemin d’accès à un fichier de configuration contenant les pondérations d’un modèle, dans le référentiel MMDetection.
Lorsque vous sélectionnez MMSegmentation (classification de pixels) comme valeur du paramètre Type de modèle, le paramètre Arguments du modèle est renseigné avec les arguments suivants : - model : modèle backbone utilisé pour entraîner le modèle. Les choix disponibles sont les suivants : ann, apcnet, ccnet, cgnet, danet, deeplabv3, deeplabv3plus, dmnet, dnlnet, emanet, encnet, fastscnn, fcn, gcnet, hrnet, mobilenet_v2, mobilenet_v3, nonlocal_net, ocrnet, ocrnet_base, pointrend, psanet, pspnet, resnest, sem_fpn, unet et upernet. La valeur par défaut est deeplabv3.
- model_weight : détermine l’utilisation ou non des pondérations du modèle pré-entraîné. Par défaut, cette propriété est définie sur faux. La valeur peut également être un chemin d’accès à un fichier de configuration contenant les pondérations d’un modèle, dans le référentiel MMSegmentation.
Tous les types de modèle prennent en charge l’argument chip_size, qui est la taille du fragment d’image des échantillons d’entraînement. La taille du fragment d’image est extraite du fichier .emd situé dans le dossier spécifié dans le paramètre Données d’entraînement en entrée. | Value Table |
Modèle backbone (Facultatif) | Spécifie le réseau neuronal préconfiguré à utiliser comme architecture pour entraîner le nouveau modèle. Cette méthode est connue sous le nom de Transfer Learning. Par ailleurs, les réseaux neuronaux convolutifs pris en charge des modèles d’image PyTorch (timm) peuvent être spécifiés à l’aide du préfixe timm:. Par exemple, timm:resnet31 , timm:inception_v4 , timm:efficientnet_b3, etc. - DenseNet-121—Le modèle préconfiguré est un réseau dense entraîné sur le jeu de données Imagenet qui contient plus d’un million d’images et a une profondeur de 121 couches. Contrairement à RESNET, qui combine la couche à l’aide de l’addition, DenseNet combine les couches à l’aide de la concaténation.
- DenseNet-161—Le modèle préconfiguré est un réseau dense entraîné sur le jeu de données Imagenet qui contient plus d’un million d’images et a une profondeur de 161 couches. Contrairement à RESNET, qui combine la couche à l’aide de l’addition, DenseNet combine les couches à l’aide de la concaténation.
- DenseNet-169—Le modèle préconfiguré est un réseau dense entraîné sur le jeu de données Imagenet qui contient plus d’un million d’images et a une profondeur de 169 couches. Contrairement à RESNET, qui combine la couche à l’aide de l’addition, DenseNet combine les couches à l’aide de la concaténation.
- DenseNet-201—Le modèle préconfiguré est un réseau dense entraîné sur le jeu de données Imagenet qui contient plus d’un million d’images et a une profondeur de 201 couches. Contrairement à RESNET, qui combine la couche à l’aide de l’addition, DenseNet combine les couches à l’aide de la concaténation.
- MobileNet version 2—Ce modèle préconfiguré est entraîné dans la base de données Imagenet, a une profondeur de 54 couches et est destiné à l’informatique en périphérie de réseau (Edge Computing) car il utilise moins de mémoire.
- ResNet-18—Le modèle préconfiguré est un réseau résiduel entraîné sur le jeu de données Imagenet qui contient plus d’un million d’images et a une profondeur de 18 couches.
- ResNet-34—Le modèle préconfiguré est un réseau résiduel entraîné sur le jeu de données Imagenet qui contient plus d’un million d’images et a une profondeur de 34 couches. Il s’agit de l’option par défaut.
- ResNet-50—Le modèle préconfiguré est un réseau résiduel entraîné sur le jeu de données Imagenet qui contient plus d’un million d’images et a une profondeur de 50 couches.
- ResNet-101—Le modèle préconfiguré est un réseau résiduel entraîné sur le jeu de données Imagenet qui contient plus d’un million d’images et a une profondeur de 101 couches.
- ResNet-152—Le modèle préconfiguré est un réseau résiduel entraîné sur le jeu de données Imagenet qui contient plus d’un million d’images et a une profondeur de 152 couches.
- VGG-11—Le modèle préconfiguré est un réseau neuronal convolutif entraîné sur le jeu de données Imagenet qui contient plus d’un million d’images en vue de classer des images dans 1 000 catégories d’objets et a une profondeur de 11 couches.
- VGG-11 avec normalisation par lots—Ce modèle préconfiguré repose sur le réseau VGG mais avec une normalisation par lots, ce qui signifie que chaque couche du réseau est normalisée. Il est entraîné sur le jeu de données Imagenet et comporte 11 couches.
- VGG-13—Le modèle préconfiguré est un réseau neuronal convolutif entraîné sur le jeu de données Imagenet qui contient plus d’un million d’images en vue de classer des images dans 1 000 catégories d’objets et a une profondeur de 13 couches.
- VGG-13 avec normalisation par lots—Ce modèle préconfiguré repose sur le réseau VGG mais avec une normalisation par lots, ce qui signifie que chaque couche du réseau est normalisée. Il est entraîné sur le jeu de données Imagenet et comporte 13 couches.
- VGG-16—Le modèle préconfiguré est un réseau neuronal convolutif entraîné sur le jeu de données Imagenet qui contient plus d’un million d’images en vue de classer des images dans 1 000 catégories d’objets et a une profondeur de 16 couches.
- VGG-16 avec normalisation par lots—Ce modèle préconfiguré repose sur le réseau VGG mais avec une normalisation par lots, ce qui signifie que chaque couche du réseau est normalisée. Il est entraîné sur le jeu de données Imagenet et comporte 16 couches.
- VGG-19—Le modèle préconfiguré est un réseau neuronal convolutif entraîné sur le jeu de données Imagenet qui contient plus d’un million d’images en vue de classer des images dans 1 000 catégories d’objets et a une profondeur de 19 couches.
- VGG-19 avec normalisation par lots—Ce modèle préconfiguré repose sur le réseau VGG mais avec une normalisation par lots, ce qui signifie que chaque couche du réseau est normalisée. Il est entraîné sur le jeu de données Imagenet et comporte 19 couches.
- DarkNet-53—Le modèle préconfiguré est un réseau neuronal convolutif entraîné sur le jeu de données Imagenet qui contient plus d’un million d’images et a une profondeur de 53 couches.
- Reid_v1—Le modèle préconfiguré est un réseau neuronal convolutif entraîné sur le jeu de données Imagenet qui est utilisé pour le suivi d’objets.
- Reid_v2—Le modèle préconfiguré est un réseau neuronal convolutif entraîné sur le jeu de données Imagenet qui est utilisé pour le suivi d’objets.
| String |