Disponible avec une licence Advanced.
Disponible avec une licence Image Analyst.
L’assistant Train Deep Learning Model (Entraîner le modèle de Deep Learning) est un processus assisté permettant d’entraîner un modèle de Deep Learning à l’aide des données que vous avez recueillies. Dès que vous avez entraîné les données, ouvrez l’assistant Train Deep Learning Model (Entraîner le modèle de Deep Learning) dans l’onglet Imagery (Imagerie) du menu déroulant Deep Learning Tools (Outils de Deep Learning)
.
L’assistant contient trois pages : Get Started (Prise en main), Train (Entraîner) et Result (Résultat).
Pour utiliser l’assistant Train Deep Learning Model (Entraîner le modèle de Deep Learning), procédez comme suit :
- Cliquez sur l’onglet Imagery (Imagerie).
- Cliquez sur le menu déroulant Deep Learning Tools (Outils de Deep Learning)
et choisissez Train Deep Learning Model (Entraîner le modèle de Deep Learning)
.
La fenêtre de l’assistant Train Deep Learning Model (Entraîner le modèle de Deep Learning) s’ouvre.
Prise en main
Sur la page Get Started (Prise en main) de l’assistant, vous devez spécifier la manière d’entraîner le modèle de Deep Learning.
- Spécifiez la manière d’entraîner le modèle.
- Set the parameters automatically (Définir les paramètres automatiquement) — Le type de modèle, les paramètres et les hyperparamètres sont définis automatiquement pour générer le meilleur modèle. Cette option nécessite la licence ArcGIS Pro Advanced.
- Specify my own parameters (Spécifier mes paramètres personnels) — Vous définissez le type de modèle, les paramètres et les hyperparamètres pour générer le modèle. Cette option requiert l’extension ArcGIS Image Analyst.
- Cliquez sur le bouton Next (Suivant) pour accéder à la page Train (Entraîner).
Entraîner le modèle
Sur la page Train (Entraîner), vous définissez les informations relatives aux paramètres d’entraînement. Selon l’option spécifiée sur la page Get Started (Prise en main), les paramètres peuvent varier.
- Spécifiez les paramètres requis.
Données d’entraînement en entrée
Dossiers contenant les fragments d’images, les étiquettes et les statistiques nécessaires à l’entraînement d’un modèle. Il s’agit de la sortie de l’outil Export Training Data For Deep Learning (Exporter les données d’entraînement pour le Deep Learning).
Modèle en sortie
(Entraînement automatique)
Modèle entraîné en sortie destiné à être enregistré en tant que paquetage de Deep Learning (fichier .dlpk).
Dossier en sortie
(Entraînement manuel)
Emplacement du dossier en sortie où sera stocké le modèle entraîné.
- Définissez éventuellement d’autres paramètres.
Paramètres d’entraînement automatique
Paramètre Description Modèle pré-entraîné
Modèle pré-entraîné qui sera utilisé pour affiner le nouveau modèle. L’entrée est un fichier de définition de modèle Esri (.emd) ou un fichier de paquetage Deep Learning (.dlpk).
Un modèle pré-entraîné avec des classes similaires peut être affiné en vue de son adaptation au nouveau modèle. Le modèle pré-entraîné doit avoir été entraîné avec le même type de modèle et le même modèle d’architecture que ceux qui seront utilisés pour entraîner le nouveau modèle. L’ajustement n’est possible que pour les modèles entraînés à l’aide d’ArcGIS.
Limite de temps totale (Heures)
Limite de temps totale en heures nécessaire à l’entraînement du modèle AutoDL. La valeur par défaut est de 2 heures.
Auto DL Mode (Mode Auto DL)
Indique le mode AutoDL à utiliser et le degré d’intensité de la recherche AutoDL.
- Basic (De base) : entraînez tous les réseaux sélectionnés sans optimisation des hyperparamètres.
- Advanced (Avancé) : optimisez les hyperparamètres des deux principaux modèles de performances.
Réseaux neuronaux
Indique les architectures à utiliser pour entraîner le modèle.
Par défaut, tous les réseaux sont utilisés.
Save Evaluated Models (Enregistrer les modèles évalués)
Indique si tous les modèles évalués sont enregistrés.
- Activé : tous les modèles évalués sont enregistrés.
- Désactivé : seul le modèle le plus performant est enregistré. Il s’agit de l’option par défaut.
Paramètres d’entraînement manuel
Paramètre Description Max Epochs (Nombre maximal d’époques)
Nombre maximal d’époques pour lequel le modèle sera entraîné. Si la valeur est 1, le jeu de données va et vient une fois sur le réseau neuronal. La valeur par défaut est 20.
Modèle pré-entraîné
Modèle pré-entraîné qui sera utilisé pour affiner le nouveau modèle. L’entrée est un fichier de définition de modèle Esri (.emd) ou un fichier de paquetage Deep Learning (.dlpk).
Un modèle pré-entraîné avec des classes similaires peut être affiné en vue de son adaptation au nouveau modèle. Le modèle pré-entraîné doit avoir été entraîné avec le même type de modèle et le même modèle d’architecture que ceux qui seront utilisés pour entraîner le nouveau modèle. L’ajustement n’est possible que pour les modèles entraînés à l’aide d’ArcGIS.
Type de modèle
Spécifie le type de modèle qui sera utilisé pour entraîner le modèle de Deep Learning.
Pour plus d’informations sur les différents types de modèles, reportez-vous à la rubrique Architectures des modèles de Deep Learning.
Arguments du modèle
Les informations du paramètre Model Type (Type de modèle) sont utilisées pour renseigner ce paramètre. Ces arguments varient en fonction de l’architecture de modèle. Les arguments pris en charge pour les modèles entraînés dans ArcGIS sont décrits ci-dessous. Les modèles pré-entraînés ArcGIS et les modèles de Deep Learning personnalisés peuvent comporter des arguments supplémentaires pris en charge par l’outil.
Pour plus d’informations sur les arguments disponibles pour chaque type de modèle, reportez-vous à la rubrique Arguments de Deep learning.
Augmentation des données
Spécifie le type d’augmentation des données utilisé.
L’augmentation des données est une technique permettant d’augmenter artificiellement la taille du jeu d’entraînement en créant des copies modifiées d’un jeu de données à l’aide des données existantes.
- Default (Valeur par défaut) - Les paramètres et valeurs d’augmentation de données par défaut sont utilisées. Les méthodes d’augmentation des données par défaut incluses sont crop, dihedral_affine, brightness, contrast et zoom. Ces valeurs par défaut fonctionnent généralement bien pour l’imagerie satellite.
- None (Aucun) - Aucune augmentation de données ne se produit.
- Custom (Personnalisé) - Spécifiez les valeurs d’augmentation des données définies par l’utilisateur à l’aide du paramètre Augmentation Parameters (Paramètres d’augmentation).
- File (Fichier) - Spécifiez des transformations fastai pour l’augmentation de données des jeux de données d’entraînement et de validation. Elles sont spécifiées dans un fichier .json nommé transforms.json, se trouvant dans le même dossier que les données d’entraînement. Pour plus d’informations sur les différentes transformations, reportez-vous à la page consacrée aux transformations de vision fastai sur le site Web fastai.
Paramètres d’augmentation
Spécifie la valeur de chaque transformation dans le paramètre d’augmentation.
- rotate : l’image subit une rotation aléatoire (en degrés) selon une probabilité (p). Si le nombre de degrés est une plage (a,b), une valeur entre a et b est attribuée de manière uniforme. La valeur par défaut est 30.0; 0.5.
- brightness : la luminosité de l’image est ajustée de manière aléatoire selon la valeur de changement, avec une probabilité (p). Une valeur de changement de 0 rend l’image plus sombre, alors que la valeur 1 la rend plus claire. Une valeur de changement de 0,5 ne modifie pas la luminosité. Si la valeur de changement est une plage (a,b), l’augmentation attribue de manière uniforme une valeur entre a et b. La valeur par défaut est (0.4,0.6); 1.0.
- contrast : le contraste de l’image est ajusté de manière aléatoire selon la valeur d’échelle, avec une probabilité (p). Une valeur d’échelle de 0 transforme l’image en niveaux de gris et une échelle supérieure à 1 défini un contraste élevé. Une valeur d’échelle de 1 n’ajuste pas le contraste. Si la valeur d’échelle est une plage (a,b), l’augmentation attribue de manière uniforme une valeur entre a et b. La valeur par défaut est (0.75, 1.5); 1.0.
- zoom : un zoom avant aléatoire est appliqué à l’image selon la valeur d’échelle. La valeur de zoom a le format scale(a,b); p. La valeur par défaut est (1.0, 1.2); 1.0 où p représente la probabilité. Un zoom avant n’est appliqué à l’image que si la valeur d’échelle est supérieure à 1. Si la valeur d’échelle est une plage (a,b), une valeur entre a et b est attribuée de manière uniforme.
- crop : l’image est rognée de manière aléatoire. La valeur de rognage a le format size;p;row_pct;col_pct où p représente la probabilité. La position est donnée par (col_pct, row_pct),, où col_pct et row_pct sont normalisés entre 0 et 1. Si col_pct ou row_pct est une plage (a,b), une valeur comprise entre a et b est attribuée de manière uniforme. La valeur par défaut est chip_size;1.0; (0, 1); (0, 1) où 224 représente la taille de fragment par défaut.
Batch Size (Taille de lot)
Nombre d’échantillons d’entraînement à traiter pour l’entraînement simultanément.
L’augmentation de la taille du lot peut améliorer les performances de l’outil. Cependant, plus la taille augmente, plus la mémoire utilisée est importante.
Si la mémoire disponible du GPU est insuffisante pour la taille de lot définie, l’outil tente d’estimer et d’utiliser une taille de lot optimale. Si une erreur se produit en raison d’une mémoire insuffisante, utillisez une taille de lot plus petite.
Pourcentage de validation
Pourcentage d’échantillons d’entraînement qui sera utilisé pour valider le modèle. La valeur par défaut est 10.
Taille de fragment
Taille de l’image utilisée pour entraîner le modèle. Les images sont rognées en fonction de la taille de fragment spécifiée.
Redimensionner à
Redimensionne les fragments d’image. Une fois un fragment redimensionné, des blocs de pixels sont rognés à la taille de fragment et utilisés pour l’entraînement. Ce paramètre s’applique à la détection d’objets (PASCAL VOC), à la classification d’objets (tuiles étiquetées) et aux données de super-résolution uniquement.
La valeur de redimensionnement correspond généralement à la moitié de la taille de fragment. Si la valeur de redimensionnement est inférieure à la taille de fragment, elle est utilisée pour créer les blocs de pixels pour l’entraînement.
Learning Rate (Vitesse d’apprentissage)
Vitesse à laquelle les informations existantes seront remplacées par les nouvelles informations obtenues tout au long du processus d’entraînement. Si aucune valeur n’est spécifiée, la vitesse d’apprentissage optimale sera déduite de la courbe d’entraînement au cours du processus d’entraînement.
Modèle de backbone
Spécifie le réseau neuronal préconfiguré qui sera utilisé comme architecture pour l’entraînement du nouveau modèle. Cette méthode est appelée apprentissage par transfert.
En outre, les réseaux neuronaux convolutifs pris en charge des modèles PyTorch Image Models (timm) peuvent être spécifiés en indiquant timm comme préfixe, par exemple timm:resnet31, timm:inception_v4, timm:efficientnet_b3, etc.
Métrique surveillée
Indique quelle métrique surveiller au point de contrôle et en cas d’arrêt prématuré.
Stop when model stops improving (Arrêter lorsque le modèle ne s’améliore plus)
Indique si l’arrêt prématuré sera mis en œuvre.
- Activé : l’arrêt prématuré est mis en œuvre et l’entraînement du modèle s’arrête lorsque le modèle ne s’améliore plus quelle que soit la valeur spécifiée pour le paramètre Max Epochs (Nombre maximal d’époques). Il s’agit de l’option par défaut.
- Désactivé : l’arrêt prématuré n’est pas mis en œuvre et l’entraînement du modèle continue jusqu’à ce que la valeur du paramètre Max Epochs (Nombre maximal d’époques) soit atteinte.
Figer le modèle
Indique si les couches de backbone dans le modèle pré-entraîné sont figées pour que la conception originale des pondérations et des biais soit conservée.
- Activé : les couches de backbone sont figées et les pondérations et biais prédéfinis ne sont pas modifiés dans le paramètre Backbone Model (Modèle de backbone). Il s’agit de l’option par défaut.
- Désactivé : les couches de backbone ne sont pas figées et les pondérations et biais du paramètre Backbone Model (Modèle de backbone) peuvent être modifiés pour s’adapter aux échantillons d’entraînement. Le traitement est plus long, mais produit généralement de meilleurs résultats.
Structure d’initialisation de la pondération
Spécifie la structure dans laquelle les pondérations seront initialisées pour la couche.
Pour qu’un modèle puisse être entraîné avec des données multispectrales, il doit contenir les divers types de canaux disponibles. Pour que cette condition soit remplie, il faut réinitialiser la première couche du modèle.
- Random (Aléatoire) : des pondérations aléatoires sont initialisées pour les canaux non RVB et les pondérations pré-entraînées sont conservées pour les canaux RVB. Il s’agit de l’option par défaut.
- Red band (Canal rouge) : les pondérations correspondant au canal rouge de la couche du modèle pré-entraîné sont clonées pour les canaux non RVB et les pondérations pré-entraînées sont conservées pour les canaux RVB.
- All random (Tout aléatoire) : des pondérations aléatoires sont initialisées pour les canaux RVB, ainsi que pour les canaux non RVB. Cette option s’applique uniquement à l’imagerie multispectrale.
Ce paramètre s’applique uniquement lorsque des images multispectrales sont utilisées dans le modèle.
Enable Tensorboard (Activer Tensorboard)
Spécifie si les métriques Tensorboard sont activées pendant l’entraînement de l’outil. Vous pouvez accéder à Tensorboard à l’aide de l’URL indiquée dans les messages de l’outil.
- Désactivé : les métriques Tensorboard ne sont pas activées. Il s’agit de l’option par défaut.
- Activé : les métriques Tensorboard sont activées.
Ce paramètre est uniquement pris en charge pour les modèles suivants : CycleGAN, DeepLab, Faster RCNN, Feature Classifier, Image Captioner, Mask RCNN, Multi-Task Road Extractor, Pix2Pix, PSPNet Classifier, RetinaNet, Single-Shot Detector, SuperResolution et U-Net Classifier.
- Cliquez sur le bouton Next (Suivant) pour accéder à la page Result (Résultat).
Examiner les résultats
La page Result (Résultat) présente les détails essentiels du modèle entraîné afin de pouvoir les consulter. Elle permet également de comparer le modèle entraîné à d’autres modèles. Il faut bien comprendre les modèles de Deep Learning avant de pouvoir les utiliser pour l’inférence. Réviser un modèle donne une indication sur la façon dont il a été entraîné et sur ses performances. Il arrive souvent qu’il y ait plusieurs modèles à comparer.
Élément | Description |
---|---|
Modèle | Utilisez le bouton Browse (Parcourir) |
Comparaison | Utilisez le bouton Compare (Comparer) |
Type de modèle | Nom de l’architecture de modèle. |
Backbone | Nom du réseau neuronal préconfiguré utilisé comme architecture pour le modèle d’entraînement. |
Learning Rate (Vitesse d’apprentissage) | Vitesse d’apprentissage utilisée pour l’entraînement des réseaux neuronaux. Si vous n’avez pas spécifié cette valeur, elle est calculée par l’outil d’entraînement. |
Perte d’entraînement et de validation | Cette section affiche un graphique qui montre les pertes d’entraînement et de validation lors de l’entraînement du modèle. |
Analyse du modèle | Mesure ou nombre, selon l’architecture du modèle. Par exemple, les modèle de classification de pixels affichent les mesures suivantes pour chaque classe : précision, rappel et score f1. Les modèles de détection d’objets affichent le score de précision moyen. |
Exemples de résultats | Affiche des exemples de paires référence de terrain/prévisions. |
Détails des époques | Tableau contenant des informations sur chaque époque, telles que la perte d’entraînement, la perte de validation, le temps et d’autres mesures. |
Rubriques connexes
Vous avez un commentaire à formuler concernant cette rubrique ?