Classer du texte à l’aide du Deep Learning (GeoAI)

Synthèse

Exécute un modèle de classification de texte entraîné sur un champ de texte dans une table ou une classe d’entités et met à jour chaque enregistrement en lui attribuant une étiquette de classe ou de catégorie avec une valeur de confiance pour chaque classe.

En savoir plus sur le fonctionnement de l’outil Classification de texte

Utilisation

  • Cet outil requiert l’installation des structures de Deep Learning. Pour configurer votre machine afin d’utiliser des structures d’apprentissage profond dans ArcGIS Pro, consultez la rubrique Installer les structures d’apprentissage profond pour ArcGIS.

  • Cet outil nécessite un fichier de définition de modèle contenant des informations de modèle. Le modèle peut être entraîné avec l’outil Entraîner la classification de texte. La valeur du paramètre Fichier de définition de modèle en entrée peut être un fichier JSON de définition de modèle Esri (.emd) ou un paquetage de modèle de Deep Learning (.dlpk). Les fichiers de modèle peuvent être stockés localement ou hébergés sur ArcGIS Living Atlas of the World.

  • Cet outil prend en charge les modèles entraînés avec des backbones basés sur un module de transformation et le backbone Mistral. Pour installer le backbone Mistral, reportez-vous à la rubrique ArcGIS Mistral Backbone.

  • Cet outil prend en charge l’utilisation de modèles de langage tiers créés avec la fonctionnalité d’extensibilité du modèle. La fonctionnalité d’extensibilité du modèle permet de réaliser des tâches de classification de texte à l’aide d’un fichier de modèle Deep Learning personnalisé (.dlpk) qui n’est pas créé avec l’outil Entraîner la classification de texte. Pour en savoir plus sur la création d’un fichier de modèle (.dlpk) Deep Learnnig personnalisé, consultez Utiliser des modèles de langage tiers avec ArcGIS.

  • Cet outil peut s’exécuter sur un CPU ou un GPU. Toutefois, le Deep Learning sollicite d’importantes ressources de calcul et un GPU est recommandé. Pour exécuter cet outil avec un processeur, définissez le paramètre d’environnement Type de processeur sur GPU. Si vous avez plusieurs processeurs, spécifiez plutôt le paramètre d’environnement ID de GPU.

  • Pour en savoir plus sur les exigences relatives à l’exécution de cet outil, ainsi que sur les problèmes que vous pouvez rencontrer, consultez les rubriques FAQ Apprentissage profond. .

Paramètres

ÉtiquetteExplicationType de données
Table en entrée

Table ou classe d’entités ponctuelles, linéaires ou surfaciques en entrée qui contient le texte à classer et étiqueter.

Feature Layer; Table View
Champ de texte

Champ de texte dans la table ou classe d’entités en entrée qui contient le texte à classer.

Field
Fichier de définition du modèle en entrée

Modèle entraîné qui sera utilisé pour la classification. Le fichier de définition du modèle peut être un fichier JSON de définition de modèle Esri (.emd) ou un paquetage de modèle de Deep Learning (.dlpk) qui est stocké localement ou hébergé sur ArcGIS Living Atlas (.dlpk_remote).

Pour utiliser un fichier .dlpk qui est entraîné avec le backbone Mistral, il doit être installé avant d’utiliser le modèle. Pour installer le backbone Mistral, reportez-vous à la rubrique ArcGIS Mistral Backbone.

Le fichier .dlpk peut également être un modèle de langage tiers.

Attention :

Un modèle de langage tiers .dlpk peut contenir du code dangereux. Utilisez ces modèles uniquement si vous approuvez leur source.

File
Champ d’étiquette de classe
(Facultatif)

Nom du champ qui contiendra l’étiquette de classe ou de catégorie attribuée par le modèle. Le nom de champ par défaut est ClassLabel.

String
Arguments du modèle
(Facultatif)

Arguments supplémentaires qui seront utilisés par le modèle lors de la réalisation de l’inférence. Les arguments du modèle pris en charge incluent sequence_length et confidence_threshold, qui permettront d’ajuster la sortie du modèle. L’argument du modèle confidence_threshold est applicable uniquement pour la classification de texte à plusieurs étiquettes.

Remarque :

Lorsque vous utilisez un modèle de langage tiers, les arguments du modèle sont mis à jour conformément aux paramètres spécifiés dans le fichier .dlpk. Pour en savoir plus sur la définition des arguments de modèle, consultez la section getParameterInfo de la rubrique Utiliser des modèles de langage tiers avec ArcGIS.

Value Table
Obtenir une explication pour chaque prévision
(Facultatif)

Indique si des explications SHAP sont générées. Le délai de génération d’une explication dépend de la longueur de l’entrée.

  • Coché : une explication SHAP est générée pour chaque ligne de la table en sortie.
  • Décoché : aucune explication SHAP n’est générée. Il s’agit de l’option par défaut.
Boolean
Taille de lot
(Facultatif)

Nombre d’échantillons d’entraînement qui seront traités en une fois. La valeur par défaut est 4.

Il est possible d’augmenter la taille de lot pour améliorer les performances de l’outil. Il convient toutefois de noter que le volume de mémoire utilisée est proportionnel à la taille de lot. Si un message d’erreur s’affiche pour mémoire insuffisante, utilisez une taille de lot plus petite.

Double

Sortie obtenue

ÉtiquetteExplicationType de données
Table mise à jour

Table ou classe d’entités ponctuelles, linéaires ou surfaciques en sortie qui contient le texte classé et étiqueté obtenu à partir des données en entrée avec la valeur de confiance de chaque classe.

Table View; Feature Layer

arcpy.geoai.ClassifyTextUsingDeepLearning(in_table, text_field, in_model_definition_file, {class_label_field}, {model_arguments}, {explain}, {batch_size})
NomExplicationType de données
in_table

Table ou classe d’entités ponctuelles, linéaires ou surfaciques en entrée qui contient le texte à classer et étiqueter.

Feature Layer; Table View
text_field

Champ de texte dans la table ou classe d’entités en entrée qui contient le texte à classer.

Field
in_model_definition_file

Modèle entraîné qui sera utilisé pour la classification. Le fichier de définition du modèle peut être un fichier JSON de définition de modèle Esri (.emd) ou un paquetage de modèle de Deep Learning (.dlpk) qui est stocké localement ou hébergé sur ArcGIS Living Atlas (.dlpk_remote).

Pour utiliser un fichier .dlpk qui est entraîné avec le backbone Mistral, il doit être installé avant d’utiliser le modèle. Pour installer le backbone Mistral, reportez-vous à la rubrique ArcGIS Mistral Backbone.

Le fichier .dlpk peut également être un modèle de langage tiers.

Attention :

Un modèle de langage tiers .dlpk peut contenir du code dangereux. Utilisez ces modèles uniquement si vous approuvez leur source.

File
class_label_field
(Facultatif)

Nom du champ qui contiendra l’étiquette de classe ou de catégorie attribuée par le modèle. Le nom de champ par défaut est ClassLabel.

String
model_arguments
[model_arguments,...]
(Facultatif)

Arguments supplémentaires qui seront utilisés par le modèle lors de la réalisation de l’inférence. Les arguments du modèle pris en charge incluent sequence_length et confidence_threshold, qui permettront d’ajuster la sortie du modèle. L’argument du modèle confidence_threshold est applicable uniquement pour la classification de texte à plusieurs étiquettes.

Remarque :

Lorsque vous utilisez un modèle de langage tiers, les arguments du modèle sont mis à jour conformément aux paramètres spécifiés dans le fichier .dlpk. Pour en savoir plus sur la définition des arguments de modèle, consultez la section getParameterInfo de la rubrique Utiliser des modèles de langage tiers avec ArcGIS.

Value Table
explain
(Facultatif)

Indique si des explications SHAP sont générées. Le délai de génération d’une explication dépend de la longueur de l’entrée.

  • ENABLE_SHAPUne explication SHAP est générée pour chaque ligne de la table en sortie.
  • DISABLE_SHAPAucune explication SHAP n’est générée. Il s’agit de l’option par défaut.
Boolean
batch_size
(Facultatif)

Nombre d’échantillons d’entraînement qui seront traités en une fois. La valeur par défaut est 4.

Il est possible d’augmenter la taille de lot pour améliorer les performances de l’outil. Il convient toutefois de noter que le volume de mémoire utilisée est proportionnel à la taille de lot. Si un message d’erreur s’affiche pour mémoire insuffisante, utilisez une taille de lot plus petite.

Double

Sortie obtenue

NomExplicationType de données
updated_table

Table ou classe d’entités ponctuelles, linéaires ou surfaciques en sortie qui contient le texte classé et étiqueté obtenu à partir des données en entrée avec la valeur de confiance de chaque classe.

Table View; Feature Layer

Exemple de code

ClassifyTextUsingDeepLearning (script autonome)

L’exemple suivant démontre comment utiliser la fonction ClassifyTextUsingDeepLearning.

# Name: ClassifyText.py
# Description: Classify text into multiple classes
#
# Requirements: ArcGIS Pro Advanced license

# Import system modules
import arcpy

arcpy.env.workspace = "C:/textanalysisexamples/data"

# Set local variables
in_table = "TextClassifierData"
pretrained_model_path_emd = "c:\\classifydata\\TextClassifier.emd"

# Run Classify Text Using Deep Learning
arcpy.geoai.ClassifyTextUsingDeepLearning(
    in_table, "Address", pretrained_model_path_emd)

Informations de licence

  • Basic: Non
  • Standard: Non
  • Advanced: Oui

Rubriques connexes