Traiter du texte à l’aide d’un modèle d’IA (GeoAI)

Synthèse

Traite le texte de différents types de sources, tels que des champs de texte dans des tables ou classes d’entités, ou des fichiers texte dans un dossier, afin de prendre en charge différents cas d’utilisation, notamment la transformation de texte, la reconnaissance d’entités, la classification de texte, la génération de texte, la traduction, la récapitulation, etc. L’outil utilise des modèles tiers personnalisés ou des modèles de Deep Learning entraînés à l’aide des outils Entraîner le modèle de classification de texte, Entraîner le modèle de transformation de texte et Entraîner le modèle de reconnaissance d’entités.

Utilisation

  • Cet outil requiert l’installation des structures de Deep Learning. Pour configurer votre machine afin d’utiliser des structures d’apprentissage profond dans ArcGIS Pro, consultez la rubrique Installer les structures d’apprentissage profond pour ArcGIS.

  • Cet outil nécessite un fichier de définition de modèle contenant des informations de modèle. Le modèle peut être entraîné à l’aide de l’outil Entraîner le modèle de classification de texte, Entraîner le modèle de transformation de texte ou Entraîner le modèle de reconnaissance d’entités. La valeur du paramètre Fichier de définition de modèle en entrée peut être un fichier JSON de définition de modèle Esri (.emd) ou un paquetage de modèle de Deep Learning (.dlpk). Les fichiers de modèle peuvent être stockés localement ou hébergés sur ArcGIS Living Atlas of the World.

  • Cet outil prend en charge l’utilisation de modèles de langage tiers créés avec la fonctionnalité d’extensibilité du modèle. Cette fonctionnalité active des tâches (extraction d’entités, classification de texte, récapitulation de texte, traduction de texte, etc.) à l’aide de modèles de Deep Learning personnalisés qui n’ont pas été entraînés avec des outils pris en charge par ArcGIS Pro. Pour en savoir plus sur la création d’un fichier de modèle de Deep Learning personnalisé, reportez-vous à la rubrique Utiliser des modèles de langage tiers avec ArcGIS.

  • Cet outil peut s’exécuter sur un CPU ou un GPU. Toutefois, le Deep Learning sollicite d’importantes ressources de calcul et un GPU est recommandé. Pour exécuter cet outil avec un processeur, définissez le paramètre d’environnement Type de processeur sur GPU. Si vous avez plusieurs processeurs, spécifiez plutôt le paramètre d’environnement ID de GPU.

  • Cet outil prend en charge l’exécution de modèles de langage tiers hébergés à distance, sans nécessiter l’installation de structures de Deep Learning ou de spécifications GPU, celles-ci étant gérées à distance.

  • Pour en savoir plus sur les exigences relatives à l’exécution de cet outil, ainsi que sur les problèmes que vous pouvez rencontrer, consultez les rubriques FAQ Apprentissage profond. .

Paramètres

ÉtiquetteExplicationType de données
Couche ou table en entrée

L’entrée peut être une des suivantes :

  • Table ou classe d’entités ponctuelles, linéaires ou surfaciques en entrée qui contient les champs en entrée. Chaque ligne de l’entrée représente un enregistrement unique.
  • Dossier contenant les fichiers texte.
Feature Layer; Table View; Table; Folder
Champs de données

Nom des champs de la table ou classe d’entités en entrée qui seront utilisés pour des tâches de traitement du langage naturel (NLP) en aval.

Field
Fichier de définition du modèle en entrée

Modèle entraîné à utiliser pour les tâches NLP. Le fichier de définition du modèle peut être un fichier JSON de définition de modèle Esri (.emd) ou un paquetage de modèle de Deep Learning (.dlpk) qui est stocké localement ou hébergé sur ArcGIS Living Atlas (.dlpk_remote).

Le fichier .dlpk peut également être un modèle de langage tiers.

Attention :

Un modèle de langage tiers .dlpk peut contenir du code dangereux. Utilisez ces modèles uniquement si vous approuvez leur source.

File
Table ou couche en sortie

Table ou classe d’entités dans laquelle la sortie des tâches NLP sera stockée.

Feature Class; Table; Feature Layer
Arguments du modèle
(Facultatif)

Arguments supplémentaires qui seront utilisés par le modèle lors de la réalisation de l’inférence. Ils peuvent inclure des arguments pris en charge par des modèles tiers, ainsi que des paramètres supplémentaires pris en charge par les outils Entraîner le modèle de classification de texte, Entraîner le modèle de transformation de texte ou Entraîner le modèle de reconnaissance d’entités.

Remarque :

Lorsque vous utilisez un modèle de langage tiers, les arguments du modèle sont mis à jour conformément aux paramètres spécifiés dans le fichier .dlpk. Pour en savoir plus sur la définition des arguments de modèle, consultez la section getParameterInfo de la rubrique Utiliser des modèles de langage tiers avec ArcGIS.

Value Table
Zone de localisation
(Facultatif)

Zone ou région géographique dans laquelle les adresses sont censées être localisées. Le texte spécifié sera ajouté à l’adresse extraite par le modèle.

Le localisateur utilise les informations de zone de localisation pour identifier la région ou la zone géographique dans laquelle l’adresse se trouve pour produire des résultats plus précis.

Remarque :

Ce paramètre est uniquement pris en charge pour les modèles entraînés à l’aide de l’outil Entraîner le modèle de reconnaissance d’entités avec une entité d’adresse définie.

String
Localisateur en entrée
(Facultatif)

Localisateur qui sera utilisé pour géocoder les adresses dans les documents texte en entrée. Un point est généré pour chaque adresse géocodée correctement, puis stocké dans la classe d’entités en sortie.

Remarque :

Ce paramètre est uniquement pris en charge pour les modèles entraînés à l’aide de l’outil Entraîner le modèle de reconnaissance d’entités avec une entité d’adresse définie.

Address Locator

Sortie obtenue

ÉtiquetteExplicationType de données
Table mise à jour

Couche d’entités en sortie qui contient le résultat dérivé des données en entrée.

Feature Layer; Table

arcpy.geoai.ProcessTextUsingAIModel(in_layer, data_fields, in_model_definition_file, out_layer, {model_arguments}, {location_zone}, {in_locator})
NomExplicationType de données
in_layer

L’entrée peut être une des suivantes :

  • Table ou classe d’entités ponctuelles, linéaires ou surfaciques en entrée qui contient les champs en entrée. Chaque ligne de l’entrée représente un enregistrement unique.
  • Dossier contenant les fichiers texte.
Feature Layer; Table View; Table; Folder
data_fields
[data_fields,...]

Nom des champs de la table ou classe d’entités en entrée qui seront utilisés pour des tâches de traitement du langage naturel (NLP) en aval.

Field
in_model_definition_file

Modèle entraîné à utiliser pour les tâches NLP. Le fichier de définition du modèle peut être un fichier JSON de définition de modèle Esri (.emd) ou un paquetage de modèle de Deep Learning (.dlpk) qui est stocké localement ou hébergé sur ArcGIS Living Atlas (.dlpk_remote).

Le fichier .dlpk peut également être un modèle de langage tiers.

Attention :

Un modèle de langage tiers .dlpk peut contenir du code dangereux. Utilisez ces modèles uniquement si vous approuvez leur source.

File
out_layer

Table ou classe d’entités dans laquelle la sortie des tâches NLP sera stockée.

Feature Class; Table; Feature Layer
model_arguments
[model_arguments,...]
(Facultatif)

Arguments supplémentaires qui seront utilisés par le modèle lors de la réalisation de l’inférence. Ils peuvent inclure des arguments pris en charge par des modèles tiers, ainsi que des paramètres supplémentaires pris en charge par les outils Entraîner le modèle de classification de texte, Entraîner le modèle de transformation de texte ou Entraîner le modèle de reconnaissance d’entités.

Remarque :

Lorsque vous utilisez un modèle de langage tiers, les arguments du modèle sont mis à jour conformément aux paramètres spécifiés dans le fichier .dlpk. Pour en savoir plus sur la définition des arguments de modèle, consultez la section getParameterInfo de la rubrique Utiliser des modèles de langage tiers avec ArcGIS.

Value Table
location_zone
(Facultatif)

Zone ou région géographique dans laquelle les adresses sont censées être localisées. Le texte spécifié sera ajouté à l’adresse extraite par le modèle.

Le localisateur utilise les informations de zone de localisation pour identifier la région ou la zone géographique dans laquelle l’adresse se trouve pour produire des résultats plus précis.

Remarque :

Ce paramètre est uniquement pris en charge pour les modèles entraînés à l’aide de l’outil Entraîner le modèle de reconnaissance d’entités avec une entité d’adresse définie.

String
in_locator
(Facultatif)

Localisateur qui sera utilisé pour géocoder les adresses dans les documents texte en entrée. Un point est généré pour chaque adresse géocodée correctement, puis stocké dans la classe d’entités en sortie.

Remarque :

Ce paramètre est uniquement pris en charge pour les modèles entraînés à l’aide de l’outil Entraîner le modèle de reconnaissance d’entités avec une entité d’adresse définie.

Address Locator

Sortie obtenue

NomExplicationType de données
updated_table

Couche d’entités en sortie qui contient le résultat dérivé des données en entrée.

Feature Layer; Table

Exemple de code

ProcessTextUsingAIModel (script autonome)

L’exemple suivant démontre comment utiliser la fonction ProcessTextUsingAIModel.

# Name: ProcessText.py
# Description: ArcGIS geoprocessing tool that enables a broad range of advanced
# text processing tasks, with customizable outputs to meet various NLP needs.
#
# Requirements: ArcGIS Pro Advanced license

# Import system modules
import arcpy

arcpy.env.workspace = "C:/processtextexamples/data"

# Set local variables
in_table = "ProcessTextData"
pretrained_model_path_emd = "c:\\processtextdata\\ProcessTextUsingLLMs.emd"

# Run Process Text Using AI Model
arcpy.geoai.ProcessTextUsingAIModel(
    in_layer, data_fields, in_model_definition_file, out_layer, model_arguments,
    location_zone, in_locator)

Informations de licence

  • Basic: Non
  • Standard: Non
  • Advanced: Oui

Rubriques connexes