Procesar texto usando modelo de IA (GeoAI)

Resumen

Procesa texto a partir de varios tipos de fuentes, como campos de texto en clases de entidades o tablas, o archivos de texto en una carpeta, para dar soporte a una variedad de casos de uso que incluyen la transformación de texto, el reconocimiento de entidades, la clasificación de texto, la generación de texto, la traducción, el resumen, etc. La herramienta utiliza modelos personalizados de terceros o modelos de aprendizaje profundo entrenados utilizando las herramientas Entrenar modelo de clasificación de texto, Entrenar modelo de transformación de texto y Entrenar modelo de reconocimiento de entidades.

Uso

  • Esta herramienta requiere la instalación de marcos de aprendizaje profundo. Para configurar su equipo para usar marcos de aprendizaje profundo en ArcGIS Pro, consulte Instalar marcos de aprendizaje profundo para ArcGIS.

  • Esta herramienta requiere un archivo de definición de modelo que contenga información del modelo. El modelo puede entrenarse utilizando la herramienta Entrenar modelo de clasificación de texto, Entrenar modelo de transformación de texto o Entrenar modelo de reconocimiento de entidades. El valor del parámetro Archivo de definición de modelo de entrada puede ser un archivo JSON de definición de modelo de Esri (.emd) o un paquete de modelo de aprendizaje profundo (.dlpk). Los archivos de modelo pueden almacenarse localmente o alojarse en ArcGIS Living Atlas of the World.

  • Esta herramienta admite el uso de modelos de lenguaje de terceros creados mediante la entidad de extensibilidad de modelos. Esta entidad permite realizar tareas, como la extracción de entidades, la clasificación de texto, el resumen de texto, la traducción de texto, etc., utilizando modelos personalizados de aprendizaje profundo que no se entrenaron con herramientas compatibles con ArcGIS Pro. Para obtener más información sobre la creación de un archivo de modelo de aprendizaje profundo personalizado, consulte Utilizar modelos de lenguaje de terceros con ArcGIS.

  • Esta herramienta puede funcionar con CPU o GPU; sin embargo, el aprendizaje profundo es intensivo desde el punto de vista computacional y se recomienda una GPU. Para ejecutar esta herramienta con la GPU, configure el entorno Tipo de procesador en GPU. Si tiene más de una GPU, especifique el entorno de Id. de GPU en su lugar.

  • Esta herramienta permite ejecutar modelos lingüísticos de terceros alojados de forma remota, sin necesidad de instalar marcos de aprendizaje profundo ni especificaciones de GPU, ya que estos se gestionan de forma remota.

  • Para obtener información sobre los requisitos para ejecutar esta herramienta y los problemas que pueden presentarse, consulte Preguntas frecuentes sobre el aprendizaje profundo.

Parámetros

EtiquetaExplicaciónTipo de datos
Capa o tabla de entrada

La entrada puede ser cualquiera de las siguientes:

  • La clase o tabla de entidades de entrada de puntos, líneas o polígonos que contiene los campos de entrada. Cada fila de la entrada representa un único registro.
  • Una carpeta que contiene los archivos de texto.
Feature Layer; Table View; Table; Folder
Campos de datos

El nombre de los campos de la clase o tabla de entidades de entrada que se utilizarán para las tareas posteriores de procesamiento del lenguaje natural (PLN).

Field
Archivo de definición de modelo de entrada

El modelo entrenado que se utilizará para las tareas de PNL. El archivo de definición de modelo puede ser un Esri archivo JSON de definición de modelo de (.emd), o un paquete de modelo de aprendizaje profundo (.dlpk) almacenado localmente o alojado en ArcGIS Living Atlas (.dlpk_remote).

El archivo .dlpk también puede ser un modelo de lenguaje de terceros.

Precaución:

Un archivo .dlpk de modelo de lenguaje de terceros puede contener potencialmente código malicioso. Utilice estos modelos solo si confía en su origen.

File
Capa o tabla de salida

La clase o tabla de entidades donde se almacenará el resultado de las tareas de PLN.

Feature Class; Table; Feature Layer
Argumentos de modelo
(Opcional)

Argumentos adicionales que utilizará el modelo al llevar a cabo la inferencia. Estos pueden incluir argumentos admitidos por modelos de terceros, así como parámetros adicionales admitidos por la herramienta Entrenar clasificación de texto, Entrenar modelo de transformación de texto o Entrenar modelo de reconocimiento de entidades.

Nota:

Cuando utilice un modelo de lenguaje de terceros, los argumentos del modelo se actualizarán según los parámetros especificados en el archivo .dlpk. Para obtener más información sobre cómo definir los argumentos del modelo, consulte la sección getParameterInfo en Utilizar modelos de lenguaje de terceros con ArcGIS.

Value Table
Zona de ubicación
(Opcional)

La zona o región geográfica en la que se espera que se ubiquen las direcciones. El texto especificado se incorporará a la dirección extraída por el modelo.

El localizador utiliza la información de zona de ubicación para identificar la región o área geográfica en la que se ubica la dirección para producir mejores resultados.

Nota:

Este parámetro solo se admite para modelos entrenados mediante la herramienta Entrenar modelo de reconocimiento de entidades con una entidad de dirección definida.

String
Localizador de entrada
(Opcional)

El localizador que se utilizará para geocodificar las direcciones que se encuentran en los documentos de texto de entrada. Se genera un punto por cada dirección que se geocodifica correctamente y se almacena en la clase de entidad de salida.

Nota:

Este parámetro solo se admite para modelos entrenados mediante la herramienta Entrenar modelo de reconocimiento de entidades con una entidad de dirección definida.

Address Locator

Salida derivada

EtiquetaExplicaciónTipo de datos
Tabla actualizada

La capa de entidades de salida que contiene el resultado derivado de los datos de entrada.

Feature Layer; Table

arcpy.geoai.ProcessTextUsingAIModel(in_layer, data_fields, in_model_definition_file, out_layer, {model_arguments}, {location_zone}, {in_locator})
NombreExplicaciónTipo de datos
in_layer

La entrada puede ser cualquiera de las siguientes:

  • La clase o tabla de entidades de entrada de puntos, líneas o polígonos que contiene los campos de entrada. Cada fila de la entrada representa un único registro.
  • Una carpeta que contiene los archivos de texto.
Feature Layer; Table View; Table; Folder
data_fields
[data_fields,...]

El nombre de los campos de la clase o tabla de entidades de entrada que se utilizarán para las tareas posteriores de procesamiento del lenguaje natural (PLN).

Field
in_model_definition_file

El modelo entrenado que se utilizará para las tareas de PNL. El archivo de definición de modelo puede ser un Esri archivo JSON de definición de modelo de (.emd), o un paquete de modelo de aprendizaje profundo (.dlpk) almacenado localmente o alojado en ArcGIS Living Atlas (.dlpk_remote).

El archivo .dlpk también puede ser un modelo de lenguaje de terceros.

Precaución:

Un archivo .dlpk de modelo de lenguaje de terceros puede contener potencialmente código malicioso. Utilice estos modelos solo si confía en su origen.

File
out_layer

La clase o tabla de entidades donde se almacenará el resultado de las tareas de PLN.

Feature Class; Table; Feature Layer
model_arguments
[model_arguments,...]
(Opcional)

Argumentos adicionales que utilizará el modelo al llevar a cabo la inferencia. Estos pueden incluir argumentos admitidos por modelos de terceros, así como parámetros adicionales admitidos por la herramienta Entrenar clasificación de texto, Entrenar modelo de transformación de texto o Entrenar modelo de reconocimiento de entidades.

Nota:

Cuando utilice un modelo de lenguaje de terceros, los argumentos del modelo se actualizarán según los parámetros especificados en el archivo .dlpk. Para obtener más información sobre cómo definir los argumentos del modelo, consulte la sección getParameterInfo en Utilizar modelos de lenguaje de terceros con ArcGIS.

Value Table
location_zone
(Opcional)

La zona o región geográfica en la que se espera que se ubiquen las direcciones. El texto especificado se incorporará a la dirección extraída por el modelo.

El localizador utiliza la información de zona de ubicación para identificar la región o área geográfica en la que se ubica la dirección para producir mejores resultados.

Nota:

Este parámetro solo se admite para modelos entrenados mediante la herramienta Entrenar modelo de reconocimiento de entidades con una entidad de dirección definida.

String
in_locator
(Opcional)

El localizador que se utilizará para geocodificar las direcciones que se encuentran en los documentos de texto de entrada. Se genera un punto por cada dirección que se geocodifica correctamente y se almacena en la clase de entidad de salida.

Nota:

Este parámetro solo se admite para modelos entrenados mediante la herramienta Entrenar modelo de reconocimiento de entidades con una entidad de dirección definida.

Address Locator

Salida derivada

NombreExplicaciónTipo de datos
updated_table

La capa de entidades de salida que contiene el resultado derivado de los datos de entrada.

Feature Layer; Table

Muestra de código

ProcessTextUsingAIModel (secuencia de comandos independiente)

El siguiente ejemplo muestra cómo utilizar la función ProcessTextUsingAIModel.

# Name: ProcessText.py
# Description: ArcGIS geoprocessing tool that enables a broad range of advanced
# text processing tasks, with customizable outputs to meet various NLP needs.
#
# Requirements: ArcGIS Pro Advanced license

# Import system modules
import arcpy

arcpy.env.workspace = "C:/processtextexamples/data"

# Set local variables
in_table = "ProcessTextData"
pretrained_model_path_emd = "c:\\processtextdata\\ProcessTextUsingLLMs.emd"

# Run Process Text Using AI Model
arcpy.geoai.ProcessTextUsingAIModel(
    in_layer, data_fields, in_model_definition_file, out_layer, model_arguments,
    location_zone, in_locator)

Información de licenciamiento

  • Basic: No
  • Standard: No
  • Advanced: Sí

Temas relacionados