Обработать текст при помощи модели ИИ (GeoAI)

Краткая информация

Обрабатывает текст из различных типов источников, например, из текстовых полей в классах пространственных объектов или таблицах или текстовые файлы в папке, для поддержки различных вариантов использования, включая преобразование текста, распознавание элементов, классификацию текста, генерацию текста, перевод, реферирование и т.д. Инструмент использует пользовательские сторонние модели или модели глубокого обучения, обученные с помощью инструментов Обучение модели классификации текста, Обучение модели преобразования текста и Обучение модели распознавания элементов.

Использование

  • Для этого инструмента требуются установленные системы глубокого изучения. Чтобы настроить компьютер на работу в среде глубокого обучения в ArcGIS Pro, см. раздел Установка сред глубокого обучения для ArcGIS.

  • Для этого инструмента требуется файл определения модели, содержащий информацию о модели. Модель можно обучить с помощью инструментов Обучение модели классификации текста, Обучение модели преобразования текста и Обучение модели распознавания элементов. Значением параметра Входной файл определения модели может быть JSON-файл определения модели Esri (.emd) или пакет модели глубокого обучения (.dlpk). Файлы модели должны храниться локально или быть размещены на ArcGIS Living Atlas of the World.

  • Этот инструмент поддерживает использование языковых моделей сторонних разработчиков, созданных с использованием функции расширяемости модели. Эта возможность позволяет решать задачи, такие как извлечение элементов, классификация текста, суммирование текста, перевод текста и т.д., с помощью пользовательских моделей глубокого обучения, которые не были обучены инструментами, поддерживаемыми ArcGIS Pro. Чтобы узнать больше о создании пользовательского файла модели глубокого обучения, см. раздел Использование языковых моделей сторонних разработчиков с ArcGIS.

  • Этот инструмент может работать на центральном процессоре или графическом процессоре; однако глубокое обучение является интенсивным вычислительным процессом, поэтому рекомендуется использовать именно графический процессор. Чтобы запустить этот инструмент с помощью графического процессора, установите для параметра Тип процессора значение GPU. Если у вас более одного графического процессора, вместо этого задайте параметр среды GPU ID.

  • Этот инструмент поддерживает запуск сторонних языковых моделей, размещенных удаленно, без необходимости установки сред глубокого обучения или спецификаций графических процессоров, поскольку они управляются удаленно.

  • Информацию о требованиях к запуску этого инструмента и проблемах, с которыми вы можете столкнуться, см. в разделе Часто задаваемые вопросы по глубокому обучению.

Параметры

ПодписьОписаниеТип данных
Входной слой или таблица

Входными данными могут быть следующие:

  • Входной класс точечных, линейных, полигональных объектов или таблица, содержащая входные поля. Каждая строка во входных данных представляет одну категорию, запись или объект.
  • Папка, содержащая текстовые файлы.
Feature Layer; Table View; Table; Folder
Поля данных

Имя поля из входного класса объектов или таблицы, которое будет использоваться для последующих задач обработки естественного языка (NLP).

Field
Входной файл определения модели

Обученная модель, которая будет использоваться для задач NLP. Файлом определения модели может быть файл JSON определения модели Esri (.emd) или пакет модели глубокого обучения (.dlpk), который хранится локально или размещен на ArcGIS Living Atlas (.dlpk_remote).

Файл .dlpk также может быть языковой моделью стороннего разработчика.

Внимание:

Файл .dlpk языковой модели стороннего разработчика потенциально может содержать вредоносный код. Используйте эти модели только в том случае, если вы доверяете их источнику.

File
Выходной слой или таблица

Класс объектов или таблица, где будет сохранен выход задач NLP.

Feature Class; Table; Feature Layer
Аргументы модели
(Дополнительный)

Дополнительные аргументы, которые будут использоваться моделью при выполнении вывода. Они могут включать аргументы, поддерживаемые сторонними моделями, а также дополнительные параметры, поддерживаемые инструментами Обучение классификации текста, Обучение модели преобразования текста или Обучение модели распознавания элементов.

Примечание:

При использовании сторонней языковой модели аргументы модели будут обновлены в соответствии с параметрами, указанными в файле .dlpk. Чтобы узнать больше об определении аргументов модели, см. раздел getParameterInfo в Использование языковых моделей сторонних разработчиков с ArcGIS.

Value Table
Зона местоположений
(Дополнительный)

Географические регионы или зоны, где предположительно будут располагаться извлеченные адреса. Указанный текст будет добавлен к адресу, извлеченному в модели.

Локатор использует информацию о зоне местоположений для идентификации региона или географической области, в которой находятся эти адреса, для получения более точных результатов.

Примечание:

Этот параметр поддерживается только для моделей, обученных с помощью инструмента Обучение модели распознавания элементов с определенным адресом элемента.

String
Входной локатор
(Дополнительный)

Локатор, который будет использован для геокодирования адресов во входных текстовых документах. Для каждого успешно геокодированного адреса создается точка, которая сохраняется в выходном классе объектов.

Примечание:

Этот параметр поддерживается только для моделей, обученных с помощью инструмента Обучение модели распознавания элементов с определенным адресом элемента.

Address Locator

Производные выходные данные

ПодписьОписаниеТип данных
Обновленная таблица

Выходной векторный слой, содержащий результат, полученный из входных данных.

Feature Layer; Table

arcpy.geoai.ProcessTextUsingAIModel(in_layer, data_fields, in_model_definition_file, out_layer, {model_arguments}, {location_zone}, {in_locator})
ИмяОписаниеТип данных
in_layer

Входными данными могут быть следующие:

  • Входной класс точечных, линейных, полигональных объектов или таблица, содержащая входные поля. Каждая строка во входных данных представляет одну категорию, запись или объект.
  • Папка, содержащая текстовые файлы.
Feature Layer; Table View; Table; Folder
data_fields
[data_fields,...]

Имя поля из входного класса объектов или таблицы, которое будет использоваться для последующих задач обработки естественного языка (NLP).

Field
in_model_definition_file

Обученная модель, которая будет использоваться для задач NLP. Файлом определения модели может быть файл JSON определения модели Esri (.emd) или пакет модели глубокого обучения (.dlpk), который хранится локально или размещен на ArcGIS Living Atlas (.dlpk_remote).

Файл .dlpk также может быть языковой моделью стороннего разработчика.

Внимание:

Файл .dlpk языковой модели стороннего разработчика потенциально может содержать вредоносный код. Используйте эти модели только в том случае, если вы доверяете их источнику.

File
out_layer

Класс объектов или таблица, где будет сохранен выход задач NLP.

Feature Class; Table; Feature Layer
model_arguments
[model_arguments,...]
(Дополнительный)

Дополнительные аргументы, которые будут использоваться моделью при выполнении вывода. Они могут включать аргументы, поддерживаемые сторонними моделями, а также дополнительные параметры, поддерживаемые инструментами Обучение классификации текста, Обучение модели преобразования текста или Обучение модели распознавания элементов.

Примечание:

При использовании сторонней языковой модели аргументы модели будут обновлены в соответствии с параметрами, указанными в файле .dlpk. Чтобы узнать больше об определении аргументов модели, см. раздел getParameterInfo в Использование языковых моделей сторонних разработчиков с ArcGIS.

Value Table
location_zone
(Дополнительный)

Географические регионы или зоны, где предположительно будут располагаться извлеченные адреса. Указанный текст будет добавлен к адресу, извлеченному в модели.

Локатор использует информацию о зоне местоположений для идентификации региона или географической области, в которой находятся эти адреса, для получения более точных результатов.

Примечание:

Этот параметр поддерживается только для моделей, обученных с помощью инструмента Обучение модели распознавания элементов с определенным адресом элемента.

String
in_locator
(Дополнительный)

Локатор, который будет использован для геокодирования адресов во входных текстовых документах. Для каждого успешно геокодированного адреса создается точка, которая сохраняется в выходном классе объектов.

Примечание:

Этот параметр поддерживается только для моделей, обученных с помощью инструмента Обучение модели распознавания элементов с определенным адресом элемента.

Address Locator

Производные выходные данные

ИмяОписаниеТип данных
updated_table

Выходной векторный слой, содержащий результат, полученный из входных данных.

Feature Layer; Table

Пример кода

ProcessTextUsingAIModel (автономный скрипт)

В следующем примере демонстрируется, как использовать функцию ProcessTextUsingAIModel.

# Name: ProcessText.py
# Description: ArcGIS geoprocessing tool that enables a broad range of advanced
# text processing tasks, with customizable outputs to meet various NLP needs.
#
# Requirements: ArcGIS Pro Advanced license

# Import system modules
import arcpy

arcpy.env.workspace = "C:/processtextexamples/data"

# Set local variables
in_table = "ProcessTextData"
pretrained_model_path_emd = "c:\\processtextdata\\ProcessTextUsingLLMs.emd"

# Run Process Text Using AI Model
arcpy.geoai.ProcessTextUsingAIModel(
    in_layer, data_fields, in_model_definition_file, out_layer, model_arguments,
    location_zone, in_locator)

Параметры среды

Информация о лицензиях

  • Basic: Нет
  • Standard: Нет
  • Advanced: Да

Связанные разделы