Извлечь элементы при помощи глубокого обучения (GeoAI)

Краткая информация

Запускает обученную модель распознавания именованных элементов в текстовых файлах в папке, текстовых полях в классе объектов или таблице, чтобы извлечь элементы и местоположения (такие, как адреса, имена людей или названия мест, даты и денежные суммы) в таблицу. Если извлеченные элементы содержат адреса, инструмент геокодирует их с использованием специального локатора и создает выходной класс пространственных объектов.

Более подробно о том, как работает Распознавание записей

Использование

  • Для этого инструмента требуются установленные системы глубокого изучения. Чтобы настроить компьютер на работу в среде глубокого обучения в ArcGIS Pro, см. раздел Установка сред глубокого обучения для ArcGIS.

  • Для этого инструмента требуется файл определения модели, содержащий обученную информацию о модели. Модель можно обучить при помощи инструмента Обучение модели распознавания элементов. Значением параметра Входной файл определения модели может быть JSON-файл определения модели Esri (.emd) или пакет модели глубокого обучения (.dlpk). Файлы модели должны храниться локально или быть размещены на ArcGIS Living Atlas of the World.

  • Этот инструмент поддерживает модели, обученные с использованием опорных сетей на основе преобразователей и опорной сети Mistral (Mistral backbone). Чтобы установить Mistral backbone, см. раздел ArcGIS Mistral Backbone.

  • Этот инструмент поддерживает использование языковых моделей сторонних разработчиков, созданных с использованием функции расширяемости модели. Функция расширяемости модели позволяет выполнять задачи извлечения элементов с использованием пользовательского файла модели глубокого обучения (.dlpk), который не создается с помощью инструмента Обучение модели распознавания элементов. Чтобы узнать больше о создании пользовательского файла модели глубокого обучения (.dlpk), см. раздел Использование языковых моделей сторонних разработчиков с ArcGIS.

  • Этот инструмент может работать на центральном процессоре или графическом процессоре; однако глубокое обучение является интенсивным вычислительным процессом, поэтому рекомендуется использовать именно графический процессор. Чтобы запустить этот инструмент с помощью графического процессора, установите для параметра Тип процессора значение GPU. Если у вас более одного графического процессора, вместо этого задайте параметр среды GPU ID.

  • Информацию о требованиях к запуску этого инструмента и проблемах, с которыми вы можете столкнуться, см. в разделе Часто задаваемые вопросы по глубокому обучению.

Параметры

ПодписьОписаниеТип данных
Входная папка или таблица

Входными данными для этого параметра могут быть следующие:

  • Класс пространственных объектов или таблица, содержащая текстовый столбец, в котором будет выполнено извлечение именованного элемента.
  • Папка, содержащая текстовые файлы, в которых будут распознаваться названные элементы.
Folder; Feature Layer; Table View; Feature Class
Выходная таблица

Выходная таблица или класс объектов, где будут содержаться извлеченные элементы. Если указан локатор, и модель извлекает адреса, будет создан класс объектов, в котором будут содержаться геокодированные адреса.

Feature Class; Table; Feature Layer
Входной файл определения модели

Обученная модель, которая будет использоваться для извлечения элементов из текста. Файлом определения модели может быть файл JSON определения модели Esri (.emd) или пакет модели глубокого обучения (.dlpk), который хранится локально или размещен на ArcGIS Living Atlas (.dlpk_remote).

Чтобы использовать файл .dlpk, обученный с помощью Mistral backbone, он должен быть установлен перед использованием модели. Чтобы установить Mistral backbone, см. раздел ArcGIS Mistral Backbone

Файл .dlpk также может быть языковой моделью стороннего разработчика.

Внимание:

Файл .dlpk языковой модели стороннего разработчика потенциально может содержать вредоносный код. Используйте эти модели только в том случае, если вы доверяете их источнику.

File
Аргументы модели
(Дополнительный)

Дополнительные аргументы, которые будут использоваться моделью при выполнении вывода. Поддерживаемый аргумент модели - это sequence_length, который будет использоваться для настройки выходных данных модели.

Примечание:

При использовании языковой модели стороннего разработчика аргументы модели будут обновлены в соответствии с параметрами, указанными в файле .dlpk. Чтобы узнать больше об определении аргументов модели, см. раздел getParameterInfo в Использование языковых моделей сторонних разработчиков с ArcGIS.

Value Table
Размер пакета
(Дополнительный)

Количество обучающих выборок, которые будут обрабатываться за один раз. Значение, предлагаемое по умолчанию, равно 4.

Увеличение размера пакета может улучшить производительность инструмента, но при этом увеличение размера пакета приводит к расходованию большего объема памяти. Если возникает ошибка нехватки памяти, используйте меньший размер пакета.

Double
Зона местоположений
(Дополнительный)

Географические регионы или зоны, где предположительно будут располагаться извлеченные адреса. Указанный текст будет добавлен к адресу, извлеченному в модели.

Локатор использует информацию о зоне местоположений для идентификации региона или географической области, в которой находятся эти адреса, для получения более точных результатов.

String
Входной локатор
(Дополнительный)

Локатор, который будет использован для геокодирования адресов во входных текстовых документах. Для каждого успешно геокодированного адреса создается точка, которая сохраняется в выходном классе объектов.

Address Locator
Поле текста

Текстовое поле во входном классе объектов или таблице, содержащее текст, который будет использоваться моделью как входные данные. Этот параметр необходим, если значение параметра Входная папка или таблица - класс пространственных объектов или таблица.

Field

arcpy.geoai.ExtractEntitiesUsingDeepLearning(in_folder, out_table, in_model_definition_file, {model_arguments}, {batch_size}, {location_zone}, {in_locator}, text_field)
ИмяОписаниеТип данных
in_folder

Входными данными для этого параметра могут быть следующие:

  • Класс пространственных объектов или таблица, содержащая текстовый столбец, в котором будет выполнено извлечение именованного элемента.
  • Папка, содержащая текстовые файлы, в которых будут распознаваться названные элементы.
Folder; Feature Layer; Table View; Feature Class
out_table

Выходная таблица или класс объектов, где будут содержаться извлеченные элементы. Если указан локатор, и модель извлекает адреса, будет создан класс объектов, в котором будут содержаться геокодированные адреса.

Feature Class; Table; Feature Layer
in_model_definition_file

Обученная модель, которая будет использоваться для извлечения элементов из текста. Файлом определения модели может быть файл JSON определения модели Esri (.emd) или пакет модели глубокого обучения (.dlpk), который хранится локально или размещен на ArcGIS Living Atlas (.dlpk_remote).

Чтобы использовать файл .dlpk, обученный с помощью Mistral backbone, он должен быть установлен перед использованием модели. Чтобы установить Mistral backbone, см. раздел ArcGIS Mistral Backbone

Файл .dlpk также может быть языковой моделью стороннего разработчика.

Внимание:

Файл .dlpk языковой модели стороннего разработчика потенциально может содержать вредоносный код. Используйте эти модели только в том случае, если вы доверяете их источнику.

File
model_arguments
[model_arguments,...]
(Дополнительный)

Дополнительные аргументы, которые будут использоваться моделью при выполнении вывода. Поддерживаемый аргумент модели - это sequence_length, который будет использоваться для настройки выходных данных модели.

Примечание:

При использовании языковой модели стороннего разработчика аргументы модели будут обновлены в соответствии с параметрами, указанными в файле .dlpk. Чтобы узнать больше об определении аргументов модели, см. раздел getParameterInfo в Использование языковых моделей сторонних разработчиков с ArcGIS.

Value Table
batch_size
(Дополнительный)

Количество обучающих выборок, которые будут обрабатываться за один раз. Значение, предлагаемое по умолчанию, равно 4.

Увеличение размера пакета может улучшить производительность инструмента, но при этом увеличение размера пакета приводит к расходованию большего объема памяти. Если возникает ошибка нехватки памяти, используйте меньший размер пакета.

Double
location_zone
(Дополнительный)

Географические регионы или зоны, где предположительно будут располагаться извлеченные адреса. Указанный текст будет добавлен к адресу, извлеченному в модели.

Локатор использует информацию о зоне местоположений для идентификации региона или географической области, в которой находятся эти адреса, для получения более точных результатов.

String
in_locator
(Дополнительный)

Локатор, который будет использован для геокодирования адресов во входных текстовых документах. Для каждого успешно геокодированного адреса создается точка, которая сохраняется в выходном классе объектов.

Address Locator
text_field

Текстовое поле во входном классе объектов или таблице, содержащее текст, который будет использоваться моделью как входные данные. Этот параметр необходим, если значение параметра in_folder - класс пространственных объектов или таблица.

Field

Пример кода

ExtractEntitiesUsingDeepLearning (автономный скрипт)

В следующем примере демонстрируется, как использовать функцию ExtractEntitiesUsingDeepLearning.

# Name: ExtractEntities.py
# Description: Extract useful entities such as "Address", "Date" from text.  

# Import system modules
import arcpy
import os

arcpy.env.workspace = "C:/textanalysisexamples/data"
dbpath = "C:/textanalysisexamples/Text_analysis_tools.gdb"

# Set local variables
in_folder = 'test_data'
out_table = os.path.join(dbpath, "ExtractedEntities")

pretrained_model_path_emd = "c:\\extractentities\\EntityRecognizer.emd"

# Run Extract Entities Using Deep Learning
arcpy.geoai.ExtractEntitiesUsingDeepLearning(
    in_folder, out_table, pretrained_model_path_emd)

Параметры среды

Информация о лицензиях

  • Basic: Нет
  • Standard: Нет
  • Advanced: Да

Связанные разделы