Подпись | Описание | Тип данных |
Входная таблица | Класс объектов или таблица, который содержит текстовое поле с входным текстом для модели и поле меток с метками целевого класса. | Feature Layer; Table View |
Поле текста | Текстовое поле во входном классе или таблице, содержащее текст, который будет классифицирован моделью. | Field |
Поле меток | Текстовое поле во входном классе объектов или таблице, которое содержит метки целевого клсса для обучения модели. В случае классификации текста с несколькими метками укажите более одного текстового поля. | Field |
Выходная модель | Местоположение выходной папки, в которой будет храниться обученная модель. | Folder |
Файл предварительно обученной модели (Дополнительный) | Предварительно обученная модель, которая будет использоваться для тонкой настройки новой модели. Входными данными является файл определения модели Esri (.emd) или файл пакета глубокого обучения (.dlpk). Предварительно обученную модель с подобными классами можно настроить так, чтобы она соответствовала новой модели. Предварительно обученная модель должна быть обучена с тем же типом модели и опорной моделью, которые будут использоваться для обучения новой модели. | File |
Максимальное число периодов времени (Дополнительный) | Максимальное количество периодов времени, для которых будет обучаться модель. Максимальное значение эпохи, равное 1, означает, что набор данных будет передаваться через нейронную сеть один раз. Значение по умолчанию 5. | Long |
Опорная модель (Дополнительный) | Определяет преднастроенную нейронную сеть, которая будет действовать как кодировщик для модели и извлекать представления объектов входного текста в форме векторов фиксированной длины. Эти векторы будут переданы в качестве входных данных в заголовок классификации модели.
| String |
Размер пакета (Дополнительный) | Количество обучающих выборок, которые будут обрабатываться за один раз. Значение по умолчанию – 2. Увеличение размера пакета может улучшить производительность инструмента, но при этом увеличение размера пакета приводит к расходованию большего объема памяти. Если возникает ошибка нехватки памяти, используйте меньший размер пакета. | Double |
Аргументы модели (Дополнительный) | Дополнительные аргументы, которые будут использоваться для инициализации модели. Поддерживаемый аргумент модели — sequence_length, который используется для установки максимальной длины последовательности обучающих данных, которые будут учитываться при обучении модели. | Value Table |
Скорость обучения (Дополнительный) | Размер шага, показывающий, как можно настроить веса модели в ходе процесса обучения. Если значение не указано, то оптимальная скорость обучения будет применена автоматически. | Double |
Процент проверки (Дополнительный) | Процент обучающих выборок, которые будут использоваться для проверки модели. Значение по умолчанию — 10 для опорных сетей на основе преобразователей и 50 для опорной сети Mistral. | Double |
Завершить, когда модель перестанет улучшаться (Дополнительный) | Определяет, остановится ли обучение модели, если модель больше не улучшается, или обучение продолжится до достижения значения параметра Максимальное число эпох.
| Boolean |
Сделать опорную модель обучаемой (Дополнительный) | Указывает, будут ли закреплены опорные слои в предварительно обученной модели, чтобы веса и смещения оставались такими, как они были изначально разработаны.
| Boolean |
Удалить теги HTML (Дополнительный) | Определяет, будут ли теги HTML удалены из входного текста.
| Boolean |
Удалить URL (Дополнительный) | Определяет, будут ли адреса URL удалены из входного текста.
| Boolean |
Запрос (Дополнительный) | Определенные входные данные или инструкция, передаваемая большой языковой модели (LLM) для генерации ожидаемого результата. Значение по умолчанию - Классифицировать предоставленный текст по указанным классам. Не создавать новые метки для классификации. | String |
Краткая информация
Обучает модель классификации текста с одной или несколькими метками для назначения преднастроенных категорий или меток для неструктурированного текста.
Использование
Для этого инструмента требуются установленные системы глубокого изучения. Чтобы настроить компьютер на работу в среде глубокого обучения в ArcGIS Pro, см. раздел Установка сред глубокого обучения для ArcGIS.
Этот инструмент также можно использовать для тонкой настройки существующей обученной модели.
Чтобы запустить этот инструмент с помощью графического процессора, установите для параметра Тип процессора значение GPU. Если у вас более одного графического процессора, вместо этого задайте параметр среды GPU ID.
Входными данными могут быть таблица или класс объектов, которые содержат данные обучения, с текстовым полем, где хранится входной текст, и полем метки, где хранятся метки целевого класса.
Этот инструмент использует опорные модели на основе преобразователей для обучения моделей классификации текста, а также поддерживает контекстное обучение с подсказками с использованием Mistral LLM. Чтобы установить Mistral backbone, см. ArcGIS Mistral Backbone.
Информацию о требованиях к запуску этого инструмента и проблемах, с которыми вы можете столкнуться, см. в разделе Часто задаваемые вопросы по глубокому обучению.
Параметры
arcpy.geoai.TrainTextClassificationModel(in_table, text_field, label_field, out_model, {pretrained_model_file}, {max_epochs}, {model_backbone}, {batch_size}, {model_arguments}, {learning_rate}, {validation_percentage}, {stop_training}, {make_trainable}, {remove_html_tags}, {remove_urls}, {prompt})
Имя | Описание | Тип данных |
in_table | Класс объектов или таблица, который содержит текстовое поле с входным текстом для модели и поле меток с метками целевого класса. | Feature Layer; Table View |
text_field | Текстовое поле во входном классе или таблице, содержащее текст, который будет классифицирован моделью. | Field |
label_field [label_field,...] | Текстовое поле во входном классе объектов или таблице, которое содержит метки целевого клсса для обучения модели. В случае классификации текста с несколькими метками укажите более одного текстового поля. | Field |
out_model | Местоположение выходной папки, в которой будет храниться обученная модель. | Folder |
pretrained_model_file (Дополнительный) | Предварительно обученная модель, которая будет использоваться для тонкой настройки новой модели. Входными данными является файл определения модели Esri (.emd) или файл пакета глубокого обучения (.dlpk). Предварительно обученную модель с подобными классами можно настроить так, чтобы она соответствовала новой модели. Предварительно обученная модель должна быть обучена с тем же типом модели и опорной моделью, которые будут использоваться для обучения новой модели. | File |
max_epochs (Дополнительный) | Максимальное количество периодов времени, для которых будет обучаться модель. Максимальное значение эпохи, равное 1, означает, что набор данных будет передаваться через нейронную сеть один раз. Значение по умолчанию 5. | Long |
model_backbone (Дополнительный) | Определяет преднастроенную нейронную сеть, которая будет действовать как кодировщик для модели и извлекать представления объектов входного текста в форме векторов фиксированной длины. Эти векторы будут переданы в качестве входных данных в заголовок классификации модели.
| String |
batch_size (Дополнительный) | Количество обучающих выборок, которые будут обрабатываться за один раз. Значение по умолчанию – 2. Увеличение размера пакета может улучшить производительность инструмента, но при этом увеличение размера пакета приводит к расходованию большего объема памяти. Если возникает ошибка нехватки памяти, используйте меньший размер пакета. | Double |
model_arguments [model_arguments,...] (Дополнительный) | Дополнительные аргументы, которые будут использоваться для инициализации модели. Поддерживаемый аргумент модели — sequence_length, который используется для установки максимальной длины последовательности обучающих данных, которые будут учитываться при обучении модели. | Value Table |
learning_rate (Дополнительный) | Размер шага, показывающий, как можно настроить веса модели в ходе процесса обучения. Если значение не указано, то оптимальная скорость обучения будет применена автоматически. | Double |
validation_percentage (Дополнительный) | Процент обучающих выборок, которые будут использоваться для проверки модели. Значение по умолчанию — 10 для опорных сетей на основе преобразователей и 50 для опорной сети Mistral. | Double |
stop_training (Дополнительный) | Определяет, остановится ли обучение модели, если модель больше не улучшается, или обучение продолжится до достижения значения параметра max_epochs.
| Boolean |
make_trainable (Дополнительный) | Указывает, будут ли закреплены опорные слои в предварительно обученной модели, чтобы веса и смещения оставались такими, как они были изначально разработаны.
| Boolean |
remove_html_tags (Дополнительный) | Определяет, будут ли теги HTML удалены из входного текста.
| Boolean |
remove_urls (Дополнительный) | Определяет, будут ли адреса URL удалены из входного текста.
| Boolean |
prompt (Дополнительный) | Определенные входные данные или инструкция, передаваемая большой языковой модели (LLM) для генерации ожидаемого результата. Значение по умолчанию - Классифицировать предоставленный текст по указанным классам. Не создавать новые метки для классификации. | String |
Пример кода
В следующем примере демонстрируется, как использовать функцию TrainTextClassificationModel.
# Name: TrainTextClassification.py
# Description: Train a text classifier model to classify text in different
# classes.
#
# Requirements: ArcGIS Pro Advanced license
# Import system modules
import arcpy
arcpy.env.workspace = "C:/textanalysisexamples/data"
# Set local variables
in_table = "training_data_textclassifier.csv"
out_folder = "c:\\textclassifier"
# Run Train Text Classification Model
arcpy.geoai.TrainTextClassificationModel(
in_table, out_folder, max_epochs=2, text_field="Address",
label_field="Country", batch_size=16)
Параметры среды
Информация о лицензиях
- Basic: Нет
- Standard: Нет
- Advanced: Да