Подпись | Описание | Тип данных |
Входная таблица | Класс объектов или таблица, который содержит текстовое поле с входным текстом для модели и поле меток с преобразованным текстом. | Feature Layer; Table View |
Поле текста | Текстовое поле во входном классе или таблице, содержащее входной текст, который будет преобразован моделью. | Field |
Поле меток | Текстовое поле во входном классе объектов или таблице, которое содержит преобразованный текст для обучения модели. | Field |
Выходная модель | Местоположение выходной папки, в которой будет храниться обученная модель. | Folder |
Файл предварительно обученной модели (Дополнительный) | Предварительно обученная модель, которая будет использоваться для тонкой настройки новой модели. Входными данными является файл определения модели Esri (.emd) или файл пакета глубокого обучения (.dlpk). Предварительно обученную модель, которая выполняет аналогичную задачу, можно дополнительно настроить, чтобы она соответствовала обучающим данным. Предварительно обученная модель должна быть обучена с тем же типом модели и опорной моделью, которые будут использоваться для обучения новой модели. | File |
Максимальное число периодов времени (Дополнительный) | Максимальное количество периодов времени, для которых будет обучаться модель. Максимальное значение эпохи, равное 1, означает, что набор данных будет передаваться через нейронную сеть один раз. Значение по умолчанию 5. | Long |
Опорная модель (Дополнительный) | Указывает предварительно настроенную нейронную сеть, которая будет использоваться в качестве архитектуры для обучения новой модели.
| String |
Размер пакета (Дополнительный) | Количество обучающих выборок, которые будут обрабатываться за один раз. Значение по умолчанию – 2. Увеличение размера пакета может улучшить производительность инструмента, но при этом увеличение размера пакета приводит к расходованию большего объема памяти. Если возникает ошибка нехватки памяти, используйте меньший размер пакета. | Double |
Аргументы модели (Дополнительный) | Дополнительные аргументы, которые будут использоваться для инициализации модели. Поддерживаемый аргумент модели — sequence_length, который используется для установки максимальной длины последовательности обучающих данных, которые будут учитываться при обучении модели. | Value Table |
Скорость обучения (Дополнительный) | Размер шага, показывающий, как можно настроить веса модели в ходе процесса обучения. Если значение не указано, оптимальная скорость обучения будет вычислена автоматически. | Double |
Процент проверки (Дополнительный) | Процент обучающих выборок, которые будут использоваться для проверки модели. Значение по умолчанию — 10 для опорных сетей на основе преобразователей и 50 для опорной сети Mistral. | Double |
Завершить, когда модель перестанет улучшаться (Дополнительный) | Определяет, остановится ли обучение модели, если модель больше не улучшается, или обучение продолжится до достижения значения параметра Максимальное число эпох.
| Boolean |
Сделать опорную модель обучаемой (Дополнительный) | Указывает, будут ли закреплены опорные слои в предварительно обученной модели, чтобы веса и смещения оставались такими, как они были изначально разработаны.
| Boolean |
Удалить теги HTML (Дополнительный) | Определяет, будут ли теги HTML удалены из входного текста.
| Boolean |
Удалить URL (Дополнительный) | Определяет, будут ли адреса URL удалены из входного текста.
| Boolean |
Запрос (Дополнительный) | Определенные входные данные или инструкция, передаваемая большой языковой модели (LLM) для генерации ожидаемого результата. Значение по умолчанию - Преобразовать введенный текст из текстового поля в преобразованный текст, присутствующий в поле метки. | String |
Краткая информация
Обучает модель преобразования текста для преобразования, перевода или суммирования текста.
Более подробно о том, как работает инструмент Преобразовать текст
Использование
Для этого инструмента требуются установленные системы глубокого изучения. Чтобы настроить компьютер на работу в среде глубокого обучения в ArcGIS Pro, см. раздел Установка сред глубокого обучения для ArcGIS.
Этот инструмент также можно использовать для тонкой настройки существующей обученной модели.
Чтобы запустить этот инструмент с помощью графического процессора, установите для параметра Тип процессора значение GPU. Если у вас более одного графического процессора, вместо этого задайте параметр среды GPU ID.
Входными данными для этого инструмента являются таблица или класс объектов, которые содержат данные обучения, с текстовым полем, где хранится входной текст, и полем метки, где хранится преобразованный текст.
Этот инструмент использует опорные модели на основе преобразователей для обучения моделей преобразования текста, а также поддерживает контекстное обучение с подсказками с использованием Mistral LLM. Чтобы установить Mistral backbone, см. ArcGIS Mistral Backbone.
Информацию о требованиях к запуску этого инструмента и проблемах, с которыми вы можете столкнуться, см. в разделе Часто задаваемые вопросы по глубокому обучению.
Параметры
arcpy.geoai.TrainTextTransformationModel(in_table, text_field, label_field, out_model, {pretrained_model_file}, {max_epochs}, {model_backbone}, {batch_size}, {model_arguments}, {learning_rate}, {validation_percentage}, {stop_training}, {make_trainable}, {remove_html_tags}, {remove_urls}, {prompt})
Имя | Описание | Тип данных |
in_table | Класс объектов или таблица, который содержит текстовое поле с входным текстом для модели и поле меток с преобразованным текстом. | Feature Layer; Table View |
text_field | Текстовое поле во входном классе или таблице, содержащее входной текст, который будет преобразован моделью. | Field |
label_field | Текстовое поле во входном классе объектов или таблице, которое содержит преобразованный текст для обучения модели. | Field |
out_model | Местоположение выходной папки, в которой будет храниться обученная модель. | Folder |
pretrained_model_file (Дополнительный) | Предварительно обученная модель, которая будет использоваться для тонкой настройки новой модели. Входными данными является файл определения модели Esri (.emd) или файл пакета глубокого обучения (.dlpk). Предварительно обученную модель, которая выполняет аналогичную задачу, можно дополнительно настроить, чтобы она соответствовала обучающим данным. Предварительно обученная модель должна быть обучена с тем же типом модели и опорной моделью, которые будут использоваться для обучения новой модели. | File |
max_epochs (Дополнительный) | Максимальное количество периодов времени, для которых будет обучаться модель. Максимальное значение эпохи, равное 1, означает, что набор данных будет передаваться через нейронную сеть один раз. Значение по умолчанию 5. | Long |
model_backbone (Дополнительный) | Указывает предварительно настроенную нейронную сеть, которая будет использоваться в качестве архитектуры для обучения новой модели.
| String |
batch_size (Дополнительный) | Количество обучающих выборок, которые будут обрабатываться за один раз. Значение по умолчанию – 2. Увеличение размера пакета может улучшить производительность инструмента, но при этом увеличение размера пакета приводит к расходованию большего объема памяти. Если возникает ошибка нехватки памяти, используйте меньший размер пакета. | Double |
model_arguments [model_arguments,...] (Дополнительный) | Дополнительные аргументы, которые будут использоваться для инициализации модели. Поддерживаемый аргумент модели — sequence_length, который используется для установки максимальной длины последовательности обучающих данных, которые будут учитываться при обучении модели. | Value Table |
learning_rate (Дополнительный) | Размер шага, показывающий, как можно настроить веса модели в ходе процесса обучения. Если значение не указано, оптимальная скорость обучения будет вычислена автоматически. | Double |
validation_percentage (Дополнительный) | Процент обучающих выборок, которые будут использоваться для проверки модели. Значение по умолчанию — 10 для опорных сетей на основе преобразователей и 50 для опорной сети Mistral. | Double |
stop_training (Дополнительный) | Определяет, остановится ли обучение модели, если модель больше не улучшается, или обучение продолжится до достижения значения параметра max_epochs.
| Boolean |
make_trainable (Дополнительный) | Указывает, будут ли закреплены опорные слои в предварительно обученной модели, чтобы веса и смещения оставались такими, как они были изначально разработаны.
| Boolean |
remove_html_tags (Дополнительный) | Определяет, будут ли теги HTML удалены из входного текста.
| Boolean |
remove_urls (Дополнительный) | Определяет, будут ли адреса URL удалены из входного текста.
| Boolean |
prompt (Дополнительный) | Определенные входные данные или инструкция, передаваемая большой языковой модели (LLM) для генерации ожидаемого результата. Значение по умолчанию - Преобразовать введенный текст из текстового поля в преобразованный текст, присутствующий в поле метки. | String |
Пример кода
Скрипт окна Python, демонстрирующий использование функции TrainTextTransformationModel.
# Name: TrainTextTransformation.py
# Description: Train a sequence-to-sequence model to translate text from English to German.
#
# Requirements: ArcGIS Pro Advanced license
# Import system modules
import arcpy
import os
# Set local variables
in_table = "training_data.csv"
out_folder = "c\\texttransformer"
# Run Train Text Transformation Model
arcpy.geoai.TrainTextTransformationModel(in_table, out_folder, max_epochs=2,
text_field="input", label_field="target", batch_size=16)
Параметры среды
Информация о лицензиях
- Basic: Нет
- Standard: Нет
- Advanced: Да