训练文本分类模型 (GeoAI)—ArcGIS Pro

摘要

训练单或多标注文本分类模型以将预定义类别或标注分配给非结构化文本。

使用情况

该工具要求安装深度学习框架。要设置计算机以在 ArcGIS Pro 中使用深度学习框架，请参阅安装 ArcGIS 的深度学习框架。
该工具还可用于对现有经过训练的模型进行微调。
要使用 GPU 运行此工具，请将处理器类型环境设置为 GPU。如果您具有多个 GPU，还可以指定 GPU ID 环境。
输入可以是包含训练数据的表或要素类，其中文本字段包含输入文本，标注字段包含目标类标注。
此工具将使用基于转换器的骨干来训练文本分类模型，并且还支持使用 Mistral LLM 的提示进行上下文学习。要安装 Mistral 主干，请参阅 ArcGIS Mistral 主干。
有关运行此工具的要求以及您可能遇到的问题的信息，请参阅深度学习常见问题。

参数

标注	说明	数据类型
输入表	要素类或表，其中包含带有模型输入文本的文本字段和包含目标类标注的标注字段。	Feature Layer; Table View
文本字段	输入要素类或表中的文本字段，其中包含将按模型分类的文本。	Field
标注字段	输入要素类或表中的文本字段，其中包含用于训练模型的目标类标注。对于多标注文本分类，指定一个以上的文本字段。	Field
输出模型	将存储训练模型的输出文件夹位置。	Folder
预训练模型文件 (可选)	将用于微调新模型的预训练模型。输入可以是 Esri 模型定义文件 (.emd) 或深度学习包文件 (.dlpk)。可以对具有相似类的预训练模型进行微调以适应新模型。预训练模型必须已使用将用于训练新模型的相同模型类型和骨干模型进行了训练。	File
最大轮数 (可选)	将用于训练模型的最大轮数。最大轮数值为 1 意味着数据集将通过神经网络传递一次。默认值为 5。	Long
模型骨干 (可选)	指定将用作模型编码器的预配置神经网络，并以固定长度矢量的形式提取输入文本的要素表示。将这些矢量作为输入传递给模型的分类中心词。 bert-base-cased—该模型将使用 BERT 神经网络进行训练。 BERT 将使用已掩膜语言建模目标和下一句预测进行预训练。 roberta-base—该模型将使用 RoBERTa 神经网络进行训练。 RoBERTa 将修改 BERT 的关键超参数，并消除预训练目标以及小批量和更高学习率的下一句训练。 albert-base-v1—该模型将使用 ALBERT 神经网络进行训练。 ALBERT 将使用一种专注于对句子间一致性进行建模的自监督损失，因而比 BERT 具有更好的可扩展性。 xlnet-base-cased—该模型将使用 XLNet 神经网络进行训练。 XLNet 是一种广义自回归预训练方法。该方法允许通过最大限度提升分解顺序的所有排列的预期概率来学习双向上下文，从而克服了 BERT 的缺点。 xlm-roberta-base—该模型将使用 XLM-RoBERTa 神经网络进行训练。 XLM-RoBERTa 是一种针对 100 种不同语言训练的多语言模型。与某些 XLM 多语言模型不同，该模型不需要依靠语言张量来了解所使用的是哪种语言，并可根据输入 ID 来识别正确的语言。 distilroberta-base—该模型将使用 DistilRoBERTa 神经网络进行训练。 DistilRoBERTa 是一种英语语言模型，仅在 OpenWebTextCorpus 上由 roberta-base 神经网络监督进行预训练（OpenWebTextCorpus 是 OpenAI 的 WebText 数据集的复制品）。 distilbert-base-cased—该模型将使用 DistilBERT 神经网络进行训练。 DistilBERT 是一种较小的通用语言表示模型。 mistral—将利用 Mistral 大型语言模型 (LLM) 创建模型。 Mistral 是一种仅限解码器的变换器模型，采用滑动窗口注意力、分组查询注意力和字节回退 BPE 分词器技术。要安装 Mistral 主干，请参阅 ArcGIS Mistral 主干。	String
批处理大小 (可选)	一次需要处理的训练样本数。默认值为 2。增加批处理大小可以提高工具性能；但是，随着批处理大小的增加，会占用更多内存。如果发生内存不足错误，请使用较小的批处理大小。	Double
模型参数 (可选)	将用于初始化模型的附加参数。受支持的模型参数为 sequence_length，此参数用于设置训练数据的最大序列长度，将被考虑用于训练模型。	Value Table
学习率 (可选)	指示在训练过程中将调整多少模型权重的步长。如果未指定值，则将自动应用最佳学习率。	Double
验证百分比 (可选)	将用于验证模型的训练样本的百分比。对于基于转换器的模型骨干，默认值为 10；对于 Mistral 骨干，默认值为 50。	Double
当模型停止改进时停止 (可选)	指定模型训练是在模型不再改进或继续时停止还是直至达到最大轮数参数值时才停止。选中 - 当模型不再改进时，模型训练将停止，不考虑最大轮数参数值。这是默认设置。未选中 - 模型训练将一直持续，直至达到最大轮数参数值为止。	Boolean
将模型骨干设置为可训练 (可选)	指定是否冻结预训练模型中的骨干层，以使权重和偏差保持原始设计。选中 - 不会冻结骨干图层，模型骨干参数值的权重和偏差可能会进行更改以更好地适合您的训练样本。这将需要花费更多的时间来处理，但通常会产生更好的结果。这是默认设置。未选中 - 将冻结骨干图层，在训练过程中不会更改预定义的模型骨干参数值的权重和偏差。	Boolean
移除 HTML 标签 (可选)	指定是否将从输入文本中移除 HTML 标签。选中 - 输入文本中的 HTML 标签将被移除。这是默认设置。未选中 - 输入文本中的 HTML 标签不会被移除。	Boolean
移除 URL (可选)	指定是否将从输入文本中移除 URL。选中 - 输入文本中的 URL 将被移除。这是默认设置。未选中 - 输入文本中的 URL 不会被移除。	Boolean
提示 (可选)	特定输入或指令用于指导大型语言模型 (LLM) 生成预期输出。默认值是将提供的文本分类到指定的类别中。不创建新的分类标注。	String

arcpy.geoai.TrainTextClassificationModel(in_table, text_field, label_field, out_model, {pretrained_model_file}, {max_epochs}, {model_backbone}, {batch_size}, {model_arguments}, {learning_rate}, {validation_percentage}, {stop_training}, {make_trainable}, {remove_html_tags}, {remove_urls}, {prompt})

名称	说明	数据类型
in_table	要素类或表，其中包含带有模型输入文本的文本字段和包含目标类标注的标注字段。	Feature Layer; Table View
text_field	输入要素类或表中的文本字段，其中包含将按模型分类的文本。	Field
label_field [label_field,...]	输入要素类或表中的文本字段，其中包含用于训练模型的目标类标注。对于多标注文本分类，指定一个以上的文本字段。	Field
out_model	将存储训练模型的输出文件夹位置。	Folder
pretrained_model_file (可选)	将用于微调新模型的预训练模型。输入可以是 Esri 模型定义文件 (.emd) 或深度学习包文件 (.dlpk)。可以对具有相似类的预训练模型进行微调以适应新模型。预训练模型必须已使用将用于训练新模型的相同模型类型和骨干模型进行了训练。	File
max_epochs (可选)	将用于训练模型的最大轮数。最大轮数值为 1 意味着数据集将通过神经网络传递一次。默认值为 5。	Long
model_backbone (可选)	指定将用作模型编码器的预配置神经网络，并以固定长度矢量的形式提取输入文本的要素表示。将这些矢量作为输入传递给模型的分类中心词。 bert-base-cased—该模型将使用 BERT 神经网络进行训练。 BERT 将使用已掩膜语言建模目标和下一句预测进行预训练。 roberta-base—该模型将使用 RoBERTa 神经网络进行训练。 RoBERTa 将修改 BERT 的关键超参数，并消除预训练目标以及小批量和更高学习率的下一句训练。 albert-base-v1—该模型将使用 ALBERT 神经网络进行训练。 ALBERT 将使用一种专注于对句子间一致性进行建模的自监督损失，因而比 BERT 具有更好的可扩展性。 xlnet-base-cased—该模型将使用 XLNet 神经网络进行训练。 XLNet 是一种广义自回归预训练方法。该方法允许通过最大限度提升分解顺序的所有排列的预期概率来学习双向上下文，从而克服了 BERT 的缺点。 xlm-roberta-base—该模型将使用 XLM-RoBERTa 神经网络进行训练。 XLM-RoBERTa 是一种针对 100 种不同语言训练的多语言模型。与某些 XLM 多语言模型不同，该模型不需要依靠语言张量来了解所使用的是哪种语言，并可根据输入 ID 来识别正确的语言。 distilroberta-base—该模型将使用 DistilRoBERTa 神经网络进行训练。 DistilRoBERTa 是一种英语语言模型，仅在 OpenWebTextCorpus 上由 roberta-base 神经网络监督进行预训练（OpenWebTextCorpus 是 OpenAI 的 WebText 数据集的复制品）。 distilbert-base-cased—该模型将使用 DistilBERT 神经网络进行训练。 DistilBERT 是一种较小的通用语言表示模型。 mistral—将利用 Mistral 大型语言模型 (LLM) 创建模型。 Mistral 是一种仅限解码器的变换器模型，采用滑动窗口注意力、分组查询注意力和字节回退 BPE 分词器技术。要安装 Mistral 主干，请参阅 ArcGIS Mistral 主干。	String
batch_size (可选)	一次需要处理的训练样本数。默认值为 2。增加批处理大小可以提高工具性能；但是，随着批处理大小的增加，会占用更多内存。如果发生内存不足错误，请使用较小的批处理大小。	Double
model_arguments [model_arguments,...] (可选)	将用于初始化模型的附加参数。受支持的模型参数为 sequence_length，此参数用于设置训练数据的最大序列长度，将被考虑用于训练模型。	Value Table
learning_rate (可选)	指示在训练过程中将调整多少模型权重的步长。如果未指定值，则将自动应用最佳学习率。	Double
validation_percentage (可选)	将用于验证模型的训练样本的百分比。对于基于转换器的模型骨干，默认值为 10；对于 Mistral 骨干，默认值为 50。	Double
stop_training (可选)	指定模型训练是在模型不再改进或继续时停止还是直至达到 max_epochs 参数值时才停止。 STOP_TRAINING—当模型不再改进时，模型训练将停止，不考虑 max_epochs 参数值。这是默认设置。 CONTINUE_TRAINING—模型训练将一直持续，直至达到 max_epochs 参数值为止。	Boolean
make_trainable (可选)	指定是否冻结预训练模型中的骨干层，以使权重和偏差保持原始设计。 TRAIN_MODEL_BACKBONE—不会冻结骨干图层，model_backbone 参数值的权重和偏差可能会进行更改以更好地适合您的训练样本。这将需要花费更多的时间来处理，但通常会产生更好的结果。这是默认设置。 FREEZE_MODEL_BACKBONE—将冻结骨干图层，在训练过程中不会更改预定义的 model_backbone 参数值的权重和偏差。	Boolean
remove_html_tags (可选)	指定是否将从输入文本中移除 HTML 标签。 REMOVE_HTML_TAGS—输入文本中的 HTML 标签将被移除。这是默认设置。 DO_NOT_REMOVE_HTML_TAGS—输入文本中的 HTML 标签不会被移除。	Boolean
remove_urls (可选)	指定是否将从输入文本中移除 URL。 REMOVE_URLS—输入文本中的 URL 将被移除。这是默认设置。 DO_NOT_REMOVE_URLS—输入文本中的 URL 不会被移除。	Boolean
prompt (可选)	特定输入或指令用于指导大型语言模型 (LLM) 生成预期输出。默认值是将提供的文本分类到指定的类别中。不创建新的分类标注。	String

代码示例

TrainTextClassificationModel（独立脚本）

以下示例演示了如何使用 TrainTextClassificationModel 函数。

# Name: TrainTextClassification.py
# Description: Train a text classifier model to classify text in different
#              classes.  
#
# Requirements: ArcGIS Pro Advanced license

# Import system modules
import arcpy

arcpy.env.workspace = "C:/textanalysisexamples/data"

# Set local variables
in_table = "training_data_textclassifier.csv"
out_folder = "c:\\textclassifier"

# Run Train Text Classification Model
arcpy.geoai.TrainTextClassificationModel(
    in_table, out_folder, max_epochs=2, text_field="Address",
    label_field="Country", batch_size=16)

环境

处理器类型, GPU ID

许可信息

Basic: 否
Standard: 否
Advanced: 是

摘要

使用情况

参数

代码示例

环境

许可信息

相关主题

在本主题中