テキスト分類の仕組み—ArcGIS Pro

テキスト分類とは、事前定義済みカテゴリまたはラベルを、文、パラグラフ、テキストレポート、またはその他の非構造化テキスト形式に割り当てる処理のことです。 GeoAI ツールボックスのテキスト分析ツールセットには、自然言語処理 (NLP) 手法を使用してテキスト分類モデルのトレーニングを行ったり、モデルを使用してテキストを分類するためのツールが含まれています。

[テキスト分類モデルのトレーニング (Train Text Classification Model)] ツールは、データセットのトレーニングの一環として提供される既知のクラスやカテゴリに基づき、テキストを分類するための NLP モデルをトレーニングします。トレーニング済みモデルは [ディープラーニングを使用したテキスト分類 (Classify Text Using Deep Learning)] ツールで、類似するテキストをこれらのカテゴリに分類するために使用されます。

適用例

このツールは、次のような場合に適用できます。

不完全な住所を、その住所が所在する国によって分類します。これにより、適切なロケーターを割り当てて、住所をより正確にジオコーディングできるようになります。
ワクチン忌避の感情の有無によって、ジオコーディングされたツイートを分類します。これにより、公衆教育キャンペーンを通じて市民の信頼を獲得し、ワクチン接種の促進につなげられるエリアを特定します。
インシデントレポートに基づき、犯罪の種類を分類します。犯罪をカテゴリ別に集計することで傾向を把握し、改善策の策定に役立てることができます。

テキスト分類モデルのフローチャート — 住所分類のテキスト分類モデルにより、不完全な住所が所在する国を予測できます。

ArcGIS のテキスト分類モデルは、Vaswani et, al. が発表した影響力の大きい論文 "Attention is All you Need" において提案されている Transformer アーキテクチャに基づいています。これにより、モデルの精度と並行処理のしやすさが高まると同時に、トレーニングに必要なラベル付きデータが少なくて済みます。

内部的には、ArcGIS のテキスト分類モデルは、次の 2 つのコンポーネントを持つディープニューラルネットワークです。

エンコーダー: エンコーダーはモデルのバックボーンとしての役割を担い、入力テキストを固定長ベクトル形式の特徴表現に変換します。このモデルは、Transformer アーキテクチャに基づき、大量のテキストに対して事前にトレーニングされた BART、ALBERT、RoBERTa などの一般的なエンコーダーを使用しています。
分類器: 分類器はモデルのヘッドとしての役割を担い、特徴表現を複数のカテゴリに分類します。多くの分類器は、ニューラルネットワークの単純な線形レイヤーです。

注意:

NLP モデルは、大量の非構造化テキストの解析を自動化するには効果的なツールです。他の種類のモデルと同様に、人間による適度な監視と、モデルの種類およびモデルのトレーニングに使用するトレーニングデータセットに関する透明性を確保したうえで、関連するタスクに適用する必要があります。

テキスト分類モデルの使用

[ディープラーニングを使用したテキストの分類 (Classify Text Using Deep Learning)] ツールは、トレーニング済みのテキスト分類モデルを非構造化テキストに適用し、事前定義済みのタイプに分類するために使用されます。 ArcGIS Living Atlas of the World の事前トレーニング済みのテキスト分類モデルを使用するか、[テキスト分類モデルのトレーニング (Train Text Classification Model)] ツールを使用してカスタムモデルをトレーニングできます。

[ディープラーニングを使用したテキスト分類 (Classify Text Using Deep Learning)] ツールへの入力は、分類するテキストを含むフィーチャクラスかテーブルです。入力モデルには、Esri モデル定義 JSON ファイル (*.emd) またはディープラーニングモデルパッケージ (*.dlpk) を指定できます。モデルには、ディープラーニングモデルファイル (モデルウェイトを含む) へのパスと、その他のモデルパラメーターが含まれます。一部のモデルには、追加のモデル引数が含まれることがあります。

このツールは、モデルによって入力テキストに割り当てられたクラスまたはカテゴリラベルを含む、入力テーブルのフィールドを作成します。

ツールは CPU で実行できますが、ディープラーニングは計算負荷が高いため、GPU を使用して処理することをお勧めします。 GPU を使用してこのツールを実行するには、プロセッサタイプ環境設定を GPU に設定します。複数の GPU がある場合は、代わりに GPU ID 環境設定を指定します。

テキスト分類モデルのトレーニング

[テキスト分類モデルのトレーニング (Train Text Classification Model)] ツールは、テキスト分類を行う NLP モデルのトレーニングに使用できます。このツールでは機械学習のアプローチを用い、入力テキストとラベル付きクラスのペアで構成されるトレーニングサンプルを提供することで、モデルのトレーニングを行います。 NLP モデルのトレーニングは計算負荷が高いタスクなので、GPU を使用することをお勧めします。

トレーニングデータは、予測変数として機能するテキストフィールドを含む入力テーブルと、テーブルの各入力テキストのターゲットクラスラベルを含むラベルフィールドの形式で提供されます。

テキスト分類モデルをトレーニングする場合、モデルを最初からトレーニングするか、トレーニング済みモデルを微調整するかを選択できます。一般的に、Transformer アーキテクチャを使用する言語モデルは few-shot 学習手法として見なされています。

ただし、トレーニングサンプルに含まれるターゲットクラスと同じセットを持つ事前トレーニング済みテキスト分類モデルを利用できる場合は、それを新しいトレーニングデータで微調整できます。新しいモデルをトレーニングするよりも、既存のモデルを微調整する方が時間を短縮でき、トレーニングサンプルも少なくて済みます。事前トレーニング済みモデルを微調整する際は、事前トレーニング済みモデルに使用される同じバックボーンモデルを維持してください。

事前トレーニング済みモデルは、Esri モデル定義ファイルか、ディープラーニングパッケージファイルのいずれかです。出力モデルも、これらの形式で、指定した出力モデルフォルダーに保存されます。

ディープラーニングモデルのトレーニングは反復的な処理で、入力トレーニングデータが複数回にわたってニューラルネットワークで渡されます。トレーニングデータ全体の各トレーニングパスは、エポックと呼ばれます。 [最大エポック] パラメーターは、トレーニング中のモデルにおいて、トレーニングデータが確認される最大回数を指定します。これは、トレーニング対象のモデル、タスクの複雑さ、トレーニングサンプルの数によって異なります。トレーニングサンプルが多い場合は、小さい値を使用できます。一般的に、検証損失が少なくなるまで、エポックを増やしてトレーニングを繰り返すことをお勧めします。

[モデルバックボーン] パラメーターは、モデルのエンコーダーとして機能し、入力テキストの特徴表現を抽出する、事前構成済みのニューラルネットワークを指定します。このモデルは、大量のテキストに対して半教師付きで事前トレーニングされ、Transformer アーキテクチャに基づく BERT、ALBERT、RoBERTa ベースのエンコーダーをサポートしており、ます。これらのエンコーダーは言語をよく理解しており、モデルの分類ヘッドへの入力としての役割を担う固定長ベクトルの形式として入力テキストを表現できます。

モデルのトレーニングはバッチで行われ、[バッチサイズ] パラメーターは 1 回のトレーニングで処理されるトレーニングサンプルの数を指定します。バッチサイズを大きくするとツールのパフォーマンスが向上します。しかし、バッチサイズが増加するにつれて、使用されるメモリ量も増えます。モデルのトレーニング中にメモリ不足エラーが発生した場合は、より小さいバッチサイズを使用してください。

[学習率] パラメーターは、非常に重要なハイパーパラメーターの 1 つです。これは、トレーニング中に調整されるモデルウェイトの割合を表します。低い学習率を指定すると、モデルはゆっくりと向上し、トレーニングにも時間がかかるため、時間とリソースが浪費されることになります。学習率が高ければ逆効果となり、あまり学習しない可能性があります。高い学習率では、モデルウェイトが大幅に調整され、不正な結果が生成されることになります。ほとんどの場合、このツールでは Leslie N. Smith による論文 "Cyclical Learning Rates for Training Neueal Networks" に基づく自動学習率ファインダーを使用するため、[学習率] パラメーターには値を指定しないことをお勧めします。

このツールでは、トレーニングデータの一部 (デフォルトでは 10%) を検証用のセットとして使用します。 [検証率] パラメーターでは、検証に使用するトレーニングデータの量を調整できます。

デフォルトでは、早期停止手法を使用するため、後続のトレーニングエポックでモデルが改善しなくなった時点で、モデルのトレーニングを停止します。 [モデルが改善しなくなったら停止] パラメーターをオフにすると、この動作をオフにできます。

また、事前トレーニング済みモデルのバックボーンレイヤーを固定するかどうかも指定できます。これにより、ウェイトとバイアスが本来の設計どおりになります。デフォルトでは、バックボーンモデルのレイヤーは固定されず、[モデルバックボーン] 値のウェイトとバイアスはトレーニングサンプルに合わせて変更できます。この処理には時間がかかりますが、通常は優れた結果が得られます。

多くの場合、テキストデータには、HTML タグや URL 形式のノイズが含まれます。の[HTML タグの削除] パラメーターと [URL の削除] パラメーターを使用してテキストを事前処理し、タグを削除してから処理を行えます。

参考文献

Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. "Attention Is All You Need." December 6, 2017. https://arxiv.org/abs/1706.03762.

Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." May 24, 2019. https://doi.org/10.48550/arxiv.1810.04805.

"Encoder models." https://huggingface.co/course/chapter1/5?fw=pt.

Brown, Tom B. et al. "Language Models are Few-Shot Learners." July 22, 2020. https://doi.org/10.48550/arxiv.2005.14165.

Smith, Leslie N. "Cyclical Learning Rates for Training Neural Networks." April 4, 2017. https://doi.org/10.48550/arxiv.1506.01186.

このトピックへのフィードバック

適用例

注意:

テキスト分類モデルの使用

テキスト分類モデルのトレーニング

参考文献

このトピックの内容