Entitäten mit Deep Learning extrahieren (GeoAI)

Zusammenfassung

Damit wird ein trainiertes Modell zur Erkennung benannter Entitäten für Textdateien in einem Ordner oder einer Textdatei in einer Feature-Class oder Tabelle zum Extrahieren von Entitäten und Positionen (wie Adressen, Namen von Orten oder Personen, Datumsangaben und Geldwerte) in eine Tabelle ausgeführt. Wenn die extrahierten Entitäten eine Adresse enthalten, wird diese vom Werkzeug mithilfe des angegebenen Locators geokodiert und eine Feature-Class als Ausgabe erzeugt.

Weitere Informationen zur Funktionsweise der Entitätenerkennung

Verwendung

  • Für dieses Werkzeug müssen Deep-Learning-Frameworks installiert sein. Informationen zum Einrichten des Computers für Deep-Learning-Frameworks in ArcGIS Pro finden Sie unter Installieren von Deep-Learning-Frameworks for ArcGIS.

  • Dieses Werkzeug erfordert eine Modelldefinitionsdatei, die Informationen zum trainierten Modell enthält. Das Modell kann mit dem Werkzeug Entitätenerkennungsmodell trainieren trainiert werden. Als Parameterwert für die Eingabe-Modelldefinitionsdatei kann eine JSON-Datei mit der Esri Modelldefinition (.emd) oder ein Deep-Learning-Modellpaket (.dlpk) verwendet werden. Die Modelldateien können lokal gespeichert oder in ArcGIS Living Atlas of the World gehostet werden.

  • Dieses Modell unterstützt Modelle, die mit Transformer-basierten Backbones und dem Mistral-Backbone trainiert wurden. Informationen zur Installation des Mistral-Backbone finden Sie unter ArcGIS Mistral Backbone.

  • Dieses Werkzeug unterstützt die Verwendung von Sprachmodellen von Drittanbietern, die mithilfe des Modellerweiterbarkeits-Features erstellt wurden. Das Modellerweiterbarkeits-Feature ermöglicht Entitätenextraktions-Tasks mithilfe einer Datei für ein benutzerdefiniertes Deep-Learning-Modell (.dlpk), die nicht mithilfe des Werkzeugs Entitätenerkennungsmodell trainieren erstellt wurde. Weitere Informationen zum Erstellen einer Datei für ein benutzerdefiniertes Deep-Learning-Modell (.dlpk) finden Sie unter Verwenden von Sprachmodellen von Drittanbietern mit ArcGIS.

  • Dieses Werkzeug kann in einer CPU oder einem Grafikprozessor ausgeführt werden. Deep Learning ist jedoch rechenintensiv, sodass ein Grafikprozessor empfohlen wird. Wenn Sie dieses Werkzeug mit dem Grafikprozessor ausführen möchten, legen Sie die Umgebungsvariable Prozessortyp auf "GPU" fest. Wenn Sie mehrere Grafikprozessoren haben, legen Sie stattdessen die Umgebungsvariable GPU ID fest.

  • Weitere Informationen zu den Voraussetzungen für die Ausführung dieses Werkzeugs und eventuell dabei auftretenden Problemen finden Sie unter Häufig gestellte Fragen zu Deep Learning.

Parameter

BeschriftungErläuterungDatentyp
Eingabeordner oder -tabelle

Als Eingabe für diesen Parameter stehen folgende Möglichkeiten zur Verfügung:

  • Eine Feature-Class oder Tabelle, die die Textspalte enthält, aus denen benannte Entitäten extrahiert werden sollen.
  • Ein Ordner mit den Textdateien, aus denen benannte Entitäten extrahiert werden sollen.
Folder; Feature Layer; Table View; Feature Class
Ausgabetabelle

Die Ausgabe-Feature-Class oder Ausgabetabelle, die die extrahierten Entitäten enthält. Wenn ein Locator angegeben wird und mit dem Modell Adressen extrahiert werden, wird die Feature-Class durch Geokodierung der extrahierten Adressen erzeugt.

Feature Class; Table; Feature Layer
Eingabe-Modelldefinitionsdatei

Das trainierte Modell, das zum Extrahieren von Entitäten aus Text verwendet wird. Als Modelldefinitionsdatei kann eine JSON-Datei mit der Esri Modelldefinition (.emd) oder ein Deep-Learning-Modellpaket (.dlpk) verwendet werden, das lokal gespeichert oder in ArcGIS Living Atlas (.dlpk_remote) gehostet wird.

Wenn Sie eine .dlpk-Datei verwenden möchten, die mit dem Mistral-Backbone trainiert wurde, müssen Sie dieses vor Verwendung des Modells installieren. Informationen zur Installation des Mistral-Backbone finden Sie unter ArcGIS Mistral Backbone.

Bei der .dlpk-Datei kann es sich auch um ein Sprachmodell eines Drittanbieters handeln.

Vorsicht:

Die .dlpk-Datei für ein Sprachmodell eines Drittanbieters kann schädlichen Code enthalten. Verwenden Sie diese Modelle daher nur, wenn Sie deren Quelle als vertrauenswürdig einstufen.

File
Modellargumente
(optional)

Zusätzliche Argumente, die vom Modell beim Ausführen von Inferenzen verwendet werden. Als Modellargument wird sequence_length unterstützt, das zum Anpassen der Ausgabe des Modells verwendet wird.

Hinweis:

Bei Verwendung eines Sprachmodells eines Drittanbieters werden die Modellargumente entsprechend den in der .dlpk-Datei angegebenen Parametern aktualisiert. Weitere Informationen zum Definieren von Modellargumenten finden Sie im Abschnitt "getParameterInfo" unter Verwenden von Sprachmodellen von Drittanbietern mit ArcGIS.

Value Table
Batch-Größe
(optional)

Die Anzahl der Trainingsgebiete, die gleichzeitig verarbeitet werden sollen. Der Standardwert ist 4.

Durch größere Batches kann die Leistung des Werkzeugs erhöht werden. Aber größere Batches belegen mehr Arbeitsspeicher. Wird die Fehlermeldung "Nicht genügend Arbeitsspeicher" angezeigt, verwenden Sie kleinere Batches.

Double
Region oder Zone zur Verortung
(optional)

Die geographische Region oder Zone, in der sich die Adressen vermutlich befinden. Der angegebene Text wird an die Adresse angehängt, die vom Modell extrahiert wurde.

Vom Locator werden die Informationen der Verortungszone verwendet, um die Region oder den geographischen Bereich zu identifizieren, wo sich die Adresse vermutlich befindet, um so bessere Ergebnisse zu erzielen.

String
Eingabe-Locator
(optional)

Der Locator, der verwendet wird, um Adressen in Eingabetextdokumenten zu geokodieren. Für jede erfolgreich geokodierte Adresse wird ein Punkt erzeugt und in der Ausgabe-Feature-Class gespeichert.

Address Locator
Textfeld

Ein Textfeld in der Eingabe-Feature-Class oder Eingabetabelle, das vom Modell als Eingabe verwendet wird. Dieser Parameter ist erforderlich, wenn der Parameterwert für Eingabeordner oder -tabelle eine Feature-Class oder Tabelle ist.

Field

arcpy.geoai.ExtractEntitiesUsingDeepLearning(in_folder, out_table, in_model_definition_file, {model_arguments}, {batch_size}, {location_zone}, {in_locator}, text_field)
NameErläuterungDatentyp
in_folder

Als Eingabe für diesen Parameter stehen folgende Möglichkeiten zur Verfügung:

  • Eine Feature-Class oder Tabelle, die die Textspalte enthält, aus denen benannte Entitäten extrahiert werden sollen.
  • Ein Ordner mit den Textdateien, aus denen benannte Entitäten extrahiert werden sollen.
Folder; Feature Layer; Table View; Feature Class
out_table

Die Ausgabe-Feature-Class oder Ausgabetabelle, die die extrahierten Entitäten enthält. Wenn ein Locator angegeben wird und mit dem Modell Adressen extrahiert werden, wird die Feature-Class durch Geokodierung der extrahierten Adressen erzeugt.

Feature Class; Table; Feature Layer
in_model_definition_file

Das trainierte Modell, das zum Extrahieren von Entitäten aus Text verwendet wird. Als Modelldefinitionsdatei kann eine JSON-Datei mit der Esri Modelldefinition (.emd) oder ein Deep-Learning-Modellpaket (.dlpk) verwendet werden, das lokal gespeichert oder in ArcGIS Living Atlas (.dlpk_remote) gehostet wird.

Wenn Sie eine .dlpk-Datei verwenden möchten, die mit dem Mistral-Backbone trainiert wurde, müssen Sie dieses vor Verwendung des Modells installieren. Informationen zur Installation des Mistral-Backbone finden Sie unter ArcGIS Mistral Backbone.

Bei der .dlpk-Datei kann es sich auch um ein Sprachmodell eines Drittanbieters handeln.

Vorsicht:

Die .dlpk-Datei für ein Sprachmodell eines Drittanbieters kann schädlichen Code enthalten. Verwenden Sie diese Modelle daher nur, wenn Sie deren Quelle als vertrauenswürdig einstufen.

File
model_arguments
[model_arguments,...]
(optional)

Zusätzliche Argumente, die vom Modell beim Ausführen von Inferenzen verwendet werden. Als Modellargument wird sequence_length unterstützt, das zum Anpassen der Ausgabe des Modells verwendet wird.

Hinweis:

Bei Verwendung eines Sprachmodells eines Drittanbieters werden die Modellargumente entsprechend den in der .dlpk-Datei angegebenen Parametern aktualisiert. Weitere Informationen zum Definieren von Modellargumenten finden Sie im Abschnitt "getParameterInfo" unter Verwenden von Sprachmodellen von Drittanbietern mit ArcGIS.

Value Table
batch_size
(optional)

Die Anzahl der Trainingsgebiete, die gleichzeitig verarbeitet werden sollen. Der Standardwert ist 4.

Durch größere Batches kann die Leistung des Werkzeugs erhöht werden. Aber größere Batches belegen mehr Arbeitsspeicher. Wird die Fehlermeldung "Nicht genügend Arbeitsspeicher" angezeigt, verwenden Sie kleinere Batches.

Double
location_zone
(optional)

Die geographische Region oder Zone, in der sich die Adressen vermutlich befinden. Der angegebene Text wird an die Adresse angehängt, die vom Modell extrahiert wurde.

Vom Locator werden die Informationen der Verortungszone verwendet, um die Region oder den geographischen Bereich zu identifizieren, wo sich die Adresse vermutlich befindet, um so bessere Ergebnisse zu erzielen.

String
in_locator
(optional)

Der Locator, der verwendet wird, um Adressen in Eingabetextdokumenten zu geokodieren. Für jede erfolgreich geokodierte Adresse wird ein Punkt erzeugt und in der Ausgabe-Feature-Class gespeichert.

Address Locator
text_field

Ein Textfeld in der Eingabe-Feature-Class oder Eingabetabelle, das vom Modell als Eingabe verwendet wird. Dieser Parameter ist erforderlich, wenn der Parameterwert für in_folder eine Feature-Class oder Tabelle ist.

Field

Codebeispiel

ExtractEntitiesUsingDeepLearning (eigenständiges Skript)

Im folgenden Beispiel wird veranschaulicht, wie die ExtractEntitiesUsingDeepLearning-Funktion verwendet wird.

# Name: ExtractEntities.py
# Description: Extract useful entities such as "Address", "Date" from text.  

# Import system modules
import arcpy
import os

arcpy.env.workspace = "C:/textanalysisexamples/data"
dbpath = "C:/textanalysisexamples/Text_analysis_tools.gdb"

# Set local variables
in_folder = 'test_data'
out_table = os.path.join(dbpath, "ExtractedEntities")

pretrained_model_path_emd = "c:\\extractentities\\EntityRecognizer.emd"

# Run Extract Entities Using Deep Learning
arcpy.geoai.ExtractEntitiesUsingDeepLearning(
    in_folder, out_table, pretrained_model_path_emd)

Umgebungen

Lizenzinformationen

  • Basic: Nein
  • Standard: Nein
  • Advanced: Ja

Verwandte Themen