Skip To Content

Anpassen der Einstellungen zum Extrahieren von Positionen und Attributen

Mit der LocateXT-Lizenz verfügbar.

Nach dem Scannen von Dokumenten oder Texten und Auswerten der Ergebnisse können Sie anpassen, was extrahiert wird und wie der Inhalt ausgewertet wird. Wenn Sie unterschiedliche Dokumente in verschiedenen Formaten verarbeiten, müssen Sie einen anderen Ansatz wählen als bei unterschiedlichen Dokumentsammlungen in bekanntem Format mit grob strukturierten Informationen.

Der Bereich Positionen extrahieren enthält verschiedene Standardeinstellungen für die Erkennung der häufigsten Positionen und zum Extrahieren der neuesten Datumsangaben. Wenn Sie eine bessere Vorstellung vom Inhalt Ihrer Dokumente und Texte haben, können Sie diese Einstellungen anpassen und die Informationen, die extrahiert werden, optimieren. Diese Einstellungen werden auf der Registerkarte Eigenschaften angepasst.

Die Sammlung der Standardeinstellungen ist mit der Vorlage Unstrukturierte Standarddaten verknüpft. Wenn Sie die Einstellungen, die für eine bestimmte Dokumentsammlung oder ein bestimmtes Textformat am besten funktionieren, bestimmt haben, können Sie sie in einer benutzerdefinierten Vorlage speichern. Diese Vorlage sollten Sie verwenden, wenn Sie einen neuen Batch von Dokumenten in der Sammlung oder ähnlichen Text erhalten.

Weitere Informationen zu Vorlagen zum Extrahieren von Positionen

Optionen

Wenn Sie auf die Registerkarte Eigenschaften klicken, wird standardmäßig die Registerkarte Optionen Optionen ausgewählt. Dort können Sie die Umschaltflächen für die Kategorien der Informationen, die aus den Eingabedokumenten oder -texten extrahiert werden können, aktivieren oder deaktivieren und festlegen, wie diese Informationen verarbeitet werden. Sie können auch das Symbol angeben, das durch den Ausgabe-Karten-Layer verwendet werden soll.

  • Positionen extrahieren
    • Koordinaten: Die Umschaltfläche "Koordinaten" ist standardmäßig aktiviert. Wenn Dokumente gescannt werden, werden sie auf räumliche Koordinaten untersucht. Für jede gefundene Position wird ein Punkt in der Ausgabe-Feature-Class erstellt.
    • Benutzerdefinierte Positionen: Die Umschaltfläche "Benutzerdefinierte Positionen" ist standardmäßig deaktiviert. Wenn Dokumente gescannt werden, werden sie auf Ortsnamen, die in einer Datei mit benutzerdefinierten Positionen angegeben sind, untersucht. In einer Datei mit benutzerdefinierten Positionen wird ein Ortsname mit einer räumlichen Koordinate verknüpft. Für jede gefundene Position wird ein Punkt in der Ausgabe-Feature-Class erstellt.
    • Fuzzy-Abgleich: Die Umschaltfläche "Fuzzy-Abgleich" ist standardmäßig deaktiviert. Wenn Sie nach benutzerdefinierten Positionen suchen, kann ein Fuzzy-Abgleich verwendet werden, um den Inhalt der Eingabedokumente mit den benutzerdefinierten Positionen zu vergleichen. Damit können zum Beispiel Rechtschreibfehler berücksichtigt werden.
  • Attribute extrahieren
    • Datumsangaben: Die Umschaltfläche "Datumsangaben" ist standardmäßig aktiviert. Wenn Dokumente gescannt werden, werden sie auf die neuesten Datumsangaben untersucht. Die gefundenen Datumsangaben werden extrahiert und in Feldern in der Attributtabelle der Ausgabe-Feature-Class gespeichert.
    • Benutzerdefinierte Attribute: Die Umschaltfläche "Benutzerdefinierte Attribute" ist standardmäßig deaktiviert. Wenn Dokumente gescannt werden, werden sie auf Schlagwörter, die in einer Datei mit benutzerdefinierten Attributen angegeben sind, untersucht. Die Datei mit benutzerdefinierten Attributen bestimmt, nach welchen Schlagwörtern gesucht werden soll und welcher Text extrahiert wird, wenn die Schlagwörter gefunden wurden, und definiert ein benutzerdefiniertes Feld, das in der Attributtabelle der Ausgabe-Feature-Class zum Speichern des extrahierten Inhalts erstellt werden soll.
  • Symbolisierung: Das Standardsymbol ist ein einfarbig roter Kreis. Wenn der Ausgabe-Karten-Layer erstellt wird, werden die Punkte in der Ausgabe-Feature-Class mit dem angegebenen Symbol angezeigt.

Neben einigen Umschaltflächen befinden sich Pfeilschaltflächen Zu Option springen. Mit der Pfeilschaltfläche können Sie zu einer anderen Registerkarte im Bereich Positionen extrahieren wechseln, um festzulegen, wie Koordinaten, benutzerdefinierte Positionen, Datumsangaben oder benutzerdefinierte Attribute ausgewertet und extrahiert werden.

Im Bereich Positionen extrahieren sind außerdem die folgenden Optionen verfügbar, mit denen festgelegt werden kann, welche Dateien verarbeitet werden, welcher Inhalt extrahiert wird und welche Ausgabe erstellt wird. Für diese Optionen gibt es jedoch keine Umschaltflächen auf der Registerkarte Optionen.

  • Dateien scannen: Mit dieser Option können Sie steuern, welche Dateien gescannt werden.
  • Ausgabe: Mit dieser Option können Sie steuern, wie viele Features und Datumsangaben ausgewertet werden und welcher Inhalt in der Attributtabelle der Ausgabe-Feature-Class hinzugefügt wird.
  • Einstellungen: Mit dieser Option können Sie den Typ der Ausgabe-Feature-Class, die erstellt werden kann, steuern.

Koordinaten

Die Registerkarte Koordinaten bestimmt, welche Koordinatenformate beim Scannen von Eingabedokumenten berücksichtigt werden sollen. Untersucht werden Zahlenpaare und alphanumerische Kombinationen, um festzustellen, ob sie mit den aktivierten Koordinatenformaten übereinstimmen. Die potenziellen räumlichen Koordinaten werden auf alle aktivierten Formate geprüft:

  • DD-Formate: Format "Dezimalgrad"
  • DM-Formate: Format "Grad Dezimalminuten"
  • DMS-Formate: Format "Grad, Minuten, Sekunden"
  • UTM-Formate: Format "Universal Transverse Mercator" (Universelle transversale Mercator-Projektion)
  • MGRS-Format: Format "Military Grid Reference System"

Für die erste gefundene Koordinate mit Übereinstimmung im Format wird eine Position in der Ausgabe-Feature-Class erstellt.

Jedes Koordinatenformat ist mit anderen Optionen verknüpft, die standardmäßig aktiviert oder deaktiviert sind, damit ein angemessener Satz Ausgabepositionen generiert werden kann. Einige Optionen können Ausgabepositionen generieren, wenn die Eingabedokumente Zahlenpaare oder alphanumerische Kombinationen enthalten, die zwar räumlichen Koordinaten ähneln, aber eigentlich keine Position am Boden beschreiben. Diese werden als falsch positive Ergebnisse bezeichnet. Falsch positive Ergebnisse werden mit höherer Wahrscheinlichkeit mit Optionen generiert, die standardmäßig deaktiviert sind. Wenn Sie jedoch genau wissen, dass Ihre Dokumente Positionen in diesen Formaten enthalten, dann sollten diese Optionen aktiviert werden. Wenn weniger Koordinatenformate aktiviert sind, werden die Dokumente schneller gescannt. Die unterstützten Koordinatenformate werden im Folgenden ausführlicher beschrieben.

Auf der Registerkarte Koordinaten können Sie auch das Koordinatensystem angeben, mit dem die räumlichen Koordinaten verknüpft sind. Standardmäßig werden die in Dokumenten gefundenen Koordinaten als Koordinaten im Koordinatensystem GCS_WGS_1984 behandelt. Wenn Sie wissen, dass die Koordinaten mit einem anderen Koordinatensystem erfasst wurden, dann klicken Sie auf die Schaltfläche Koordinatensystem auswählen Koordinatensystem auswählen und dann auf das richtige Koordinatensystem.

Standardmäßig werden Dokumente auf Koordinaten gescannt, die mit einem Punkt (.) oder einem Multiplikationszeichen (·) als Dezimaltrennzeichen angegeben sind. Wenn Sie mit Dokumenten arbeiten, in denen Zahlen mit Kommas als Dezimaltrennzeichen enthalten sind, dann sollten Sie stattdessen die Option Komma als Dezimalzeichen verwenden aktivieren. Diese Einstellung steuert lediglich, wie alphanumerischer Text ausgewertet wird, um zu bestimmen, ob es sich um eine räumliche Koordinate handelt. Diese Einstellung beeinflusst nicht, wie der Text ausgewertet wird, um zu bestimmen, ob er eine benutzerdefinierte Position darstellt oder mit einem Schlüsselwort übereinstimmt, das in einem benutzerdefinierten Attribut gespeichert werden soll, um zum Beispiel anzugeben, dass der Text in einer anderen Sprache als Englisch geschrieben wurde. Die Ländereinstellungen des Computers werden nicht zum Steuern dieser Einstellung verwendet.

Wenn Koordinatenpaare ohne Symbole oder Richtungsangaben angegeben wurden, wird die korrekte räumliche Position wahrscheinlich dann generiert, wenn die eine Zahl zwischen 0 und 90 und die andere Zahl zwischen 90 und 180 liegt. Wenn beide Zahlen zwischen 0 und 90 liegen, ist es schwieriger, die korrekte Position zu bestimmen. Da die geographische Länge/Breite eine strenge Konvention in der Geographie ist, werden Koordinatenpaare, bei denen beide Zahlen zwischen 0 und 90 liegen, standardmäßig auf diese Art ausgewertet. Das heißt, die erste Zahl wird als Wert auf der Y-Achse und die zweite Zahl als Wert auf der X-Achse betrachtet. In anderen Fachbereichen, wie zum Beispiel der Mathematik, werden Koordinatenpaare jedoch häufig als XY-Kombinationen angegeben. Wenn diese mehrdeutigen Koordinatenpaare stattdessen als XY-Kombinationen ausgewertet werden sollen, bei denen die erste Zahl ein Längengrad und die zweite Zahl ein Breitengrad ist, dann aktivieren Sie die Option Als Längengrad, Breitengrad interpretieren.

Alle räumlichen Koordinaten in den Eingabedokumenten werden verarbeitet, bis das Ende des Dokuments oder der Grenzwert für die Anzahl der Positionen, die extrahiert werden können, erreicht ist.

Weitere Informationen zum Begrenzen der Anzahl der Features, die extrahiert werden

Zugriff auf die Registerkarte "Koordinaten"

  1. Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
  2. Öffnen Sie die Registerkarte Koordinaten.
    • Klicken Sie auf die Registerkarte Optionen Optionen und dann auf den Pfeil Zu Option springen neben der Umschaltfläche Koordinaten.
    • Klicken Sie auf die Registerkarte Positionen extrahieren Positionen extrahieren und dann auf die Registerkarte Koordinaten.

Aktivieren oder Deaktivieren der Umschaltfläche "Koordinaten"

  1. Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
  2. Aktivieren oder deaktivieren Sie die Umschaltfläche "Koordinaten".
    • Klicken Sie auf die Registerkarte Optionen Optionen und dann auf die Umschaltfläche Koordinaten.
    • Klicken Sie auf die Registerkarte Positionen extrahieren Positionen extrahieren, dann auf die Registerkarte Koordinaten und schließlich auf die Umschaltfläche Features aus Koordinaten erstellen.

DD-Formate

Die Kandidaten für räumliche Koordinaten werden mit den folgenden Koordinatenformaten verglichen, sofern diese aktiviert sind. Wenn ein Kandidat mit einem dieser Formate übereinstimmt, wird eine Position in der Ausgabe-Feature-Class erstellt. Die ursprüngliche Koordinate wird dann im Format "Dezimalgrad" in der Ausgabe-Feature-Class angegeben.

  • Breitengrad und Längengrad: Alphanumerische Texte, die mit den Formaten 38.8N 77.035W oder W77N38.88909 übereinstimmen, werden als Positionen erkannt. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
  • XY mit Gradsymbolen: Alphanumerische Texte, die mit den Formaten 38.8° -77.035° oder -077d+38.88909d übereinstimmen, werden als Positionen erkannt. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
  • XY ohne Symbole: Alphanumerische Texte, die mit den Formaten 38.8 -77.035 oder -077.0, +38.88909 übereinstimmen, werden als Positionen erkannt. Bei diesen Formaten werden mit hoher Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind, da sie stark Zahlenfolgen ohne räumliche Beziehung ähneln. Diese Option ist standardmäßig aktiviert.

Wenn Ungültige Koordinaten protokollieren aktiviert wurde, werden alle Kandidaten für räumliche Koordinaten, die mit keinem der aktivierten Formate übereinstimmen, in einer Protokolldatei als ungültig aufgezeichnet. Wenn der Prozess abgeschlossen ist, können Sie diese Protokolldatei überprüfen. Standardmäßig werden ungültige Koordinaten protokolliert.

DM-Formate

Die Kandidaten für räumliche Koordinaten werden mit den folgenden Koordinatenformaten verglichen, sofern diese aktiviert sind. Wenn ein Kandidat mit einem dieser Formate übereinstimmt, wird eine Position in der Ausgabe-Feature-Class erstellt. Die ursprüngliche Koordinate wird dann im Format "Grad Dezimalminuten" in der Ausgabe-Feature-Class angegeben.

  • Breitengrad und Längengrad: Alphanumerische Texte, die mit den Formaten 3853.3N 7702.100W oder W7702N3853.3458 übereinstimmen, werden als Positionen erkannt. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
  • XY mit Minutensymbolen: Alphanumerische Texte, die mit den Formaten 3853' -7702.1' oder -07702m+3853.3458m übereinstimmen, werden als Positionen erkannt. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.

Wenn Ungültige Koordinaten protokollieren aktiviert wurde, werden alle Kandidaten für räumliche Koordinaten, die mit keinem der aktivierten Formate übereinstimmen, in einer Protokolldatei als ungültig aufgezeichnet. Wenn der Prozess abgeschlossen ist, können Sie diese Protokolldatei überprüfen. Standardmäßig werden ungültige Koordinaten protokolliert.

DMS-Formate

Die Kandidaten für räumliche Koordinaten werden mit den folgenden Koordinatenformaten verglichen, sofern diese aktiviert sind. Wenn ein Kandidat mit einem dieser Formate übereinstimmt, wird eine Position in der Ausgabe-Feature-Class erstellt. Die ursprüngliche Koordinate wird dann im Format "Grad, Minuten, Sekunden" in der Ausgabe-Feature-Class angegeben.

  • Breitengrad und Längengrad: Alphanumerische Texte, die mit den Formaten 385320.7N 770206.000W oder W770206N385320.76 übereinstimmen, werden als Positionen erkannt. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
  • XY mit Sekundensymbolen: Alphanumerische Texte, die mit den Formaten 385320" -770206.0" oder -0770206.0s+355320.76s übereinstimmen, werden als Positionen erkannt. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
  • XY mit Trennzeichen: Alphanumerische Texte, die mit den Formaten 38:53:20 -77:2:6.0 oder -077/02/06/, +38/53/20.76 übereinstimmen, werden als Positionen erkannt. Bei diesen Formaten werden manchmal Positionen generiert, die falsch positive Ergebnisse sind, da sie anderen Zahlenformaten, wie zum Beispiel Formaten für Datum und Uhrzeit, ähneln. Diese Option ist standardmäßig aktiviert.

Wenn Ungültige Koordinaten protokollieren aktiviert wurde, werden alle Kandidaten für räumliche Koordinaten, die mit keinem der aktivierten Formate übereinstimmen, in einer Protokolldatei als ungültig aufgezeichnet. Wenn der Prozess abgeschlossen ist, können Sie diese Protokolldatei überprüfen. Standardmäßig werden ungültige Koordinaten protokolliert.

UTM-Formate

Die Kandidaten für räumliche Koordinaten werden mit den folgenden Koordinatenformaten verglichen, sofern diese aktiviert sind. Wenn ein Kandidat mit einem dieser Formate übereinstimmt, wird eine Position in der Ausgabe-Feature-Class erstellt. Die ursprüngliche Koordinate wird dann im Format "Universal Transverse Mercator" in der Ausgabe-Feature-Class angegeben.

  • Universelle transversale Mercator-Projektion: Alphanumerische Texte, die mit den Formaten 18S 323503 4306438 oder 18 north 323503.25 4306438.39 übereinstimmen, werden als Positionen erkannt. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
  • UPS Nordpolar: Alphanumerische Texte, die mit den Formaten Y 2722399 2000000 oder north 2711399 2000000 übereinstimmen, werden als Positionen erkannt. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Allerdings sind diese Koordinaten auch nur selten in typischen Dokumenten zu finden. Diese Option ist standardmäßig deaktiviert.
  • UPS Südpolar: Alphanumerische Texte, die mit den Formaten A 2000000 3168892 oder south 2000000 3168892 übereinstimmen, werden als Positionen erkannt. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Allerdings sind diese Koordinaten auch nur selten in typischen Dokumenten zu finden. Diese Option ist standardmäßig deaktiviert.

MGRS-Formate

Die Kandidaten für räumliche Koordinaten werden mit den folgenden Koordinatenformaten verglichen, sofern diese aktiviert sind. Wenn ein Kandidat mit einem dieser Formate übereinstimmt, wird eine Position in der Ausgabe-Feature-Class erstellt. Die ursprüngliche Koordinate wird dann im Format "Military Grid Reference System" in der Ausgabe-Feature-Class angegeben.

  • Military Grid Reference System: Alphanumerische Texte, die mit den Formaten 18S UJ 13503 06438 oder 18SUJ0306 übereinstimmen, werden als Positionen erkannt. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
  • Nordpolar: Alphanumerische Texte, die mit den Formaten Y TG 56814 69009 oder YTG5669 übereinstimmen, werden als Positionen erkannt. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Allerdings sind diese Koordinaten auch nur selten in typischen Dokumenten zu finden. Diese Option ist standardmäßig deaktiviert.
  • Südpolar: Alphanumerische Texte, die mit den Formaten A TN 56814 30991 oder ATN5630 übereinstimmen, werden als Positionen erkannt. Bei diesen Formaten werden manchmal Positionen generiert, die falsch positive Ergebnisse sind, da sie normalen Zahlen ähneln können. Diese Option ist standardmäßig deaktiviert.

Wenn Ungültige Koordinaten protokollieren aktiviert wurde, werden alle Kandidaten für räumliche Koordinaten, die mit keinem der aktivierten Formate übereinstimmen, in einer Protokolldatei als ungültig aufgezeichnet. Wenn der Prozess abgeschlossen ist, können Sie diese Protokolldatei überprüfen. Standardmäßig werden ungültige Koordinaten protokolliert.

Festlegen der Einstellungen zum Auswerten von Koordinaten

Damit festgelegt werden kann, wie räumliche Koordinaten ausgewertet werden, wenn Dokumente untersucht werden, müssen Koordinaten aktiviert werden.

  1. Öffnen Sie die Registerkarte "Koordinaten".
  2. Aktivieren Sie Koordinaten.
  3. Klicken Sie auf die Dropdown-Liste Koordinatensystem oder die Schaltfläche Koordinatensystem auswählen Koordinatensystem auswählen und dann auf das Koordinatensystem, das mit den räumlichen Koordinaten in den Eingabedokumenten verknüpft ist.
  4. Aktivieren Sie die Koordinatenformate, die zum Auswerten der Kandidaten für räumliche Koordinaten verwendet werden sollen. Deaktivieren Sie die Koordinatenformate, die nicht verwendet werden sollen.
  5. Aktivieren oder deaktivieren Sie die Option Ungültige Koordinaten protokollieren zum Verwenden der Protokolldateien beim Auswerten der Ergebnisse.
  6. Aktivieren Sie Komma als Dezimalzeichen verwenden, wenn in den Eingabedokumenten die räumlichen Koordinaten mit Kommas als Dezimaltrennzeichen angegeben wurden.
  7. Aktivieren Sie Als Längengrad, Breitengrad interpretieren, wenn in den Eingabedokumenten die räumlichen Koordinaten im Format Längengrad, Breitengrad statt im Format Breitengrad, Längengrad angegeben wurden.

Beim nächsten Extrahieren von Positionen werden diese Koordinateneinstellungen verwendet, um Kandidaten für räumliche Koordinaten auszuwerten und zu bestimmen, welche Positionen in der Ausgabe-Feature-Class hinzugefügt werden.

Identifizieren von benutzerdefinierten Positionen mit einem Fuzzy-Abgleich

Wenn benutzerdefinierte Positionen aktiviert wurden, wird der Inhalt der Dokumente, die gescannt werden, mit den Ortsnamen, die in der Datei mit benutzerdefinierten Positionen angegeben sind, verglichen. Standardmäßig muss der Inhalt exakt mit einem der angegebenen Ortsnamen übereinstimmen, damit eine Position in der Ausgabe-Feature-Class erstellt wird.

Wenn die Option für den Fuzzy-Abgleich aktiviert wurde, wird stattdessen eine ungefähre Übereinstimmung verwendet, um den Inhalt des Dokuments mit den angegebenen Ortsnamen zu vergleichen. In der Ausgabe-Feature-Class wird eine Position erstellt, wenn der Eingabeinhalt mit 70 Prozent der Zeichen eines Ortsnamens übereinstimmt. Damit können Rechtschreibfehler und auch bestimmte Abweichungen, wie zum Beispiel bei Verwendung der Pluralform eines Wortes in einem Ortsnamen statt der Singularform, berücksichtigt werden. Die 70-Prozent-Bewertung basiert streng auf einer Zählung der Anzahl der Buchstaben, die übereinstimmen. Algorithmen zum Verarbeiten natürlicher Sprache, wie zum Beispiel die Rückführung auf die Normalform (Stemming), werden nicht verwendet, um zu bestimmen, ob ein Wort in einem Dokument mit einer benutzerdefinierten Position übereinstimmt.

Ein nützlicher Workflow besteht darin, zuerst die Positionen mit deaktiviertem Fuzzy-Abgleich zu extrahieren und danach dies mit aktiviertem Fuzzy-Abgleich zu wiederholen, um zusätzliche Ortsnamen zu finden. Die Ergebnisse können anschließend verglichen werden, um die besten Ergebnisse zu ermitteln. Obwohl sich mit dieser Einstellung in bestimmten Fällen zusätzliche Positionen finden lassen, die andernfalls übergangen worden wären, könnten andere gefundene Inhalte in den Dokumenten trotz Übereinstimmung keine Ortsnamen sein. In diesem Fall würden Positionen generiert, die falsch positive Ergebnisse sind.

Der Fuzzy-Abgleich wird nur mit benutzerdefinierten Positionen verwendet. Wenn die Umschaltfläche "Benutzerdefinierte Positionen" deaktiviert ist, hat die Umschaltfläche "Fuzzy-Abgleich" keine Wirkung. Mit dieser Option wird die Vorgehensweise beim Vergleich des Inhalts eines Dokuments mit Schlagwörtern, die in einer Datei mit benutzerdefinierten Attributen angegeben sind, nicht verändert.

Aktivieren oder Deaktivieren der Umschaltfläche "Fuzzy-Abgleich"

  1. Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
  2. Aktivieren oder deaktivieren Sie die Umschaltfläche "Fuzzy-Abgleich".
    • Klicken Sie auf die Registerkarte Optionen Optionen und dann auf die Umschaltfläche Fuzzy-Abgleich.
    • Klicken Sie auf die Registerkarte Positionen extrahieren Positionen extrahieren, dann auf die Registerkarte Benutzerdefinierte Positionen und schließlich auf die Umschaltfläche Fuzzy-Abgleich verwenden.

Datumsangaben

Die Registerkarte Datumsangaben bestimmt, welche Datumsformate beim Scannen von Eingabedokumenten berücksichtigt werden sollen. Untersucht werden alphanumerische Kombinationen, um festzustellen, ob sie mit den aktivierten Datumsformaten übereinstimmen. Die potenziellen Datumsangaben werden nacheinander auf alle aktivierten Formate geprüft, wie unten angegeben. Manchmal werden normale Zahlen irrtümlicherweise als Datum identifiziert. Diese werden als falsch positive Ergebnisse bezeichnet. Weitere gültige Datumsangaben werden möglicherweise nicht erkannt. Zum Beispiel werden Datumsangaben, bei denen der Tag als Ordinalzahl dargestellt wird, wie z. B. November 9th, 1914, nicht als Datum erkannt.

Alle Datumsangaben in den Eingabedokumenten werden verarbeitet, bis das Ende des Dokuments oder der Grenzwert für die Anzahl der Datumsangaben, die extrahiert werden können, erreicht ist.

Weitere Informationen zum Begrenzen der Anzahl der Datumsangaben, die extrahiert werden

  • Verwendeter Monatsname: Der Monatsname ist im Text ausgeschrieben, entweder vollständig oder als Abkürzung, zum Beispiel January 1, 2010 oder 2 FEB 11. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Datumsangaben generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
  • M/D/Y: Das Datumsformat ist Monat, Tag, Jahr mit Trennzeichen zwischen den Werten, zum Beispiel 03/02/2012 oder 4-22-13. Datumsangaben werden erkannt, wenn Monat und Tag jeweils als Ziffern angegeben werden und wenn diesen Ziffern Nullen vorangestellt sind. Bei diesen Formaten werden manchmal Datumsangaben generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
  • YYYYMMDD: Das Datumsformat ist Jahr, Monat, Tag, zum Beispiel 20140502 oder 2015-06-03. Wenn der Wert eine einzelne Ziffer mit vierstelliger Jahreszahl ist, werden den Angaben für Monat und Tag Nullen vorangestellt. Bei diesen Formaten werden manchmal Datumsangaben generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
  • YYMMDD: Das Datumsformat ist Jahr, Monat, Tag, zum Beispiel 160722 oder 170304. Wenn der Wert eine einzelne Ziffer mit zweistelliger Jahreszahl ist, werden den Angaben für Monat und Tag Nullen vorangestellt. Bei diesen Formaten werden mit hoher Wahrscheinlichkeit Datumsangaben generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
  • YYJJJ: Das Jahr und das julianische Datum als Zahl, bei der der Tag mit einer Zahl von 1 bis 366 (mit vorangestellten Nullen, wenn der Tag eine ein- oder zweistellige Zahl ist) als Position im Jahr dargestellt wird. Beispiel: 18001 oder 19365. Bei diesen Formaten werden mit hoher Wahrscheinlichkeit Datumsangaben generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.

Die erste gefundene Übereinstimmung wird extrahiert und in der Attributtabelle der Ausgabe-Feature-Class gespeichert, sofern das Datum in dem für die Auswertung festgelegten Datumsbereich liegt. Wenn Datumsangaben in einem Textfeld in der Attributtabelle gespeichert werden, werden unabhängig von dem im ursprünglichen Text verwendeten Format alle Datumsangaben im Format JJJJ-MM-TT aufgezeichnet.

Weitere Informationen zum Festlegen des Datumsbereichs

Wenn Sie genau wissen, dass Ihre Dokumente nur Datumsangaben in bestimmten Formaten enthalten, dann können die anderen Datumsformate deaktiviert werden. Wenn weniger Datumsformate aktiviert sind, werden die Dokumente schneller gescannt.

Zugriff auf die Registerkarte "Datumsangaben"

  1. Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
  2. Öffnen Sie die Registerkarte Datumsangaben.
    • Klicken Sie auf die Registerkarte Optionen Optionen und dann auf den Pfeil Zu Option springen neben der Umschaltfläche Datumsangaben.
    • Klicken Sie auf die Registerkarte Attribute extrahieren Attribute extrahieren und dann auf die Registerkarte Datumsangaben.

Aktivieren oder Deaktivieren der Umschaltfläche "Datumsangaben"

  1. Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
  2. Aktivieren oder deaktivieren Sie die Umschaltfläche "Datumsangaben".
    • Klicken Sie auf die Registerkarte Optionen Optionen und dann auf die Umschaltfläche Datumsangaben.
    • Klicken Sie auf die Registerkarte Attribute extrahieren Attribute extrahieren, dann auf die Registerkarte Datumsangaben und schließlich auf die Umschaltfläche Felder aus Daten erstellen.

Festlegen der Einstellungen zum Auswerten von Datumsangaben

Damit festgelegt werden kann, wie die Eingabedokumente in Bezug auf Datumsangaben ausgewertet werden, und damit diese Informationen in der Ausgabe-Feature-Class gespeichert werden, muss die Umschaltfläche "Datumsangaben" aktiviert werden.

  1. Öffnen Sie die Registerkarte "Datumsangaben".
  2. Aktivieren Sie die Umschaltfläche "Datumsangaben".
  3. Aktivieren Sie die Datumsformate, die zum Auswerten der Kandidaten für Datumsangaben verwendet werden sollen. Deaktivieren Sie die Datumsformate, die nicht verwendet werden sollen.

Beim nächsten Extrahieren von Datumsangaben werden diese Datumseinstellungen verwendet, um Kandidaten für Datumsangaben auszuwerten und zu bestimmen, welche Datumsangaben in der Attributtabelle der Ausgabe-Feature-Class hinzugefügt werden.

Symbolisierung

Das Symbol, das verwendet wird, um die in den Eingabedokumenten gefundenen Positionen darzustellen, wenn ein Ausgabe-Karten-Layer erstellt wird, können Sie anpassen. Auf diese Art kann nur ein Symbol für Karten-Layer angegeben werden.

Nach dem Extrahieren von Positionen aus Dokumenten können Sie benutzerdefinierte Attribute verwenden, um festzulegen, wie die Ausgabepositionen symbolisiert werden. Zum Beispiel können Sie unterschiedliche Symbole für die Darstellung der gefundenen Schlagwörter an jeder Position angeben. Wenn Sie das nächste Mal Positionen aus Dokumenten extrahieren, können Sie sie an den vorhandenen Layer anhängen. Die generierten Punkte werden dann automatisch auf die gleiche Weise symbolisiert.

  1. Öffnen Sie den Bereich Positionen extrahieren.
  2. Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
  3. Klicken Sie auf die Registerkarte Optionen Optionen.
  4. Klicken Sie auf das Punktsymbol, zum Beispiel den einfarbig roten Kreis, unter der Überschrift Symbolisierung.

    Im Bereich Positionen extrahieren wird der Bereich Punktsymbol formatieren angezeigt.

  5. Klicken Sie auf ein Punktsymbol in der Galerie oder passen Sie die Eigenschaften des Symbols an, und übernehmen Sie die Änderungen. Oder klicken Sie auf die Schaltfläche "Zurück" Zurück, um Ihre Änderungen zu verwerfen und zur Registerkarte Optionen zurückzukehren.

Beim nächsten Extrahieren von Positionen wird, wenn ein Ausgabe-Karten-Layer erstellt wird, das angegebene Symbol zum Darstellen der Positionen auf der Karte verwendet.

Dateien scannen

Auf der Registerkarte Dateien scannen Dateien scannen können Sie steuern, welche Dokumente gescannt oder übersprungen werden.

Bestimmte Dateitypen scannen

Ein Dateityp in diesem Kontext ist die Dateinamenerweiterung. Zum Beispiel ist bei der Datei table.txt die Erweiterung TXT der Dateityp. Wenn Sie einen Ordner, der viele Dateien enthält, als Eingabe angeben, können Sie festlegen, welche Dateien davon gescannt werden sollen, indem Sie die betreffenden Dateitypen angeben. Sie können entweder die Dateien, die Sie als nicht relevant ansehen, entfernen oder das Scannen auf die Dateien, die Sie als relevant ansehen, beschränken.

  1. Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
  2. Klicken Sie auf die Registerkarte Dateien scannen Dateien scannen.
  3. Klicken Sie auf die Überschrift File types.
  4. Legen Sie fest, ob die Dateien der angegebenen Typen gescannt oder übersprungen werden sollen.
    • Alle Dateien mit Ausnahme dieser Typen scannen: Geben Sie die Typen der Dateien an, die übersprungen werden sollen. Dies ist die Standardoption.
    • Nur diese Dateitypen scannen: Geben Sie die Typen der Dateien an, die gescannt werden sollen.
  5. Fügen Sie Erweiterungen zur Liste der Dateitypen hinzu.
    • Klicken Sie auf Erweiterungen hinzufügen Erweiterungen hinzufügen. Geben Sie im Dialogfeld Erweiterungen hinzufügen mindestens eine Dateierweiterung in das Textfeld Erweiterungen ein. Wenn Sie mehrere Dateierweiterungen eingeben, dann trennen Sie sie lediglich mit Leerzeichen. Setzen Sie hinter der Dateierweiterung kein Komma. Geben Sie beispielsweise txt doc csv ein. Vor der Dateierweiterung kann auch ein Punkt gesetzt werden. Klicken Sie auf OK.
    • Ziehen Sie Dateien aus Windows Explorer in die Liste der Dateitypen.

    Die angegebenen Dateierweiterungen werden zur Liste der Dateitypen hinzugefügt.

Wenn der Computer eine Dateierweiterung erkennt, werden das Symbol und die Typzeichenfolge, die in Windows Explorer zur Darstellung des jeweiligen Dateityps verwendet werden, in die Liste übernommen. Wenn Sie zum Beispiel die Dateierweiterung .docx angeben, werden die Dateierweiterung .DOCX und das Symbol zur Darstellung dieser Dateien auf Ihrem Computer in der Liste in der Spalte Erweiterung angezeigt. Die Spalte Typ enthält dann den Wert Microsoft Word-Dokument.

Bestimmte Dateien und Ordner überspringen

Wenn Sie einen Ordner oder Datenträger, der viele Dateien enthält, scannen, könnte es hilfreich sein, das Scannen einzelner Dateien oder Ordner zu vermeiden. Das Scannen erfolgt dann schneller und beinhaltet weniger falsch positive Positionen. Zum Beispiel können Ordner, in denen sich Finanzberichte befinden, Zahlen enthalten, die räumlichen Koordinaten ähneln.

Sie sollten deshalb beim Scannen der Datenträger die Ordner ausschließen, die installierte Software, Betriebssystemdateien, Hardwaretreiber usw. enthalten. Versteckte Dateien und Systemdateien, die häufig in Windows Explorer nicht angezeigt werden, werden zwar standardmäßig übersprungen, Sie können aber diese Optionen deaktivieren, wenn dies für Ihr Szenario angemessen ist.

  1. Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
  2. Klicken Sie auf die Registerkarte Dateien scannen Dateien scannen.
  3. Klicken Sie auf die Überschrift Dateien überspringen.
  4. Deaktivieren Sie Verborgen oder System unter der Überschrift Dateiattribute, wenn Sie diese Einstellungen verwenden möchten.
  5. Fügen Sie die Dateien oder Ordner, die übersprungen werden sollen, zur Liste Dateien oder Ordner hinzu.
    • Klicken Sie auf Dateien und Ordner hinzufügen Dateien und Ordner hinzufügen. Das Dialogfeld Dateien und Ordner hinzufügen wird angezeigt. Navigieren Sie zu den Dateien und Ordnern, die übersprungen werden sollen, wählen Sie sie aus, und klicken Sie auf Öffnen.
    • Ziehen Sie Dateien und Ordner aus Windows Explorer in die Liste Dateien und Ordner.

    Die angegebenen Dateien und Ordner werden zur Liste hinzugefügt.

Das Symbol, das in Windows Explorer zur Darstellung des Elements verwendet wird, und dessen Name werden in der Liste in der Spalte Name angezeigt. In der Spalte Pfad wird der Pfad zu dieser Datei bzw. zu diesem Ordner angezeigt.

Einige Dateien werden nicht verarbeitet

Dokumente werden mit einem Plug-in, das als IFilter bezeichnet wird, verarbeitet. Dies ist dieselbe Technologie, die auch in der Windows-Suche zum Untersuchen der Dateien auf Ihrem Computer verwendet wird. Der Bereich Positionen extrahieren und die zugehörigen Werkzeuge verwenden die Windows-Suche nicht. Verwendet werden stattdessen die IFilter-Plug-ins, die bereits auf Ihrem Computer verfügbar sind, um die Eingabedokumente und -texte zu untersuchen.

Verschiedene IFilter sind Bestandteil des Windows-Betriebssystems und können Textdateien, HTML-Dateien, bestimmte Microsoft Office-Dokumente usw. verarbeiten. Welche IFilter verfügbar sind, hängt vom jeweiligen Betriebssystem ab. Sonstige auf Ihrem Computer installierte Anwendungen können zusätzliche IFilter bereitstellen, die zum Verarbeiten der Dokumente, für die sie vorgesehen sind, verwendet werden können. Wenn Sie zum Beispiel Adobe Reader oder Adobe Acrobat installieren, dann kann diese Anwendung einen IFilter bereitstellen, der zum Verarbeiten des Inhalts von PDF-Dateien verwendet werden kann. Wenn Dateien gescannt werden, wird ein bestimmte IFilter für diesen Dateityp verwendet, wenn er verfügbar ist. Andernfalls werden beim Scannen der Dateien die Standard-IFilter verwendet und möglichst viele Informationen extrahiert.

Da ArcGIS Pro eine 64-Bit-Anwendung ist, kann sie nur 64-Bit-Filter zum Verarbeiten der Eingabedokumente und -texte verwenden. Eine 32-Bit-Anwendung stellt in der Regel nur 32-Bit-IFilter bereit, die zum Verarbeiten der eigenen Dokumente verwendet werden können. ArcGIS Pro kann diese IFilter nicht verwenden.

Wenn Sie für Dateien eines bestimmten Typs, wie zum Beispiel PDF-Dateien, nicht festgelegt haben, dass sie übersprungen werden sollen, aber nicht in der Lage sind, Positionen aus solchen Dateien zu extrahieren, obwohl Sie wissen, dass sie dort vorhanden sind, dann müssen Sie sicherstellen, dass ein geeigneter 64-Bit-IFilter auf Ihrem Computer installiert ist.

Bei Windows 10 sollte ein IFilter, den ArcGIS Pro zum Verarbeiten von PDF-Dateien verwenden kann, verfügbar sein. Bei anderen Versionen von Windows ist, wenn Sie die 32-Bit-Version von Adobe Reader installiert haben, möglicherweise kein 64-Bit-IFilter zum Verarbeiten von PDF-Dateien verfügbar. Mit Hilfe der Standard-IFilter von Windows können Inhalte nicht aus PDF-Dokumenten extrahiert werden. Ein 64-Bit-PDF-IFilter kann auf der Adobe-Website heruntergeladen werden.

Ausgabe

Auf der Registerkarte Ausgabe Ausgabe können Sie steuern, welcher Inhalt aus den Dokumenten extrahiert und in der Ausgabe-Feature-Class gespeichert wird.

Dokumentgrenzwerte

Für die Positionen und Datumsangaben, die aus den Eingabedokumenten extrahiert werden, können Grenzwerte festgelegt werden. Wenn Sie Eingabedokumente zum ersten Mal scannen, können Sie auf eine Datei stoßen, die sehr viele Zahlen enthält, die räumlichen Koordinaten ähneln, aber keine sind, oder in der Zahlenfolgen wie Datumsangaben aussehen, aber tatsächlich Daten eines anderen Typs sind. Standardmäßig gibt es Grenzwerte dafür, wie viele Features und Datumsangaben aus den Eingabedokumenten extrahiert werden. Dies verhindert, dass Millionen falscher Punkte generiert oder bedeutungslose Datumsangaben in der Attributtabelle gespeichert werden. Nach dem Auswerten der Ausgabepositionen und der Datumsangaben, die in ihren Attributen gespeichert sind, sollten Sie diese Begrenzung deaktivieren oder den Grenzwert ändern, bevor die Dokumente erneut gescannt werden.

Manchmal wissen Sie nichts über die Dokumente, die Sie scannen. In anderen Fällen geht es darum, grob strukturierte Dokumente, wie zum Beispiel Berichte, regelmäßig zu scannen. Berichte beginnen häufig mit dem Datum, an dem der Bericht geschrieben wurde, und dem Ort, an dem er geschrieben wurde. Das Thema des Berichts betrifft jedoch zumeist Ereignisse, die an einem anderen Tag an einem anderen Ort stattgefunden haben. Sie können festlegen, dass die erste Zahl von Positionen und Datumsangaben beim Verarbeiten dieser Dokumente übersprungen werden soll, sodass in Ihrer Ausgabe-Feature-Class nur der gewünschte Inhalt erfasst wird.

Sie können Grenzwerte für die Anzahl der Features und Datumsangaben und dafür, welche Features und Datumsangaben aus den Eingabedokumenten extrahiert werden sollen, festlegen. Diese Grenzwerte werden nachfolgend beschrieben:

  • Feature-Begrenzungen
    • Anzahl der Features pro Dokument beschränken: Standardmäßig werden nur die ersten 3.000 Positionen, die in einem Dokument gefunden wurden, extrahiert und in der Ausgabe-Feature-Class gespeichert. Wenn diese Option aktiviert wurde, können Sie den Grenzwert für die Anzahl der Features, die aus einem Dokument extrahiert werden, erhöhen oder verringern. Wenn Sie diese Option deaktivieren, werden alle Kandidaten für räumliche Koordinaten und benutzerdefinierte Positionen in einem Dokument ausgewertet und alle gefundenen Features extrahiert. Diese Option ist standardmäßig aktiviert.
    • Die angegebene Anzahl an ersten Features pro Dokument ignorieren: Standardmäßig wird der erste Kandidat für eine räumliche Koordinate oder eine benutzerdefinierte Position, der in einem Eingabedokument gefunden wurde, ausgewertet. Danach wird mit allen anderen Kandidaten für Koordinaten und benutzerdefinierte Positionen fortgesetzt, bis entweder der Grenzwert für die Anzahl der Features oder das Ende des Dokuments erreicht ist. Wenn diese Option aktiviert wurde, können Sie eine bestimmte Anzahl Features am Anfang eines Dokuments überspringen und dann alle nachfolgenden Features bis zum Grenzwert extrahieren. Standardmäßig wird nur das erste Feature übersprungen. Diese Zahl können Sie aber erhöhen. Wenn Sie diese Option deaktivieren, werden alle Kandidaten für räumliche Koordinaten und benutzerdefinierte Positionen bis zum Grenzwert ausgewertet. Diese Option ist standardmäßig deaktiviert.
  • Datumsgrenzwerte
    • Anzahl der Datumsangaben pro Dokument beschränken: Standardmäßig werden nur die ersten 30 Datumsangaben, die in einem Dokument gefunden wurden, extrahiert und in der Attributtabelle der Ausgabe-Feature-Class gespeichert. Wenn diese Option aktiviert wurde, können Sie den Grenzwert für die Anzahl der Datumsangaben, die aus einem Dokument extrahiert werden, erhöhen oder verringern. Wenn Sie diese Option deaktivieren, werden alle Kandidaten für Datumsangaben in einem Dokument ausgewertet und alle gefundenen Datumsangaben extrahiert. Diese Option ist standardmäßig aktiviert.
    • Die angegebene Anzahl an ersten Datumsangaben pro Dokument ignorieren: Standardmäßig wird der erste Kandidat für eine Datumsangabe, der in einem Eingabedokument gefunden wurde, ausgewertet. Danach wird mit allen anderen Kandidaten für Datumsangaben fortgesetzt, bis entweder der Grenzwert für die Anzahl der Datumsangaben oder das Ende des Dokuments erreicht ist. Wenn diese Option aktiviert wurde, können Sie eine bestimmte Anzahl Datumsangaben am Anfang eines Dokuments überspringen und dann alle nachfolgenden Datumsangaben bis zum Grenzwert extrahieren. Standardmäßig wird nur die erste Datumsangabe übersprungen. Diese Zahl können Sie aber erhöhen. Wenn Sie diese Option deaktivieren, werden alle Kandidaten für Datumsangaben bis zum Grenzwert ausgewertet. Diese Option ist standardmäßig deaktiviert.

  1. Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
  2. Klicken Sie auf die Registerkarte Ausgabe Ausgabe.
  3. Klicken Sie auf die Überschrift Dokumentgrenzwerte.
  4. Aktivieren oder deaktivieren Sie die Optionen zum Begrenzen der Anzahl der Features und Datumsangaben, die extrahiert werden.
  5. Klicken Sie auf die aktivierten Textfelder für Features und Datumsangaben, und geben Sie die maximale Anzahl der Features bzw. Datumsangaben, die extrahiert werden sollen, ein.
  6. Aktivieren oder deaktivieren Sie die Optionen zum Überspringen einer bestimmten Anzahl der Features und Datumsangaben am Anfang des Eingabedokuments oder -textes.
  7. Klicken Sie auf die aktivierten Textfelder für Features und Datumsangaben, und geben Sie die Anzahl der Features bzw. Datumsangaben, die übersprungen werden sollen, bevor weitere Features bzw. Datumsangaben extrahiert werden, ein.

Prätext- und Posttext-Grenzwerte

Wenn eine räumliche Koordinate oder eine benutzerdefinierte Position aus dem Dokument extrahiert und in der Ausgabe-Feature-Class gespeichert wird, werden in der Attributtabelle der Ausgabe-Feature-Class mehrere Teilinformationen gespeichert, mit deren Hilfe Sie diese Positionen später auswerten können. Vor der Position wird ein Auszug des Dokuments in einem Pre-Text-Feld in der Attributtabelle der Feature-Class gespeichert. Hinter der Position wird ein Auszug des Dokuments in einem Post-Text-Feld in der Attributtabelle der Feature-Class gespeichert. Mit diesen Attributen können Sie den Kontext der Position herstellen: Ist dies eine echte Position und wenn ja, was ist dort geschehen, und ist dies für Ihre Analyse relevant?

Wie viel Text vor und hinter einer Position extrahiert und in der Feature-Class gespeichert wird, wird durch die folgenden Einstellungen bestimmt:

  • Pre-Text: Standardmäßig werden 254 Zeichen Text vor der Position aus dem Dokument extrahiert und im Pre-Text-Feld gespeichert. Diesen Wert können Sie nach Bedarf erhöhen oder verringern.
  • Post-Text: Standardmäßig werden 254 Zeichen Text hinter der Position aus dem Dokument extrahiert und im Post-Text-Feld gespeichert. Diesen Wert können Sie nach Bedarf erhöhen oder verringern.

  1. Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
  2. Klicken Sie auf die Registerkarte Ausgabe Ausgabe.
  3. Klicken Sie auf die Überschrift Prätext- und Posttext-Grenzwerte.
  4. Klicken Sie auf das Textfeld für Pre-Text, und geben Sie die maximale Anzahl der Zeichen vor einer Position, die aus dem Eingabedokument extrahiert werden sollen, ein.
  5. Klicken Sie auf das Textfeld für Post-Text, und geben Sie die maximale Anzahl der Zeichen hinter einer Position, die aus dem Eingabedokument extrahiert werden sollen, ein.

Datumsbereich

Manche Zahlen können räumlichen Koordinaten und Datumsangaben ähneln. Standardmäßig werden Datumsangaben nur dann aus einem Eingabedokument extrahiert, wenn sie mit einem der ausgewählten Datumsformate übereinstimmen und das generierte Datum in einem angegebenen Datumsbereich liegt. Dies verringert das Risiko, dass ein Datum extrahiert wird, das ein falsch positives Ergebnis darstellt. Als Standarddatumsbereich wird der Zeitraum vom 1. Januar 1985 bis zum 31. Dezember 2030 verwendet. Wenn in einem Eingabedokument ein Datum, das außerhalb des angegebenen Datumsbereichs liegt, gefunden wurde, wird es nicht extrahiert und damit auch nicht in der Attributtabelle der Ausgabe-Feature-Class gespeichert.

Wenn jedes mögliche Datum aus den Eingabedokumenten extrahiert werden soll, dann deaktivieren Sie Extrahierte Datumsangaben auf diesen Bereich beschränken. Dadurch wird allerdings der Zeitaufwand zum Auswerten des Inhalts eines Dokument erhöht, da alle Zahlen hinsichtlich der ausgewählten Datumsformate ausgewertet werden müssen.

Wenn Sie nur an den Ereignissen interessiert sind, die in einem bestimmten Zeitraum stattgefunden haben, dann aktivieren Sie die Option Extrahierte Datumsangaben auf diesen Bereich beschränken, und passen Sie den Datumsbereich möglichst genau an den Zeitraum an, in dem diese Ereignisse stattgefunden haben.

  • Von: Standardmäßig der 1. Januar 1985. Klicken Sie auf das Dropdown-Menü und dann auf das Anfangsdatum des gültigen Datumsbereichs im Kalender-Steuerelement.
  • Bis: Standardmäßig der 31. Dezember 2030. Klicken Sie auf das Dropdown-Menü und dann auf das Enddatum des gültigen Datumsbereichs im Kalender-Steuerelement.

Das Kalender-Steuerelement ermöglicht den Zugriff auf einen bestimmten Monat. Mit den Pfeilen in den oberen Ecken gelangen Sie zu dem Monat davor bzw. danach. Klicken Sie oben im Kalender auf die Angabe von Monat und Jahr, um eine Liste der Monate anzuzeigen. Klicken Sie oben in der Liste der Monate auf das Jahr, um eine Liste der Jahre anzuzeigen. Mit den Pfeilen in den oberen Ecken gelangen Sie zu dem Jahr davor bzw. danach.

  1. Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
  2. Klicken Sie auf die Registerkarte Ausgabe Ausgabe.
  3. Klicken Sie auf die Überschrift Datenbereich.
  4. Aktivieren oder deaktivieren Sie die Option Extrahierte Datumsangaben auf diesen Bereich beschränken.
  5. Wenn diese Option aktiviert ist, dann klicken Sie auf den Dropdown-Pfeil Von, und wählen Sie das Anfangsdatum für den Bereich der zu extrahierenden Datumsangaben aus.
  6. Wenn diese Option aktiviert ist, dann klicken Sie auf den Dropdown-Pfeil Bis, und wählen Sie das Enddatum für den Bereich der zu extrahierenden Datumsangaben aus.

Standardisierte Koordinate

Wenn eine räumliche Koordinate oder eine benutzerdefinierte Position aus dem Dokument extrahiert und in der Ausgabe-Feature-Class gespeichert wird, werden in der Attributtabelle der Ausgabe-Feature-Class mehrere Teilinformationen gespeichert, mit deren Hilfe Sie diese Positionen später auswerten können. Der ursprüngliche Text des Dokuments, mit dem die Position dargestellt wird, wird in der Attributtabelle im Feld Extracted Text gespeichert, und der Typ der gefundenen Position wird im Feld Extracted Type gespeichert.

Zusätzlich wird eine konsistente Darstellung aller gefundenen Positionen im Feld für standardisierte Koordinaten gespeichert. Dieses Feld besitzt den Aliasnamen Stand. Coord.. Die XY-Koordinaten des Punkt-Features werden in dem Format gespeichert, das durch die Option Standardisierte Koordinate angegeben wird.

Wählen Sie das Koordinatenformat, das Ihre Anforderungen erfüllt, unter den folgenden Optionen aus. Eine in einem Eingabedokument gefundene Koordinate, wie zum Beispiel 117.1717550°W 34.0552456°N, wird im Feld für standardisierte Koordinaten wie unten angegeben angezeigt, wenn jedes der Koordinatenformate ausgewählt wird.

  • DD – Dezimalgrad: 34.055246N 117.171755W (standardmäßig ausgewählt)
  • DM – Dezimalminuten: 34 03.3147N 117 10.3053W
  • DMS – Grad Minuten Sekunden: 34 03 18.88N 117 10 18.32W
  • UTM – Universe Transverse Mercator: 11S 484149 3768294
  • MGRS – Military Grid Reference System: 11SMT8414968295

  1. Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
  2. Klicken Sie auf die Registerkarte Ausgabe Ausgabe.
  3. Klicken Sie auf die Überschrift Standardisierte Koordinate.
  4. Klicken Sie auf die Dropdown-Liste und dort auf das Koordinatenformat, in dem die extrahierten Positionen gespeichert werden sollen.

Einstellungen

Auf der Registerkarte Extrahieren im Bereich Positionen extrahieren unter der Überschrift Ausgabe geben Sie den Namen des Ausgabe-Karten-Layers an, der erstellt werden soll. Sie können auch auf eine Dropdown-Liste klicken und den Typ der Ausgabe-Feature-Class auswählen, die erstellt werden soll, um die Positionen, die aus dem Eingabedokument extrahiert werden, zu speichern. Die in dieser Liste ausgewählte Option bestimmt, welches Dialogfeld angezeigt wird, wenn Sie auf Extrahieren klicken.

Auf der Registerkarte Einstellungen Einstellungen können Sie steuern, welche Optionen in dieser Dropdown-Liste angezeigt werden. Standardmäßig sind alle drei Optionen aktiviert.

  • Neue Feature-Class: In einer vorhandenen Geodatabase wird eine Feature-Class erstellt. Wenn Sie auf Extrahieren klicken, müssen Sie die Geodatabase, in der sie gespeichert werden soll, auswählen.
  • Neue File-Geodatabase: Eine File-Geodatabase wird erstellt, in der die neue Ausgabe-Feature-Class enthalten sein soll. Wenn Sie auf Extrahieren klicken, müssen Sie den Ordner, in dem die Geodatabase gespeichert werden soll, auswählen.
  • Neues Shapefile: Ein Shapefile wird erstellt. Wenn Sie auf Extrahieren klicken, müssen Sie den Ordner, in dem das Shapefile gespeichert werden soll, auswählen.

Es muss mindestens eine Option aktiviert sein. Wenn alle drei Optionen deaktiviert sind, können keine Dokumente verarbeitet werden. Wenn Sie zum Beispiel Ihre gesamte Ausgabe in einer Enterprise-Geodatabase speichern möchten, dann können die Optionen Neue File-Geodatabase und Neues Shapefile deaktiviert werden. Lediglich die Option Neue Feature-Class muss aktiviert bleiben.

  1. Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
  2. Klicken Sie auf die Registerkarte Einstellungen Einstellungen.
  3. Aktivieren Sie die Optionen zum Erstellen von Feature-Classes, die auf der Registerkarte Extrahieren verfügbar sein sollen. Deaktivieren Sie die Optionen, die nicht verwendet werden sollen.

Die angegebenen Optionen werden in der Dropdown-Liste auf der Registerkarte Extrahieren unter der Überschrift Ausgabe angezeigt.

Verwandte Themen