Mit der LocateXT-Lizenz verfügbar.
Nach dem Scannen von Dokumenten oder Texten und Auswerten der Ergebnisse können Sie anpassen, was extrahiert wird und wie der Inhalt ausgewertet wird. Wenn Sie unterschiedliche Dokumente in verschiedenen Formaten verarbeiten, müssen Sie einen anderen Ansatz wählen als bei unterschiedlichen Dokumentsammlungen in bekanntem Format mit grob strukturierten Informationen.
Der Bereich Positionen extrahieren enthält verschiedene Standardeinstellungen für die Erkennung der häufigsten Positionen und zum Extrahieren der neuesten Datumsangaben. Wenn Sie eine bessere Vorstellung vom Inhalt Ihrer Dokumente und Texte haben, können Sie diese Einstellungen anpassen und die Informationen, die extrahiert werden, optimieren. Diese Einstellungen werden auf der Registerkarte Eigenschaften angepasst.
Die Sammlung der Standardeinstellungen ist mit der Vorlage Unstrukturierte Standarddaten verknüpft. Wenn Sie die Einstellungen, die für eine bestimmte Dokumentsammlung oder ein bestimmtes Textformat am besten funktionieren, bestimmt haben, können Sie sie in einer benutzerdefinierten Vorlage speichern. Diese Vorlage sollten Sie verwenden, wenn Sie einen neuen Batch von Dokumenten in der Sammlung oder ähnlichen Text erhalten.
Weitere Informationen zu Vorlagen zum Extrahieren von Positionen
Optionen
Wenn Sie auf die Registerkarte Eigenschaften klicken, wird standardmäßig die Registerkarte Optionen ausgewählt. Dort können Sie die Umschaltflächen für die Kategorien der Informationen, die aus den Eingabedokumenten oder -texten extrahiert werden können, aktivieren oder deaktivieren und festlegen, wie diese Informationen verarbeitet werden. Sie können auch das Symbol angeben, das durch den Ausgabe-Karten-Layer verwendet werden soll.
- Positionen extrahieren
- Koordinaten: Die Umschaltfläche "Koordinaten" ist standardmäßig aktiviert. Wenn Dokumente gescannt werden, werden sie auf räumliche Koordinaten untersucht. Für jede gefundene Position wird ein Punkt in der Ausgabe-Feature-Class erstellt.
- Benutzerdefinierte Positionen: Die Umschaltfläche "Benutzerdefinierte Positionen" ist standardmäßig deaktiviert. Wenn Dokumente gescannt werden, werden sie auf Ortsnamen, die in einer Datei mit benutzerdefinierten Positionen angegeben sind, untersucht. In einer Datei mit benutzerdefinierten Positionen wird ein Ortsname mit einer räumlichen Koordinate verknüpft. Für jede gefundene Position wird ein Punkt in der Ausgabe-Feature-Class erstellt.
- Fuzzy-Abgleich: Die Umschaltfläche "Fuzzy-Abgleich" ist standardmäßig deaktiviert. Wenn Sie nach benutzerdefinierten Positionen suchen, kann ein Fuzzy-Abgleich verwendet werden, um den Inhalt der Eingabedokumente mit den benutzerdefinierten Positionen zu vergleichen. Damit können zum Beispiel Rechtschreibfehler berücksichtigt werden.
- Attribute extrahieren
- Datumsangaben: Die Umschaltfläche "Datumsangaben" ist standardmäßig aktiviert. Wenn Dokumente gescannt werden, werden sie auf die neuesten Datumsangaben untersucht. Die gefundenen Datumsangaben werden extrahiert und in Feldern in der Attributtabelle der Ausgabe-Feature-Class gespeichert.
- Benutzerdefinierte Attribute: Die Umschaltfläche "Benutzerdefinierte Attribute" ist standardmäßig deaktiviert. Wenn Dokumente gescannt werden, werden sie auf Schlagwörter, die in einer Datei mit benutzerdefinierten Attributen angegeben sind, untersucht. Die Datei mit benutzerdefinierten Attributen bestimmt, nach welchen Schlagwörtern gesucht werden soll und welcher Text extrahiert wird, wenn die Schlagwörter gefunden wurden, und definiert ein benutzerdefiniertes Feld, das in der Attributtabelle der Ausgabe-Feature-Class zum Speichern des extrahierten Inhalts erstellt werden soll.
- Suchen-Steuerelement
- Wortumbrüche sind erforderlich: Die Umschaltfläche "Wortumbrüche sind erforderlich" ist standardmäßig aktiviert. Beim Scannen von Dokumenten werden diese auf Wörter untersucht, die durch Leerzeichen oder Interpunktionszeichen abgegrenzt sind, wie dies z. B. in europäischen Sprachen der Fall ist. Diese Einstellung beeinflusst, wie Wörter bei der Suche nach benutzerdefinierten Positionen und benutzerdefinierten Attributen in einem Dokument identifiziert werden. Sie beeinflusst auch, wie Koordinaten und Datumsangaben identifiziert werden, wenn z. B. Text, der eine Koordinate oder ein Datum darstellen könnte, von anderen Zeichen umgeben ist.
- Symbolisierung: Das Standardsymbol ist ein einfarbig roter Kreis. Wenn der Ausgabe-Karten-Layer erstellt wird, werden die Punkte in der Ausgabe-Feature-Class mit dem angegebenen Symbol angezeigt.
Neben einigen Umschaltflächen befinden sich Pfeilschaltflächen . Mit der Pfeilschaltfläche können Sie zu einer anderen Registerkarte im Bereich Positionen extrahieren wechseln, um festzulegen, wie Koordinaten, benutzerdefinierte Positionen, Datumsangaben oder benutzerdefinierte Attribute ausgewertet und extrahiert werden.
Im Bereich Positionen extrahieren sind außerdem die folgenden Optionen verfügbar, mit denen festgelegt werden kann, welche Dateien verarbeitet werden, welcher Inhalt extrahiert wird und welche Ausgabe erstellt wird. Für diese Optionen gibt es jedoch keine Umschaltflächen auf der Registerkarte Optionen.
- Dateien scannen: Mit dieser Option können Sie steuern, welche Dateien gescannt werden.
- Ausgabe: Mit dieser Option können Sie steuern, wie viele Features und Datumsangaben ausgewertet werden und welcher Inhalt in der Attributtabelle der Ausgabe-Feature-Class hinzugefügt wird.
Koordinaten
Die Registerkarte Koordinaten bestimmt, welche Koordinatenformate beim Scannen von Eingabedokumenten berücksichtigt werden sollen. Untersucht werden Zahlenpaare und alphanumerische Kombinationen, um festzustellen, ob sie mit den aktivierten Koordinatenformaten übereinstimmen. Die potenziellen räumlichen Koordinaten werden auf alle aktivierten Formate geprüft:
- XY-Formate: Als XY-Werte angegebene Koordinaten
- DD-Formate: Format "Dezimalgrad"
- DM-Formate: Format "Grad Dezimalminuten"
- DMS-Formate: Format "Grad, Minuten, Sekunden"
- UTM-Formate: Format "Universal Transverse Mercator" (Universelle transversale Mercator-Projektion)
- MGRS-Format: Format "Military Grid Reference System"
Für die erste gefundene Koordinate mit Übereinstimmung im Format wird eine Position in der Ausgabe-Feature-Class erstellt.
Jedes Koordinatenformat ist mit anderen Optionen verknüpft, die standardmäßig aktiviert oder deaktiviert sind, damit ein angemessener Satz Ausgabepositionen generiert werden kann. Einige Optionen können Ausgabepositionen generieren, wenn die Eingabedokumente Zahlenpaare oder alphanumerische Kombinationen enthalten, die zwar räumlichen Koordinaten ähneln, aber eigentlich keine Position am Boden beschreiben. Diese werden als falsch positive Ergebnisse bezeichnet. Falsch positive Ergebnisse werden mit höherer Wahrscheinlichkeit mit Optionen generiert, die standardmäßig deaktiviert sind. Wenn Sie jedoch genau wissen, dass Ihre Dokumente Positionen in diesen Formaten enthalten, dann sollten diese Optionen aktiviert werden. Wenn weniger Koordinatenformate aktiviert sind, werden die Dokumente schneller gescannt.
Die unterstützten Koordinatenformate können entsprechend einer Gruppe von Dokumenten angepasst werden. Beispielsweise sind die Dokumente eventuell in einer anderen Sprache verfasst, oder sie enthalten räumliche Koordinaten mit einer nicht standardmäßigen Schreibweise. Die unterstützten Koordinatenformate und das Verfahren zum Anpassen der Auswertung der Koordinaten werden im Folgenden ausführlicher beschrieben.
Auf der Registerkarte Koordinaten können Sie auch das Koordinatensystem angeben, mit dem die räumlichen Koordinaten verknüpft sind. Standardmäßig werden die in Dokumenten gefundenen Koordinaten als Koordinaten im Koordinatensystem GCS_WGS_1984 behandelt. Wenn Sie wissen, dass die Koordinaten mit einem anderen Koordinatensystem erfasst wurden, dann klicken Sie auf die Schaltfläche Koordinatensystem auswählen und dann auf das richtige Koordinatensystem.
Alle räumlichen Koordinaten in den Eingabedokumenten werden verarbeitet, bis das Ende des Dokuments oder der Grenzwert für die Anzahl der Positionen, die extrahiert werden können, erreicht ist.
Weitere Informationen zum Begrenzen der Anzahl der Features, die extrahiert werden
Zugriff auf die Registerkarte "Koordinaten"
- Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
- Öffnen Sie die Registerkarte Koordinaten.
- Klicken Sie auf die Registerkarte Optionen und dann auf den Pfeil neben der Umschaltfläche Koordinaten.
- Klicken Sie auf die Registerkarte Positionen extrahieren und dann auf die Registerkarte Koordinaten.
Aktivieren oder Deaktivieren der Umschaltfläche "Koordinaten"
- Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
- Aktivieren oder deaktivieren Sie die Umschaltfläche "Koordinaten".
- Klicken Sie auf die Registerkarte Optionen und dann auf die Umschaltfläche Koordinaten.
- Klicken Sie auf die Registerkarte Positionen extrahieren , dann auf die Registerkarte Koordinaten und schließlich auf die Umschaltfläche Features aus Koordinaten erstellen.
XY-Formate
Die Kandidaten für räumliche Koordinaten werden mit den folgenden Koordinatenformaten verglichen, sofern diese aktiviert sind. Wenn ein Kandidat mit einem dieser Formate übereinstimmt, wird eine Position in der Ausgabe-Feature-Class erstellt. Die ursprüngliche Koordinate wird dann im XY-Format in der Ausgabe-Feature-Class angegeben.
Standardmäßig sind die XY-Koordinatenformate nicht als Gesamtheit aktiviert. In diesen Formaten werden die Koordinaten als Zahlenpaare dargestellt, die ein Maß in den Einheiten des angegebenen Koordinatensystems angeben. Sie können Positionen generieren, die falsch positive Ergebnisse sind, da sie eine starke Ähnlichkeit mit Zahlenfolgen oder Maßen ohne räumliche Beziehung aufweisen. Wenn zudem Text gefunden wird, der diesen Koordinatenformaten entspricht, und die generierten Positionen mit dem falschen Koordinatensystem verknüpft sind, sind die erzeugten Positionen falsch.
- XY mit Einheitentext: Alphanumerischer Text wird als Position erkannt, wenn er die folgende Struktur aufweist: 71.2071779dd 46.8075410dd oder 630084m 4833438m. Die Einheiten werden entsprechen dem Koordinatensystem der Eingabedokumente festgelegt. Sie können jedoch geändert werden, um andere Einheiten oder zusätzliche Schreibweisen für dieselben Einheiten in dem Dokument zu erkennen. Wenn das Koordinatensystem für die gefundenen Koordinaten korrekt ist, ist die Wahrscheinlichkeit gering, dass diese Formate Positionen generieren, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
- XY ohne Einheitentext: Alphanumerischer Text wird als Position erkannt, wenn er die folgende Struktur aufweist: 630084 4833438 oder 235407.742 900560.004. Mit diesem Koordinatenformat und dem Dezimalgrad-Koordinatenformat XY ohne Symbole werden Zahlenpaare überprüft, und in beiden Formaten kann eine Übereinstimmung für dasselbe XY-Koordinatenpaar gefunden werden. Wenn beide Formate aktiviert sind, wird eine Warnung angezeigt, die auf einen Konflikt hinweist. Wenn beide Formate aktiviert sind und in beiden eine Übereinstimmung gefunden wird, wird als Ausgabeposition ein Dezimalgradergebnis verwendet. Die Wahrscheinlichkeit, dass die Aktivierung beider Formate einen Konflikt verursacht, ist geringer, wenn ein projiziertes Koordinatensystem angegeben wird. Diese Option ist standardmäßig aktiviert.
Wenn Ungültige Koordinaten protokollieren aktiviert ist, werden alle Kandidaten für räumliche Koordinaten, die ungültige Werte aufweisen oder nicht mit dem definierten Koordinatensystem übereinstimmen, in einer Protokolldatei als ungültig aufgezeichnet. Wenn der Prozess abgeschlossen ist, können Sie diese Protokolldatei überprüfen. Standardmäßig werden ungültige Koordinaten protokolliert.
Festlegen von Koordinateneinheiten
Sie können die mit den XY-Formaten verknüpften Einheiten ändern, um anhand der Informationen in den Eingabedokumenten genaue Positionen zu generieren.
- Öffnen Sie die Registerkarte "Koordinaten".
- Aktivieren Sie Koordinaten.
- Klicken Sie auf die Dropdown-Liste Koordinatensystem oder die Schaltfläche Koordinatensystem auswählen und dann auf das Koordinatensystem, das mit den räumlichen Koordinaten in den Eingabedokumenten verknüpft ist. Geben Sie beispielsweise ein projiziertes Koordinatensystem an.
- Aktivieren Sie die Option XY-Formate.
- Klicken Sie, um die Optionen für das Format XY mit Einheitentext einzublenden.
Die Einheiten werden standardmäßig entsprechend den Einheiten des Koordinatensystems festgelegt. Beispielsweise wird für ein Koordinatensystem, das auf der Einheit "US Feet" basiert, die Einheit auf ftUS festgelegt.
- Klicken Sie auf die Schaltfläche Einheiten festlegen , um die Schreibweisen zu ändern, die in den Dokumenten als Einheiten erkannt werden.
Das Dialogfeld Zulässige Einheiten wird angezeigt.
- Klicken Sie ggf. auf die Schaltfläche Aus Liste hinzufügen , um der Liste eine bekannte, vordefinierte Messeinheit hinzuzufügen.
- Fügen Sie der Liste ggf. eine benutzerdefinierte Einheit hinzu.
- Klicken Sie in der neuen Zeile am Ende der Tabelle auf die Spalte Einheitentext, und geben Sie die Einheiten ein, die als Darstellung dieser Maßeinheit erkannt werden sollen. Geben Sie z. B. ft (US) ein, damit dieser Text als zusätzliche Darstellungsmöglichkeit der Einheit ftUS erkannt wird.
- Geben Sie die Entfernung in Metern ein, die mit dieser Maßeinheit verknüpft wird.
- Klicken Sie auf OK.
- Klicken Sie, um die Optionen für das Format XY ohne Einheitentext einzublenden.
- Klicken Sie auf die Schaltfläche Einheiten festlegen , um die Einheiten zu ändern, die den in den Dokumenten gefundenen Koordinatenpaaren zugeordnet werden.
Das Dialogfeld Standardeinheiten wird angezeigt.
- Klicken Sie auf die Dropdown-Liste Einheitenname, und klicken Sie auf eine der international anerkannten Einheiten, die in der Liste definiert sind, oder geben Sie den Namen einer anderen Entfernungsmaßeinheit ein, die in der Liste nicht vorhanden ist.
Wenn Sie eine Einheit in der Liste auswählen, wird im Textfeld Meter/Einheit die Entfernung in Metern angezeigt, die mit der ausgewählten Maßeinheit verknüpft ist.
- Wenn Sie im Textfeld Einheitenname den Namen einer benutzerdefinierten Maßeinheit eingegeben haben, geben Sie im Textfeld Meter/Einheit die Anzahl der Meter ein, die von der Maßeinheit dargestellt werden.
- Klicken Sie auf OK.
DD-Formate
Die Kandidaten für räumliche Koordinaten werden mit den folgenden Koordinatenformaten verglichen, sofern diese aktiviert sind. Wenn ein Kandidat mit einem dieser Formate übereinstimmt, wird eine Position in der Ausgabe-Feature-Class erstellt. Die ursprüngliche Koordinate wird dann im Format "Dezimalgrad" in der Ausgabe-Feature-Class angegeben.
- Breitengrad und Längengrad: Alphanumerischer Text wird als Position erkannt, wenn er die folgende Struktur aufweist: 38.8N 77.035W oder W77N38.88909. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
- XY mit Gradsymbolen: Alphanumerischer Text wird als Position erkannt, wenn er die folgende Struktur aufweist: 38.8° -77.035° oder -077d+38.88909d. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
- XY ohne Symbole: Alphanumerischer Text wird als Position erkannt, wenn er die folgende Struktur aufweist: 38.8 -77.035 oder -077.0, +38.88909. Bei diesen Formaten werden mit hoher Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind, da sie stark Zahlenfolgen ohne räumliche Beziehung ähneln. Diese Formate können auch Zahlen ähneln, die eine räumliche Position in einem projizierten Koordinatensystem definieren. Wenn sowohl dieses Format als auch die Option XY ohne Einheitentext aktiviert sind, wird eine Warnung angezeigt, die auf einen Konflikt hinweist. Diese Option ist standardmäßig aktiviert.
Wenn Ungültige Koordinaten protokollieren aktiviert wurde, werden alle Kandidaten für räumliche Koordinaten, die mit keinem der aktivierten Formate übereinstimmen, in einer Protokolldatei als ungültig aufgezeichnet. Wenn der Prozess abgeschlossen ist, können Sie diese Protokolldatei überprüfen. Standardmäßig werden ungültige Koordinaten protokolliert.
DM-Formate
Die Kandidaten für räumliche Koordinaten werden mit den folgenden Koordinatenformaten verglichen, sofern diese aktiviert sind. Wenn ein Kandidat mit einem dieser Formate übereinstimmt, wird eine Position in der Ausgabe-Feature-Class erstellt. Die ursprüngliche Koordinate wird dann im Format "Grad Dezimalminuten" in der Ausgabe-Feature-Class angegeben.
- Breitengrad und Längengrad: Alphanumerischer Text wird als Position erkannt, wenn er die folgende Struktur aufweist: 3853.3N 7702.100W oder W7702N3853.3458. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
- XY mit Minutensymbolen: Alphanumerischer Text wird als Position erkannt, wenn er die folgende Struktur aufweist: 3853' -7702.1' oder -07702m+3853.3458m. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
Wenn Ungültige Koordinaten protokollieren aktiviert wurde, werden alle Kandidaten für räumliche Koordinaten, die mit keinem der aktivierten Formate übereinstimmen, in einer Protokolldatei als ungültig aufgezeichnet. Wenn der Prozess abgeschlossen ist, können Sie diese Protokolldatei überprüfen. Standardmäßig werden ungültige Koordinaten protokolliert.
DMS-Formate
Die Kandidaten für räumliche Koordinaten werden mit den folgenden Koordinatenformaten verglichen, sofern diese aktiviert sind. Wenn ein Kandidat mit einem dieser Formate übereinstimmt, wird eine Position in der Ausgabe-Feature-Class erstellt. Die ursprüngliche Koordinate wird dann im Format "Grad, Minuten, Sekunden" in der Ausgabe-Feature-Class angegeben.
- Breitengrad und Längengrad: Alphanumerischer Text wird als Position erkannt, wenn er die folgende Struktur aufweist: 385320.7N 770206.000W oder W770206N385320.76. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
- XY mit Sekundensymbolen: Alphanumerischer Text wird als Position erkannt, wenn er die folgende Struktur aufweist: 385320" -770206.0" oder -0770206.0s+355320.76s. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
- XY mit Trennzeichen: Alphanumerischer Text wird als Position erkannt, wenn er die folgende Struktur aufweist: 38:53:20 -77:2:6.0 oder -077/02/06/, +38/53/20.76. Bei diesen Formaten werden manchmal Positionen generiert, die falsch positive Ergebnisse sind, da sie anderen Zahlenformaten, wie zum Beispiel Formaten für Datum und Uhrzeit, ähneln. Diese Option ist standardmäßig aktiviert.
Wenn Ungültige Koordinaten protokollieren aktiviert wurde, werden alle Kandidaten für räumliche Koordinaten, die mit keinem der aktivierten Formate übereinstimmen, in einer Protokolldatei als ungültig aufgezeichnet. Wenn der Prozess abgeschlossen ist, können Sie diese Protokolldatei überprüfen. Standardmäßig werden ungültige Koordinaten protokolliert.
UTM-Formate
Die Kandidaten für räumliche Koordinaten werden mit den folgenden Koordinatenformaten verglichen, sofern diese aktiviert sind. Wenn ein Kandidat mit einem dieser Formate übereinstimmt, wird eine Position in der Ausgabe-Feature-Class erstellt. Die ursprüngliche Koordinate wird dann im Format "Universal Transverse Mercator" in der Ausgabe-Feature-Class angegeben.
- Universelle transversale Mercator-Projektion: Alphanumerischer Text wird als Position erkannt, wenn er die folgende Struktur aufweist: 18S 323503 4306438 oder 18 north 323503.25 4306438.39. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
- UPS Nordpolar: Alphanumerischer Text wird als Position erkannt, wenn er die folgende Struktur aufweist: Y 2722399 2000000 oder north 2711399 2000000. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Allerdings sind diese Koordinaten auch nur selten in typischen Dokumenten zu finden. Diese Option ist standardmäßig deaktiviert.
- UPS Südpolar: Alphanumerischer Text wird als Position erkannt, wenn er die folgende Struktur aufweist: A 2000000 3168892 oder south 2000000 3168892. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Allerdings sind diese Koordinaten auch nur selten in typischen Dokumenten zu finden. Diese Option ist standardmäßig deaktiviert.
MGRS-Formate
Die Kandidaten für räumliche Koordinaten werden mit den folgenden Koordinatenformaten verglichen, sofern diese aktiviert sind. Wenn ein Kandidat mit einem dieser Formate übereinstimmt, wird eine Position in der Ausgabe-Feature-Class erstellt. Die ursprüngliche Koordinate wird dann im Format "Military Grid Reference System" in der Ausgabe-Feature-Class angegeben.
- Military Grid Reference System: Alphanumerischer Text wird als Position erkannt, wenn er die folgende Struktur aufweist: 18S UJ 13503 06438 oder 18SUJ0306. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
- Nordpolar: Alphanumerischer Text wird als Position erkannt, wenn er die folgende Struktur aufweist: Y TG 56814 69009 oder YTG5669. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Positionen generiert, die falsch positive Ergebnisse sind. Allerdings sind diese Koordinaten auch nur selten in typischen Dokumenten zu finden. Diese Option ist standardmäßig deaktiviert.
- Südpolar: Alphanumerischer Text wird als Position erkannt, wenn er die folgende Struktur aufweist: A TN 56814 30991 oder ATN5630. Bei diesen Formaten werden manchmal Positionen generiert, die falsch positive Ergebnisse sind, da sie normalen Zahlen ähneln können. Diese Option ist standardmäßig deaktiviert.
Wenn Ungültige Koordinaten protokollieren aktiviert wurde, werden alle Kandidaten für räumliche Koordinaten, die mit keinem der aktivierten Formate übereinstimmen, in einer Protokolldatei als ungültig aufgezeichnet. Wenn der Prozess abgeschlossen ist, können Sie diese Protokolldatei überprüfen. Standardmäßig werden ungültige Koordinaten protokolliert.
Anpassen der Erkennung räumlicher Koordinaten
Die Dokumente, mit denen Sie arbeiten, enthalten möglicherweise räumliche Koordinaten, die mit den Standardeinstellungen für Koordinatensysteme nicht erkannt werden können. Dies kann z. B. der Fall sein, wenn der Autor der Dokumente an keiner GIS-Schulung teilgenommen hat und räumliche Koordinaten auf eine Weise angegeben hat, die keinem Standard entsprechen. Beispielsweise wird häufig wird zwischen den Werten für Breiten- und Längengrad zusätzlicher Text hinzugefügt. Zum Beispiel verhindert im Text +45.56° and -69.66° das zusätzliche Wort and, dass der Text als räumliche Koordinate erkannt wird.
Wenn die zu analysierenden Dokumente in einer Kombination von Sprachen geschrieben wurden, wird Text standardmäßig nur in Dokumenten als räumliche Koordinate erkannt, die in Englisch geschrieben wurden oder in deren Richtungsangaben englische Wörter oder Abkürzungen verwendet werden. Wenn z. B. der Text im Dokument in Französisch verfasst ist und in der räumlichen Koordinate eine Richtung mit O für Ouest (z. B. 60.91°N, 147.34°O) dargestellt wird, statt W für West zu verwenden, wird der Text nicht als räumliche Koordinate erkannt. Koordinatenformate können angepasst werden, damit die Formate in anderen Sprachen, die zusätzlich zu Englisch oder anstelle von Englisch verwendet werden, erkannt werden, abhängig davon, wie die Dokumente verarbeitet werden sollen.
Im Dialogfeld Anpassen können Sie anpassen, wie räumliche Koordinaten in Dokumenten erkannt werden. Für einige Sprachen sind Standardeinstellungen vorhanden. Wählen Sie die Sprache Ihrer Dokumente auf der Registerkarte Einstellungen aus. Bei einem Dokument in einer asiatischen Sprache werden räumliche Koordinaten, die mit einer Kombination aus asiatischen Zeichen und indisch-arabischen Ziffern mit vollständiger Breite wie 北緯51.50°、西経175.63° definiert sind, derzeit nicht als räumliche Koordinaten erkannt.
- Öffnen Sie die Registerkarte "Koordinaten".
- Aktivieren Sie Koordinaten.
- Klicken Sie oben in der Liste der Formate für räumliche Koordinaten auf die Schaltfläche Anpassen .
- Wenn die Dokumente in einer anderen Sprache geschrieben wurden und auf der Registerkarte Einstellungen im Dialogfeld Anpassen Einstellungen für diese Sprache verfügbar sind, klicken Sie auf die Sprache in der Liste.
- Fügen Sie dem Dialogfeld Anpassen die Einstellungen für die ausgewählte Sprache hinzu.
- Klicken Sie auf Einstellungen ersetzen, um die Dokumente nur mit den Einstellungen für die ausgewählte Sprache zu scannen. Wenn die aktuelle Sprache Englisch und die ausgewählte Sprache Französisch ist, werden in den Dokumenten nur in einem französischen Format geschriebene Koordinaten erkannt, nachdem im Dialogfeld die Einstellungen für Englisch durch die Einstellungen für Französisch ersetzt wurden.
- Klicken Sie auf Einstellungen zusammenführen, um die Dokumente mit den Einstellungen für die aktuelle Sprache sowie den Einstellungen für die zusätzliche Sprache zu scannen. Wenn die aktuelle Sprache Englisch und die ausgewählte Sprache Französisch ist, werden in den Dokumenten in englischen und französischen Formaten geschriebene Koordinaten erkannt, nachdem im Dialogfeld die Einstellungen für Französisch mit den Einstellungen für Englisch zusammengeführt wurden.
- Eine räumliche Koordinate besteht aus vielen Komponenten, einschließlich mehrerer spezieller Komponenten für eine Gruppe von Sprachen. Wählen Sie unter der Überschrift Koordinaten eine Registerkarte für eine Komponente einer räumlichen Koordinate aus, z. B. Nord oder Zwischen Breitengrad/Längengrad.
- Ändern Sie die Liste der Begriffe für diese Komponente, um die Schreibweisen einzuschließen, die in den zu scannenden Dokumenten verwendet werden.
- Klicken Sie in der Spalte Begriffstext auf die neue Zeile am unteren Ende der Tabelle.
- Geben Sie den entsprechenden Wert ein, der in den Dokumenten angezeigt wird und als Komponente einer räumlichen Koordinate erkannt werden soll. Fügen Sie z. B. der Liste der Begriffe in der Tabelle Nord die Fehlschreibung Nort hinzu, wenn diese in einer Gruppe von Dokumenten häufig auftritt. Fügen Sie und zur Liste der Begriffe auf der Registerkarte Zwischen Breitengrad/Längengrad hinzu, um Dokumente zu berücksichtigen, in denen zwischen Breitengrad- und Längengradwerten dieser zusätzliche Text vorhanden ist.
- Drücken Sie die Eingabetaste.
- Wenn auf mehreren Registerkarten im Dialogfeld Anpassen derselbe Begriff eingegeben wurde, wird eine Warnung angezeigt. Doppelt vorhandene Begriffe sind zwar zulässig, die Genauigkeit der Positionserkennung in Dokumenten wird dadurch jedoch verringert. Entfernen Sie doppelte Begriffe, die für die Erkennung von Text als Position nicht unverzichtbar sind.
- Klicken Sie auf eine der betroffenen Registerkarten.
- Klicken Sie auf eine Zeile in der Tabelle, um den doppelten Begriff auszuwählen, der nicht verwendet werden soll.
- Klicken Sie auf die Schaltfläche Entfernen , um die ausgewählte Zeile aus der Tabelle zu entfernen.
Wenn die doppelten Begriffe beibehalten werden, wird im Bereich Positionen extrahieren neben der Schaltfläche Extrahieren eine Warnmeldung angezeigt.
- Klicken Sie auf OK.
Beim nächsten Extrahieren von Positionen aus einer Gruppe von Dokumenten werden die benutzerdefinierten Definitionen verwendet, um Text auszuwerten und zu bestimmen, ob er eine räumliche Koordinate darstellt.
Verwenden von Komma als Dezimalzeichen
Standardmäßig werden Dokumente auf Koordinaten überprüft, die mit einem Punkt (.) oder einem Multiplikationszeichen (·) als Dezimaltrennzeichen angegeben sind, z. B. Lat 01° 10·80’ N Long 103° 28·60’ E. Wenn Sie mit Dokumenten arbeiten, in denen Zahlen mit Kommas als Dezimaltrennzeichen enthalten sind – z. B. 52° 8′ 32,14″ N; 5° 24′ 56,09″ E –, dann sollten Sie stattdessen die Option Komma als Dezimalzeichen verwenden aktivieren.
Diese Einstellung steuert lediglich, wie alphanumerischer Text ausgewertet wird, um zu bestimmen, ob es sich um eine räumliche Koordinate handelt. Diese Einstellung beeinflusst nicht, wie der Text ausgewertet wird, um zu bestimmen, ob er eine benutzerdefinierte Position darstellt oder mit einem Schlüsselwort übereinstimmt, das in einem benutzerdefinierten Attribut gespeichert werden soll. Das bedeutet, dass diese Einstellung keine Verknüpfung bereitstellt, um anzugeben, dass der Text in einer europäischen Sprache wie z. B. Französisch geschrieben wurde, wo für Zahlen häufig Kommas als Dezimaltrennzeichen verwendet werden. Die Ländereinstellungen des Computers werden nicht zum Steuern dieser Einstellung verwendet.
Als Längengrad, Breitengrad interpretieren
Wenn Koordinatenpaare ohne Symbole oder Richtungsangaben angegeben wurden, wird die korrekte räumliche Position wahrscheinlich dann generiert, wenn die eine Zahl zwischen 0 und 90 und die andere Zahl zwischen 90 und 180 liegt. Wenn beide Zahlen zwischen 0 und 90 liegen, ist es schwieriger, die korrekte Position zu bestimmen.
Da die geographische Länge/Breite eine strenge Konvention in der Geographie ist, werden Koordinatenpaare, bei denen beide Zahlen zwischen 0 und 90 liegen, standardmäßig auf diese Art ausgewertet. Das heißt, die erste Zahl wird als Wert auf der Y-Achse und die zweite Zahl als Wert auf der X-Achse betrachtet. In anderen Fachbereichen, wie zum Beispiel der Mathematik, werden Koordinatenpaare jedoch häufig als XY-Kombinationen angegeben.
Wenn diese mehrdeutigen Koordinatenpaare stattdessen als XY-Kombinationen ausgewertet werden sollen, bei denen die erste Zahl ein Längengrad und die zweite Zahl ein Breitengrad ist, dann aktivieren Sie die Option Als Längengrad, Breitengrad interpretieren.
Festlegen der Einstellungen zum Auswerten von Koordinaten
Damit festgelegt werden kann, wie räumliche Koordinaten ausgewertet werden, wenn Dokumente untersucht werden, müssen Koordinaten aktiviert werden.
- Öffnen Sie die Registerkarte "Koordinaten".
- Aktivieren Sie Koordinaten.
- Klicken Sie auf die Dropdown-Liste Koordinatensystem oder die Schaltfläche Koordinatensystem auswählen und dann auf das Koordinatensystem, das mit den räumlichen Koordinaten in den Eingabedokumenten verknüpft ist.
- Aktivieren Sie die Koordinatenformate, die zum Auswerten der Kandidaten für räumliche Koordinaten verwendet werden sollen. Deaktivieren Sie die Koordinatenformate, die nicht verwendet werden sollen.
- Geben Sie Anpassungen an, die beim Auswerten von Text verwendet werden sollen, um zu bestimmen, ob er eine räumliche Koordinate darstellt.
- Aktivieren oder deaktivieren Sie die Option Ungültige Koordinaten protokollieren zum Verwenden der Protokolldateien beim Auswerten der Ergebnisse.
- Aktivieren Sie Komma als Dezimalzeichen verwenden, wenn in den Eingabedokumenten die räumlichen Koordinaten mit Kommas als Dezimaltrennzeichen angegeben wurden.
- Aktivieren Sie Als Längengrad, Breitengrad interpretieren, wenn in den Eingabedokumenten die räumlichen Koordinaten im Format Längengrad, Breitengrad statt im Format Breitengrad, Längengrad angegeben wurden.
Beim nächsten Extrahieren von Positionen werden diese Koordinateneinstellungen verwendet, um Kandidaten für räumliche Koordinaten auszuwerten und zu bestimmen, welche Positionen in der Ausgabe-Feature-Class hinzugefügt werden.
Identifizieren von benutzerdefinierten Positionen mit einem Fuzzy-Abgleich
Wenn benutzerdefinierte Positionen aktiviert wurden, wird der Inhalt der Dokumente, die gescannt werden, mit den Ortsnamen, die in der Datei mit benutzerdefinierten Positionen angegeben sind, verglichen. Standardmäßig muss der Inhalt exakt mit einem der angegebenen Ortsnamen übereinstimmen, damit eine Position in der Ausgabe-Feature-Class erstellt wird.
Wenn die Option für den Fuzzy-Abgleich aktiviert wurde, wird stattdessen eine ungefähre Übereinstimmung verwendet, um den Inhalt des Dokuments mit den angegebenen Ortsnamen zu vergleichen. In der Ausgabe-Feature-Class wird eine Position erstellt, wenn der Eingabeinhalt mit 70 Prozent der Zeichen eines Ortsnamens übereinstimmt. Damit können Rechtschreibfehler und auch bestimmte Abweichungen, wie zum Beispiel bei Verwendung der Pluralform eines Wortes in einem Ortsnamen statt der Singularform, berücksichtigt werden. Die 70-Prozent-Bewertung basiert streng auf einer Zählung der Anzahl der Buchstaben, die übereinstimmen. Algorithmen zum Verarbeiten natürlicher Sprache, wie zum Beispiel die Rückführung auf die Normalform (Stemming), werden nicht verwendet, um zu bestimmen, ob ein Wort in einem Dokument mit einer benutzerdefinierten Position übereinstimmt.
Ein nützlicher Workflow besteht darin, zuerst die Positionen mit deaktiviertem Fuzzy-Abgleich zu extrahieren und danach dies mit aktiviertem Fuzzy-Abgleich zu wiederholen, um zusätzliche Ortsnamen zu finden. Die Ergebnisse können anschließend verglichen werden, um die besten Ergebnisse zu ermitteln. Obwohl sich mit dieser Einstellung in bestimmten Fällen zusätzliche Positionen finden lassen, die andernfalls übergangen worden wären, könnten andere gefundene Inhalte in den Dokumenten trotz Übereinstimmung keine Ortsnamen sein. In diesem Fall würden Positionen generiert, die falsch positive Ergebnisse sind.
Der Fuzzy-Abgleich wird nur mit benutzerdefinierten Positionen verwendet. Wenn die Umschaltfläche "Benutzerdefinierte Positionen" deaktiviert ist, hat die Umschaltfläche "Fuzzy-Abgleich" keine Wirkung. Mit dieser Option wird die Vorgehensweise beim Vergleich des Inhalts eines Dokuments mit Schlagwörtern, die in einer Datei mit benutzerdefinierten Attributen angegeben sind, nicht verändert.
Aktivieren oder Deaktivieren der Umschaltfläche "Fuzzy-Abgleich"
- Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
- Aktivieren oder deaktivieren Sie die Umschaltfläche "Fuzzy-Abgleich".
- Klicken Sie auf die Registerkarte Optionen und dann auf die Umschaltfläche Fuzzy-Abgleich.
- Klicken Sie auf die Registerkarte Positionen extrahieren , dann auf die Registerkarte Benutzerdefinierte Positionen und schließlich auf die Umschaltfläche Fuzzy-Abgleich verwenden.
Datumsangaben
Die Registerkarte Datumsangaben bestimmt, welche Datumsformate beim Scannen von Eingabedokumenten berücksichtigt werden sollen. Untersucht werden alphanumerische Kombinationen, um festzustellen, ob sie mit den aktivierten Datumsformaten übereinstimmen. Die potenziellen Datumsangaben werden nacheinander auf alle aktivierten Formate geprüft, wie unten angegeben. Manchmal werden normale Zahlen irrtümlicherweise als Datum identifiziert. Diese werden als falsch positive Ergebnisse bezeichnet.
Die unterstützten Datumsformate können entsprechend einer Gruppe von Dokumenten angepasst werden. Beispielsweise sind die Dokumente eventuell in einer anderen Sprache verfasst, oder sie enthalten Datumsangaben mit einer nicht standardmäßigen Schreibweise. Die Datumsformate und das Verfahren zum Anpassen ihrer Auswertung werden im Folgenden ausführlicher beschrieben.
Alle Datumsangaben in den Eingabedokumenten werden verarbeitet, bis das Ende des Dokuments oder der Grenzwert für die Anzahl der Datumsangaben, die extrahiert werden können, erreicht ist.
Weitere Informationen zum Begrenzen der Anzahl der Datumsangaben, die extrahiert werden
- Verwendeter Monatsname: Der Monatsname ist im Text ausgeschrieben, entweder vollständig oder als Abkürzung, zum Beispiel January 1, 2010 oder 2 FEB 11. Wenn diese Option aktiviert ist, wird in anderen Sprachen als Englisch in den Datumsangaben möglicherweise kein Monatsname verwendet, weil Monate beispielsweise nicht durch eine Zahl angegeben werden. Die bei Aktivierung dieser Option identifizierten Datumsangaben sind auf herkömmlichere Weise statt mit einer Variante der ISO 8601-Datumsformate geschrieben. Bei diesen Formaten werden mit geringer Wahrscheinlichkeit Datumsangaben generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
- M/D/Y und D/M/Y Das Datumsformat ist Monat, Tag, Jahr oder Tag, Monat, Jahr, mit Trennzeichen zwischen den Werten, zum Beispiel 10/31/2017 oder 28-2-11. Bei diesen Formaten werden manchmal Datumsangaben generiert, die falsch positive Ergebnisse sind. Das dargestellte Datum ist mehrdeutig, wenn sowohl Monat als auch Tag durch Zahlen dargestellt werden, die größer oder gleich 12 sind. Es sind Optionen verfügbar, um auszuwählen, wie mehrdeutige Datumsangaben interpretiert werden. Die Option Bei Mehrdeutigkeit als MTJ interpretieren ist standardmäßig ausgewählt, und der Text 03/02/2012 wird als 2. März 2012 interpretiert. Diese Option ist bei der Arbeit mit in den USA erstellten Dokumenten sinnvoll, da das Standarddatumsformat in den USA MM/TT/JJJJ lautet. Wenn Sie mit in einem anderen Land erstellten Dokumenten arbeiten, in denen das Standarddatumsformat TT/MM/JJJ lautet, wählen Sie stattdessen Bei Mehrdeutigkeit als TMJ interpretieren aus. In diesem Fall wird der Text 4-12-13 als 4. Dezember 2013 interpretiert. Datumsangaben werden erkannt, wenn Monat und Tag jeweils als Ziffern angegeben werden und wenn diesen Ziffern Nullen vorangestellt sind. Dieses Format ist standardmäßig aktiviert.
- YYYYMMDD: Das Datumsformat ist Jahr, Monat, Tag, zum Beispiel 2015-06-03 oder 20140502. Wenn zwischen den Komponenten des Datums Trennzeichen verwendet werden, werden Monats- und Tageswerte, die aus einer einzelnen Ziffer bestehen, erkannt. Zum Beispiel wird 2015-6-3 als 3. Juni 2013 erkannt, 201452 wird jedoch als 2. Mai 2014 erkannt. Das erzeugte standardisierte Datum weist vorangestellte Nullen für den Monat und Tag auf, wenn der ursprüngliche Wert eine einzelne Ziffer ist, und die Jahresangabe ist vierstellig. Bei diesen Formaten werden manchmal Datumsangaben generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
- YYMMDD: Das Datumsformat ist Jahr, Monat, Tag, zum Beispiel 160722 oder 170304. Wenn der Wert eine einzelne Ziffer mit zweistelliger Jahreszahl ist, werden den Angaben für Monat und Tag Nullen vorangestellt. Bei diesen Formaten werden mit hoher Wahrscheinlichkeit Datumsangaben generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
- YYJJJ: Das Jahr und das julianische Datum als Zahl, bei der der Tag mit einer Zahl von 1 bis 366 (mit vorangestellten Nullen, wenn der Tag eine ein- oder zweistellige Zahl ist) als Position im Jahr dargestellt wird. Beispielsweise 18001 oder 19365. Das Format YYYYJJJ wird ebenfalls unterstützt, wobei das Jahr vollständig qualifiziert ist. Zum Beispiel stellt 2020060 den 29. Februar 2020 dar. Bei diesen Formaten werden mit hoher Wahrscheinlichkeit Datumsangaben generiert, die falsch positive Ergebnisse sind. Diese Option ist standardmäßig aktiviert.
Die erste gefundene Übereinstimmung wird extrahiert und in der Spalte Erstes Datum der Attributtabelle der Ausgabe-Feature-Class gespeichert, sofern das Datum in dem für die Auswertung festgelegten Datumsbereich liegt. Ebenso wird das älteste gefundene Datum in der Spalte Frühestes Datum und das jüngste gefundene Datum in der Spalte Aktuellstes Datum gespeichert. Alle im Dokument gefundenen Datumsangaben werden durch Kommas getrennt in der Spalte Alle Datumsangaben bis zur maximal zulässigen Größe in der Tabelle aufgeführt. Ungeachtet des im Originaltext verwendeten Formats werden sämtliche Datumsangaben im Format JJJJ-MM-TT erfasst. Im Gegensatz dazu wird in der Spalte Extrahierter Datumstext der Text, der im Dokument gefunden und als Datum interpretiert wurde, genau so erfasst, wie er im Dokument gefunden wurde.
Weitere Informationen zum Festlegen des Datumsbereichs
Wenn Sie genau wissen, dass Ihre Dokumente nur Datumsangaben in bestimmten Formaten enthalten, dann können die anderen Datumsformate deaktiviert werden. Wenn weniger Datumsformate aktiviert sind, werden die Dokumente schneller gescannt.
Zugriff auf die Registerkarte "Datumsangaben"
- Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
- Öffnen Sie die Registerkarte Datumsangaben.
- Klicken Sie auf die Registerkarte Optionen und dann auf den Pfeil neben der Umschaltfläche Datumsangaben.
- Klicken Sie auf die Registerkarte Attribute extrahieren und dann auf die Registerkarte Datumsangaben.
Aktivieren oder Deaktivieren der Umschaltfläche "Datumsangaben"
- Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
- Aktivieren oder deaktivieren Sie die Umschaltfläche "Datumsangaben".
- Klicken Sie auf die Registerkarte Optionen und dann auf die Umschaltfläche Datumsangaben.
- Klicken Sie auf die Registerkarte Attribute extrahieren , dann auf die Registerkarte Datumsangaben und schließlich auf die Umschaltfläche Felder aus Daten erstellen.
Anpassen der Erkennung von Datumsangaben
Die Dokumente, mit denen Sie arbeiten, enthalten möglicherweise Datumsangaben, die mit den Standardeinstellungen für das Datumsformat nicht erkannt werden können. Wenn zum Beispiel die Option Verwendeter Monatsname aktiviert ist, der Autor einer Gruppe von Dokumenten jedoch statt "Februar" regelmäßig die Fehlschreibung "Febuar" verwendet hat, wird der Text nicht als Datum erkannt.
Wenn die zu analysierenden Dokumente in einer Kombination von Sprachen geschrieben wurden, wird Text standardmäßig nur in Dokumenten als Datum erkannt, die in Englisch geschrieben wurden. Beispielsweise wird mit der Option Verwendeter Monatsname das englische Datum July 17, 2018 erkannt. In einem französischen Dokument wird jedoch das entsprechende Datum 17 juillet, 2018 standardmäßig nicht als Datum erkannt. Datumsformate können angepasst werden, damit die Formate in anderen Sprachen, die zusätzlich zu Englisch oder anstelle von Englisch verwendet werden, erkannt werden, abhängig davon, wie die Dokumente verarbeitet werden sollen.
Im Dialogfeld Anpassen können Sie anpassen, wie Datumsangaben in Dokumenten erkannt werden. Für einige Sprachen sind Standardeinstellungen vorhanden. Wählen Sie die Sprache Ihrer Dokumente auf der Registerkarte Einstellungen aus. In einem Dokument in einer asiatischen Sprache ermöglichen es die Optionen auf der Registerkarte Ziffern, dass Datumsangaben erkannt werden, wenn sie unter ausschließlicher Verwendung asiatischer Zeichen, wie z. B. 平成三十年六月十八日, und einer Kombination aus asiatischen Zeichen und indisch-arabischen Ziffern mit vollständiger Breite, wie z. B. 平成 2 8年 4月 14日, angegeben werden.
Einige Einstellungen steuern, ob zwei- und vierstellige Zahlen in einem Dokument als Jahr erkannt werden. Dies beeinflusst, ob Text als Datum erkannt wird und ob das Datum in dem zulässigen Bereich von Datumsangaben liegt, die aus Dokumenten extrahiert werden sollen. Wenn Sie mit digitalen Versionen historischer Dokumente oder mit Dokumenten arbeiten, in denen zukünftige Ereignisse projiziert werden, müssen Sie möglicherweise für diese Dokumente den Bereich der Zahlen beschränken, die als Jahr erkannt werden und außerdem die Einstellung Extrahierte Datumsangaben auf diesen Bereich beschränken auf der Registerkarte Ausgabe im Bereich Positionen extrahieren ändern.
- Öffnen Sie die Registerkarte "Datumsangaben".
- Aktivieren Sie die Umschaltfläche "Datumsangaben".
- Klicken Sie oben in der Liste der Datumsformate auf die Schaltfläche Anpassen.
- Wenn die Dokumente in einer anderen Sprache geschrieben wurden und auf der Registerkarte Einstellungen im Dialogfeld Anpassen Einstellungen für diese Sprache verfügbar sind, klicken Sie auf die Sprache in der Liste.
- Fügen Sie dem Dialogfeld Anpassen die Einstellungen für die ausgewählte Sprache hinzu.
- Klicken Sie auf Einstellungen ersetzen, um die Dokumente nur mit den Einstellungen für die ausgewählte Sprache zu scannen. Wenn die aktuelle Sprache Englisch und die ausgewählte Sprache Französisch ist, werden in den Dokumenten nur in einem französischen Format geschriebene Koordinaten erkannt, nachdem im Dialogfeld die Einstellungen für Englisch durch die Einstellungen für Französisch ersetzt wurden.
- Klicken Sie auf Einstellungen zusammenführen, um die Dokumente mit den Einstellungen für die aktuelle Sprache sowie den Einstellungen für die zusätzliche Sprache zu scannen. Wenn die aktuelle Sprache Englisch und die ausgewählte Sprache Französisch ist, werden in den Dokumenten in englischen und französischen Formaten geschriebene Koordinaten erkannt, nachdem im Dialogfeld die Einstellungen für Französisch mit den Einstellungen für Englisch zusammengeführt wurden.
- Ein geschriebenes Datum kann aus vielen Komponenten bestehen. Wählen Sie unter der Überschrift Datumsangaben eine Registerkarte für eine Datumskomponente aus, z. B. Februar.
- Ändern Sie die Liste der Begriffe, um die Schreibweisen einzuschließen, die in den zu scannenden Dokumenten verwendet werden.
- Klicken Sie in der Spalte Begriffstext auf die neue Zeile am unteren Ende der Tabelle.
- Geben Sie den entsprechenden Wert, der in den Dokumenten enthalten ist, z. B. die Fehlschreibung Febuary, als einen der Werte ein, die den Monat Februar identifizieren können.
- Drücken Sie die Eingabetaste.
- Wenn auf mehreren Registerkarten im Dialogfeld Anpassen derselbe Begriff eingegeben wurde, wird eine Warnung angezeigt. Doppelt vorhandene Begriffe sind zwar zulässig, sie verringern jedoch die Genauigkeit der Erkennung von Datumsangaben in Dokumenten. Entfernen Sie alle doppelten Begriffe, die für die Erkennung von Text als Datum nicht unverzichtbar sind.
- Klicken Sie auf eine der betroffenen Registerkarten.
- Klicken Sie auf eine Zeile in der Tabelle, um den doppelten Begriff auszuwählen, der nicht verwendet werden soll.
- Klicken Sie auf die Schaltfläche Entfernen , um die ausgewählte Zeile aus der Tabelle zu entfernen.
Wenn die doppelten Begriffe beibehalten werden, wird im Bereich Positionen extrahieren neben der Schaltfläche Extrahieren eine Warnmeldung angezeigt.
- Geben Sie auf der Registerkarte Jahreszeiträume einen Zahlenbereich an, der innerhalb Ihrer Dokumente als Jahre interpretiert werden soll.
- Geben Sie auf der Registerkarte Ziffern an, welche Zeichentypen als Datum erkannt werden können.
- Klicken Sie auf OK.
Festlegen der Einstellungen zum Auswerten von Datumsangaben
Damit festgelegt werden kann, wie die Eingabedokumente in Bezug auf Datumsangaben ausgewertet werden, und damit diese Informationen in der Ausgabe-Feature-Class gespeichert werden, muss die Umschaltfläche "Datumsangaben" aktiviert werden.
- Öffnen Sie die Registerkarte "Datumsangaben".
- Aktivieren Sie die Umschaltfläche "Datumsangaben".
- Aktivieren Sie die Datumsformate, die zum Auswerten der Kandidaten für Datumsangaben verwendet werden sollen. Deaktivieren Sie die Datumsformate, die nicht verwendet werden sollen.
- Geben Sie Anpassungen an, die beim Auswerten von Text verwendet werden sollen, um zu bestimmen, ob er ein Datum darstellt.
Beim nächsten Extrahieren von Datumsangaben werden diese Datumseinstellungen verwendet, um Kandidaten für Datumsangaben auszuwerten und zu bestimmen, welche Datumsangaben in der Attributtabelle der Ausgabe-Feature-Class hinzugefügt werden.
Wortumbrüche sind erforderlich
Die Einstellung Wortumbrüche sind erforderlich bestimmt, wie Text als einzelnes Wort interpretiert wird. Wenn Wortumbrüche erforderlich sind, gilt Text als einzelnes Wort, wenn er durch Leerzeichen oder Interpunktionszeichen begrenzt ist, wie dies in europäischen Sprachen der Fall ist. Beispielsweise ergibt das englische Wort Pacific richtigerweise keine Übereinstimmung mit dem Text The City of Pacifica is located just 15 minutes south of San Francisco. Mit dem japanischen Text 私は東京に飛んで (Ich flog nach Tokio) finden Sie jedoch nicht das Wort 東京 (Tokio).
Wenn Wortumbrüche sind erforderlich deaktiviert ist, muss Text nicht durch Leerzeichen oder Interpunktionszeichen begrenzt sein, um mit einem Textabschnitt übereinzustimmen. Beispielsweise wird bei der Suche nach dem Wort Pacific für eine benutzerdefinierte Position fälschlicherweise eine Übereinstimmung mit dem Text The City of Pacifica is located just 15 minutes south of San Francisco. erzeugt. Bei der Suche nach dem japanischen Text 東京 (Tokio) für eine benutzerdefinierte Position wird jedoch richtigerweise eine Übereinstimmung mit dem Text 私は東京に飛んで (Ich flog nach Tokio) erzeugt.
Diese Einstellung beeinflusst, wie Dokumente auf Wörter überprüft werden, die mit benutzerdefinierten Positionen, benutzerdefinierten Attributen, mit Koordinaten oder Datumsangaben übereinstimmen. Die Häufigkeit falsch positiver Ergebnisse, die mit dieser Einstellung erzeugt werden, hängt von der Sprache des Textes in den Dokumenten ab. Es empfiehlt sich, in unterschiedlichen Sprachen verfasste Dokumente getrennt zu verarbeiten und diese Einstellung entsprechend der jeweiligen Sprache zu aktivieren oder zu deaktivieren.
Aktivieren oder Deaktivieren der Umschaltfläche "Wortumbrüche sind erforderlich"
- Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
- Klicken Sie auf die Registerkarte Optionen .
- Aktivieren oder deaktivieren Sie die Umschaltfläche Wortumbrüche sind erforderlich, indem Sie auf die Umschaltfläche klicken.
Wenn die Umschaltfläche Wortumbrüche sind erforderlich aktiviert ist, wird beim nächsten Verarbeiten von Dokumenten Text nur dann als ein Wort interpretiert, wenn er durch Leerzeichen oder Interpunktionszeichen begrenzt ist. Wenn die Umschaltfläche Wortumbrüche sind erforderlich deaktiviert ist, wird beim nächsten Verarbeiten von Dokumenten jeder Text, der mit dem gesuchten Text übereinstimmt, als Wort interpretiert.
Symbolisierung
Das Symbol, das verwendet wird, um die in den Eingabedokumenten gefundenen Positionen darzustellen, wenn ein Ausgabe-Karten-Layer erstellt wird, können Sie anpassen. Auf diese Art kann nur ein Symbol für Karten-Layer angegeben werden.
- Öffnen Sie den Bereich Positionen extrahieren.
- Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
- Klicken Sie auf die Registerkarte Optionen .
- Klicken Sie auf das Punktsymbol, zum Beispiel den einfarbig roten Kreis, unter der Überschrift Symbolisierung.
Im Bereich Positionen extrahieren wird der Bereich Punktsymbol formatieren angezeigt.
- Klicken Sie auf ein Punktsymbol in der Galerie oder passen Sie die Eigenschaften des Symbols an, und übernehmen Sie die Änderungen. Oder klicken Sie auf die Schaltfläche "Zurück" , um Ihre Änderungen zu verwerfen und zur Registerkarte Optionen zurückzukehren.
Beim nächsten Extrahieren von Positionen wird, wenn ein Ausgabe-Karten-Layer erstellt wird, das angegebene Symbol zum Darstellen der Positionen auf der Karte verwendet.
Symbolisieren von Positionen nach Kategorie oder Anzahl
Nach dem Extrahieren von Positionen aus Dokumenten können Sie benutzerdefinierte Attribute verwenden, um festzulegen, wie die Ausgabepositionen symbolisiert werden. Zum Beispiel können Sie unterschiedliche Symbole für die Darstellung der gefundenen Schlagwörter an jeder Position angeben. Wenn Sie das nächste Mal mit den gleichen Einstellungen Positionen extrahieren, können Sie sie an den vorhandenen Karten-Layer anhängen. Die resultierenden Punkte werden automatisch auf die gleiche Weise symbolisiert.
Wenn Sie später mit derselben Vorlage zum Extrahieren von Positionen einen neuen Karten-Layer mit der gleichen Symbolisierung erstellen möchten, müssen Sie zunächst die Symbolisierung des ursprünglichen Karten-Layers als Nur-Schema-Layer-Paket erfassen. Mit dem Layer-Paket können eine neue Feature-Class und der zugehörige Karten-Layer erstellt werden, an den Sie Positionen aus einer neuen Gruppe von Dokumenten anhängen können.
- Öffnen Sie die Karte, die den Karten-Layer enthält, dessen Symbolisierung Sie wiederverwenden möchten.
- Erstellen Sie ein Nur-Schema-Layer-Paket aus dem vorhandenen Karten-Layer.
- Fügen Sie das Nur-Schema-Layer-Paket der neuen Karte hinzu, in die Sie eine neue Gruppe von Positionen extrahieren möchten.
In der Standard-Geodatabase des Projekts wird mit dem im Layer-Paket definierten Schema eine neue Feature-Class erstellt. Unter Verwendung der Layer-Definition aus dem Layer-Paket wird ein neuer Karten-Layer erstellt.
- Führen Sie den Workflow zum Extrahieren von Positionen aus dem Karten-Layer aus, der im vorherigen Schritt erstellt wurde.
Die in den Karten-Layer extrahierten Positionen werden automatisch auf Grundlage der benutzerdefinierten Attributwerte symbolisiert, die aus den Dokumenten und Text extrahiert wurden.
Dateien scannen
Auf der Registerkarte Dateien scannen können Sie steuern, welche Dokumente gescannt oder übersprungen werden.
Bestimmte Dateitypen scannen
Ein Dateityp in diesem Kontext ist die Dateinamenerweiterung. Beispielsweise lautet für die Datei table.txt der Dateityp TXT. Wenn Sie einen Ordner, der viele Dateien enthält, als Eingabe angeben, können Sie festlegen, welche Dateien davon gescannt werden sollen, indem Sie die betreffenden Dateitypen angeben. Sie können entweder die Dateien, die Sie als nicht relevant ansehen, entfernen oder das Scannen auf die Dateien, die Sie als relevant ansehen, beschränken.
- Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
- Klicken Sie auf die Registerkarte Dateien scannen .
- Klicken Sie auf die Überschrift File types.
- Legen Sie fest, ob die Dateien der angegebenen Typen gescannt oder übersprungen werden sollen.
- Alle Dateien mit Ausnahme dieser Typen scannen: Geben Sie die Typen der Dateien an, die übersprungen werden sollen. Dies ist die Standardoption.
- Nur diese Dateitypen scannen: Geben Sie die Typen der Dateien an, die gescannt werden sollen.
- Fügen Sie Erweiterungen zur Liste der Dateitypen hinzu.
- Klicken Sie auf Erweiterungen hinzufügen . Geben Sie im Dialogfeld Erweiterungen hinzufügen mindestens eine Dateierweiterung in das Textfeld Erweiterungen ein. Wenn Sie mehrere Dateierweiterungen eingeben, dann trennen Sie sie lediglich mit Leerzeichen. Setzen Sie hinter der Dateierweiterung kein Komma. Geben Sie beispielsweise txt doc csv ein. Vor der Dateierweiterung kann auch ein Punkt gesetzt werden. Klicken Sie auf OK.
- Ziehen Sie Dateien aus Windows Explorer in die Liste der Dateitypen.
Die angegebenen Dateierweiterungen werden zur Liste der Dateitypen hinzugefügt.
Wenn der Computer eine Dateierweiterung erkennt, werden das Symbol und die Typzeichenfolge, die in Windows Explorer zur Darstellung des jeweiligen Dateityps verwendet werden, in die Liste übernommen. Wenn Sie zum Beispiel die Dateierweiterung .docx angeben, werden die Dateierweiterung .DOCX und das Symbol zur Darstellung dieser Dateien auf Ihrem Computer in der Liste in der Spalte Erweiterung angezeigt. Die Spalte Typ enthält dann den Wert Microsoft Word-Dokument.
Bestimmte Dateien und Ordner überspringen
Wenn Sie einen Ordner oder Datenträger, der viele Dateien enthält, scannen, könnte es hilfreich sein, das Scannen einzelner Dateien oder Ordner zu vermeiden. Das Scannen erfolgt dann schneller und beinhaltet weniger falsch positive Positionen. Zum Beispiel können Ordner, in denen sich Finanzberichte befinden, Zahlen enthalten, die räumlichen Koordinaten ähneln.
Sie sollten deshalb beim Scannen der Datenträger die Ordner ausschließen, die installierte Software, Betriebssystemdateien, Hardwaretreiber usw. enthalten. Versteckte Dateien und Systemdateien, die häufig in Windows Explorer nicht angezeigt werden, werden zwar standardmäßig übersprungen, Sie können aber diese Optionen deaktivieren, wenn dies für Ihr Szenario angemessen ist.
- Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
- Klicken Sie auf die Registerkarte Dateien scannen .
- Klicken Sie auf die Überschrift Dateien überspringen.
- Deaktivieren Sie Verborgen oder System unter der Überschrift Dateiattribute, wenn Sie diese Einstellungen verwenden möchten.
- Fügen Sie die Dateien oder Ordner, die übersprungen werden sollen, zur Liste Dateien oder Ordner hinzu.
- Klicken Sie auf Dateien und Ordner hinzufügen . Das Dialogfeld Dateien und Ordner hinzufügen wird angezeigt. Navigieren Sie zu den Dateien und Ordnern, die übersprungen werden sollen, wählen Sie sie aus, und klicken Sie auf Öffnen.
- Ziehen Sie Dateien und Ordner aus Windows Explorer in die Liste Dateien und Ordner.
Die angegebenen Dateien und Ordner werden zur Liste hinzugefügt.
Das Symbol, das in Windows Explorer zur Darstellung des Elements verwendet wird, und dessen Name werden in der Liste in der Spalte Name angezeigt. In der Spalte Pfad wird der Pfad zu dieser Datei bzw. zu diesem Ordner angezeigt.
Einige Dateien werden nicht verarbeitet
Dokumente werden mit einem Plug-in, das als IFilter bezeichnet wird, verarbeitet. Dies ist dieselbe Technologie, die auch in der Windows-Suche zum Untersuchen der Dateien auf Ihrem Computer verwendet wird. Der Bereich Positionen extrahieren und die zugehörigen Werkzeuge verwenden die Windows-Suche nicht. Verwendet werden stattdessen die IFilter-Plug-ins, die bereits auf Ihrem Computer verfügbar sind, um die Eingabedokumente und -texte zu untersuchen.
Mehrere IFilter sind Bestandteil von Microsoft Windows-Betriebssystemen und können Textdateien, HTML-Dateien, bestimmte Microsoft Office-Dokumente usw. verarbeiten. Welche IFilter verfügbar sind, hängt vom jeweiligen Betriebssystem ab. Sonstige auf Ihrem Computer installierte Anwendungen können zusätzliche IFilter bereitstellen, die zum Verarbeiten der Dokumente, für die sie vorgesehen sind, verwendet werden können. Wenn Sie zum Beispiel Adobe Acrobat Reader DC oder Adobe Acrobat installieren, dann kann diese Anwendung einen IFilter bereitstellen, der zum Verarbeiten des Inhalts von PDF-Dateien verwendet werden kann. Wenn Dateien gescannt werden, wird ein bestimmte IFilter für diesen Dateityp verwendet, wenn er verfügbar ist. Andernfalls werden beim Scannen der Dateien die Standard-IFilter verwendet und möglichst viele Informationen extrahiert.
Da ArcGIS Pro eine 64-Bit-Anwendung ist, kann sie nur 64-Bit-Filter zum Verarbeiten der Eingabedokumente und -texte verwenden. Eine 32-Bit-Anwendung stellt in der Regel nur 32-Bit-IFilter bereit, die zum Verarbeiten der eigenen Dokumente verwendet werden können. ArcGIS Pro kann diese IFilter nicht verwenden.
Wenn Sie für Dateien eines bestimmten Typs, wie zum Beispiel PDF-Dateien, nicht festgelegt haben, dass sie übersprungen werden sollen, aber nicht in der Lage sind, Positionen aus solchen Dateien zu extrahieren, obwohl Sie wissen, dass sie dort vorhanden sind, dann müssen Sie sicherstellen, dass ein geeigneter 64-Bit-IFilter auf Ihrem Computer installiert ist.
Bei Windows 10 sollte ein IFilter, den ArcGIS Pro zum Verarbeiten von PDF-Dateien verwenden kann, verfügbar sein. Bei anderen Versionen von Windows ist, wenn Sie die 32-Bit-Version von Adobe Reader installiert haben, möglicherweise kein 64-Bit-IFilter zum Verarbeiten von PDF-Dateien verfügbar. Mit Hilfe der Standard-IFilter von Windows können Inhalte nicht aus PDF-Dokumenten extrahiert werden. Ein 64-Bit-PDF-IFilter kann auf der Adobe-Website heruntergeladen werden.
Ausgabe
Auf der Registerkarte Ausgabe können Sie steuern, welcher Inhalt aus den Dokumenten extrahiert und in der Ausgabe-Feature-Class gespeichert wird.
Dokumentgrenzwerte
Für die Positionen und Datumsangaben, die aus den Eingabedokumenten extrahiert werden, können Grenzwerte festgelegt werden. Wenn Sie Eingabedokumente zum ersten Mal scannen, können Sie auf eine Datei stoßen, die sehr viele Zahlen enthält, die räumlichen Koordinaten ähneln, aber keine sind, oder in der Zahlenfolgen wie Datumsangaben aussehen, aber tatsächlich Daten eines anderen Typs sind. Standardmäßig gibt es Grenzwerte dafür, wie viele Features und Datumsangaben aus den Eingabedokumenten extrahiert werden. Dies verhindert, dass Millionen falscher Punkte generiert oder bedeutungslose Datumsangaben in der Attributtabelle gespeichert werden. Nach dem Auswerten der Ausgabepositionen und der Datumsangaben, die in ihren Attributen gespeichert sind, sollten Sie diese Begrenzung deaktivieren oder den Grenzwert ändern, bevor die Dokumente erneut gescannt werden.
Manchmal wissen Sie nichts über die Dokumente, die Sie scannen. In anderen Fällen geht es darum, grob strukturierte Dokumente, wie zum Beispiel Berichte, regelmäßig zu scannen. Berichte beginnen häufig mit dem Datum, an dem der Bericht geschrieben wurde, und dem Ort, an dem er geschrieben wurde. Das Thema des Berichts betrifft jedoch zumeist Ereignisse, die an einem anderen Tag an einem anderen Ort stattgefunden haben. Sie können festlegen, dass die erste Zahl von Positionen und Datumsangaben beim Verarbeiten dieser Dokumente übersprungen werden soll, sodass in Ihrer Ausgabe-Feature-Class nur der gewünschte Inhalt erfasst wird.
Sie können Grenzwerte für die Anzahl der Features und Datumsangaben und dafür, welche Features und Datumsangaben aus den Eingabedokumenten extrahiert werden sollen, festlegen. Diese Grenzwerte werden nachfolgend beschrieben:
- Feature-Begrenzungen
- Anzahl der Features pro Dokument beschränken: Standardmäßig werden nur die ersten 3.000 Positionen, die in einem Dokument gefunden wurden, extrahiert und in der Ausgabe-Feature-Class gespeichert. Wenn diese Option aktiviert wurde, können Sie den Grenzwert für die Anzahl der Features, die aus einem Dokument extrahiert werden, erhöhen oder verringern. Wenn Sie diese Option deaktivieren, werden alle Kandidaten für räumliche Koordinaten und benutzerdefinierte Positionen in einem Dokument ausgewertet und alle gefundenen Features extrahiert. Diese Option ist standardmäßig aktiviert.
- Die angegebene Anzahl an ersten Features pro Dokument ignorieren: Standardmäßig wird der erste Kandidat für eine räumliche Koordinate oder eine benutzerdefinierte Position, der in einem Eingabedokument gefunden wurde, ausgewertet. Danach wird mit allen anderen Kandidaten für Koordinaten und benutzerdefinierte Positionen fortgesetzt, bis entweder der Grenzwert für die Anzahl der Features oder das Ende des Dokuments erreicht ist. Wenn diese Option aktiviert wurde, können Sie eine bestimmte Anzahl Features am Anfang eines Dokuments überspringen und dann alle nachfolgenden Features bis zum Grenzwert extrahieren. Standardmäßig wird nur das erste Feature übersprungen. Diese Zahl können Sie aber erhöhen. Wenn Sie diese Option deaktivieren, werden alle Kandidaten für räumliche Koordinaten und benutzerdefinierte Positionen bis zum Grenzwert ausgewertet. Diese Option ist standardmäßig deaktiviert.
- Datumsgrenzwerte
- Anzahl der Datumsangaben pro Dokument beschränken: Standardmäßig werden nur die ersten 30 Datumsangaben, die in einem Dokument gefunden wurden, extrahiert und in der Attributtabelle der Ausgabe-Feature-Class gespeichert. Wenn diese Option aktiviert wurde, können Sie den Grenzwert für die Anzahl der Datumsangaben, die aus einem Dokument extrahiert werden, erhöhen oder verringern. Wenn Sie diese Option deaktivieren, werden alle Kandidaten für Datumsangaben in einem Dokument ausgewertet und alle gefundenen Datumsangaben extrahiert. Diese Option ist standardmäßig aktiviert.
- Die angegebene Anzahl an ersten Datumsangaben pro Dokument ignorieren: Standardmäßig wird der erste Kandidat für eine Datumsangabe, der in einem Eingabedokument gefunden wurde, ausgewertet. Danach wird mit allen anderen Kandidaten für Datumsangaben fortgesetzt, bis entweder der Grenzwert für die Anzahl der Datumsangaben oder das Ende des Dokuments erreicht ist. Wenn diese Option aktiviert wurde, können Sie eine bestimmte Anzahl Datumsangaben am Anfang eines Dokuments überspringen und dann alle nachfolgenden Datumsangaben bis zum Grenzwert extrahieren. Standardmäßig wird nur die erste Datumsangabe übersprungen. Diese Zahl können Sie aber erhöhen. Wenn Sie diese Option deaktivieren, werden alle Kandidaten für Datumsangaben bis zum Grenzwert ausgewertet. Diese Option ist standardmäßig deaktiviert.
- Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
- Klicken Sie auf die Registerkarte Ausgabe .
- Klicken Sie auf die Überschrift Dokumentgrenzwerte.
- Aktivieren oder deaktivieren Sie die Optionen zum Begrenzen der Anzahl der Features und Datumsangaben, die extrahiert werden.
- Klicken Sie auf die aktivierten Textfelder für Features und Datumsangaben, und geben Sie die maximale Anzahl der Features bzw. Datumsangaben, die extrahiert werden sollen, ein.
- Aktivieren oder deaktivieren Sie die Optionen zum Überspringen einer bestimmten Anzahl der Features und Datumsangaben am Anfang des Eingabedokuments oder -textes.
- Klicken Sie auf die aktivierten Textfelder für Features und Datumsangaben, und geben Sie die Anzahl der Features bzw. Datumsangaben, die übersprungen werden sollen, bevor weitere Features bzw. Datumsangaben extrahiert werden, ein.
Prätext- und Posttext-Grenzwerte
Wenn eine räumliche Koordinate oder eine benutzerdefinierte Position aus dem Dokument extrahiert und in der Ausgabe-Feature-Class gespeichert wird, werden in der Attributtabelle der Ausgabe-Feature-Class mehrere Teilinformationen gespeichert, mit deren Hilfe Sie diese Positionen später auswerten können. Vor der Position wird ein Auszug des Dokuments in einem Pre-Text-Feld in der Attributtabelle der Feature-Class gespeichert. Hinter der Position wird ein Auszug des Dokuments in einem Post-Text-Feld in der Attributtabelle der Feature-Class gespeichert. Mit diesen Attributen können Sie den Kontext der Position herstellen: Ist dies eine echte Position und wenn ja, was ist dort geschehen, und ist dies für Ihre Analyse relevant?
Wie viel Text vor und hinter einer Position extrahiert und in der Feature-Class gespeichert wird, wird durch die folgenden Einstellungen bestimmt:
- Pre-Text: Standardmäßig werden 254 Zeichen Text vor der Position aus dem Dokument extrahiert und im Pre-Text-Feld gespeichert. Diesen Wert können Sie nach Bedarf erhöhen oder verringern.
- Post-Text: Standardmäßig werden 254 Zeichen Text hinter der Position aus dem Dokument extrahiert und im Post-Text-Feld gespeichert. Diesen Wert können Sie nach Bedarf erhöhen oder verringern.
- Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
- Klicken Sie auf die Registerkarte Ausgabe .
- Klicken Sie auf die Überschrift Prätext- und Posttext-Grenzwerte.
- Klicken Sie auf das Textfeld für Pre-Text, und geben Sie die maximale Anzahl der Zeichen vor einer Position, die aus dem Eingabedokument extrahiert werden sollen, ein.
- Klicken Sie auf das Textfeld für Post-Text, und geben Sie die maximale Anzahl der Zeichen hinter einer Position, die aus dem Eingabedokument extrahiert werden sollen, ein.
Sonstige Limits für Textfelder
In der Attributtabelle der Ausgabe-Feature-Class werden verschiedene Informationen gespeichert, die Ihnen zusätzlich zu den Feldern Pre-Text und Post-Text helfen, die extrahierten Positionen und Datumsangaben auszuwerten. Sie können die Größe dieser Felder anpassen, damit sie entsprechend dem Inhalt in der aktuellen Sammlung von Dokumenten mehr oder weniger Informationen enthalten.
Die Menge des in der Feature-Class gespeicherten Textes wird durch die folgenden Einstellungen bestimmt:
- Name: Im Feld Name können standardmäßig 50 Zeichen für den Namen der Datei gespeichert werden, in der die Position gefunden wurde. Diesen Wert können Sie nach Bedarf erhöhen oder verringern.
- Extrahierter Text: Im Feld Extrahierter Text können standardmäßig 120 Zeichen Text gespeichert werden, der die gefundene räumliche Koordinate oder benutzerdefinierte Position darstellt. Diesen Wert können Sie nach Bedarf erhöhen oder verringern.
- Extrahierter Typ: Im Feld Extrahierter Typ können standardmäßig 50 Zeichen Text gespeichert werden, der den Typ der gefundenen räumliche Koordinate oder benutzerdefinierten Position darstellt. Diesen Wert können Sie nach Bedarf erhöhen oder verringern.
- Alle Datumsangaben: Im Feld Alle Datumsangaben können standardmäßig 254 Zeichen Text gespeichert werden, der die im Dokument gefundenen Datumsangaben darstellt. Diese Datumsangaben werden standardmäßig im Format jjjj-mm-tt dargestellt. Diesen Wert können Sie nach Bedarf erhöhen oder verringern.
- Extrahierter Datumstext: Im Feld Extrahierter Datumstext können standardmäßig 254 Zeichen Text gespeichert werden, der die im Dokument gefundenen Datumsangaben darstellt. Der Text aus dem ursprünglichen Dokument, der als Datum erkannt wurde, wird extrahiert und aufgezeichnet. Diesen Wert können Sie nach Bedarf erhöhen oder verringern.
- Dateiname: Im Feld Dateiname können standardmäßig 254 Zeichen gespeichert werden, die den vollständigen Pfad der Datei angeben, in der die Position gefunden wurde. Diesen Wert können Sie nach Bedarf erhöhen oder verringern.
- Dateityp: Im Feld Dateityp können standardmäßig 10 Zeichen Text gespeichert werden, der den Typ der Datei darstellt, die verarbeitet wurde. Diesen Wert können Sie nach Bedarf erhöhen oder verringern.
Weitere Informationen über die Felder der Ausgabe-Feature-Class
- Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
- Klicken Sie auf die Registerkarte Ausgabe .
- Klicken Sie auf die Überschrift Sonstige Limits für Textfelder.
- Klicken Sie auf die Textfelder für die jeweiligen Felder, und geben Sie die Zahl ein, die die maximale Anzahl von Zeichen angibt, die im jeweiligen Feld aufgezeichnet werden können.
Datumsbereich
Manche Zahlen können räumlichen Koordinaten und Datumsangaben ähneln. Standardmäßig werden Datumsangaben nur dann aus einem Eingabedokument extrahiert, wenn sie mit einem der ausgewählten Datumsformate übereinstimmen und das generierte Datum in einem angegebenen Datumsbereich liegt. Dies verringert das Risiko, dass ein Datum extrahiert wird, das ein falsch positives Ergebnis darstellt. Als Standarddatumsbereich wird der Zeitraum vom 1. Januar 1985 bis zum 31. Dezember 2030 verwendet. Wenn in einem Eingabedokument ein Datum, das außerhalb des angegebenen Datumsbereichs liegt, gefunden wurde, wird es nicht extrahiert und damit auch nicht in der Attributtabelle der Ausgabe-Feature-Class gespeichert.
Wenn jedes mögliche Datum aus den Eingabedokumenten extrahiert werden soll, dann deaktivieren Sie Extrahierte Datumsangaben auf diesen Bereich beschränken. Dadurch wird allerdings der Zeitaufwand zum Auswerten des Inhalts eines Dokument erhöht, da alle Zahlen hinsichtlich der ausgewählten Datumsformate ausgewertet werden müssen.
Wenn Sie nur an den Ereignissen interessiert sind, die in einem bestimmten Zeitraum stattgefunden haben, dann aktivieren Sie die Option Extrahierte Datumsangaben auf diesen Bereich beschränken, und passen Sie den Datumsbereich möglichst genau an den Zeitraum an, in dem diese Ereignisse stattgefunden haben.
- Von: Standardmäßig der 1. Januar 1985. Klicken Sie auf das Dropdown-Menü und dann auf das Anfangsdatum des gültigen Datumsbereichs im Kalender-Steuerelement.
- Bis: Standardmäßig der 31. Dezember 2030. Klicken Sie auf das Dropdown-Menü und dann auf das Enddatum des gültigen Datumsbereichs im Kalender-Steuerelement.
Das Kalender-Steuerelement ermöglicht den Zugriff auf einen bestimmten Monat. Mit den Pfeilen in den oberen Ecken gelangen Sie zu dem Monat davor bzw. danach. Klicken Sie oben im Kalender auf die Angabe von Monat und Jahr, um eine Liste der Monate anzuzeigen. Klicken Sie oben in der Liste der Monate auf das Jahr, um eine Liste der Jahre anzuzeigen. Mit den Pfeilen in den oberen Ecken gelangen Sie zu dem Jahr davor bzw. danach.
Wenn Sie mit historischen Dokumenten arbeiten, beeinflussen zusätzliche Einstellungen auf der Registerkarte Jahreszeiträume im Dialogfeld Anpassen, ob Text als Datum erkannt wird und wie sich die Einstellung Extrahierte Datumsangaben auf diesen Bereich beschränken auswirkt. Die Einstellungen auf der Registerkarte Jahreszeiträume bestimmen, ob zwei- und vierstellige Zahlen als Jahre interpretiert werden. Diese Bewertung erfolgt, bevor bestimmt wird, ob der an das Jahr angrenzende Text ein Datum ist.
Standardmäßig werden vierstellige Zahlen zwischen 1900 und 2099 als Jahr erkannt. Solange die durch die Einstellung Extrahierte Datumsangaben auf diesen Bereich beschränken beschränkten Jahre in diesem Bereich liegen, werden alle gefundenen Datumsangaben mit einer vierstelligen Zahl effektiv beschränkt. Wenn Sie mit historischen Dokumenten arbeiten, die digital verfügbar sind, müssen Sie die Einstellung Extrahierte Datumsangaben auf diesen Bereich beschränken auf der Registerkarte Ausgabe und den Bereich vierstelliger Jahreszahlen auf der Registerkarte Jahreszeiträume im Dialogfeld Anpassen an den Zeitraum anpassen, in dem die Dokumente geschrieben wurden.
Beim Analysieren zweistelliger Zahlen, um zu bestimmen, ob sie ein Jahr darstellen, wird standardmäßig ein Zeitraum von 100 Jahren verwendet, der mit dem Jahr 1970 beginnt. Solange die durch die Einstellung Extrahierte Datumsangaben auf diesen Bereich beschränken beschränkten Jahre in diesem Bereich liegen, werden alle gefundenen Datumsangaben mit einer zweistelligen Zahl effektiv beschränkt. Wenn Sie jedoch mit historischen Dokumenten oder mit Berichten arbeiten, die Projektionen für die Zukunft betreffen, müssen Sie möglicherweise im Dialogfeld Anpassen auf der Registerkarte Jahreszeiträume den Zeitraum von 100 Jahren und auf der Registerkarte Ausgabe die Einstellung Extrahierte Datumsangaben auf diesen Bereich beschränken entsprechend dem Zeitraum der Dokumente anpassen.
Weitere Informationen zum Anpassen der Erkennung von Text als Datum
- Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
- Klicken Sie auf die Registerkarte Ausgabe .
- Klicken Sie auf die Überschrift Datenbereich.
- Aktivieren oder deaktivieren Sie die Option Extrahierte Datumsangaben auf diesen Bereich beschränken.
- Wenn diese Option aktiviert ist, dann klicken Sie auf den Dropdown-Pfeil Von, und wählen Sie das Anfangsdatum für den Bereich der zu extrahierenden Datumsangaben aus.
- Wenn diese Option aktiviert ist, dann klicken Sie auf den Dropdown-Pfeil Bis, und wählen Sie das Enddatum für den Bereich der zu extrahierenden Datumsangaben aus.
- Geben Sie Anpassungen an, die beim Auswerten von Text verwendet werden sollen, um zu bestimmen, ob er ein Datum darstellt.
Standardisierte Koordinate
Wenn eine räumliche Koordinate oder eine benutzerdefinierte Position aus dem Dokument extrahiert und in der Ausgabe-Feature-Class gespeichert wird, werden in der Attributtabelle der Ausgabe-Feature-Class mehrere Teilinformationen gespeichert, mit deren Hilfe Sie diese Positionen später auswerten können. Der ursprüngliche Text des Dokuments, mit dem die Position dargestellt wird, wird in der Attributtabelle im Feld Extracted Text gespeichert, und der Typ der gefundenen Position wird im Feld Extracted Type gespeichert.
Zusätzlich wird eine konsistente Darstellung aller gefundenen Positionen im Feld für standardisierte Koordinaten gespeichert. Dieses Feld besitzt den Aliasnamen Stand. Coord.. Die XY-Koordinaten des Punkt-Features werden in dem Format gespeichert, das durch die Option Standardisierte Koordinate angegeben wird.
Wählen Sie das Koordinatenformat, das Ihre Anforderungen erfüllt, unter den folgenden Optionen aus. Eine in einem Eingabedokument gefundene Koordinate, wie zum Beispiel 117.1717550°W 34.0552456°N, wird im Feld für standardisierte Koordinaten wie unten angegeben angezeigt, wenn jedes der Koordinatenformate ausgewählt wird.
- DD – Dezimalgrad: 34.055246N 117.171755W (standardmäßig ausgewählt)
- DM – Dezimalminuten:34 03.3147N 117 10.3053W
- DMS – Grad Minuten Sekunden:34 03 18.88N 117 10 18.32W
- UTM – Universe Transverse Mercator:11S 484149 3768294
- MGRS – Military Grid Reference System:11SMT8414968295
- Klicken Sie im Bereich Positionen extrahieren auf die Registerkarte Eigenschaften.
- Klicken Sie auf die Registerkarte Ausgabe .
- Klicken Sie auf die Überschrift Standardisierte Koordinate.
- Klicken Sie auf die Dropdown-Liste und dort auf das Koordinatenformat, in dem die extrahierten Positionen gespeichert werden sollen.
Verwandte Themen
- Was ist LocateXT?
- Extrahieren von Positionen aus Dokumenten und Text
- Hinzufügen und Verwalten von Dateien mit benutzerdefinierten Attributen und Dateien mit benutzerdefinierten Positionen
- Verwalten und Verwenden von Vorlagen zum Extrahieren von Positionen
- Positionen aus Dokument extrahieren
- Positionen aus Text extrahieren