ドキュメントから位置を抽出 (Extract Locations From Document) (変換)

ArcGIS Pro 3.4 | | ヘルプのアーカイブ

LocateXT のライセンスで利用可能。

サマリー

非構造化テキストまたは半構造化テキストを含むドキュメント (電子メール メッセージ、旅行フォームなど) を解析し、位置をポイント フィーチャクラスに抽出します。

このツールは、次のように入力ドキュメントを解析して処理します。

  • ドキュメントのコンテンツで指定された空間座標を認識して、それらの位置を表すポイントを作成します。認識される座標形式は、度 (10進)、度分 (10進)、度分秒、ユニバーサル横メルカトル図法、MGRS (Military Grid Reference System) です。
  • カスタム位置情報ファイルで定義されているドキュメントのコンテンツで指定された地名を認識して、それらの位置を表すポイントを作成します。カスタム位置情報ファイルは、地名をその位置を表す空間座標に関連付けます。
  • 対象のテキストを認識し、ドキュメントからこの情報を抽出して、出力フィーチャクラスの属性テーブル内のフィールドに記録します。

このツールは、すべての Microsoft Office ドキュメント (Word、PowerPoint、Excel)、Adobe PDF ドキュメント、マークアップ テキスト (XML や HTML ドキュメントなど)、プレーン テキストを含む任意のファイル (テキスト ファイル (*.txt)) をサポートします。

使用法

  • パラメーターのデフォルト値は、座標と日付の識別機能を最適化するよう設計されています。 デフォルト値はパラメーターごとに変更できます。 変更されるパラメーターが少ないほど、ツールは高速で実行されます。

  • すべての座標形式はデフォルトでオンになっています。 カスタム位置のみを抽出し、空間座標を抽出しない場合は、座標形式パラメーターをオフにします。

  • Adobe PDF ドキュメントが入力として指定され、そのコンテンツにオンになっている形式の空間座標が含まれており、出力フィーチャクラスにその空間座標を表すフィーチャが含まれない場合、お使いのコンピューターには PDF ドキュメントを処理するために必要なコンポーネントがない可能性があります。

    ファイルのスキャンの詳細

  • カスタム位置ファイルを使用して地名を抽出する場合は、ファイル内で指定する地名を少なくすることをお勧めします。 たとえば、世界中のすべての場所を表すフィーチャクラスをカスタム位置ファイルに変換すると、存在する可能性が低い場所や、解析の対象とならない地域にある場所も探してしまうので多くの時間が必要となることがあります。

    カスタム位置ファイルの詳細

  • 対象の場所名のスペルが誤っているか変形が存在することがわかっている場合、あいまい一致を使用するよりも、一般的なスペルミスや場所の代替名をカスタム位置ファイルで指定する方が良い結果を得ることができます。 あいまい一致がオンになっている場合、場所名の文字の 70% が入力コンテンツと一致すると出力位置が表示されます。 既知の代替名やスペルミスを提供するよりも、フォルス ポジティブが多くなります。

    あいまい一致の有益なワークフローとしては、まずあいまい一致をオフにしてからツールを実行します。 次にあいまい一致をオンにしてツールを再実行し、結果を確認します。 この方法では、カスタム位置ファイルに追加できるスペルの変形を識別できるようになります。

    あいまい一致の詳細

パラメーター

ラベル説明データ タイプ
入力ファイル

位置情報 (座標またはカスタム位置情報)、日付、カスタム属性についてスキャンされる入力ファイル、またはそのフォルダー内のすべてのファイルが位置情報についてスキャンされるフォルダー。

File
出力フィーチャクラス

検出された位置を表すポイント フィーチャを含むフィーチャクラス。

Feature Class
入力テンプレート
(オプション)

各ツール パラメーターに使用する設定を決定するテンプレート ファイル (*.lxttmpl)。 テンプレート ファイルを指定すると、他のパラメーターに対して指定した値はすべて無視されます。ただし、処理される入力コンテンツと出力フィーチャクラスを決定するパラメーターを除きます。

[位置の抽出] ウィンドウで利用可能ないくつかの設定は、設定がテンプレート ファイルに保存され、テンプレート ファイルがこのパラメーターで参照されている場合のみ、このツールで使用できます。 その設定は次のとおりです。

  • x,y 形式の空間座標 - 630084 4833438981075.652ftUS 607151.272ftUS のような 2 つの連番が入力ドキュメントに関連付けられた平面座標系で有効な場合に、座標として認識されるようにします。 単位を持つ数字と持たない数字を座標として認識するか、または計測単位を持つ数字のみを座標として認識するかを指定できます。
  • カスタム座標と日付形式 - 特に英語以外の言語で記述されている場合や米国で一般的ではない形式を使用している場合に、テキストを空間座標または日付として認識する方法をカスタマイズします。 たとえば 30 20 10 N x 060 50 40 W として記述された空間座標を認識するには、緯度と経度の間にある文字 x を有効なテキストとして認識するようカスタマイズします。 60.91°N, 147.34°O17 juillet, 2018 のような座標や日付は、ドキュメントの言語 (ここではフランス語) に対応するようカスタマイズされている場合に認識されます。 また、2 桁の年が使われている場合、一致する年の範囲を制御できます。
  • 曖昧な日付の基本設定 - 10/12/2019 のような日付は、2019 年 10 月 12 日か 2019 年 12 月 10 日と解釈されるため曖昧です。 月/日/年の形式を一般的に使っている国もあれば、日/月/年の形式を採用している国もあります。 このような曖昧な日付をどのように解釈するかは、ドキュメントの作成元の国に合わせて、月/日/年にするか日/月/年にするかを設定できます。
  • 出力フィーチャクラスのフィールドの長さ - [プレテキスト フィールド長] (Python では pre_text_length) および [ポストテキスト フィールド長] (Python では post_text_length) パラメーターを使用し、ドキュメントから抽出される空間座標を囲むテキストを含むフィールドの長さを指定します。 [位置の抽出] ウィンドウでは、ドキュメントから抽出された日付を含むフィールド、日付に変換された元のテキスト、情報が抽出されたファイル名など、属性テーブルのいくつかの追加フィールドの長さを制御できます。

File
緯度と経度
(オプション)

緯度と経度 (フォルス ポジティブが少ない) として書式設定され、度 (10 進) で保存された座標を検索するかどうかを指定します。 例: 33.8N 77.035W および W77N38.88909

  • オン - このツールは緯度および経度として書式設定された度 (10 進) の座標を検索します。 これがデフォルトです。
  • オフ - このツールは緯度および経度として書式設定された度 (10 進) の座標を検索しません。
Boolean
X Y (度の記号あり)
(オプション)

度の記号あり X Y (フォルス ポジティブが少ない) として書式設定され、度 (10 進) で保存された座標を検索するかどうかを指定します。 例: 38.8° -77.035° および -077d+38.88909d

  • オン - このツールは度の記号あり X Y として書式設定された度 (10 進) の座標を検索します。 これがデフォルトです。
  • オフ - このツールは度の記号あり X Y として書式設定された度 (10 進) の座標を検索しません。
Boolean
X Y (記号なし)
(オプション)

記号なし X Y (フォルス ポジティブが多い) として書式設定され、度 (10 進) で保存された座標を検索するかどうかを指定します。 例: 38.8 -77.035 および -077.0, +38.88909

  • オン - このツールは記号なし X Y (フォルス ポジティブが多い) として書式設定された度 (10 進) の座標を検索します。 これがデフォルトです。
  • オフ - このツールは記号なし X Y として書式設定された度 (10 進) の座標を検索しません。
Boolean
緯度と経度
(オプション)

緯度と経度 (フォルス ポジティブが少ない) として書式設定され、度分 (10 進) で保存された座標を検索するかどうかを指定します。 例: 3853.3N 7702.100W および W7702N3853.3458

  • オン - このツールは緯度および経度として書式設定された度分 (10 進) の座標を検索します。 これがデフォルトです。
  • オフ - このツールは緯度および経度として書式設定された度分 (10 進) の座標を検索しません。
Boolean
X Y (分の記号あり)
(オプション)

分の記号あり X Y (フォルス ポジティブが少ない) として書式設定され、度分 (10 進) で保存された座標を検索するかどうかを指定します。 例: 3853' -7702.1' および -07702m+3853.3458m

  • オン - このツールは分の記号あり X Y として書式設定された度分 (10 進) の座標を検索します。 これがデフォルトです。
  • オフ - このツールは分の記号あり X Y として書式設定された度分 (10 進) の座標を検索しません。
Boolean
緯度と経度
(オプション)

緯度と経度 (フォルス ポジティブが少ない) として書式設定され、度分秒で保存された座標を検索するかどうかを指定します。 例: 385320.7N 770206.000W および W770206N385320.76

  • オン - このツールは緯度および経度として書式設定された度分秒の座標を検索します。 これがデフォルトです。
  • オフ - このツールは緯度および経度として書式設定された度分秒の座標を検索しません。
Boolean
X Y (秒の記号あり)
(オプション)

秒の記号あり X Y (フォルス ポジティブが少ない) として書式設定され、度分秒で保存された座標を検索するかどうかを指定します。 例: 385320" -770206.0" および -0770206.0s+385320.76s

  • オン - このツールは秒の記号あり X Y として書式設定された度分秒の座標を検索します。 これがデフォルトです。
  • オフ - このツールは秒の記号あり X Y として書式設定された度分秒の座標を検索しません。
Boolean
X Y (桁区切り記号あり)
(オプション)

桁区切り記号あり X Y (フォルス ポジティブが中程度) として書式設定され、度分秒で保存された座標を検索するかどうかを指定します。 例: 38:53:20 -77:2:6.0 および -077/02/06/+38/53/20.76

  • オン - このツールは桁区切り記号あり X Y として書式設定された度分秒の座標を検索します。 これがデフォルトです。
  • オフ - このツールは桁区切り記号あり X Y として書式設定された度分秒の座標を検索しません。
Boolean
ユニバーサル横メルカトル図法
(オプション)

ユニバーサル横メルカトル図法 (UTM) (フォルス ポジティブが少ない) の座標を検索するかどうかを指定します。 例: 18S 323503 4306438 および 18 north 323503.25 4306438.39

  • オン - このツールは UTM 座標を検索します。 これがデフォルトです。
  • オフ - このツールは UTM 座標を検索しません。
Boolean
UPS 北極
(オプション)

北極地域 (フォルス ポジティブが少ない) でユニバーサル極心平射図法 (UPS) の座標を検索するかどうかを指定します。 例: Y 2722399 2000000 および north 2722399 2000000

  • オン - このツールは北極地域で UPS 座標を検索します。 これがデフォルトです。
  • オフ - このツールは北極地域で UPS 座標を検索しません。
Boolean
UPS 南極
(オプション)

南極地域 (フォルス ポジティブが少ない) でユニバーサル極心平射図法 (UPS) の座標を検索するかどうかを指定します。 例: A 2000000 3168892 および south 2000000 3168892

  • オン - このツールは南極地域で UPS 座標を検索します。 これがデフォルトです。
  • オフ - このツールは南極地域で UPS 座標を検索しません。
Boolean
Military Grid Reference System
(オプション)

Military Grid Reference System (MGRS) (フォルス ポジティブが少ない) の座標を検索するかどうかを指定します。 例: 18S UJ 13503 06438 および 18SUJ0306

  • オン - このツールは MGRS 座標を検索します。 これがデフォルトです。
  • オフ - このツールは MGRS 座標を検索しません。
Boolean
北極
(オプション)

北極地域 (フォルス ポジティブが少ない) で Military Grid Reference System (MGRS) の座標を検索するかどうかを指定します。 例: Y TG 56814 69009 および YTG5669

  • オン - このツールは北極地域で MGRS 座標を検索します。 これがデフォルトです。
  • オフ - このツールは北極地域で MGRS 座標を検索しません。
Boolean
南極
(オプション)

南極地域 (フォルス ポジティブが中程度) で Military Grid Reference System (MGRS) の座標を検索するかどうかを指定します。 例: A TN 56814 30991 および ATN5630

  • オン - このツールは南極地域で MGRS 座標を検索します。 これがデフォルトです。
  • オフ - このツールは南極地域で MGRS 座標を検索しません。
Boolean
小数記号にカンマを使用
(オプション)

カンマ (,) を小数記号として認識するかどうかを指定します。 デフォルトでは、小数記号としてピリオド (.) または中点 (·) を使用する数値で定義された空間座標の有無についてコンテンツがスキャンされます。例: Lat 01° 10·80’ N Long 103° 28·60’ E。 小数記号にカンマ (,) を使用する数値によって空間座標が定義されたコンテンツを操作する場合 (52° 8′ 32,14″ N; 5° 24′ 56,09″ E など)、小数記号として代わりにカンマを認識するようにこのパラメーターを設定します。 このパラメーターはコンピューターのオペレーティング システムの地域設定に基づいて自動的に設定されません。

  • オン - カンマが小数記号として認識されます。
  • オフ - ピリオドまたは中点が小数記号として認識されます。 これがデフォルトです。
Boolean
経度、緯度として解釈
(オプション)

X 座標と Y 座標が経度-緯度として解釈されるかどうかを指定します。 数字が X、Y 座標に類似し、両方の数字が 90 未満で、どの数字が緯度か経度であるかを示す記号も表記もない場合、結果があいまいになります。 数字は、緯度、経度 (Y、X) 座標ではなく、経度、緯度 (X、Y) 座標と解釈されます。

  • オン - X 座標と Y 座標は経度-緯度として解釈されます。
  • オン - X 座標と Y 座標は経度-緯度として解釈されません。 これがデフォルトです。
Boolean
入力データの座標系
(オプション)

入力で定義された空間座標の解釈に使用される座標系。 デフォルトは GCS-WGS-84 です。

Spatial Reference
入力カスタム位置
(オプション)

入力コンテンツをスキャンするときに使用されるカスタム位置ファイル (.lxtgaz)。 他のツール パラメーターによって確立された限度まで、カスタム位置ファイルの各地名の各出現を表すポイントが作成されます。

File
あいまい一致を使用
(オプション)

入力コンテンツをカスタム位置ファイルで指定された地名と比較する際に、あいまい一致を使用するかどうかを指定します。

  • オン - カスタム位置ファイルを検索するときにあいまい一致を使用します。
  • オフ - カスタム位置ファイルを検索するときに完全一致を使用します。 これがデフォルトです。
Boolean
抽出フィーチャの最大数
(オプション)

抽出できるフィーチャの最大数。 このツールは、最大数に達したときに入力コンテンツの位置のスキャンを停止します。 ジオプロセシング サービスとして実行する場合、サービスとサーバーで許可されるフィーチャ数には別々の上限が設けられていることがあります。

Long
この最初のフィーチャ数を無視
(オプション)

その他すべてのフィーチャを抽出する前に検出され、無視されるフィーチャの数。 このパラメーターを使用すると、データの特定の部分に絞って検索を行えるようになります。

Long
月名を使用
(オプション)

月名 (フォルス ポジティブが少ない) が出現する日付を検索するかどうかを指定します。 例: 12 May 2003January 15, 1997

  • オン - このツールは、月名が出現する日付を検索します。 これがデフォルトです。
  • オフ - このツールは、月名が出現する日付を検索しません。
Boolean
M/D/Y および D/M/Y
(オプション)

M/D/Y 形式か D/M/Y 形式 (フォルス ポジティブが中程度) の数字で表される日付を検索するかどうかを指定します。 例: 5/12/031-15-1997

  • オン - このツールは、M/D/Y 形式か D/M/Y 形式 (フォルス ポジティブが中程度) の数字で表される日付を検索します。 これがデフォルトです。
  • オフ- このツールは、M/D/Y 形式か D/M/Y 形式の数字で表される日付を検索しません。
Boolean
YYYYMMDD
(オプション)

YYYYMMDD 形式 (フォルス ポジティブが中程度) の数字で表される日付を検索するかどうかを指定します。 例: 2003051219970115

  • オン - このツールは、YYYYMMDD 形式 (フォルス ポジティブが中程度) の数字で表される日付を検索します。 これがデフォルトです。
  • オフ - このツールは、YYYYMMDD 形式の数字で表される日付を検索しません。
Boolean
YYMMDD
(オプション)

YYMMDD 形式 (フォルス ポジティブが多い) の数字で表される日付を検索するかどうかを指定します。 例: 030512970115

  • オン - このツールは、YYMMDD 形式 (フォルス ポジティブが多い) の数字で表される日付を検索します。 これがデフォルトです。
  • オフ - このツールは、YYMMDD 形式の数字で表される日付を検索しません。
Boolean
YYJJJ
(オプション)

YYJJJ 形式または YYYYJJJ 形式 (フォルス ポジティブが多い) の数字で表される日付を検索するかどうかを指定します。 例: 0313297015

  • オン - このツールは、YYJJJ 形式または YYYYJJJ 形式 (フォルス ポジティブが多い) の数字で表される日付を検索します。 これがデフォルトです。
  • オフ - このツールは、YYJJJ 形式または YYYYJJJ 形式の数字で表される日付を検索しません。
Boolean
抽出日の最大数
(オプション)

抽出される日の最大数。

Long
この最初の日数を無視
(オプション)

その他すべての日付を抽出する前に検出され、無視される日付の数。

Long
受け取るデータ範囲の最も古い日付
(オプション)

抽出される許容可能な最も古い日付。 この値以降に一致する日付が抽出されます。

Date
受け取るデータ範囲の最新の日付
(オプション)

抽出される許容可能な最新の日付。 この値以前に一致する日付が抽出されます。

Date
入力カスタム属性
(オプション)

入力コンテンツをスキャンするときに使用されるカスタム属性ファイル (.lxtca)。 ファイルで定義されたすべてのカスタム属性に対し、出力フィーチャクラスの属性テーブルにフィールドが作成されます。 入力コンテンツがスキャンされると、ファイルで指定されたすべてのカスタム属性に関連するテキストが含まれているかどうかが調べられます。 一致が見つかった場合、適切なテキストが入力コンテンツから抽出され、適切なフィールドに格納されます。

File
入力ファイル リンク テキスト
(オプション)

[入力ファイル] パラメーター (Python では in_file) がサーバーに転送される際、出力データのファイル名として使用されるファイル パス。 このパラメーターが指定されない場合、[入力ファイル] のパスが使用されますが、サーバー上の到達できないフォルダーである可能性があります。 このパラメーターは、[入力ファイル] が指定されていない場合は効果がありません。

String
入力ファイル日時
(オプション)

[入力ファイル] パラメーター (Python では in_file) がサーバーに転送される際、ファイルが更新された UTC 日時が出力データの更新済み属性として使用されます。 このパラメーターが指定されていない場合、入力ファイルの現在の更新時間が使用されます。 このパラメーターは、[入力ファイル] が指定されていない場合は効果がありません。

Date
プレテキスト フィールド長
(オプション)

コンテンツが入力ドキュメントから抽出され、検出された位置のコンテキストを提供します。 このパラメーターは、位置を定義するテキストの前に抽出される文字の最大数を定義します。 抽出されたテキストは出力フィーチャクラスの属性テーブルの Pre-Text フィールドに格納されます。 デフォルトは 254 です。 Pre-Text フィールドのデータ タイプも同じ長さです。 シェープファイルのテキスト フィールドの長さは 254 文字に制限されます。出力がシェープファイルの場合、これよりも長い文字数は 254 文字に切詰められます。

Long
ポストテキスト フィールド長
(オプション)

コンテンツが入力ドキュメントから抽出され、検出された位置のコンテキストを提供します。 このパラメーターは、位置を定義するテキストの後に抽出される文字の最大数を定義します。 抽出されたテキストは出力フィーチャクラスの属性テーブルの Post-Text フィールドに格納されます。 デフォルトは 254 です。 Post-Text フィールドのデータ タイプも同じ長さです。 シェープファイルのテキスト フィールドの長さは 254 文字に制限されます。出力がシェープファイルの場合、これよりも長い文字数は 254 文字に切詰められます。

Long
座標形式
(オプション)

座標位置を格納するために使用される座標形式を指定します。 ポイント フィーチャを定義する空間座標の標準的な形式は、属性テーブルのフィールドに記録されます。

  • DD - 度 (10 進)座標位置は度 (10 進) 形式で記録されます。 これがデフォルトです。
  • DM - 度分 (10 進)座標位置は度分 (10 進) 形式で記録されます。
  • DMS - 度分秒座標位置は度分秒形式で記録されます。
  • UTM - ユニバーサル横メルカトル座標位置はユニバーサル横メルカトル図法形式で記録されます。
  • MGRS - Military Grid Reference System座標位置は Military Grid Reference System 形式で記録されます。
String
単語の区切りが必要
(オプション)

単語の区切りを使用するテキストを検索するかどうかを指定します。 単語の区切りは、ヨーロッパ言語のように単語 (テキスト) が空白や区切り文字で区切られている場合に発生します。

この設定では、テキストの言語に応じてフォルス ポジティブが多いこともあれば、少ないこともあります。 たとえば、単語の区切りが必要ない場合、英文テキスト「Bernard」はテキスト「San Bernardino」との一致を生成しますが、フォルス ポジティブと見なされる可能性が高くなります。 ただし、テキストが単語の区切りが必要ない言語で記述されている場合、単語の区切りが必要な場合は単語は見つかりません。 たとえば、「I flew to Tokyo」は日本語で「私は東京に飛んで」ですが、単語の区切りが必要ない場合は単語「Tokyo」、つまり「東京」しか見つかりません。

  • オン - このツールは、空白や区切り文字で区切られている単語を検索します。 これがデフォルトです。
  • オフ - このツールは、空白や区切り文字で区切られている単語を検索しません。
Boolean

ライセンス情報

  • Basic: 次のものが必要 LocateXT
  • Standard: 次のものが必要 LocateXT
  • Advanced: 次のものが必要 LocateXT

関連トピック