从文档中提取位置 (转换)

在 LocateXT 许可等级下可用。

摘要

分析包含非结构化或半结构化文本(例如电子邮件消息、行程表单等)的文档,并将位置提取到点要素类。

该工具可分析和处理输入文档,如下所示:

  • 识别在文档内容中指定的空间坐标,并创建表示这些位置的点。可识别以下坐标格式:十进制度、度十进制分、度分秒、通用横轴墨卡托和军事格网参考系统。
  • 识别在自定义位置文件中定义的文档内容中指定的地名,并创建表示这些位置的点。自定义位置文件会将地名与表示该位置的空间坐标相关联。
  • 识别感兴趣文本,从文档中提取此信息,并将其记录在输出要素类属性表的字段中。

此工具支持所有 Microsoft Office 文档(Word、PowerPoint 和 Excel);Adobe PDF 文档;标记文本,例如 XML 和 HTML 文档;以及包含纯文本的任何文件,例如文本文件 (.txt)。

使用情况

  • 参数默认值旨在优化坐标和日期的标识。 每个参数的默认值都可以修改。 修改的参数越少,工具的运行速度就越快。

  • 所有坐标格式默认为打开。 如果只想提取自定义位置而不想提取空间坐标,请关闭坐标格式参数。

  • 如果提供的输入是 Adobe PDF 文档,其内容包括空间坐标,且格式已打开,而输出要素类不包含表示空间坐标的要素,则您的计算机可能没有处理 PDF 文档所需的组件。

    了解有关扫描文件的详细信息

  • 使用自定义位置文件提取地名时,最好在文件中指定较少的地名。 例如,如果您将一个代表世界上所有地方的要素类转换为自定义位置文件,那么在这个过程中,您可能需要花费大量时间来查找不可能存在的地方,或者在您不感兴趣的领域进行分析。

    了解自定义位置文件的详细信息

  • 如果您感兴趣的地名拼写错误或有已知的变体,那么在自定义位置文件中指定常见的拼写错误和替代地名,而不是使用模糊匹配,通常会得到更好的结果。 开启模糊匹配后,如果地名中 70% 的字符与输入内容匹配,就会得到一个输出位置。 与提供已知的替代地名和拼写错误相比,这可能会产生更多的误报。

    模糊匹配的一个有用工作流程是,首先在关闭模糊匹配的情况下运行工具。 然后,再次在打开模糊匹配的情况下运行工具并检查结果。 这有助于识别可添加到自定义位置文件的拼写差异。

    了解模糊匹配的详细信息

参数

标注说明数据类型
输入文件

将扫描以查找位置 (坐标或自定义位置)、日期和自定义属性的输入文件;或者将扫描其中所有文件以查找位置的文件夹。

File
输出要素类

包含点要素的要素类,代表找到的位置。

Feature Class
输入模板
(可选)

模板文件(*.lxttmpl)用于确定每个工具参数的设置。 如果提供了模板文件,除了决定要处理的输入内容和输出要素类的参数值外,其他参数的所有指定值都将被忽略。

提取位置窗格中的某些设置只有在保存到模板文件时才可用,而模板文件在此参数中被引用。 按如下所示设置:

  • x,y 格式的空间坐标 - 允许将两个连续的数字(如 630084 4833438981075.652ftUS 607151.272ftUS)识别为坐标,前提是它们对与输入文件相关的平面坐标系有效。 您可以指定识别带单位和不带单位的数字,还是只识别带度量单位的数字作为坐标。
  • 自定义坐标和日期格式 - 允许您自定义将文本识别为空间坐标或日期的方式,尤其是用英语以外的语言书写或使用在美国不常用的格式时。 例如,在识别写为 30 20 10 N x 060 50 40 W 的空间坐标时,可以进行自定义,将经纬度之间的字符 x 识别为有效文本。 为适应文档的语言(本例中为法语)而进行自定义时,可以识别 60.91°N, 147.34°O17 juillet, 2018 等坐标和日期。 此外,当使用两位数年份时,您可以控制与之匹配的年份范围。
  • 对一些模糊日期的偏好 - 诸如 10/12/2019 这样的日期是模糊的,因为它们既可以被解释为 2019 年 10 月 12 日,也可以被解释为 2019 年 12 月 10 日。 一些国家使用 m/d/yy 日期格式作为标准,其他国家则使用 d/m/yy 格式。 可以设置如何解释这些模糊日期的偏好,可以是 m/d/yy 或 d/m/yy,以适应文档的原产国。
  • 输出要素类中字段的长度 - 您可以使用前文本字段长度(Python 中的 pre_text_length)和后文本字段长度(Python 中的 post_text_length)参数,指定从文档中提取的空间坐标周围包含文本的字段长度。 通过提取位置窗格,您可以控制属性表中几个其他字段的长度,包括包含从文档中提取的日期、转换为日期的原始文本、提取信息的文件名等字段。

File
经度和纬度
(可选)

指定是否搜索以十进制度数格式存储的经纬度坐标(偶发误报)。 例如:33.8N 77.035WW77N38.88909

  • 选中 - 该工具将搜索十进制经纬度坐标。 这是默认设置。
  • 未选中 - 该工具将不会搜索十进制经纬度坐标。
Boolean
带度数符号的 X Y
(可选)

指定是否搜索以十进制度数格式存储的带度数符号的 X Y 坐标(偶发误报)。 例如:38.8° -77.035°-077d+38.88909d

  • 选中 - 该工具将搜索十进制带度数符号的 X Y 坐标。 这是默认设置。
  • 未选中 - 该工具将不会搜索十进制带度数符号的 X Y 坐标。
Boolean
无符号的 X Y
(可选)

指定是否搜索以十进制度数格式存储的不带符号的 X Y 坐标(频发误报)。 例如:38.8 -77.035-077.0, +38.88909

  • 选中 - 该工具将搜索十进制不带符号的 X Y 坐标(频发误报)。 这是默认设置。
  • 未选中 - 该工具将不会搜索十进制不带符号的 X Y 坐标。
Boolean
经度和纬度
(可选)

指定是否搜索以度十进制分格式存储的经纬度坐标(偶发误报)。 例如:3853.3N 7702.100WW7702N3853.3458

  • 选中 - 该工具将搜索度十进制分格式的经纬度坐标。 这是默认设置。
  • 未选中 - 该工具将不会搜索度十进制分格式的经纬度坐标。
Boolean
带分符号的 X Y
(可选)

指定是否搜索以度十进制分格式存储的带有分符号的 X Y 坐标(偶发误报)。 例如:3853' -7702.1'-07702m+3853.3458m

  • 选中 - 该工具将搜索度十进制分格式的带有分符号的 X Y 坐标。 这是默认设置。
  • 未选中 - 该工具将不会搜索度十进制分格式的带有分符号的 X Y 坐标。
Boolean
经度和纬度
(可选)

指定是否搜索以度分秒格式存储的经纬度坐标(偶发误报)。 例如:385320.7N 770206.000WW770206N385320.76

  • 选中 - 该工具将搜索度分秒格式的经纬度坐标。 这是默认设置。
  • 未选中 - 该工具将不会搜索度分秒格式的经纬度坐标。
Boolean
带秒符号的 X Y
(可选)

指定是否搜索以度分秒格式存储的带有秒符号的 X Y 坐标(偶发误报)。 例如:385320" -770206.0"-0770206.0s+385320.76s

  • 选中 - 该工具将搜索度分秒格式的带有秒符号的 X Y 坐标。 这是默认设置。
  • 未选中 - 该工具将不会搜索度分秒格式的带有秒符号的 X Y 坐标。
Boolean
带分隔符的 X Y
(可选)

指定是否搜索以度分秒格式存储的带分隔符的 X Y 坐标(中度误报)。 例如:38:53:20 -77:2:6.0-077/02/06/+38/53/20.76

  • 选中 - 该工具将搜索度分秒格式的带分隔符的 X Y 坐标。 这是默认设置。
  • 未选中 - 该工具将不会搜索度分秒格式的带分隔符的 X Y 坐标。
Boolean
通用横轴墨卡托投影
(可选)

指定是否搜索通用横轴墨卡托 (UTM) 坐标(偶发误报)。 例如:18S 323503 430643818 north 323503.25 4306438.39

  • 选中 - 该工具将搜索 UTM 坐标。 这是默认设置。
  • 未选中 - 该工具将不会搜索 UTM 坐标。
Boolean
UPS 北极
(可选)

指定是否在北极地区搜索通用极方位立体投影 (UPS) 坐标(偶发误报)。 例如:Y 2722399 2000000north 2722399 2000000

  • 选中 - 该工具将搜索北极地区的 UPS 坐标。 这是默认设置。
  • 未选中 - 该工具将不会搜索北极地区的 UPS 坐标。
Boolean
UPS 南极
(可选)

指定是否在南极地区搜索通用极方位立体投影 (UPS) 坐标(偶发误报)。 例如:A 2000000 3168892south 2000000 3168892

  • 选中 - 该工具将搜索南极地区的 UPS 坐标。 这是默认设置。
  • 未选中 - 该工具将不会搜索南极地区的 UPS 坐标。
Boolean
军事格网参考系
(可选)

指定是否搜索军事网格参考系统 (MGRS) 坐标(偶发误报)。 例如:18S UJ 13503 0643818SUJ0306

  • 选中 - 该工具将搜索 MGRS 坐标。 这是默认设置。
  • 未选中 - 该工具将不会搜索 MGRS 坐标。
Boolean
北极
(可选)

指定是否在北极地区搜索军事网格参考系统 (MGRS) 坐标(偶发误报)。 例如:Y TG 56814 69009YTG5669

  • 选中 - 该工具将搜索北极地区的 MGRS 坐标。 这是默认设置。
  • 未选中 - 该工具将不会搜索北极地区的 MGRS 坐标。
Boolean
南极
(可选)

指定是否在南极地区搜索军事网格参考系统 (MGRS) 坐标(中度误报)。 例如:A TN 56814 30991ATN5630

  • 选中 - 该工具将搜索南极地区的 MGRS 坐标。 这是默认设置。
  • 未选中 - 该工具将不会搜索南极地区的 MGRS 坐标。
Boolean
使用逗号作为小数分隔符
(可选)

指定是否将逗号 (,) 识别为小数分隔符。 默认情况下,扫描内容的空间坐标由使用句号 (.) 或中间点 (·) 作为小数分隔符的数字定义,例如:Lat 01° 10·80’ N Long 103° 28·60’ E。 如果您要处理的内容中,空间坐标被定义为使用逗号 (,) 作为十进制分隔符的数字,例如:52° 8′ 32,14″ N; 5° 24′ 56,09″ E,请将此参数设置为识别逗号作为十进制分隔符。 该参数不会根据计算机操作系统的区域设置自动设置。

  • 选中 - 逗号将被识别为小数分隔符。
  • 未选中 - 句号或中间点将被识别为小数分隔符。 这是默认设置。
Boolean
解释为经度、纬度
(可选)

指定 x、y 坐标是否解释为经度-纬度。 当数字与 x、y 坐标类似,两个数字都小于 90,并且没有用于表示哪个数字代表纬度或经度的符号或注记时,结果可能是模糊的。 将数字解释为经度-纬度坐标 (x,y),而不是纬度-经度坐标(即 y,x)。

  • 选中 - x、y 坐标解释为经度-纬度。
  • 未选中 - x、y 坐标解释为纬度-经度。 这是默认设置。
Boolean
输入坐标系
(可选)

用于解释输入中定义的空间坐标的坐标系。 默认为 GCS WGS 84。

Spatial Reference
输入自定义位置
(可选)

扫描输入内容时将使用的自定义位置文件 (.lxtgaz)。 在其他工具参数设定的限制范围内,创建一个点来代表自定义位置文件中出现的每个地名。

File
使用模糊匹配
(可选)

指定将输入内容与自定义位置文件中指定的地名进行比较时是否使用模糊匹配。

  • 选中 - 搜索自定义位置文件时将使用模糊匹配。
  • 未选中 - 搜索自定义位置文件时将使用精确匹配。 这是默认设置。
Boolean
所提取的最大要素数
(可选)

可提取要素的最大数量。 当达到最大数量时,工具将停止扫描输入内容中的位置。 在作为地理处理服务运行时,服务和服务器可能对允许的要素数量有不同的限制。

Long
忽略此第一个要素数
(可选)

在提取所有其他要素之前检测到并忽略的要素数量。 该参数可用于集中搜索数据的特定部分。

Long
所用月份名称
(可选)

指定是否搜索出现月份名称的日期(偶发误报)。 12 May 2003January 15, 1997 为范例。

  • 选中 - 该工具将搜索出现月份名称的日期。 这是默认设置。
  • 未选中 - 该工具将不会搜索出现月份名称的日期。
Boolean
M/D/Y 和 D/M/Y
(可选)

指定是否搜索数字格式为 M/D/Y 或 D/M/Y 的日期(中度误报)。 5/12/031-15-1997 为范例。

  • 选中 - 该工具将搜索数字格式为 M/D/Y 或 D/M/Y 的日期(中度误报)。 这是默认设置。
  • 未选中 - 该工具将不会搜索数字格式为 M/D/Y 或 D/M/Y 的日期。
Boolean
YYYYMMDD
(可选)

指定是否搜索数字格式为 YYYYMMDD 的日期(中度误报)。 2003051219970115 为范例。

  • 选中 - 该工具搜索数字格式为 YYYYMMDD 的日期(中度误报)。 这是默认设置。
  • 未选中 - 该工具将不会搜索数字格式为 YYYYMMDD 的日期。
Boolean
YYMMDD
(可选)

指定是否搜索数字格式为 YYMMDD 的日期(频发误报)。 030512970115 为范例。

  • 选中 - 该工具搜索数字格式为 YYMMDD 的日期(频发误报)。 这是默认设置。
  • 未选中 - 该工具将不会搜索数字格式为 YYMMDD 的日期。
Boolean
YYJJJ
(可选)

指定是否搜索数字格式为 YYJJJ 或 YYYYJJJ 的日期(频发误报)。 0313297015 为范例。

  • 选中 - 该工具搜索数字格式为 YYJJJ 或 YYYYJJJ 的日期(频发误报)。 这是默认设置。
  • 未选中 - 该工具将不会搜索数字格式为 YYJJJ 或 YYYYJJJ 的日期。
Boolean
所提取的最大日期数
(可选)

提取日期的最大数量。

Long
忽略此第一个日期数
(可选)

在提取所有其他日期之前将被检测并忽略的日期数量。

Long
可接受日期范围的最早日期
(可选)

可接受的最早提取日期。 将提取与此值或更晚的值相匹配的检测日期。

Date
可接受日期范围的最近日期
(可选)

可接受的最晚提取日期。 将提取与此值或更早的值相匹配的检测日期。

Date
输入自定义属性
(可选)

将用于扫描输入内容的自定义属性文件(.lxtca)。 将在输出要素类的属性表中为文件中定义的所有自定义属性创建字段。 扫描输入内容时,将检查其中是否包含与文件中指定的所有自定义属性相关的文本。 找到匹配后,就会从输入内容中提取相应的文本并存储到相应的字段中。

File
输入文件链接文本
(可选)

输入文件参数(Python 中的 in_file)传输到服务器时,输出数据中将作为文件名使用的文件路径。 如果未指定此参数,则将使用输入文件的路径,该路径可能是服务器上一个无法访问的文件夹。 未指定输入文件时,此参数不起作用。

String
输入文件日期和时间
(可选)

输入文件参数(Python 中的 in_file)被传输到服务器时,文件被修改的 UTC 日期和时间将被用作输出数据中的修改属性。 如果未指定此参数,则将使用输入文件的当前修改时间。 未指定输入文件时,此参数不起作用。

Date
前文本字段长度
(可选)

从输入文档中提取内容,为找到的位置提供上下文。 该参数定义了在定义位置的文本前提取的最大字符数。 提取的文本存储在输出要素类属性表的 Pre-Text 字段中。 默认为 254。 Pre-Text 字段的数据类型也有这个长度。 形状文件中文本字段的长度限制为 254 个字符;当输出为形状文件时,较大的字符数将被截断为 254 个字符。

Long
后文本字段长度
(可选)

从输入文档中提取内容,为找到的位置提供上下文。 该参数定义了在定义位置的文本后提取的最大字符数。 提取的文本存储在输出要素类属性表的 Post-Text 字段中。 默认为 254。 Post-Text 字段的数据类型也有这个长度。 形状文件中文本字段的长度限制为 254 个字符;当输出为形状文件时,较大的字符数将被截断为 254 个字符。

Long
坐标格式
(可选)

指定用于存储坐标位置的坐标格式。 属性表中的一个字段记录了定义点要素的空间坐标的标准表达。

  • DD - 十进制度坐标位置以十进制度格式记录。 这是默认设置。
  • DM - 十进制度分坐标位置以度十进制分格式记录。
  • DMS - 度分秒坐标位置以度分秒格式记录。
  • UTM - 通用横轴墨卡托投影坐标位置以墨卡托方位法格式记录。
  • MGRS - 军事格网参考系坐标位置以军事格网参考系格式记录。
String
需要词内换行
(可选)

指定是否使用词内换行搜索文本。 当单词(文本)由空格或标点符号(如欧洲语言)界定时,就会出现词内换行。

根据文本语言的不同,此设置可以生成频繁的误报或不频繁的误报。 例如,在不需要词内换行的情况下,英文文本 Bernard 将生成与文本 San Bernardino 匹配的结果,而这很可能被视为误报。 但是,当使用不使用词内换行的语言编写文本时,如果需要词内换行,则无法找到单词。 例如,对于 I flew to Tokyo(我飞往东京)这一日语文本,私は東京に飛んで,在不需要词内换行的情况下,您只能找到 Tokyo(东京)一词,東京

  • 选中 - 该工具将搜索由空格或标点符号界定的单词。 这是默认设置。
  • 未选中 - 该工具将不会搜索由空格或标点符号界定的单词。
Boolean

arcpy.conversion.ExtractLocationsDocument(in_file, out_feature_class, {in_template}, {coord_dd_latlon}, {coord_dd_xydeg}, {coord_dd_xyplain}, {coord_dm_latlon}, {coord_dm_xymin}, {coord_dms_latlon}, {coord_dms_xysec}, {coord_dms_xysep}, {coord_utm}, {coord_ups_north}, {coord_ups_south}, {coord_mgrs}, {coord_mgrs_northpolar}, {coord_mgrs_southpolar}, {comma_decimal}, {coord_use_lonlat}, {in_coor_system}, {in_custom_locations}, {fuzzy_match}, {max_features_extracted}, {ignore_first_features}, {date_monthname}, {date_m_d_y}, {date_yyyymmdd}, {date_yymmdd}, {date_yyjjj}, {max_dates_extracted}, {ignore_first_dates}, {date_range_begin}, {date_range_end}, {in_custom_attributes}, {file_link}, {file_mod_datetime}, {pre_text_length}, {post_text_length}, {std_coord_fmt}, {req_word_breaks})
名称说明数据类型
in_file

将扫描以查找位置 (坐标或自定义位置)、日期和自定义属性的输入文件;或者将扫描其中所有文件以查找位置的文件夹。

File
out_feature_class

包含点要素的要素类,代表找到的位置。

Feature Class
in_template
(可选)

模板文件(*.lxttmpl)用于确定每个工具参数的设置。 如果提供了模板文件,除了决定要处理的输入内容和输出要素类的参数值外,其他参数的所有指定值都将被忽略。

提取位置窗格中的某些设置只有在保存到模板文件时才可用,而模板文件在此参数中被引用。 按如下所示设置:

  • x,y 格式的空间坐标 - 允许将两个连续的数字(如 630084 4833438981075.652ftUS 607151.272ftUS)识别为坐标,前提是它们对与输入文件相关的平面坐标系有效。 您可以指定识别带单位和不带单位的数字,还是只识别带度量单位的数字作为坐标。
  • 自定义坐标和日期格式 - 允许您自定义将文本识别为空间坐标或日期的方式,尤其是用英语以外的语言书写或使用在美国不常用的格式时。 例如,在识别写为 30 20 10 N x 060 50 40 W 的空间坐标时,可以进行自定义,将经纬度之间的字符 x 识别为有效文本。 为适应文档的语言(本例中为法语)而进行自定义时,可以识别 60.91°N, 147.34°O17 juillet, 2018 等坐标和日期。 此外,当使用两位数年份时,您可以控制与之匹配的年份范围。
  • 对一些模糊日期的偏好 - 诸如 10/12/2019 这样的日期是模糊的,因为它们既可以被解释为 2019 年 10 月 12 日,也可以被解释为 2019 年 12 月 10 日。 一些国家使用 m/d/yy 日期格式作为标准,其他国家则使用 d/m/yy 格式。 可以设置如何解释这些模糊日期的偏好,可以是 m/d/yy 或 d/m/yy,以适应文档的原产国。
  • 输出要素类中字段的长度 - 您可以使用前文本字段长度(Python 中的 pre_text_length)和后文本字段长度(Python 中的 post_text_length)参数,指定从文档中提取的空间坐标周围包含文本的字段长度。 通过提取位置窗格,您可以控制属性表中几个其他字段的长度,包括包含从文档中提取的日期、转换为日期的原始文本、提取信息的文件名等字段。

File
coord_dd_latlon
(可选)

指定是否搜索以十进制度数格式存储的经纬度坐标(偶发误报)。 例如:33.8N 77.035WW77N38.88909

  • FIND_DD_LATLON该工具将搜索十进制经纬度坐标。 这是默认设置。
  • DONT_FIND_DD_LATLON该工具将不会搜索十进制经纬度坐标。
Boolean
coord_dd_xydeg
(可选)

指定是否搜索以十进制度数格式存储的带度数符号的 X Y 坐标(偶发误报)。 例如:38.8° -77.035°-077d+38.88909d

  • FIND_DD_XYDEG该工具将搜索十进制带度数符号的 X Y 坐标。 这是默认设置。
  • DONT_FIND_DD_XYDEG该工具将不会搜索十进制带度数符号的 X Y 坐标。
Boolean
coord_dd_xyplain
(可选)

指定是否搜索以十进制度数格式存储的不带符号的 X Y 坐标(频发误报)。 例如:38.8 -77.035-077.0, +38.88909

  • FIND_DD_XYPLAIN该工具将搜索十进制不带符号的 X Y 坐标(频发误报)。 这是默认设置。
  • DONT_FIND_DD_XYPLAIN该工具将不会搜索十进制不带符号的 X Y 坐标。
Boolean
coord_dm_latlon
(可选)

指定是否搜索以度十进制分格式存储的经纬度坐标(偶发误报)。 例如:3853.3N 7702.100WW7702N3853.3458

  • FIND_DM_LATLON该工具将搜索度十进制分格式的经纬度坐标。 这是默认设置。
  • DONT_FIND_DM_LATLON该工具将不会搜索度十进制分格式的经纬度坐标。
Boolean
coord_dm_xymin
(可选)

指定是否搜索以度十进制分格式存储的带有分符号的 X Y 坐标(偶发误报)。 例如:3853' -7702.1'-07702m+3853.3458m

  • FIND_DM_XYMIN该工具将搜索度十进制分格式的带有分符号的 X Y 坐标。 这是默认设置。
  • DONT_FIND_DM_XYMIN该工具将不会搜索度十进制分格式的带有分符号的 X Y 坐标。
Boolean
coord_dms_latlon
(可选)

指定是否搜索以度分秒格式存储的经纬度坐标(偶发误报)。 例如:385320.7N 770206.000WW770206N385320.76

  • FIND_DMS_LATLON该工具将搜索度分秒格式的经纬度坐标。 这是默认设置。
  • DONT_FIND_DMS_LATLON该工具将不会搜索度分秒格式的经纬度坐标。
Boolean
coord_dms_xysec
(可选)

指定是否搜索以度分秒格式存储的带有秒符号的 X Y 坐标(偶发误报)。 例如:385320" -770206.0"-0770206.0s+385320.76s

  • FIND_DMS_XYSEC该工具将搜索度分秒格式的带有秒符号的 X Y 坐标。 这是默认设置。
  • DONT_FIND_DMS_XYSEC该工具将不会搜索度分秒格式的带有秒符号的 X Y 坐标。
Boolean
coord_dms_xysep
(可选)

指定是否搜索以度分秒格式存储的带分隔符的 X Y 坐标(中度误报)。 例如:8:53:20 -77:2:6.0-077/02/06/+38/53/20.76

  • FIND_DMS_XYSEP该工具将搜索度分秒格式的带分隔符的 X Y 坐标。 这是默认设置。
  • DONT_FIND_DMS_XYSEP该工具将不会搜索度分秒格式的带分隔符的 X Y 坐标。
Boolean
coord_utm
(可选)

指定是否搜索通用横轴墨卡托 (UTM) 坐标(偶发误报)。 例如:18S 323503 430643818 north 323503.25 4306438.39

  • FIND_UTM_MAINWORLD该工具将搜索 UTM 坐标。 这是默认设置。
  • DONT_FIND_UTM_MAINWORLD该工具将不会搜索 UTM 坐标。
Boolean
coord_ups_north
(可选)

指定是否在北极地区搜索通用极方位立体投影 (UPS) 坐标(偶发误报)。 例如:Y 2722399 2000000north 2722399 2000000

  • FIND_UTM_NORTHPOLAR该工具将搜索北极地区的 UPS 坐标。 这是默认设置。
  • DONT_FIND_UTM_NORTHPOLAR该工具将不会搜索北极地区的 UPS 坐标。
Boolean
coord_ups_south
(可选)

指定是否在南极地区搜索通用极方位立体投影 (UPS) 坐标(偶发误报)。 例如:A 2000000 3168892south 2000000 3168892

  • FIND_UTM_SOUTHPOLAR该工具将搜索南极地区的 UPS 坐标。 这是默认设置。
  • DONT_FIND_UTM_SOUTHPOLAR该工具将不会搜索南极地区的 UPS 坐标。
Boolean
coord_mgrs
(可选)

指定是否搜索军事网格参考系统 (MGRS) 坐标(偶发误报)。 例如:18S UJ 13503 0643818SUJ0306

  • FIND_MGRS_MAINWORLD该工具将搜索 MGRS 坐标。 这是默认设置。
  • DONT_FIND_MGRS_MAINWORLD该工具将不会搜索 MGRS 坐标。
Boolean
coord_mgrs_northpolar
(可选)

指定是否在北极地区搜索军事网格参考系统 (MGRS) 坐标(偶发误报)。 例如:Y TG 56814 69009YTG5669

  • FIND_MGRS_NORTHPOLAR该工具将搜索北极地区的 MGRS 坐标。 这是默认设置。
  • DONT_FIND_MGRS_NORTHPOLAR该工具将不会搜索北极地区的 MGRS 坐标。
Boolean
coord_mgrs_southpolar
(可选)

指定是否在南极地区搜索军事网格参考系统 (MGRS) 坐标(中度误报)。 例如:A TN 56814 30991ATN5630

  • FIND_MGRS_SOUTHPOLAR该工具将搜索南极地区的 MGRS 坐标。 这是默认设置。
  • DONT_FIND_MGRS_SOUTHPOLAR该工具将不会搜索南极地区的 MGRS 坐标。
Boolean
comma_decimal
(可选)

指定是否将逗号 (,) 识别为小数分隔符。 默认情况下,扫描内容的空间坐标由使用句号 (.) 或中间点 (·) 作为小数分隔符的数字定义,例如:Lat 01° 10·80’ N Long 103° 28·60’ E。 如果您要处理的内容中,空间坐标被定义为使用逗号 (,) 作为十进制分隔符的数字,例如:52° 8′ 32,14″ N; 5° 24′ 56,09″ E,请将此参数设置为识别逗号作为十进制分隔符。 该参数不会根据计算机操作系统的区域设置自动设置。

  • USE_COMMA_DECIMAL_MARK逗号将被识别为小数分隔符。
  • USE_DOT_DECIMAL_MARK句号或中间点将被识别为小数分隔符。 这是默认设置。
Boolean
coord_use_lonlat
(可选)

当数字与 x、y 坐标类似,两个数字都小于 90,并且没有用于表示哪个数字代表纬度或经度的符号或注记时,结果可能是模糊的。 将数字解释为经度-纬度坐标 (x,y),而不是纬度-经度坐标(即 y,x)。

  • PREFER_LONLATx、y 坐标解释为经度-纬度。
  • PREFER_LATLONx、y 坐标解释为纬度-经度。 这是默认设置。
Boolean
in_coor_system
(可选)

用于解释输入中定义的空间坐标的坐标系。 默认为 GCS WGS 84。

Spatial Reference
in_custom_locations
(可选)

扫描输入内容时将使用的自定义位置文件 (.lxtgaz)。 在其他工具参数设定的限制范围内,创建一个点来代表自定义位置文件中出现的每个地名。

File
fuzzy_match
(可选)

指定是否在搜索自定义位置文件时使用模糊匹配。

  • USE_FUZZY搜索自定义位置文件时将使用模糊匹配。
  • DONT_USE_FUZZY搜索自定义位置文件时将使用精确匹配。 这是默认设置。
Boolean
max_features_extracted
(可选)

可提取要素的最大数量。 当达到最大数量时,工具将停止扫描输入内容中的位置。 在作为地理处理服务运行时,服务和服务器可能对允许的要素数量有不同的限制。

Long
ignore_first_features
(可选)

在提取所有其他要素之前检测到并忽略的要素数量。 该参数可用于集中搜索数据的特定部分。

Long
date_monthname
(可选)

指定是否搜索出现月份名称的日期(偶发误报)。 12 May 2003January 15, 1997 为范例。

  • FIND_DATE_MONTHNAME该工具将搜索出现月份名称的日期。 这是默认设置。
  • DONT_FIND_DATE_MONTHNAME该工具将不会搜索出现月份名称的日期。
Boolean
date_m_d_y
(可选)

指定是否搜索数字格式为 M/D/Y 或 D/M/Y 的日期(中度误报)。 5/12/031-15-1997 为范例。

  • FIND_DATE_M_D_Y该工具将搜索数字格式为 M/D/Y 或 D/M/Y 的日期(中度误报)。 这是默认设置。
  • DONT_FIND_DATE_M_D_Y该工具将不会搜索数字格式为 M/D/Y 或 D/M/Y 的日期。
Boolean
date_yyyymmdd
(可选)

指定是否搜索数字格式为 YYYYMMDD 的日期(中度误报)。 2003051219970115 为范例。

  • FIND_DATE_YYYYMMDD该工具搜索数字格式为 YYYYMMDD 的日期(中度误报)。 这是默认设置。
  • DONT_FIND_DATE_YYYYMMDD该工具将不会搜索数字格式为 YYYYMMDD 的日期。
Boolean
date_yymmdd
(可选)

指定是否搜索数字格式为 YYMMDD 的日期(频发误报)。 030512970115 为范例。

  • FIND_DATE_YYMMDD该工具搜索数字格式为 YYMMDD 的日期(频发误报)。 这是默认设置。
  • DONT_FIND_DATE_YYMMDD该工具将不会搜索数字格式为 YYMMDD 的日期。
Boolean
date_yyjjj
(可选)

指定是否搜索数字格式为 YYJJJ 或 YYYYJJJ 的日期(频发误报)。 0313297015 为范例。

  • FIND_DATE_YYJJJ该工具搜索数字格式为 YYJJJ 或 YYYYJJJ 的日期(频发误报)。 这是默认设置。
  • DONT_FIND_DATE_YYJJJ该工具将不会搜索数字格式为 YYJJJ 或 YYYYJJJ 的日期。
Boolean
max_dates_extracted
(可选)

提取日期的最大数量。

Long
ignore_first_dates
(可选)

在提取所有其他日期之前将被检测并忽略的日期数量。

Long
date_range_begin
(可选)

可接受的最早提取日期。 将提取与此值或更晚的值相匹配的检测日期。

Date
date_range_end
(可选)

可接受的最晚提取日期。 将提取与此值或更早的值相匹配的检测日期。

Date
in_custom_attributes
(可选)

将用于扫描输入内容的自定义属性文件(.lxtca)。 将在输出要素类的属性表中为文件中定义的所有自定义属性创建字段。 扫描输入内容时,将检查其中是否包含与文件中指定的所有自定义属性相关的文本。 找到匹配后,就会从输入内容中提取相应的文本并存储到相应的字段中。

File
file_link
(可选)

输入文件参数(Python 中的 in_file)传输到服务器时,输出数据中将作为文件名使用的文件路径。 如果未指定此参数,则将使用输入文件的路径,该路径可能是服务器上一个无法访问的文件夹。 未指定输入文件时,此参数不起作用。

String
file_mod_datetime
(可选)

输入文件参数(Python 中的 in_file)被传输到服务器时,文件被修改的 UTC 日期和时间将被用作输出数据中的修改属性。 如果未指定此参数,则将使用输入文件的当前修改时间。 未指定输入文件时,此参数不起作用。

Date
pre_text_length
(可选)

从输入文档中提取内容,为找到的位置提供上下文。 该参数定义了在定义位置的文本前提取的最大字符数。 提取的文本存储在输出要素类属性表的 Pre-Text 字段中。 默认为 254。 Pre-Text 字段的数据类型也有这个长度。 形状文件中文本字段的长度限制为 254 个字符;当输出为形状文件时,较大的字符数将被截断为 254 个字符。

Long
post_text_length
(可选)

从输入文档中提取内容,为找到的位置提供上下文。 该参数定义了在定义位置的文本后提取的最大字符数。 提取的文本存储在输出要素类属性表的 Post-Text 字段中。 默认为 254。 Post-Text 字段的数据类型也有这个长度。 形状文件中文本字段的长度限制为 254 个字符;当输出为形状文件时,较大的字符数将被截断为 254 个字符。

Long
std_coord_fmt
(可选)

指定用于存储坐标位置的坐标格式。 属性表中的一个字段记录了定义点要素的空间坐标的标准表达。

  • STD_COORD_FMT_DD坐标位置以十进制度格式记录。 这是默认设置。
  • STD_COORD_FMT_DM坐标位置以度十进制分格式记录。
  • STD_COORD_FMT_DMS坐标位置以度分秒格式记录。
  • STD_COORD_FMT_UTM坐标位置以墨卡托方位法格式记录。
  • STD_COORD_FMT_MGRS坐标位置以军事格网参考系格式记录。
String
req_word_breaks
(可选)

指定是否使用词内换行搜索文本。 当单词(文本)由空格或标点符号(如欧洲语言)界定时,就会出现词内换行。

根据文本语言的不同,此设置可以生成频繁的误报或不频繁的误报。 例如,在不需要词内换行的情况下,英文文本 Bernard 将生成与文本 San Bernardino 匹配的结果,而这很可能被视为误报。 但是,当使用不使用词内换行的语言编写文本时,如果需要词内换行,则无法找到单词。 例如,对于 I flew to Tokyo(我飞往东京)这一日语文本,私は東京に飛んで,在不需要词内换行的情况下,您只能找到 Tokyo(东京)一词,東京

  • REQ_WORD_BREAKS该工具将搜索由空格或标点符号界定的单词。 这是默认设置。
  • DONT_REQ_WORD_BREAKS该工具将不会搜索由空格或标点符号界定的单词。
Boolean

代码示例

ExtractLocationsFromDocument 示例(Python 窗口)

以下 Python 窗口脚本演示了如何在即时模式下使用 ExtractLocationsFromDocument 函数。

import arcpy
arcpy.env.workspace = "c:/data"
arcpy.conversion.ExtractLocationsFromDocument("wells.docx", "water.gdb/wells")

许可信息

  • Basic: 需要 LocateXT
  • Standard: 需要 LocateXT
  • Advanced: 需要 LocateXT

相关主题