标注 | 说明 | 数据类型 |
输入文件 | 将扫描以查找位置 (坐标或自定义位置)、日期和自定义属性的输入文件;或者将扫描其中所有文件以查找位置的文件夹。 | File |
输出要素类 | 包含点要素的要素类,代表找到的位置。 | Feature Class |
输入模板 (可选) | 模板文件(*.lxttmpl)用于确定每个工具参数的设置。 如果提供了模板文件,除了决定要处理的输入内容和输出要素类的参数值外,其他参数的所有指定值都将被忽略。 提取位置窗格中的某些设置只有在保存到模板文件时才可用,而模板文件在此参数中被引用。 按如下所示设置:
| File |
经度和纬度 (可选) | 指定是否搜索以十进制度数格式存储的经纬度坐标(偶发误报)。 例如:33.8N 77.035W 和 W77N38.88909。
| Boolean |
带度数符号的 X Y (可选) | 指定是否搜索以十进制度数格式存储的带度数符号的 X Y 坐标(偶发误报)。 例如:38.8° -77.035° 和 -077d+38.88909d。
| Boolean |
无符号的 X Y (可选) | 指定是否搜索以十进制度数格式存储的不带符号的 X Y 坐标(频发误报)。 例如:38.8 -77.035 和 -077.0, +38.88909。
| Boolean |
经度和纬度 (可选) | 指定是否搜索以度十进制分格式存储的经纬度坐标(偶发误报)。 例如:3853.3N 7702.100W 和 W7702N3853.3458。
| Boolean |
带分符号的 X Y (可选) | 指定是否搜索以度十进制分格式存储的带有分符号的 X Y 坐标(偶发误报)。 例如:3853' -7702.1' 和 -07702m+3853.3458m。
| Boolean |
经度和纬度 (可选) | 指定是否搜索以度分秒格式存储的经纬度坐标(偶发误报)。 例如:385320.7N 770206.000W 和 W770206N385320.76。
| Boolean |
带秒符号的 X Y (可选) | 指定是否搜索以度分秒格式存储的带有秒符号的 X Y 坐标(偶发误报)。 例如:385320" -770206.0" 和 -0770206.0s+385320.76s。
| Boolean |
带分隔符的 X Y (可选) | 指定是否搜索以度分秒格式存储的带分隔符的 X Y 坐标(中度误报)。 例如:38:53:20 -77:2:6.0 和 -077/02/06/+38/53/20.76。
| Boolean |
通用横轴墨卡托投影 (可选) | 指定是否搜索通用横轴墨卡托 (UTM) 坐标(偶发误报)。 例如:18S 323503 4306438 和 18 north 323503.25 4306438.39。
| Boolean |
UPS 北极 (可选) | 指定是否在北极地区搜索通用极方位立体投影 (UPS) 坐标(偶发误报)。 例如:Y 2722399 2000000 和 north 2722399 2000000。
| Boolean |
UPS 南极 (可选) | 指定是否在南极地区搜索通用极方位立体投影 (UPS) 坐标(偶发误报)。 例如:A 2000000 3168892 和 south 2000000 3168892。
| Boolean |
军事格网参考系 (可选) | 指定是否搜索军事网格参考系统 (MGRS) 坐标(偶发误报)。 例如:18S UJ 13503 06438 和 18SUJ0306。
| Boolean |
北极 (可选) | 指定是否在北极地区搜索军事网格参考系统 (MGRS) 坐标(偶发误报)。 例如:Y TG 56814 69009 和 YTG5669。
| Boolean |
南极 (可选) | 指定是否在南极地区搜索军事网格参考系统 (MGRS) 坐标(中度误报)。 例如:A TN 56814 30991 和 ATN5630。
| Boolean |
使用逗号作为小数分隔符 (可选) | 指定是否将逗号 (,) 识别为小数分隔符。 默认情况下,扫描内容的空间坐标由使用句号 (.) 或中间点 (·) 作为小数分隔符的数字定义,例如:Lat 01° 10·80’ N Long 103° 28·60’ E。 如果您要处理的内容中,空间坐标被定义为使用逗号 (,) 作为十进制分隔符的数字,例如:52° 8′ 32,14″ N; 5° 24′ 56,09″ E,请将此参数设置为识别逗号作为十进制分隔符。 该参数不会根据计算机操作系统的区域设置自动设置。
| Boolean |
解释为经度、纬度 (可选) | 指定 x、y 坐标是否解释为经度-纬度。 当数字与 x、y 坐标类似,两个数字都小于 90,并且没有用于表示哪个数字代表纬度或经度的符号或注记时,结果可能是模糊的。 将数字解释为经度-纬度坐标 (x,y),而不是纬度-经度坐标(即 y,x)。
| Boolean |
输入坐标系 (可选) | 用于解释输入中定义的空间坐标的坐标系。 默认为 GCS WGS 84。 | Spatial Reference |
输入自定义位置 (可选) | 扫描输入内容时将使用的自定义位置文件 (.lxtgaz)。 在其他工具参数设定的限制范围内,创建一个点来代表自定义位置文件中出现的每个地名。 | File |
使用模糊匹配 (可选) | 指定将输入内容与自定义位置文件中指定的地名进行比较时是否使用模糊匹配。
| Boolean |
所提取的最大要素数 (可选) | 可提取要素的最大数量。 当达到最大数量时,工具将停止扫描输入内容中的位置。 在作为地理处理服务运行时,服务和服务器可能对允许的要素数量有不同的限制。 | Long |
忽略此第一个要素数 (可选) | 在提取所有其他要素之前检测到并忽略的要素数量。 该参数可用于集中搜索数据的特定部分。 | Long |
所用月份名称 (可选) | 指定是否搜索出现月份名称的日期(偶发误报)。 12 May 2003 和 January 15, 1997 为范例。
| Boolean |
M/D/Y 和 D/M/Y (可选) | 指定是否搜索数字格式为 M/D/Y 或 D/M/Y 的日期(中度误报)。 5/12/03 和 1-15-1997 为范例。
| Boolean |
YYYYMMDD (可选) | 指定是否搜索数字格式为 YYYYMMDD 的日期(中度误报)。 20030512 和 19970115 为范例。
| Boolean |
YYMMDD (可选) | 指定是否搜索数字格式为 YYMMDD 的日期(频发误报)。 030512 和 970115 为范例。
| Boolean |
YYJJJ (可选) | 指定是否搜索数字格式为 YYJJJ 或 YYYYJJJ 的日期(频发误报)。 03132 和 97015 为范例。
| Boolean |
所提取的最大日期数 (可选) | 提取日期的最大数量。 | Long |
忽略此第一个日期数 (可选) | 在提取所有其他日期之前将被检测并忽略的日期数量。 | Long |
可接受日期范围的最早日期 (可选) | 可接受的最早提取日期。 将提取与此值或更晚的值相匹配的检测日期。 | Date |
可接受日期范围的最近日期 (可选) | 可接受的最晚提取日期。 将提取与此值或更早的值相匹配的检测日期。 | Date |
输入自定义属性 (可选) | 将用于扫描输入内容的自定义属性文件(.lxtca)。 将在输出要素类的属性表中为文件中定义的所有自定义属性创建字段。 扫描输入内容时,将检查其中是否包含与文件中指定的所有自定义属性相关的文本。 找到匹配后,就会从输入内容中提取相应的文本并存储到相应的字段中。 | File |
输入文件链接文本 (可选) | 输入文件参数(Python 中的 in_file)传输到服务器时,输出数据中将作为文件名使用的文件路径。 如果未指定此参数,则将使用输入文件的路径,该路径可能是服务器上一个无法访问的文件夹。 未指定输入文件时,此参数不起作用。 | String |
输入文件日期和时间 (可选) | 当输入文件参数(Python 中的 in_file)被传输到服务器时,文件被修改的 UTC 日期和时间将被用作输出数据中的修改属性。 如果未指定此参数,则将使用输入文件的当前修改时间。 未指定输入文件时,此参数不起作用。 | Date |
前文本字段长度 (可选) | 从输入文档中提取内容,为找到的位置提供上下文。 该参数定义了在定义位置的文本前提取的最大字符数。 提取的文本存储在输出要素类属性表的 Pre-Text 字段中。 默认为 254。 Pre-Text 字段的数据类型也有这个长度。 形状文件中文本字段的长度限制为 254 个字符;当输出为形状文件时,较大的字符数将被截断为 254 个字符。 | Long |
后文本字段长度 (可选) | 从输入文档中提取内容,为找到的位置提供上下文。 该参数定义了在定义位置的文本后提取的最大字符数。 提取的文本存储在输出要素类属性表的 Post-Text 字段中。 默认为 254。 Post-Text 字段的数据类型也有这个长度。 形状文件中文本字段的长度限制为 254 个字符;当输出为形状文件时,较大的字符数将被截断为 254 个字符。 | Long |
坐标格式 (可选) | 指定用于存储坐标位置的坐标格式。 属性表中的一个字段记录了定义点要素的空间坐标的标准表达。
| String |
需要词内换行 (可选) | 指定是否使用词内换行搜索文本。 当单词(文本)由空格或标点符号(如欧洲语言)界定时,就会出现词内换行。 根据文本语言的不同,此设置可以生成频繁的误报或不频繁的误报。 例如,在不需要词内换行的情况下,英文文本 Bernard 将生成与文本 San Bernardino 匹配的结果,而这很可能被视为误报。 但是,当使用不使用词内换行的语言编写文本时,如果需要词内换行,则无法找到单词。 例如,对于 I flew to Tokyo(我飞往东京)这一日语文本,私は東京に飛んで,在不需要词内换行的情况下,您只能找到 Tokyo(东京)一词,東京。
| Boolean |
在 LocateXT 许可等级下可用。
摘要
分析包含非结构化或半结构化文本(例如电子邮件消息、行程表单等)的文档,并将位置提取到点要素类。
该工具可分析和处理输入文档,如下所示:
- 识别在文档内容中指定的空间坐标,并创建表示这些位置的点。可识别以下坐标格式:十进制度、度十进制分、度分秒、通用横轴墨卡托和军事格网参考系统。
- 识别在自定义位置文件中定义的文档内容中指定的地名,并创建表示这些位置的点。自定义位置文件会将地名与表示该位置的空间坐标相关联。
- 识别感兴趣文本,从文档中提取此信息,并将其记录在输出要素类属性表的字段中。
此工具支持所有 Microsoft Office 文档(Word、PowerPoint 和 Excel);Adobe PDF 文档;标记文本,例如 XML 和 HTML 文档;以及包含纯文本的任何文件,例如文本文件 (.txt)。
使用情况
参数默认值旨在优化坐标和日期的标识。 每个参数的默认值都可以修改。 修改的参数越少,工具的运行速度就越快。
所有坐标格式默认为打开。 如果只想提取自定义位置而不想提取空间坐标,请关闭坐标格式参数。
如果提供的输入是 Adobe PDF 文档,其内容包括空间坐标,且格式已打开,而输出要素类不包含表示空间坐标的要素,则您的计算机可能没有处理 PDF 文档所需的组件。
使用自定义位置文件提取地名时,最好在文件中指定较少的地名。 例如,如果您将一个代表世界上所有地方的要素类转换为自定义位置文件,那么在这个过程中,您可能需要花费大量时间来查找不可能存在的地方,或者在您不感兴趣的领域进行分析。
如果您感兴趣的地名拼写错误或有已知的变体,那么在自定义位置文件中指定常见的拼写错误和替代地名,而不是使用模糊匹配,通常会得到更好的结果。 开启模糊匹配后,如果地名中 70% 的字符与输入内容匹配,就会得到一个输出位置。 与提供已知的替代地名和拼写错误相比,这可能会产生更多的误报。
模糊匹配的一个有用工作流程是,首先在关闭模糊匹配的情况下运行工具。 然后,再次在打开模糊匹配的情况下运行工具并检查结果。 这有助于识别可添加到自定义位置文件的拼写差异。
参数
arcpy.conversion.ExtractLocationsDocument(in_file, out_feature_class, {in_template}, {coord_dd_latlon}, {coord_dd_xydeg}, {coord_dd_xyplain}, {coord_dm_latlon}, {coord_dm_xymin}, {coord_dms_latlon}, {coord_dms_xysec}, {coord_dms_xysep}, {coord_utm}, {coord_ups_north}, {coord_ups_south}, {coord_mgrs}, {coord_mgrs_northpolar}, {coord_mgrs_southpolar}, {comma_decimal}, {coord_use_lonlat}, {in_coor_system}, {in_custom_locations}, {fuzzy_match}, {max_features_extracted}, {ignore_first_features}, {date_monthname}, {date_m_d_y}, {date_yyyymmdd}, {date_yymmdd}, {date_yyjjj}, {max_dates_extracted}, {ignore_first_dates}, {date_range_begin}, {date_range_end}, {in_custom_attributes}, {file_link}, {file_mod_datetime}, {pre_text_length}, {post_text_length}, {std_coord_fmt}, {req_word_breaks})
名称 | 说明 | 数据类型 |
in_file | 将扫描以查找位置 (坐标或自定义位置)、日期和自定义属性的输入文件;或者将扫描其中所有文件以查找位置的文件夹。 | File |
out_feature_class | 包含点要素的要素类,代表找到的位置。 | Feature Class |
in_template (可选) | 模板文件(*.lxttmpl)用于确定每个工具参数的设置。 如果提供了模板文件,除了决定要处理的输入内容和输出要素类的参数值外,其他参数的所有指定值都将被忽略。 提取位置窗格中的某些设置只有在保存到模板文件时才可用,而模板文件在此参数中被引用。 按如下所示设置:
| File |
coord_dd_latlon (可选) | 指定是否搜索以十进制度数格式存储的经纬度坐标(偶发误报)。 例如:33.8N 77.035W 和 W77N38.88909。
| Boolean |
coord_dd_xydeg (可选) | 指定是否搜索以十进制度数格式存储的带度数符号的 X Y 坐标(偶发误报)。 例如:38.8° -77.035° 和 -077d+38.88909d。
| Boolean |
coord_dd_xyplain (可选) | 指定是否搜索以十进制度数格式存储的不带符号的 X Y 坐标(频发误报)。 例如:38.8 -77.035 和 -077.0, +38.88909。
| Boolean |
coord_dm_latlon (可选) | 指定是否搜索以度十进制分格式存储的经纬度坐标(偶发误报)。 例如:3853.3N 7702.100W 和 W7702N3853.3458。
| Boolean |
coord_dm_xymin (可选) | 指定是否搜索以度十进制分格式存储的带有分符号的 X Y 坐标(偶发误报)。 例如:3853' -7702.1' 和 -07702m+3853.3458m。
| Boolean |
coord_dms_latlon (可选) | 指定是否搜索以度分秒格式存储的经纬度坐标(偶发误报)。 例如:385320.7N 770206.000W 和 W770206N385320.76。
| Boolean |
coord_dms_xysec (可选) | 指定是否搜索以度分秒格式存储的带有秒符号的 X Y 坐标(偶发误报)。 例如:385320" -770206.0" 和 -0770206.0s+385320.76s。
| Boolean |
coord_dms_xysep (可选) | 指定是否搜索以度分秒格式存储的带分隔符的 X Y 坐标(中度误报)。 例如:8:53:20 -77:2:6.0 和 -077/02/06/+38/53/20.76。
| Boolean |
coord_utm (可选) | 指定是否搜索通用横轴墨卡托 (UTM) 坐标(偶发误报)。 例如:18S 323503 4306438 和 18 north 323503.25 4306438.39。
| Boolean |
coord_ups_north (可选) | 指定是否在北极地区搜索通用极方位立体投影 (UPS) 坐标(偶发误报)。 例如:Y 2722399 2000000 和 north 2722399 2000000。
| Boolean |
coord_ups_south (可选) | 指定是否在南极地区搜索通用极方位立体投影 (UPS) 坐标(偶发误报)。 例如:A 2000000 3168892 和 south 2000000 3168892。
| Boolean |
coord_mgrs (可选) | 指定是否搜索军事网格参考系统 (MGRS) 坐标(偶发误报)。 例如:18S UJ 13503 06438 和 18SUJ0306。
| Boolean |
coord_mgrs_northpolar (可选) | 指定是否在北极地区搜索军事网格参考系统 (MGRS) 坐标(偶发误报)。 例如:Y TG 56814 69009 和 YTG5669。
| Boolean |
coord_mgrs_southpolar (可选) | 指定是否在南极地区搜索军事网格参考系统 (MGRS) 坐标(中度误报)。 例如:A TN 56814 30991 和 ATN5630。
| Boolean |
comma_decimal (可选) | 指定是否将逗号 (,) 识别为小数分隔符。 默认情况下,扫描内容的空间坐标由使用句号 (.) 或中间点 (·) 作为小数分隔符的数字定义,例如:Lat 01° 10·80’ N Long 103° 28·60’ E。 如果您要处理的内容中,空间坐标被定义为使用逗号 (,) 作为十进制分隔符的数字,例如:52° 8′ 32,14″ N; 5° 24′ 56,09″ E,请将此参数设置为识别逗号作为十进制分隔符。 该参数不会根据计算机操作系统的区域设置自动设置。
| Boolean |
coord_use_lonlat (可选) | 当数字与 x、y 坐标类似,两个数字都小于 90,并且没有用于表示哪个数字代表纬度或经度的符号或注记时,结果可能是模糊的。 将数字解释为经度-纬度坐标 (x,y),而不是纬度-经度坐标(即 y,x)。
| Boolean |
in_coor_system (可选) | 用于解释输入中定义的空间坐标的坐标系。 默认为 GCS WGS 84。 | Spatial Reference |
in_custom_locations (可选) | 扫描输入内容时将使用的自定义位置文件 (.lxtgaz)。 在其他工具参数设定的限制范围内,创建一个点来代表自定义位置文件中出现的每个地名。 | File |
fuzzy_match (可选) | 指定是否在搜索自定义位置文件时使用模糊匹配。
| Boolean |
max_features_extracted (可选) | 可提取要素的最大数量。 当达到最大数量时,工具将停止扫描输入内容中的位置。 在作为地理处理服务运行时,服务和服务器可能对允许的要素数量有不同的限制。 | Long |
ignore_first_features (可选) | 在提取所有其他要素之前检测到并忽略的要素数量。 该参数可用于集中搜索数据的特定部分。 | Long |
date_monthname (可选) | 指定是否搜索出现月份名称的日期(偶发误报)。 12 May 2003 和 January 15, 1997 为范例。
| Boolean |
date_m_d_y (可选) | 指定是否搜索数字格式为 M/D/Y 或 D/M/Y 的日期(中度误报)。 5/12/03 和 1-15-1997 为范例。
| Boolean |
date_yyyymmdd (可选) | 指定是否搜索数字格式为 YYYYMMDD 的日期(中度误报)。 20030512 和 19970115 为范例。
| Boolean |
date_yymmdd (可选) | 指定是否搜索数字格式为 YYMMDD 的日期(频发误报)。 030512 和 970115 为范例。
| Boolean |
date_yyjjj (可选) | 指定是否搜索数字格式为 YYJJJ 或 YYYYJJJ 的日期(频发误报)。 03132 和 97015 为范例。
| Boolean |
max_dates_extracted (可选) | 提取日期的最大数量。 | Long |
ignore_first_dates (可选) | 在提取所有其他日期之前将被检测并忽略的日期数量。 | Long |
date_range_begin (可选) | 可接受的最早提取日期。 将提取与此值或更晚的值相匹配的检测日期。 | Date |
date_range_end (可选) | 可接受的最晚提取日期。 将提取与此值或更早的值相匹配的检测日期。 | Date |
in_custom_attributes (可选) | 将用于扫描输入内容的自定义属性文件(.lxtca)。 将在输出要素类的属性表中为文件中定义的所有自定义属性创建字段。 扫描输入内容时,将检查其中是否包含与文件中指定的所有自定义属性相关的文本。 找到匹配后,就会从输入内容中提取相应的文本并存储到相应的字段中。 | File |
file_link (可选) | 输入文件参数(Python 中的 in_file)传输到服务器时,输出数据中将作为文件名使用的文件路径。 如果未指定此参数,则将使用输入文件的路径,该路径可能是服务器上一个无法访问的文件夹。 未指定输入文件时,此参数不起作用。 | String |
file_mod_datetime (可选) | 当输入文件参数(Python 中的 in_file)被传输到服务器时,文件被修改的 UTC 日期和时间将被用作输出数据中的修改属性。 如果未指定此参数,则将使用输入文件的当前修改时间。 未指定输入文件时,此参数不起作用。 | Date |
pre_text_length (可选) | 从输入文档中提取内容,为找到的位置提供上下文。 该参数定义了在定义位置的文本前提取的最大字符数。 提取的文本存储在输出要素类属性表的 Pre-Text 字段中。 默认为 254。 Pre-Text 字段的数据类型也有这个长度。 形状文件中文本字段的长度限制为 254 个字符;当输出为形状文件时,较大的字符数将被截断为 254 个字符。 | Long |
post_text_length (可选) | 从输入文档中提取内容,为找到的位置提供上下文。 该参数定义了在定义位置的文本后提取的最大字符数。 提取的文本存储在输出要素类属性表的 Post-Text 字段中。 默认为 254。 Post-Text 字段的数据类型也有这个长度。 形状文件中文本字段的长度限制为 254 个字符;当输出为形状文件时,较大的字符数将被截断为 254 个字符。 | Long |
std_coord_fmt (可选) | 指定用于存储坐标位置的坐标格式。 属性表中的一个字段记录了定义点要素的空间坐标的标准表达。
| String |
req_word_breaks (可选) | 指定是否使用词内换行搜索文本。 当单词(文本)由空格或标点符号(如欧洲语言)界定时,就会出现词内换行。 根据文本语言的不同,此设置可以生成频繁的误报或不频繁的误报。 例如,在不需要词内换行的情况下,英文文本 Bernard 将生成与文本 San Bernardino 匹配的结果,而这很可能被视为误报。 但是,当使用不使用词内换行的语言编写文本时,如果需要词内换行,则无法找到单词。 例如,对于 I flew to Tokyo(我飞往东京)这一日语文本,私は東京に飛んで,在不需要词内换行的情况下,您只能找到 Tokyo(东京)一词,東京。
| Boolean |
代码示例
以下 Python 窗口脚本演示了如何在即时模式下使用 ExtractLocationsFromDocument 函数。
import arcpy
arcpy.env.workspace = "c:/data"
arcpy.conversion.ExtractLocationsFromDocument("wells.docx", "water.gdb/wells")
许可信息
- Basic: 需要 LocateXT
- Standard: 需要 LocateXT
- Advanced: 需要 LocateXT