Извлечь местоположения из текста (Конвертация)

ArcGIS Pro 3.4 | | Архив справки

Доступно с лицензией LocateXT.

Краткая информация

Анализирует входной текст или текстовый файл и извлекает местоположения в класс точечных объектов

Если входной текст представляет собой путь к файлу, идентифицированный файл будет открыт и его содержимое будет проанализировано. Если входной текст представляет собой неструктурированную информацию, например, сообщение электронной почты, или полуструктурированный текст, например, путевой бланк, то анализируется сам входной текст. Инструмент извлекает местоположения, найденные в тексте или содержимом файла, и добавляет полученные точки в класс пространственных объектов.

Инструмент анализирует и обрабатывает текст следующим образом:

  • Распознает пространственные координаты, указанные в содержимом текста, и создает точки, представляющие эти местоположения. Распознаются следующие форматы координат: десятичные градусы, градусы десятичные минуты, градусы минуты секунды, Universal Transverse Mercator и Military Grid Reference System.
  • Распознает указанные в тексте имена мест, найденные в пользовательском файле местоположения, и создает точки, представляющие эти местоположения. Пользовательский файл местоположений связывает название места с пространственной координатой, представляющей это местоположение.
  • Распознает интересующий текст, извлекает эту информацию из предоставленного текста и записывает ее в поля таблицы атрибутов выходного класса пространственных объектов.

Использование

  • Значения параметров по умолчанию предназначены для оптимизации определения координат и дат. Для каждого параметра значения по умолчанию можно изменить. Чем меньше параметров изменено, тем быстрее будет работать инструмент.

  • По умолчанию включены все форматы координат. Если вы хотите извлечь только пользовательские местоположения и не хотите извлекать пространственные координаты, выключите параметры формата координат.

  • Если в качестве входных данных предоставлен документ Adobe PDF, и он содержит пространственные координаты в формате, который включен, а выходной класс объектов не содержит объект, представляющий координаты, на вашем компьютере может отсутствовать компонент, необходимый для обработки PDF-документов.

    Подробнее о сканированных файлах

  • Если вы используете файл пользовательских местоположений для извлечения названий мест, рекомендуется указывать меньшее количество названий мест в файле. Например, если вы конвертируете класс объектов, представляющий все места в мире, в файл пользовательских местоположений, обработка может занять много времени из-за поиска местоположений, которые не нужны, или поиска в областях мира, которые не интересны для вашего анализа.

    Более подробно о файлах пользовательских местоположений

  • Если интересующие вас названия мест могут быть написаны с ошибками или иметь известные варианты, вы, как правило, получите лучшие результаты, указав распространенные орфографические ошибки и альтернативные названия мест в файле пользовательских местоположений вместо использования неточного совпадения. Если неточное совпадение включено, вы получите выходное местоположение, если 70 процентов символов в названии места совпадают с содержанием входных данных. Оно приведет в большему числу ложно-положительных результатов, чем если бы вы указали известные варианты и орфографические ошибки.

    Практичный рабочий процесс для неточного сопоставления заключается в том, чтобы сначала запустить инструмент с отключенным нечетким совпадением. Затем запустить инструмент снова с включенным неточным совпадением и проверить результаты. Это поможет вам найти варианты написания, которые можно добавить в файл пользовательских местоположений.

    Более подробно о неточном совпадении

Параметры

ПодписьОписаниеТип данных
Входной текст или путь к файлу

Текст, который будет сканироваться для поиска местоположений (координат или пользовательских местоположений), дат и пользовательских атрибутов; или текст, определяющий путь к файлу, содержимое которого будет сканироваться для поиска местоположений. Для сервисов геообработки, когда указан путь к файлу, файл должен быть доступен из сервиса, так как он не передается на сервер.

String
Выходной класс объектов

Класс пространственных объектов, содержащий точечные объекты, представляющие найденные местоположения.

Feature Class
Входной шаблон
(Дополнительный)

Файл шаблона (*.lxttmpl), определяющий настройки, используемые для каждого параметра инструмента. При предоставлении файла шаблона все значения, указанные для других параметров, будут проигнорированы, за исключением тех, что определяют входное содержание, которое будет обработано, и выходной класс пространственных объектов.

Некоторые настройки, имеющиеся на панели Извлечь местоположения доступны для этого инструмента только когда настройки сохранены в файл шаблона, в этом параметре указана ссылка на файл шаблона. Это следующие настройки:

  • Пространственные координаты в формате x,y — Позволяет распознавать два последовательных числа, таких как 630084 4833438 или 981075.652ftUS 607151.272ftUS, как координаты, когда они являются допустимыми для плоскостной системы координат, связанной с входными документами. Можно указать будут ли распознаваться как координаты только числа с единицами измерения и без них, или только числа с единицами измерения.
  • Пользовательские форматы координат и даты — Позволяет настроить, как текст распознается в качестве пространственных координат или даты, особенно когда он написан на языке, отличном от английского, или использует формат, не принятый в США. Например, пространственная координата, записанная как 30 20 10 N x 060 50 40 W, может быть распознана с помощью настройки для распознавания символа x как допустимого текста между широтой и долготой. Координаты и даты, такие как 60.91°N, 147.34°O и 17 juillet, 2018, могут быть распознаны, если заданы настройки с учетом языка документов, в данном случае французского. Также, когда используется двухзначное обозначение лет, вы можете управлять диапазоном лет, которым они соответствуют.
  • Предпочтения для некоторых неоднозначных дат — Даты, такие как 10/12/2019 являются неоднозначными, так как их можно интерпретировать и как 12 октября 2019 года, и как 10 декабря 2019 года. Некоторые страны использую в качестве стандарта формат даты м/д/гг, другие - формат д/м/гг. Предпочтения можно задать для того, как интерпретировать такие неоднозначные даты: или как м/д/гг, или как д/м/гг, в зависимости от страны происхождения документа.
  • Длина полей выходного класса объектов — Можно указать длину полей, содержащих текст, окружающий пространственные координаты, которые извлекаются из документа, при помощи параметров Длина поля предварительного текста (pre_text_length in Python) и Длина поля завершающего текста (post_text_length в Python). Панель Извлечь местоположения позволяет управлять длиной нескольких дополнительных полей в таблице атрибутов, включая поля, содержащие даты, извлеченные из документа, исходный текст, конвертированный в даты, имя файла, откуда была извлечена информация, и т.д.

File
Широта и долгота
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных в десятичных градусах, отформатированных как широта и долгота (редкие ложные срабатывания). Примеры: 33.8N 77.035W и W77N38.88909.

  • Отмечено — Инструмент выполнит поиск координат в десятичных градусах, отформатированных как широта и долгота. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат в десятичных градусах, отформатированных как широта и долгота.
Boolean
X Y с символами градуса
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных в десятичных градусах, отформатированных как X Y с символами градуса (редкие ложные срабатывания). Примеры: 38.8° -77.035° и -077d+38.88909d.

  • Отмечено — Инструмент выполнит поиск координат в десятичных градусах, отформатированных как X Y с символами градуса. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат в десятичных градусах, отформатированных как X Y с символами градуса.
Boolean
X Y без символов
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных в десятичных градусах, отформатированных как X Y без символов (редкие ложные срабатывания). Примеры: 38.8 -77.035 и -077.0, +38.88909.

  • Отмечено — Инструмент выполнит поиск координат в десятичных градусах, отформатированных как X Y без символов (редкие ложные срабатывания). Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат в десятичных градусах, отформатированных как X Y без символов.
Boolean
Широта и долгота
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных как градусы с десятичными минутами, отформатированных как широта и долгота (редкие ложные срабатывания). Примеры: 3853.3N 7702.100W и W7702N3853.3458.

  • Отмечено — Инструмент выполнит поиск координат в градусах с десятичными минутами, отформатированных как широта и долгота. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат в градусах с десятичными минутами, отформатированных как широта и долгота.
Boolean
X Y с символами минут
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных как градусы с десятичными минутами, отформатированных как X Y с символами минут (редкие ложные срабатывания). Примеры: 3853' -7702.1' и -07702m+3853.3458m.

  • Отмечено — Инструмент выполнит поиск координат в градусах с десятичными минутами, отформатированных как X Y с символами минут. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат в градусах с десятичными минутами, отформатированных как X Y с символами минут.
Boolean
Широта и долгота
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных как градусы минуты секунды, отформатированных как широта и долгота (редкие ложные срабатывания). Примеры: 385320.7N 770206.000W и W770206N385320.76.

  • Отмечено — Инструмент выполнит поиск координат в градусах минутах секундах, отформатированных как широта и долгота. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат в градусах минутах секундах, отформатированных как широта и долгота.
Boolean
X Y с символами секунд
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных как градусы минуты секунды, отформатированных как X Y с символами секунд (редкие ложные срабатывания). Примеры: 385320" -770206.0" и -0770206.0s+385320.76s.

  • Отмечено — Инструмент выполнит поиск координат в градусах минутах секундах, отформатированных как X Y с символами секунд. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат в градусах минутах секундах, отформатированных как X Y с символами секунд.
Boolean
X Y с разделителями
(Дополнительный)

Указывает, следует ли выполнять поиск координат, сохраненных как градусы минуты секунды, отформатированных как X Y с разделителями (умеренные ложные срабатывания). Примеры: 38:53:20 -77:2:6.0 и -077/02/06/+38/53/20.76.

  • Отмечено — Инструмент выполнит поиск координат в градусах минутах секундах, отформатированных как X Y с разделителями. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат в градусах минутах секундах, отформатированных как X Y с разделителями.
Boolean
Universal Transverse Mercator
(Дополнительный)

Указывает, будет ли выполняться поиск координат в Универсальной поперечной проекции Меркатора (UTM) (редкие ложные срабатывания). Примеры: 18S 323503 4306438 и 18 north 323503.25 4306438.39.

  • Отмечено — Инструмент выполнит поиск координат UTM. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат UTM.
Boolean
UPS North Polar
(Дополнительный)

Указывает, будет ли выполняться поиск координат в Универсальной полярной стереографической проекции в северной полярной области (редкие ложные срабатывания). Примеры: Y 2722399 2000000 и north 2722399 2000000.

  • Отмечено — Инструмент выполнит поиск координат UPS в северной полярной области. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат UPS в северной полярной области.
Boolean
UPS South Polar
(Дополнительный)

Указывает, будет ли выполняться поиск координат в Универсальной полярной стереографической проекции в южной полярной области (редкие ложные срабатывания). Примеры: A 2000000 3168892 и south 2000000 3168892.

  • Отмечено — Инструмент выполнит поиск координат UPS в южной полярной области. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат UPS в южной полярной области.
Boolean
Military Grid Reference System
(Дополнительный)

Указывает, будет ли выполняться поиск координат Military Grid Reference System (MGRS) (редкие ложные срабатывания). Примеры: 18S UJ 13503 06438 и 18SUJ0306.

  • Отмечено — Инструмент выполнит поиск координат MGRS. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат MGRS.
Boolean
North Polar
(Дополнительный)

Указывает, будет ли выполняться поиск координат Military Grid Reference System (MGRS) в северной полярной области (редкие ложные срабатывания). Примеры: Y TG 56814 69009 и YTG5669.

  • Отмечено — Инструмент выполнит поиск координат MGRS в северной полярной области. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат MGRS в северной полярной области.
Boolean
South Polar
(Дополнительный)

Указывает, будет ли выполняться поиск координат Military Grid Reference System (MGRS) в южной полярной области (умеренные ложные срабатывания). Примеры: A TN 56814 30991 и ATN5630.

  • Отмечено — Инструмент выполнит поиск координат MGRS в южной полярной области. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск координат MGRS в южной полярной области.
Boolean
Использовать запятую как разделитель десятичных знаков
(Дополнительный)

Указывает, будет ли запятая (,) распознаваться как разделитель десятичных знаков. По умолчанию, ресурсы, которые сканируются на наличие пространственных координат, заданных числами, используют в качестве разделителя десятичных знаков точку (.) или среднюю точку (·), например: Lat 01° 10·80’ N Long 103° 28·60’ E. Если вы работаете с ресурсом, в котором пространственные координаты заданы числами, использующими в качестве разделителя десятичных знаков запятую (,) например: 52° 8′ 32,14″ N; 5° 24′ 56,09″ E, настройте этот параметр для распознавания запятой как разделителя. Этот параметр не задается автоматически на основании региональных установок операционной системы вашего компьютера.

  • Отмечено — Запятая будет распознаваться как разделитель десятичных знаков.
  • Не отмечено — Точка или средняя точка будет распознаваться как разделитель десятичных знаков. Это значение по умолчанию
Boolean
Интерпретировать как долготу, широту
(Дополнительный)

Указывает, будут ли координаты x,y интерпретированы как долгота-широта Когда числа похожи на координаты x,y, оба меньше 90, но нет символов или обозначений, указывающих, что из них представляет широту или долготу, могут получиться неопределенные результаты. Интерпретировать числа как координаты долготы- широты (x,y), вместо широты-долготы (y,x).

  • Отмечено — Координаты x,y будут интерпретированы как долгота-широта.
  • Не отмечено — Координаты x,y будут интерпретированы как широта-долгота. Это значение по умолчанию
Boolean
Входная система координат
(Дополнительный)

Система координат, которая будет использоваться для интерпретации пространственных координат, заданных во входных данных. GCS-WGS-84 - значение по умолчанию.

Spatial Reference
Входные пользовательские местоположения
(Дополнительный)

Файл пользовательских местоположений (.lxtgaz), который будет использоваться при сканировании входных данных. Создается точка, представляющая каждое упоминание каждого названия места в файле пользовательских местоположений в пределах, установленных другими параметрами инструмента.

File
Использовать неточное совпадение
(Дополнительный)

Указывает, будет ли использоваться неточное совпадение при сравнении входных данных с названиями мест, заданных в файле пользовательских местоположений.

  • Отмечено - неточное совпадение будет использоваться при поиске в файле пользовательских местоположений.
  • Отмечено - точное совпадение будет использоваться при поиске в файле пользовательских местоположений. Это значение по умолчанию
Boolean
Максимальное число извлеченных объектов
(Дополнительный)

Максимальное число объектов, которые можно извлечь. Инструмент прекратит сканирование входного ресурса на наличие местоположений, когда будет достигнуто максимальное число. При запуске в качестве сервиса геообработки, сервис и сервер могут иметь раздельные ограничения на допустимое число объектов.

Long
Игнорировать это первое число объектов
(Дополнительный)

Число объектов, выявленных и проигнорированных до извлечения всех остальных объектов. Этот параметр можно использовать для фокусировки поиска на определенной части данных.

Long
Использованное имя месяца
(Дополнительный)

Указывает, будет ли выполняться поиск дат, в которых встречается название месяца (редкие ложные срабатывания). 12 May 2003 и January 15, 1997 являются примерами.

  • Отмечено — Инструмент выполнит поиск дат, в которых встречается название месяца. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск дат, в которых встречается название месяца.
Boolean
М/Д/Г и Д/М/Г
(Дополнительный)

Указывает, будет ли выполняться поиск дат, в которых числа находятся в формате М/Д/Г или Д/М/Г (умеренные ложные срабатывания). 5/12/03 и 1-15-1997 являются примерами.

  • Отмечено — Инструмент выполнит поиск дат, в которых числа находятся в формате М/Д/Г или Д/М/Г (умеренные ложные срабатывания). Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск дат, в которых числа находятся в формате М/Д/Г или Д/М/Г.
Boolean
ГГГГММДД
(Дополнительный)

Указывает, будет ли выполняться поиск дат, в которых числа находятся в формате ГГГГММДД (умеренные ложные срабатывания). 20030512 и 19970115 являются примерами.

  • Отмечено — Инструмент выполнит поиск дат, в которых числа находятся в формате ГГГГММДД (умеренные ложные срабатывания). Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск дат, в которых числа находятся в формате ГГГГММДД.
Boolean
ГГММДД
(Дополнительный)

Указывает, будет ли выполняться поиск дат, в которых числа находятся в формате ГГММДД (частые ложные срабатывания). 030512 и 970115 являются примерами.

  • Отмечено — Инструмент выполнит поиск дат, в которых числа находятся в формате ГГММДД (частые ложные срабатывания). Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск дат, в которых числа находятся в формате ГГММДД.
Boolean
YYJJJ
(Дополнительный)

Указывает, будет ли выполняться поиск дат, в которых числа находятся в формате YYJJJ или YYYYJJJ (частые ложные срабатывания). 03132 и 97015 являются примерами.

  • Отмечено — Инструмент выполнит поиск дат, в которых числа находятся в формате YYJJJ или YYYYJJJ (частые ложные срабатывания). Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск дат, в которых числа находятся в формате YYJJJ или YYYYJJJ.
Boolean
Максимальное число извлеченных дат
(Дополнительный)

Максимальное число дат, которые будут извлечены.

Long
Игнорировать это первое число дат
(Дополнительный)

Количество дат, выявленных и проигнорированных до извлечения всех остальных дат.

Long
Самая ранняя дата допустимого диапазона дат
(Дополнительный)

Самая ранняя допустимая дата для извлечения. Будут извлечены обнаруженные даты, соответствующие этому значению или более поздние.

Date
Самая поздняя дата допустимого диапазона дат
(Дополнительный)

Самая поздняя допустимая дата для извлечения. Будут извлечены обнаруженные даты, соответствующие этому значению или более ранние.

Date
Входные пользовательские атрибуты
(Дополнительный)

Файл пользовательских атрибутов (.lxtca), который будет использоваться при сканировании входных данных. Для всех пользовательских атрибутов, определенных в файле, будут созданы поля в таблице атрибутов выходного класса объектов. Когда входное содержание будет отсканировано, оно будет проверено на наличие текста, связанного со всеми пользовательскими атрибутами, указанными в файле. Если совпадение найдено, соответствующий текст извлекается из входных данных и сохраняется в соответствующем поле.

File
Текст ссылки на входной файл
(Дополнительный)

Путь к файлу, который будет использоваться как имя файла в выходных данных, когда параметр Входной файл (in_file в Python) передается на сервер. Если этот параметр не задан, будет использован путь к Входному файлу, который может быть недоступной папкой на сервере. Этот параметр ни на что не влияет, если не указан Входной файл.

String
Дата и время входного файла
(Дополнительный)

Дата и время UTC, когда был изменен файл, будут использоваться как атрибут изменения в выходных данных, когда параметр Входной файл (in_file в Python) передается на сервер. Если параметр не указан, будет использовано текущее время изменения входного файла. Этот параметр ни на что не влияет, если не указан Входной файл.

Date
Длина поля предварительного текста
(Дополнительный)

Содержание, извлеченное из входного документа, для обеспечения контекста найденного местоположения. Этот параметр задает максимальное число символов, которые будут извлечены перед текстом, определяющим местоположение. Извлеченный текст хранится в поле Pre-Text в атрибутивной таблице выходного класса объектов. По умолчанию - 254. Тип данных поля Pre-Text также будет иметь такую длину. Для текстового поля в шейп-файле ограничена 254 символами. Если выходными данными является шейп-файл, большее число символов будет сокращено до 254.

Long
Длина поля завершающего текста
(Дополнительный)

Содержание, извлеченное из входного документа, для обеспечения контекста найденного местоположения. Этот параметр задает максимальное число символов, которые будут извлечены после текста, определяющего местоположение. Извлеченный текст хранится в поле Post-Text в атрибутивной таблице выходного класса объектов. По умолчанию - 254. Тип данных поля Post-Text также будет иметь такую длину. Для текстового поля в шейп-файле ограничена 254 символами. Если выходными данными является шейп-файл, большее число символов будет сокращено до 254.

Long
Формат координат
(Дополнительный)

Указывает формат координат, который будет использован для хранения координатного местоположения. Стандартное представление пространственных координат, определяющих точечный объект, записывается в поле таблицы атрибутов.

  • DD – Десятичные градусыКоординатное местоположение записывается в формате десятичных градусов. Это значение по умолчанию
  • DM – Градусы с десятичными минутамиКоординатное местоположение записывается в формате градусов с десятичными минутами.
  • DMS – Градусы Минуты СекундыКоординатное местоположение записывается в формате градусы минуты секунды.
  • UTM – Универсальная поперечная проекция МеркатораКоординатное местоположение записывается в формате Universal Transverse Mercator.
  • MGRS – Военная система прямоугольных координат СШАКоординатное местоположение записывается в формате Military Grid Reference System.
String
Необходимы разделители слов
(Дополнительный)

Указывает, будет ли поиск текста использовать разделители слов. Разрыв слова происходит, когда слова (текст) разделены пробелами или знаками препинания, как в европейских языках.

Эта настройка может давать как частые, так и редкие ложные срабатывания, в зависимости от языка, на котором написан текст. Например, если разделители слов не заданы, текст на английском Bernard приведет к совпадению с текстом San Bernardino, то, скорее всего, был бы расценен как ложное срабатывание. Однако если текст написан на языке, не использующем разделители слов, вы не сможете найти слова, когда необходимы разделители слов. Например, в тексте I flew to Tokyo на японском, 私は東京に飛んで, вы сможете найти слово Tokyo, 東京, только если разделители слов не требуются.

  • Отмечено — Инструмент выполнит поиск слов, ограниченных пробелами или символами пунктуации. Это значение по умолчанию
  • Не отмечено — Инструмент не будет выполнять поиск слов, ограниченных пробелами или символами пунктуации.
Boolean

Информация о лицензиях

  • Basic: Обязательно LocateXT
  • Standard: Обязательно LocateXT
  • Advanced: Обязательно LocateXT

Связанные разделы