Извлечение местоположений из документов и текста

Доступно с лицензией LocateXT.

В качестве элемента дополнительного модуля ArcGIS LocateXT, панель ArcGIS Pro Извлечь местоположения позволяет вам сканировать документы и тексты и находить пространственные координаты и пользовательские местоположения. Откройте карту, в которую вы планируете добавить найденные местоположения. Точки, представляющие местоположения, хранятся в классе объектов и добавляются на активную карту в виде слоя.

Откройте панель Извлечь местоположения

Карта должна быть активной ArcGIS Pro, чтобы могла быть открыта панель Извлечь местоположения.

  1. Создайте или откройте карту. Например, на вкладке Вставка в группе Проект щелкните Новая карта.
  2. На вкладке Карта в группе Слой щелкните ниспадающее меню Добавить данные и выберите Извлечь местоположения Извлечь местоположения.

Извлечь местоположения

На панели Извлечь местоположения вкладка Извлечь позволяет вам указать следующее:

  • Файлы, папки или текст, который будет просканирован для поиска местоположений
  • Имя слоя карты и выходного класса пространственных объектов, которые будут созданы или обновлены
  • Система координат выходного класса пространственных объектов при его создании

Каждый раз, когда вы извлекаете местоположения из документов или текста, вы можете выбрать, создается ли новый класс пространственных объектов и добавляется ли новый слой к активной карте, обновляется ли существующий слой карты и класс пространственных объектов или перезаписывается существующий класс пространственных объектов

Добавление нового слоя на карту

Создается класс объектов, в котором будут храниться извлеченные местоположения. В активной карте создается слой карты для отображения содержания класса объектов.

  1. Откройте панель Извлечь местоположения.
  2. Укажите имя нового слоя карты и класса пространственных объектов, которые будут созданы.
    • Введите имя нового слоя карты и класса пространственных объектов в поле со списком Имя. Новый класс пространственных объектов будет создан с этим именем в базе геоданных проекта по умолчанию.
    • Щелкните кнопку Обзор Обзор. В диалоговом окне Новый класс пространственных объектов перейдите к местоположению, в котором вы хотите создать новый класс пространственных объектов или шейп-файл. Введите имя нового элемента в текстовом поле Имя и щелкните Сохранить.
      Внимание:

      Если вы выберете существующий класс пространственных объектов вместо указания имени нового класса, на панели Извлечь местоположения появится предупреждение. Существующий класс пространственных объектов будет удален, и будет создан новый класс пространственных объектов с тем же именем. Это может повлиять на другие карты.

  3. Щелкните ниспадающий список Система координат или кнопку Выбрать систему координат Система координат и выберите систему координат, которую вы хотите использовать для выходного класса объектов.

    Система координат входных объектов указывается независимо, на вкладке Координаты и в файле пользовательских местоположений. Найденные местоположения преобразуются в систему координат выходного класса объектов.

  4. Щелкните вкладку Файлы и папки и укажите любые элементы, в которых необходимо найти местоположения.
    • Перетащите файлы и папки из Windows Explorer на вкладку.
    • Щелкните Обзор. В диалоговом окне Добавить файлы и папки перейдите к нужным файлам или папкам, выделите их и щелкните OK. Щелкните Добавить еще, чтобы добавить в список другие файлы и папки.
  5. Щелкните вкладку Текст и укажите любой текст, в котором необходимо найти местоположения.
    • Скопируйте текст из документа, сообщения электронной почты или веб-страницы и поместите его на вкладку.
    • Выберите текст для сканирования в документе, сообщении эл.почты или на веб-странице. Перетащите его в ArcGIS Pro и непосредственно на вкладку.
  6. В качестве входных данных обязательно нужно выбрать как минимум один файл или папку, либо текст. Если необходимо, они все могут быть обработаны одновременно.
  7. Щёлкните Извлечь.

Выполнение процесса можно отменить в любой момент. Когда процесс будет завершен, внизу панели появится сообщение, информирующее, был ли процесс успешным.

Будет создан указанный класс объектов, и найденные местоположения будут сохранены в классе объектов в виде точек. Слой карты, ссылающийся на класс объектов, будет добавлен на активную карту. Если в документе или тексте не было найдено местоположений, класс объектов и слой карты будут пустыми.

Примечание:

Если вы решили перезаписать существующий класс пространственных объектов, который ранее был добавлен на карту, то будет создан и добавлен новый слой карты, который будет ссылаться на новый класс пространственных объектов.

Чтобы извлечь местоположения из другого набора документов или текста, скопированного из другого расположения, щелкните Очистить все входные данные в нижней части вкладки Извлечь. Все файлы будут удалены из списка на вкладке Файлы и папки и весь текст будет удален на вкладке Текст. Укажите новый набор элементов для обработки.

Обновление существующего слоя на карте

Вы можете последовательно добавлять местоположения в существующий класс объектов. Например, каждую неделю вы можете обрабатывать новый набор отчетов и добавлять местоположения из этих файлов в существующий набор. Или, после обработки некоторого набора документов, когда вы довольны результатом, вы можете обработать дополнительные документы и добавить эти дополнительные местоположения в существующий класс объектов.

  1. Откройте панель Извлечь местоположения.
  2. Щелкните ниспадающий список Имя и выберите существующий слой карты, который будет обновлен.

    Местоположения, извлеченные из документов и текста, будут добавлены в существующий класс объектов, на который ссылается данный слой карты. Элементы управления, используемые для задания системы координат выходного класса пространственных объектов, будут отключены.

  3. Щелкните вкладку Файлы и папки и укажите любые элементы, в которых необходимо найти местоположения.
  4. Щелкните вкладку Текст и укажите любой текст, в котором необходимо найти местоположения.
  5. Щёлкните Извлечь.

    Панель Сопоставление полей появится на панели Извлечь местоположения.

  6. Укажите поле в таблице атрибутов существующего слоя, в котором будет храниться информация, извлеченная из документов или текста. Полный набор полей, которые могут быть заполнены в выходном классе объектов, описан ниже.
  7. Если ни одно из полей в существующем классе объектов не может хранить извлеченную информацию, которая вам необходима, щелкните Назад Назад и выберите другой выходной слой, или создайте вместо этого новый слой.
  8. Когда вы удовлетворены соответствием между полями существующего слоя и полями, содержащими информацию, извлеченную из документов и текста, нажмите OK.

Выполнение процесса можно отменить в любой момент. Когда процесс будет завершен, внизу панели появится сообщение, информирующее, был ли процесс успешным.

Если при сканировании документов и текста были найдены местоположения, то они будут добавлены в указанный класс объектов. Существующий слой карты и его таблица атрибутов будут обновлены таким образом, чтобы отобразить эти новые местоположения.

Просмотр извлеченных местоположений

После сканирования документов и текста и создания выходного класса объектов, на карту будет добавлен выходной слой карты, и он будет выбран на панели Содержание. Щелкните найденное местоположение, чтобы узнать о нем дополнительную информацию. Во всплывающем окне отображается извлеченное местоположение, документ, из которого оно было извлечено, и вся дополнительная информация, извлеченная из документа вокруг указанного местоположения, для понимания контекста. Откройте таблицу атрибутов слоя, чтобы сравнить и изучить все найденные местоположения. После знакомства с данными вы можете захотеть удалить те местоположения, которые выходят за рамки интересующей вас области, или выполнить экспорт поднабора местоположений, которые представляют для вас особый интерес.

Панель Извлечь местоположения использует различные настройки по умолчанию, разработанные для распознавания основных и часто упоминаемых местоположений. Когда вы лучше поймете специфику местоположений, встречающихся в ваших данных, вы сможете изменить эти настройки на вкладке Свойства, чтобы извлекать дополнительные местоположения или более подробную информацию в выходные поля.

Более подробно о настройках, используемых для извлечения местоположений и атрибутов

Определения выходных полей

При создании нового выходного класса объектов, содержащего извлеченные местоположения, этот класс объектов будет иметь следующие поля, присутствующие по умолчанию, и любые дополнительные поля, определенные в файле пользовательских атрибутов.

Более подробно о пользовательских файлах атрибутов

Имя поляПсевдоним поляТип данныхОписание

Name

Имя

Текст ­ 50 символа, по умолчанию

Имя обрабатываемого файла, или Текст, чтобы показать, что обрабатывается текст. Размер управляется настройками на вкладке Выходные данные.

Pre_Text

Текст до

Текст ­ 254 символа, по умолчанию

Фрагмент файла или текста, предваряющий найденное местоположение. Размер управляется настройками на вкладке Выходные данные.

Ext_Text

Извлеченный текст

Текст ­ 120 символа, по умолчанию

Найденное местоположение, как оно было найдено в файле или в тексте. Например, 52.825°N, 169.944°W для пространственной координаты или LAX для пользовательского местоположения, связывающего код аэропорта с пространственной координатой. Размер управляется настройками на вкладке Выходные данные.

Ext_Type

Извлеченный тип

Текст ­ 50 символа, по умолчанию

Тип найденного местоположения, например, координата в десятичных градусах. Когда пользовательское местоположение найдено, то записывается местоположение, определенное в пользовательском файле местоположений, которое было сопоставлено. Размер управляется настройками на вкладке Выходные данные.

Post_Text

Текст после

Текст ­ 254 символа, по умолчанию

Фрагмент файла или текста, следующий за найденным местоположением. Размер управляется настройками на вкладке Выходные данные.

Precision

Точность (м)

Длинная

Для пространственных координат, уровень точности на поверхности земли, до которого местоположение является точным, в метрах. Например, координата в десятичных градусах со множеством знаков после запятой будет более точной и будет иметь меньшее расстояние.

Для пользовательских местоположений, число букв, которые не совпадают при сравнении оригинального текста с сопоставленным местоположением. Если нечеткое сопоставление отключено, то необходимо точное соответствие и значение будет равно 0. Если оно включено, и неправильно названное местоположение Redalnds сопоставлено Redlands, то значение будет равно 2.

Std_Coord

Стандарт. Коорд.

Текст ­ 30 символов

Стандартизированная версия извлеченного местоположения. Например, 52.825000N 169.944000W. Формат для координаты управляется настройками на вкладке Выходные данные.

First_Date

Первая дата

Date (Дата)

Первая дата, найденная в файле или в тексте, если производится извлечение дат. В противном случае, поле содержит пустые значения. Даты извлекаются только в том случае, если они попадают в диапазон, указанный на вкладке Выходные данные, и дата не установлена на возможность пропуска, и ограничение на количество извлеченных дат не было достигнуто.

Early_Date

Самая ранняя дата

Date (Дата)

Самая старая дата, найденная в файле или в тексте, если производится извлечение дат. В противном случае, поле содержит пустые значения. Даты извлекаются только в том случае, если они попадают в диапазон, указанный на вкладке Выходные данные, и дата не установлена на возможность пропуска, и ограничение на количество извлеченных дат не было достигнуто.

Late_Date

Самая поздняя дата

Date (Дата)

Самая недавняя дата, найденная в файле или в тексте, если производится извлечение дат. В противном случае, поле содержит пустые значения. Даты извлекаются только в том случае, если они попадают в диапазон, указанный на вкладке Выходные данные, и дата не установлена на возможность пропуска, и ограничение на количество извлеченных дат не было достигнуто.

All_Dates

Все даты

Текст ­ 254 символа, по умолчанию

Список всех дат, найденных в тексте, разделенных запятыми, если производится извлечение дат. В противном случае, поле содержит пустые значения. Все даты стандартизированы в формате гггг-мм-дд. Даты извлекаются только в том случае, если они попадают в диапазон, указанный на вкладке Выходные данные, и дата не установлена на возможность пропуска, и ограничение на количество извлеченных дат не было достигнуто. Если список дат, разделенных запятыми, слишком длинный для размера данного поля, список будет усечён. Размер управляется настройками на вкладке Выходные данные.

ExDateText

Извлеченный Текст Даты

Текст ­ 254 символа, по умолчанию

Даты, которые были найдены, как они были найдены в файле или тексте. Например, August 18, 2019 или 2/3/2020. Если список дат, разделенных запятыми, слишком длинный для размера данного поля, список будет усечён. Размер управляется настройками на вкладке Выходные данные.

Filename

Filename

Текст ­ 254 символа, по умолчанию

Полный путь к обрабатываемому файлу, или пустое значение, если обрабатывается текст. Вы можете выбрать, какие файлы будут обработаны или пропущены. Размер управляется настройками на вкладке Выходные данные.

File_Type

Тип файла

Текст ­ 10 символа, по умолчанию

Формат обрабатываемого файла, или пустое значение, если обрабатывается текст. Вы можете выбрать обработку определенных типов файлов. Размер управляется настройками на вкладке Выходные данные.

Modified

Изменено (UTC)

Текст ­ 20 символов

Дата и время последнего изменения файла в формате гггг-мм-дд чч:мм:сс.

Scanned

Отсканировано (UTC)

Текст ­ 20 символов

Дата и время обработки файла в формате гггг-мм-дд чч:мм:сс.

Оценка результатов

Вы можете не получить желаемые местоположения при первом сканировании документа. Дополнительно к выходному слою карты и классу объектов могут быть созданы два файла журнала: журнал сканирования и журнал некорректных координат. Если вы работаете со входным документом, содержание которого вам известно, и число создаваемых в выходном классе объектов местоположений не соответствует числу, которое вы ожидали, файлы журналов помогут вам изучить результаты.

После того, как документы и текст были просканированы, и выходной класс объектов был создан, в нижней части панели Извлечь местоположения появится сообщение об успехе завершения процесса. Сообщение будет содержать ссылки на файлы журналов, которые являются временными. Чтобы сохранить их для дальнейшего исследования, откройте файлы и сохраните их в постоянном местоположении, например, в домашней папке проекта. Дополнительно можно добавить имя слоя карты или класса объектов, к которым относится этот файл журнала.

Журнал сканирования

Щелкните ссылку Просмотреть журнал сканирования, содержащуюся в сообщении внизу панели Извлечь местоположения, чтобы открыть файл журнала сканирования. Для каждого сканированного документа, журнал показывает следующую информацию:

  • Имя файла документа и его местоположение на локальном или сетевом компьютере
  • Сообщение, описывающее проблему, которая была обнаружена при сканировании документа, если применимо
  • Сколько потенциальных местоположений было найдено
  • Сколько уникальных дат было найдено

Потенциальное местоположение - это текст, найденный в содержании документа, который похож на пространственную координату или пользовательское местоположение. Если в качестве входных данных используется текст, то в журнал сканирования не записываются имя файла и его расположение, но остальная информация в файле журнала является такой же.

Если вы ожидали извлечения девяти местоположений, а в выходных данных были созданы только шесть местоположений, журнал сканирования может пролить свет на эту ситуацию. Журнал может показать, что было найдено только шесть возможных местоположений при использовании текущих настроек вашей панели Извлечь местоположения. Журнал может также показать, что было найдено больше дат, чем ожидалось ­ координата может быть интерпретирована, как дата. Попробуйте изменить настройки прежде, чем попробовать извлечь местоположения снова из того же документа.

Журнал недопустимых координат

Журнал недопустимых координат создается в случае, если потенциальное местоположение было оценено и признано некорректным. Щелкните Просмотреть журнал недопустимых координат, чтобы открыть его.

Журнал записей недопустимых координат показывает:

  • Документ, в котором было найдено потенциальное местоположение
  • Оригинальный текст, который был определен в качестве потенциального местоположения
  • Формат координат, который использовался для оценки местоположения

Например, если были найдены координаты широты и долготы, но широта в координате больше 90 градусов, координата считается некорректной. Может оказаться, что потенциальные местоположения в документах были оценены, используя формат координат, отличный от ожидаемого. Попробуйте изменить настройки прежде, чем попробовать извлечь местоположения снова из того же документа.

Если изучение журнала недопустимых координат вам не помогает, вы можете выбрать опцию не записывать недопустимые координаты, сняв отметку с опций Записывать недопустимые координаты на вкладке Координаты для тех форматов пространственных координат, которые вы используете.

Связанные разделы