Extraer ubicaciones de un documento (Conversión)

ArcGIS Pro 3.4 | | Archivo de ayuda

Disponible con licencia de LocateXT.

Resumen

Analiza documentos con texto sin estructurar o semiestructurado, como mensajes de correo electrónico, formularios de viaje, etc., y extrae las ubicaciones a una clase de entidad de punto.

La herramienta analiza y procesa los documentos de entrada de esta forma:

  • Reconoce coordenadas espaciales especificadas en el contenido de los documentos y crea puntos que representan estas ubicaciones. Se reconocen los siguientes formatos de coordenadas: grados decimales, grados minutos decimales, grados minutos segundos, proyección universal transversal de Mercator y Sistema de Referencia de Cuadrícula Militar.
  • Reconoce nombres de lugares especificados en el contenido de los documentos definidos en un archivo de ubicaciones personalizadas y crea puntos que representan estas ubicaciones. Un archivo de ubicaciones personalizadas asocia el nombre de un lugar con coordenadas espaciales que representan esa ubicación.
  • Reconoce texto de interés, extrae esa información de un documento y la registra en campos de la tabla de atributos de la clase de entidad de salida.

Esta herramienta admite todos los documentos de Microsoft Office (Word, PowerPoint y Excel), documentos de Adobe PDF; texto marcado como documentos XML y HTML, así como cualquier archivo con texto plano como archivos de texto (.txt).

Uso

  • Los valores predeterminados del parámetro están diseñados para optimizar la identificación de coordenadas y fechas. Los valores predeterminados de cada parámetro pueden modificarse. Cuantos menos parámetros se modifican, más rápido se ejecuta la herramienta.

  • Todos los formatos de coordenadas están activos de forma predeterminada. Si desea extraer ubicaciones personalizadas solamente, pero no quiere extraer coordenadas espaciales, desactive los parámetros de formato de coordenadas.

  • Si se proporciona un documento PDF de Adobe como entrada y su contenido incluye una coordenada espacial en un formato que está activado, y la clase de entidades de salida no contiene una entidad que represente la coordenada espacial, es posible que su equipo tenga un componente que se necesite para procesar documentos PDF.

    Más información sobre el escaneo de archivos

  • Cuando utiliza un archivo de ubicaciones personalizadas para extraer nombres de lugares, resulta una práctica adecuada especificar menos nombres de lugares en el archivo. Por ejemplo, si convierte una clase de entidad que representa todos los lugares del mundo en un archivo de ubicaciones personalizadas, el proceso puede tardar mucho en realizarse cuando se trata de lugares que es poco probable que estén presentes o se encuentren en zonas del mundo que no le interesan a la hora de hacer el análisis.

    Más información sobre los archivos de ubicaciones personalizadas

  • Cuando los nombres de lugares en los que está interesado pueden deletrearse de manera incorrecta o tienen variaciones conocidas, se suelen obtener mejores resultados si se especifican los errores ortográficos habituales y los nombres de lugares alternativos en el archivo de ubicaciones personalizadas en lugar de utilizar la coincidencia aproximada. Cuando la coincidencia aproximada está activada, se obtiene una ubicación de salida si el 70 por ciento de los caracteres del nombre del lugar tienen una coincidencia con el contenido de entrada. Este puede dar lugar a más falsos positivos que si proporciona alternativas conocidas y errores ortográficos.

    Un flujo de trabajo útil para la coincidencia aproximada consiste en ejecutar primero la herramienta con la coincidencia aproximada desactivada. Luego, hay que ejecutar la herramienta otra vez con la coincidencia aproximada activada y comprobar los resultados. Esto puede ayudar a identificar las variaciones ortográficas que se pueden agregar a los archivos de ubicaciones personalizadas.

    Más información sobre la coincidencia aproximada

Parámetros

EtiquetaExplicaciónTipo de datos
Archivo de entrada

El archivo de entrada que se escaneará en busca de ubicaciones (coordenadas o ubicaciones personalizadas), fechas y atributos personalizados, o una carpeta cuyos archivos se escanearán en su totalidad en busca de ubicaciones.

File
Clase de entidad de salida

Clase de entidad que contiene entidades de punto que representan las ubicaciones que se encuentran.

Feature Class
Plantilla de entrada
(Opcional)

Archivo de plantilla (*.lxttmpl) que determina la configuración que se va a utilizar en cada parámetro de la herramienta. Cuando se proporciona un archivo de plantilla, todos los valores especificados para otros parámetros se ignorarán, excepto los que determinan el contenido de entrada que se procesará y la clase de entidad de salida.

Algunos ajustes que están disponibles en el panel Extraer ubicaciones solo están a disposición de esta herramienta cuando la configuración se guarda en un archivo de plantilla y el archivo de plantilla se menciona en este parámetro. Estos ajustes son los siguientes:

  • Coordenadas espaciales en formato x, y: permite reconocer como coordenadas dos números consecutivos, como 630084 4833438 o 981075.652ftUS 607151.272ftUS, cuando son válidos para un sistema de coordenadas planas asociado con los documentos de entrada. Puede especificar si se reconocen como coordenadas los números con o sin unidades, o solo los números con unidades de medida.
  • Formatos de fecha y coordenadas personalizados: permite personalizar cómo se reconoce el texto como una coordenada espacial o una fecha, en particular cuando se escribe en un idioma distinto del inglés o que utiliza un formato que no es común en Estados Unidos. Por ejemplo, una coordenada espacial escrita como 30 20 10 N x 060 50 40 W puede reconocerse con una personalización con el fin de reconocer el carácter x como texto válido entre la longitud y la latitud. Las coordenadas y las fechas como 60.91°N, 147.34°O y 17 juillet, 2018 pueden reconocerse cuando se especifican personalizaciones para adaptar el idioma de los documentos, en este caso, francés. Asimismo, cuando se utilizan años de dos cifras, puede controlar el intervalo de años con los que se establecen coincidencias.
  • Preferencias de algunas fechas ambiguas: fechas como 10/12/2019 son ambiguas porque pueden interpretarse como 12 de octubre de 2019 o 10 de diciembre de 2019. Algunos países utilizan el formato de fecha m/d/aa como estándar, mientras que otros usan el formato d/m/aa. Se puede establecer una preferencia en cuanto a la forma de interpretar estas fechas ambiguas, ya sea como m/d/aa o d/m/aa, para adecuarse al país de origen de los documentos.
  • Longitud de los campos de la clase de entidad de salida: puede especificar la longitud de los campos que contienen coordenadas espaciales en torno al texto que se extraen de un documento que utiliza los parámetros Longitud de campo pre-texto pre_text_length (en Python) y Longitud de campo post-texto (post_text_length en Python). El panel Extraer ubicaciones permite controlar la longitud de varios campos adicionales de la tabla de atributos, incluidos los campos que contienen las fechas extraídas del documento, el texto original que se ha convertido en fechas, el nombre de archivo del que se extrae la información, etc.

File
Latitud y longitud
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como grados decimales con formato de latitud y longitud (falsos positivos poco frecuentes). Los ejemplos son: 33.8N 77.035W y W77N38.88909.

  • Activado: la herramienta buscará coordenadas en grados decimales formateadas como latitud y longitud. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas en grados decimales formateadas como latitud y longitud.
Boolean
X Y con símbolos de grado
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como grados decimales formateados como X Y con símbolos de grados (falsos positivos poco frecuentes). Los ejemplos son: 38.8° -77.035° y -077d+38.88909d.

  • Activado: la herramienta buscará coordenadas en grados decimales formateadas como X Y con símbolos de grados. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas en grados decimales formateadas como X Y con símbolos de grados.
Boolean
X Y sin símbolos
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como grados decimales formateados como X Y sin símbolos (falsos positivos frecuentes). Los ejemplos son: 38.8 -77.035 y -077.0, +38.88909.

  • Activado: la herramienta buscará coordenadas en grados decimales formateadas como X Y sin símbolos (falsos positivos frecuentes). Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas en grados decimales formateadas como X Y sin símbolos.
Boolean
Latitud y longitud
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como minutos grados decimales con formato de latitud y longitud (falsos positivos poco frecuentes). Los ejemplos son: 3853.3N 7702.100W y W7702N3853.3458.

  • Activado: la herramienta buscará coordenadas en minutos grados decimales formateadas como latitud y longitud. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas en minutos grados decimales formateadas como latitud y longitud.
Boolean
X Y con símbolos de minutos
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como minutos grados decimales con formato X Y con símbolos de minutos (falsos positivos poco frecuentes). Los ejemplos son: 3853' -7702.1' y -07702m+3853.3458m.

  • Activado: la herramienta buscará coordenadas en minutos grados decimales con formato X Y con símbolos de minutos. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas en minutos grados decimales con formato X Y con símbolos de minutos.
Boolean
Latitud y longitud
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como grados minutos segundos con formato de latitud y longitud (falsos positivos poco frecuentes). Los ejemplos son: 385320.7N 770206.000W y W770206N385320.76.

  • Activado: la herramienta buscará coordenadas en grados minutos segundos formateadas como latitud y longitud. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas en grados minutos segundos formateadas como latitud y longitud.
Boolean
X Y con símbolos de segundos
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como grados minutos segundos con formato X Y con símbolos de segundos (falsos positivos poco frecuentes). Los ejemplos son: 385320" -770206.0" y -0770206.0s+385320.76s.

  • Activado: la herramienta buscará coordenadas en grados minutos segundos con formato X Y con símbolos de segundos. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas en grados minutos segundos con formato X Y con símbolos de segundos.
Boolean
X Y con separadores
(Opcional)

Especifica si se deben buscar las coordenadas almacenadas como grados minutos segundos con formato X Y con separadores (falsos positivos moderados). Los ejemplos son: 38:53:20 -77:2:6.0 y -077/02/06/+38/53/20.76.

  • Activado: la herramienta buscará coordenadas en grados minutos segundos con formato X Y con separadores. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas en grados minutos segundos con formato X Y con separadores.
Boolean
Proyección universal transversal de Mercator
(Opcional)

Especifica si se debe buscar coordenadas de la proyección universal transversal de Mercator (UTM) (falsos positivos poco frecuentes). Los ejemplos son: 18S 323503 4306438 y 18 north 323503.25 4306438.39.

  • Activado: la herramienta buscará coordenadas UTM. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas UTM.
Boolean
UPS del Polo Norte
(Opcional)

Especifica si se debe buscar coordenadas de la proyección estereográfica polar universal (falsos positivos poco frecuentes). Los ejemplos son: Y 2722399 2000000 y north 2722399 2000000.

  • Activado: la herramienta buscará coordenadas UPS en el norte polar. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas UPS en el norte polar.
Boolean
UPS del Polo Sur
(Opcional)

Especifica si se debe buscar coordenadas de la proyección estereográfica polar universal en el sur polar (falsos positivos poco frecuentes). Los ejemplos son: A 2000000 3168892 y south 2000000 3168892.

  • Activado: la herramienta buscará coordenadas UPS en el sur polar. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas UPS en el sur polar.
Boolean
Sistema de Referencia de Cuadrícula Militar de EE.UU.
(Opcional)

Especifica si se debe buscar coordenadas del sistema de referencia de cuadrícula militar (MGRS) (falsos positivos poco frecuentes). Los ejemplos son: 18S UJ 13503 06438 y 18SUJ0306.

  • Activado: la herramienta buscará coordenadas MGRS. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas MGRS.
Boolean
Polar norte
(Opcional)

Especifica si se debe buscar coordenadas del sistema de referencia de cuadrícula militar (MGRS) en el norte polar (falsos positivos poco frecuentes). Los ejemplos son: Y TG 56814 69009 y YTG5669.

  • Activado: la herramienta buscará coordenadas MGRS en el norte polar. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas MGRS en el norte polar.
Boolean
Polar sur
(Opcional)

Especifica si se debe buscar coordenadas del sistema de referencia de cuadrícula militar (MGRS) en el norte polar (falsos positivos poco moderados). Los ejemplos son: A TN 56814 30991 y ATN5630.

  • Activado: la herramienta buscará coordenadas MGRS en el sur polar. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará coordenadas MGRS en el sur polar.
Boolean
Usar coma como separador decimal
(Opcional)

Especifica si se reconocerá la coma (,) como separador decimal. De forma predeterminada, el contenido se escanea en busca de coordenadas espaciales definidas por números que utilicen un punto (.) o un punto medio (·) como separador decimal, por ejemplo: Lat 01° 10·80’ N Long 103° 28·60’ E. Si trabaja con contenido en el que las coordenadas espaciales están definidas por números que utilizan una coma (,) como separador decimal (por ejemplo, 52° 8′ 32,14″ N; 5° 24′ 56,09″ E), configure este parámetro para reconocer una coma como separador decimal en su lugar. Este parámetro no se configura automáticamente en función de la configuración regional del sistema operativo de su equipo.

  • Activado: se reconocerá la coma como separador decimal.
  • Desactivado: no se reconocerá el punto o el punto medio como separador decimal. Esta es la opción predeterminada.
Boolean
Interpretar como longitud, latitud
(Opcional)

Especifica si las coordenadas x,y se interpretarán como longitud-latitud. Cuando los números se asemejen a coordenadas x,y, ambos números sean inferiores a 90 y no haya ni símbolos ni notaciones que indiquen qué número representa la latitud o la longitud, los resultados pueden ser ambiguos. Interprete los números como coordenada de longitud-latitud (x,y) en lugar de latitud-longitud (y,x).

  • Activado: las coordenadas x,y se interpretarán como longitud-latitud.
  • Desactivado: las coordenadas x,y se interpretarán como latitud-longitud. Esta es la opción predeterminada.
Boolean
Sistema de coordenadas de entrada
(Opcional)

El sistema de coordenadas se utilizará para interpretar las coordenadas espaciales definidas en la entrada. GCS-WGS-84 es el valor predeterminado.

Spatial Reference
Ubicaciones personalizadas de entrada
(Opcional)

Archivo de ubicaciones personalizadas (.lxtgaz) que se utilizará al escanear el contenido de entrada. Se crea un punto para representar cada repetición del nombre de cada lugar en el archivo de ubicaciones personalizadas hasta los límites establecidos por otros parámetros de la herramienta.

File
Usar coincidencia aproximada
(Opcional)

Especifica si la coincidencia aproximada se utilizará al comparar el contenido de entrada con los nombres de lugares especificados en el archivo de ubicaciones personalizadas.

  • Activado: la coincidencia aproximada se utilizará al hacer búsquedas en el archivo de ubicaciones personalizadas.
  • Desactivado: al hacer búsquedas en el archivo de ubicaciones personalizadas se utilizará la coincidencia exacta. Esta es la opción predeterminada.
Boolean
Máximo de entidades extraídas
(Opcional)

Número máximo de entidades que pueden extraerse. La herramienta dejará de buscar ubicaciones en el contenido de entrada cuando se alcance el número máximo. Cuando se ejecute como servicio de geoprocesamiento, el servicio y el servidor podrían tener límites separados en cuanto al número de entidades permitido.

Long
Ignorar este primer número de entidades
(Opcional)

Número de entidades detectadas e ignoradas antes de extraer las demás entidades. Este parámetro puede utilizarse para centrar la búsqueda en partes concretas de los datos.

Long
Nombre de mes utilizado
(Opcional)

Especifica si se deben buscar fechas en las que aparece el nombre del mes (falsos positivos poco frecuentes). 12 May 2003 y January 15, 1997 son ejemplos.

  • Activado: la herramienta buscará fechas en las que aparezca el nombre del mes. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará fechas en las que aparezca el nombre del mes.
Boolean
M/D/A y D/M/A
(Opcional)

Especifica si se deben buscar fechas en las que los números estén en formato M/D/A o D/M/A (falsos positivos moderados). 5/12/03 y 1-15-1997 son ejemplos.

  • Activado: la herramienta buscará fechas en las que los números estén en formato M/D/A o D/M/A (falsos positivos moderados). Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará fechas en las que los números estén en formato M/D/A o D/M/A.
Boolean
AAAAMMDD
(Opcional)

Especifica si se deben buscar fechas en las que los números estén en formato AAAAMMDD (falsos positivos moderados). 20030512 y 19970115 son ejemplos.

  • Activado: la herramienta buscará fechas en las que los números estén en formato AAAAMMDD (falsos positivos moderados). Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará fechas en las que los números estén en formato AAAAMMDD.
Boolean
AAMMDD
(Opcional)

Especifica si se deben buscar fechas en las que los números estén en formato AAMMDD (falsos positivos frecuentes). 030512 y 970115 son ejemplos.

  • Activado: la herramienta buscará fechas en las que los números estén en formato AAMMDD (falsos positivos frecuentes). Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará fechas en las que los números estén en formato AAMMDD.
Boolean
YYJJJ
(Opcional)

Especifica si se deben buscar fechas en las que los números estén en formato AAJJJ o AAAAJJJ (falsos positivos frecuentes). 03132 y 97015 son ejemplos.

  • Activado: la herramienta buscará fechas en las que los números estén en formato AAJJJ o AAAAJJJ (falsos positivos frecuentes). Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará fechas en las que los números estén en formato AAJJJ o AAAAJJJ.
Boolean
Máximo de fechas extraídas
(Opcional)

Número máximo de fechas que se extraerá.

Long
Ignorar este primer número de fechas
(Opcional)

Número de fechas que se detectarán e ignorarán antes de extraer las demás fechas.

Long
Fecha más temprana del rango de fechas aceptable
(Opcional)

Fecha más temprana aceptable que se va a extraer. Se extraerán las fechas detectadas que coincidan con este valor o posteriores.

Date
Fecha más tardía del rango de fechas aceptable
(Opcional)

Última fecha aceptable que se va a extraer. Se extraerán las fechas detectadas que coincidan con este valor o anteriores.

Date
Atributos personalizados de entrada
(Opcional)

Archivo de atributos personalizados (.lxtca) que se utilizará al escanear el contenido de entrada. En la tabla de atributos de la clase de entidad de salida se crearán campos para todos los atributos personalizados definidos en el archivo. Cuando se escanea el contenido de entrada, se examinará para determinar si contiene texto asociado con todos los atributos personalizados especificados en el archivo. Cuando se encuentra una coincidencia, se extrae el texto adecuado del contenido de entrada y se almacena en el campo apropiado.

File
Texto de vínculo del archivo de entrada
(Opcional)

La ruta del archivo se utilizará como nombre de archivo en los datos de salida cuando el parámetro Archivo de entrada (in_file en Python) se transfiere al servidor. Si no se especifica este parámetro, se utilizará la ruta del archivo de entrada, que puede ser una carpeta no accesible de un servidor. Este parámetro no surte efecto si no se especifica el archivo de entrada.

String
Fecha y hora del archivo de entrada
(Opcional)

La fecha y la hora UTC en la que se modifica el archivo se utilizará como atributo modificado en los datos de salida cuando el parámetro Archivo de entrada (in_file en Python) se transfiere al servidor. Si no se especifica este parámetro, se utilizará la hora de modificación real del archivo de entrada. Este parámetro no surte efecto si no se especifica el archivo de entrada.

Date
Longitud del campo de texto previo
(Opcional)

El contenido se extrae del documento de entrada para proporcionar contexto para la ubicación que se ha encontrado. Este parámetro define el número máximo de caracteres que se extraerá y que precede al texto que define la ubicación. El texto extraído se almacena en el campo Pre-Text de la tabla de atributos de la clase de entidad de salida. El valor predeterminado es 254. El tipo de datos del campo Pre-Text también tendrá esta longitud. La longitud de un campo de texto de un shapefile se limita a 254 caracteres; la longitud se truncará según este valor cuando se supere el número de caracteres.

Long
Longitud del campo de texto posterior
(Opcional)

El contenido se extrae del documento de entrada para proporcionar contexto para la ubicación que se ha encontrado. Este parámetro define el número máximo de caracteres que se extraerá y que sigue al texto que define la ubicación. El texto extraído se almacena en el campo Post-Text de la tabla de atributos de la clase de entidad de salida. El valor predeterminado es 254. El tipo de datos del campo Post-Text también tendrá esta longitud. La longitud de un campo de texto de un shapefile se limita a 254 caracteres; la longitud se truncará según este valor cuando se supere el número de caracteres.

Long
Formato de coordenadas
(Opcional)

Especifica el formato de coordenadas que se utilizará para almacenar la ubicación de las coordenadas. La representación de la coordenada espacial que define la entidad de punto queda registrada en un campo de la tabla de atributos.

  • DD - Grados decimalesLa ubicación de las coordenadas se registra en formato de grados decimales. Esta es la opción predeterminada.
  • DM - Grados minutos decimalesLa ubicación de las coordenadas se registra en formato de minutos grados decimales.
  • DMS - Grados minutos segundosLa ubicación de las coordenadas se registra en formato de grados minutos segundos.
  • UTM - Proyección universal transversal de MercatorLa ubicación de las coordenadas se registra en formato de proyección universal transversa de Mercator.
  • MGRS - Sistema de Referencia de Cuadrícula MilitarLa ubicación de las coordenadas se registra en formato del sistema de referencia de cuadrícula militar.
String
Se requieren guiones de separación de palabras
(Opcional)

Especifica si se debe buscar texto mediante el uso de guiones de separación de palabras. El guion de separación de palabras se usa cuando las palabras (texto) están delimitadas por caracteres de espacios en blanco o puntuación, como en los idiomas europeos.

Esta configuración puede producir falsos positivos frecuentes o falsos positivos infrecuentes dependiendo del idioma del texto. Por ejemplo, cuando no se requieran guiones de separación de palabras, el texto inglés Bernard generará una coincidencia con el texto San Bernardino, lo que probablemente se considere un falso positivo. Sin embargo, cuando el texto se escribe con un idioma que no utiliza guiones de separación de palabras, no es posible encontrar palabras si se requieren estos guiones. Por ejemplo, con el texto Viajé a Tokio en japonés, 私は東京に飛んで, solo podría encontrar la palabra Tokio, 東京, cuando no se requieren guiones de separación de palabras.

  • Activado: la herramienta buscará palabras que están delimitadas por caracteres de espacios en blanco o puntuación. Esta es la opción predeterminada.
  • Desactivado: la herramienta no buscará palabras que están delimitadas por caracteres de espacios en blanco o puntuación.
Boolean

Información de licenciamiento

  • Basic: Requiere LocateXT
  • Standard: Requiere LocateXT
  • Advanced: Requiere LocateXT

Temas relacionados