Contraer entidades duplicadas en los datos

Es posible formatear los datos de referencia para que contengan entidades duplicadas que representen la misma ubicación, pero con distintos atributos, como una manera de crear un localizador que admita nombres alternativos. Se muestra en los datos que aparecen a continuación, donde 12725 Yosemite Blvd, Waterford y 12725 CA-132, Waterford presentan la misma geometría, pero distintos valores en el campo FullStreetName.

Tabla de atributos PointAddress con entidades duplicadas para la misma ubicación con nombres distintos

El método recomendado para crear un localizador que admita nombres alternativos para entidades es agregar los valores alternativos a una tabla y utilizar un rol de tabla de nombres alternativos que se corresponda con el rol de localizador principal. No obstante, si los datos de referencia ya contienen entidades duplicadas, se pueden crear valores alternativos y las geometrías duplicadas se excluirán cuando se cree el localizador con la herramienta Crear localizador. Para eliminar geometrías duplicadas, los datos de referencia primarios deben contener un campo con un Id. que conecte las entidades duplicadas con la misma ubicación. Este campo de Id. se debe asignar a un campo de Id. principal desde el rol de localizador, como POINT_ADDRESS_ID. Así, se reduce el tamaño del localizador y se elimina el exceso de candidatos coincidentes de los resultados de la geocodificación.

Tabla de atributos PointAddress con el campo POINT_ADDRESS_ID para vincular entidades duplicadas para la misma ubicación

La herramienta Crear localizador utiliza los valores asignados al campo de Id. principal para omitir todas las geometrías duplicadas, salvo la primera geometría que se encuentra, que se almacena en el localizador. Los valores de atributo alternativos se crean en función de los Id. coincidentes de las entidades duplicadas.

Nota:

Si los datos de referencia no incluyen el campo de Id., se puede agregar con la herramienta Buscar idéntico. Es posible utilizar el campo Shape para buscar duplicados en los datos de referencia primarios basándose en la suposición de que tienen la misma geometría. Es posible que aparezcan duplicados en los datos de referencia si dos direcciones o lugares de interés (POI) distintos comparten la misma ubicación, lo que puede resultar problemático. Este procedimiento no funcionará en todos los casos. Si se utiliza el campo Shape con la herramienta Buscar idéntico, la tabla de salida contendrá Id. idénticos para las entidades duplicadas. A continuación, se puede unir con los datos de referencia primarios a fin de crear el localizador.

Si tiene una clase de entidad de punto que desea utilizar como datos de referencia primarios y contiene 13 millones de entidades, de las cuales 10 millones son entidades únicas, la asignación del campo de Id. principal activará la función de la herramienta Crear localizador para eliminar las geometrías duplicadas. El resultado es un localizador que reduce su tamaño de 253 MB a 200 MB.

Campos de Id. principal para cada rol

RolId. principal

Dirección de punto

Id. de unión de dirección

Parcela

Id. de unión de parcela

Dirección de calle

Id. de unión de calle

POI

Id. de unión de lugar

Marcador de distancia

Id. de unión de calle

Rango de distancias

Id. de unión de calle

Código postal

Id. de unión de postal

Extensión de código postal

Id. de unión de extensión de código postal

Distrito postal

Se utiliza una combinación de Id. de unión de postal y todos los Id. de unión de las áreas administrativas asignadas como el Id. principal en la herramienta Crear localizador, por lo que todos ellos se deben asignar.

Zona

Id. de unión de zona

Manzana

Id. de unión de manzana

Sector

Id. de unión de sector

Vecindario

Id. de unión de vecindario

Distrito

Id. de unión de distrito

Ciudad

Id. de unión de ciudad

Área metropolitana

Id. de unión de área metropolitana

Subregión

Id. de unión de subregión

Región

Id. de unión de región

Territorio

Id. de unión de territorio

País

Id. de unión de país