Contraer entidades duplicadas en los datos

Es posible formatear los datos de referencia para que contengan entidades duplicadas que representen la misma ubicación, pero con distintos atributos, como una manera de crear un localizador que admita nombres alternativos. Se muestra en los datos que aparecen a continuación, donde 12725 Yosemite Blvd, Waterford y 12725 CA-132, Waterford presentan la misma geometría, distintos valores en el campo FullStreetName.

Tabla de atributos PointAddress con entidades duplicadas para la misma ubicación con nombres distintos

El método recomendado para crear un localizador que admita nombres alternativos para entidades es agregar los valores alternativos a una tabla y utilizar un rol de tabla de nombres alternativos que se corresponda con el rol de localizador principal. No obstante, si existen entidades duplicadas en los datos de referencia, se pueden crear valores alternativos y las geometrías duplicadas se excluirán cuando se cree el localizador con la herramienta Crear localizador. Para eliminar geometrías duplicadas, los datos de referencia primarios deben contener un campo con un Id. que conecte las entidades duplicadas con la misma ubicación. Este campo de Id. se debe asignar a un campo de Id. de entidad desde el rol de localizador, como POINT_ADDRESS_ID. Así, se reduce el tamaño del localizador y se elimina el exceso de candidatos coincidentes de los resultados de la geocodificación.

Tabla de atributos PointAddress con el campo POINT_ADDRESS_ID para vincular entidades duplicadas para la misma ubicación

Cuando los datos de referencia primarios tienen entidades duplicadas con diferentes valores de nombre de calle y desea especificar qué nombre de calle es el nombre principal, los datos de referencia deben tener un campo que contenga un marcador que indique qué nombre de calle será el nombre principal devuelto al geocodificar. Este campo se debe asignar al campo Indicador de nombre principal de calle desde el rol de localizador, como PrimaryStreetFlag. Si se asigna el Id. de entidad, se utiliza el campo Indicador de nombre principal de calle para definir el Nombre de calle preferido para las entidades con el mismo Id. de entidad. Si no se asigna el Id. de entidad, cada nombre de calle de los datos de referencia primarios se marca como Principal porque la desduplicación no funcionará y cada nombre de calle se almacena de forma independiente.

Tabla de atributos de la clase de entidad con Id. de entidad e Indicador de nombre principal de calle

La herramienta Crear localizador utiliza los valores asignados al campo de Id. de entidad para omitir todas las geometrías duplicadas, salvo la primera geometría que se encuentra, que se almacena en el localizador. Los valores de atributo alternativos se crean en función de los Id. coincidentes de las entidades duplicadas.

El campo POINT_ADDRESS_ID asignado al campo de rol de localizador Id. de entidad en la herramienta Crear localizador

Nota:

Si los datos de referencia no incluyen el campo de Id., se puede agregar con la herramienta Buscar idéntico. Es posible utilizar el campo Shape para buscar duplicados en los datos de referencia primarios basándose en la suposición de que tienen la misma geometría. Pueden surgir duplicados en los datos de referencia si dos direcciones o lugares de interés (POI) distintos comparten la misma ubicación, lo que puede resultar problemático. Este procedimiento no funciona en todos los casos. Si se utiliza el campo Shape con la herramienta Buscar idéntico, la tabla de salida contendrá Id. idénticos para las entidades duplicadas. A continuación, se puede unir con los datos de referencia primarios y utilizarse para crear el localizador asignando el nuevo campo de Id. al campo de rol de localizador Id. de entidad en la herramienta Crear localizador.

Si tiene una clase de entidad de punto que desea utilizar como datos de referencia primarios y contiene 13 millones de entidades, de las cuales 10 millones son entidades únicas, asignar el campo de Id. de entidad activará la funcionalidad en la herramienta Crear localizador para eliminar geometrías duplicadas. El resultado es un localizador que reduce su tamaño de 253 MB a 200 MB.