Acerca de la geocodificación de entidades y la tabla de coincidencias

Las herramientas Generar vínculos de estirado rubbersheet, Atributos a transferir y Detectar cambios de entidades utilizan técnicas de coincidencia de entidades para identificar las entidades correspondientes y generar distintos los resultados. En este documento se describe el proceso de coincidencia de entidades y explica la información de coincidencia de entidades de la tabla de coincidencias.

¿Qué es la geocodificación de entidades?

La geocodificación de entidades es la búsqueda de entidades correspondientes en dos datasets similares en función de una distancia de búsqueda. Uno de los datasets recibe el nombre de dataset de origen y el otro dataset de destino, especialmente cuando la coincidencia de entidades se utiliza para derivar vínculos de estirado rubbersheet o para transferir atributos de datos de origen a datos de destino. Estos datasets se superponen entre sí pero no están perfectamente alineados debido a capturas de datos incoherentes, cambios derivados por el paso del tiempo, u otros motivos. En la Figura 1 se muestra un ejemplo de calles, donde las entidades de origen proceden de un proveedor de datos comercial y las entidades de destino las ha creado y mantiene una entidad municipal.

Ilustración de datasets similares pero incoherentes para la geocodificación de entidades
Figura 1: Ilustración de datasets similares pero incoherentes para la geocodificación de entidades

El proceso de coincidencia de entidades analiza la topología de origen y destino, detecta ciertos patrones de entidades, hace coincidir los patrones, así como las entidades dentro de los patrones. La precisión de la geocodificación de entidades depende de la similitud, la complejidad y la calidad de los datos. En general, cuanto más parecidos son dos datasets, mejores son los resultados coincidentes. Normalmente, se puede obtener un elevado porcentaje de geocodificaciones satisfactorias, si bien pueden producirse incertidumbre y errores que requieran inspecciones adicionales y correcciones.

Los atributos de entidades pueden ayudar opcionalmente a determinar la coincidencia adecuada en la geocodificación de entidades. Si se especifican una o más parejas de campos concordados, las entidades concordadas espacialmente se comparan con los campos concordantes. Por ejemplo, si una entidad de origen coincide espacialmente con dos entidades de destino candidatas, pero una de ellas tiene valores de atributo coincidentes y la otra no, entonces la primera se elige como coincidencia final. La condición de la coincidencia de atributos afecta al nivel de confianza de la geocodificación de entidades.

¿Qué contiene la tabla de coincidencias?

Las herramientas Generar vínculos de estirado rubbersheet, Atributos a transferir y Detectar cambios de entidades pueden generar de manera opcional una tabla de coincidencias. La tabla de coincidencias proporciona información completa sobre la geocodificación de entidades con los campos siguientes para ayudar a comprender los resultados y facilitar la inspección posterior y los análisis adicionales:

  • SRC_FID: Id. de la entidad de origen. El valor es -1 para una entidad de origen no coincidente.
  • TGT_FID: Id de la entidad de destino. El valor es -1 para una entidad de destino no coincidente.
  • FM_GRP: Id. de grupo único para entidades coincidentes y -1 para las entidades de origen o destino no coincidentes
  • FM_MN: relaciones coincidentes entre las entidades de origen y destino en el formato m:n, donde m y n son el número de entidades de origen y de destino en un grupo coincidente, respectivamente. Por ejemplo, 1:1 es una coincidencia uno a uno, y 3:2 una coincidencia de tres a dos. Para entidades de origen y destino no coincidentes, el valor en este campo es N/A para no aplicable.
  • FM_CONF: este campo almacena los siguientes valores que representan el nivel de confianza de la geocodificación de entidades:
    • 100: coincidencia confirmada por los campos coincidentes especificados
    • 75: coincidencia no confirmada por los campos coincidentes especificados, ya sea porque los campos coincidentes no están especificados o no se ha detectado ningún valor en los campos coincidentes especificados
    • 50: coincidencia con una diferencia de valor de campo en los campos coincidentes especificados
    • 0: entidades de origen o destino no coincidentes

La siguiente sección cuenta con escenarios de geocodificación de entidades de ejemplo y con información de geocodificación de la tabla de coincidencias. Para hacerlo más sencillo, la coincidencia de atributos se da por hecha para todas las entidades coincidentes, lo que queda reflejado en un valor FM_CONF de 100.

Grupos y relaciones de coincidencias

Puesto que la geocodificación de entidades está basada en la topología de entidades y en patrones espaciales, donde una o varias entidades de origen se reconocen por tener una estructura topológica o patrón espacial coincidentes, se convierten en un grupo coincidente. Dentro de cada grupo coincidente, la relación de coincidencia está definida por el número de entidades de origen (m) frente al número de entidades de destino (n), tal y como se explica e ilustra en la Figura 2:

  • Coincidencia uno a uno (1:1)

    Una entidad de origen coincide con una entidad de destino. Pertenecen al mismo grupo coincidente.

  • Coincidencia uno a muchos (1:m)

    Una entidad de origen coincide con varias entidades de destino. Todas ellas pertenecen al mismo grupo coincidente.

  • Coincidencia muchos a uno (m:1)

    Varias entidades de origen coinciden con una entidad de destino. Todas ellas pertenecen al mismo grupo coincidente.

  • Coincidencia muchos a muchos (m:n)

    Varias entidades de origen coinciden con varias entidades de destino. Todas ellas pertenecen al mismo grupo coincidente.

Ilustraciones de información de coincidencia
Figura 2: Ilustraciones de información de coincidencia