À propos de l'appariement d'entités et de la table d'appariement

Les outils Générer des liens d'étirement caoutchouté, Transférer des attributs et Détecter les modifications d'entités utilisent des techniques d'appariement d'entités pour identifier des entités correspondantes et produire divers résultats. Ce document décrit le processus d'appariement d'entités et présente les informations liées à la table d'appariement trouvées dans la table d'appariement.

Qu'est-ce que l'appariement d'entités ?

L'appariement d'entités implique la détection d'entités correspondantes dans deux jeux de données semblables selon une distance de recherche. L'un des jeux de données est la source, l'autre la cible, surtout lorsque l'appariement d'entités est utilisé pour dériver des liens d'étirement caoutchouté ou pour transférer des attributs des données source vers les données cible. Ces jeux de données se recouvrent mais ils ne sont pas parfaitement alignés, à cause de l'incohérence de la collecte de données, de changements au fil du temps ou pour d'autres raisons. La figure 1 présente un exemple de rues, dans lequel les entités source proviennent d'un fournisseur de données commerciales et les entités cible sont créées et gérées par une municipalité

Illustration de jeux de données similaires mais incohérents pour l'appariement d'entités
Figure 1 : Illustration de jeux de données similaires mais incohérents pour l'appariement d'entités

Le processus d'appariement d'entités analyse la topologie source et cible, détecte certains motifs dans les entités, apparie ces motifs et apparie les entités avec les motifs. La précision de l'appariement d'entités dépend de la similitude, de la complexité et de la qualité des données. En général, plus deux jeux de données sont semblables, meilleurs sont les résultats de l'appariement. Normalement, il est possible d'atteindre un pourcentage élevé de réussite de l'ajustement, mais des incertitudes et des erreurs peuvent survenir et nécessiter une inspection a posteriori et des corrections.

Les attributs d'entités peuvent, en option, aider à déterminer le bon appariement d'entités. Si une ou plusieurs paires de champs d'appariement sont spécifiées, les entités appariées spatialement sont vérifiées par rapport aux champs d'appariement. Par exemple, si une entité source correspond spatialement à deux entités cible candidates, mais que l'une des entités cible possède des valeurs d'attributs d'appariement et l'autre non, la première est choisie comme correspondance finale. La condition d'appariement d'attributs a une incidence sur le niveau de confiance de l'appariement d'entités.

Qu'est-ce que la table d'appariement ?

Les outils Générer des liens d'étirement caoutchouté, Transférer des attributs et Détecter les modifications d'entités peuvent, en option, produire une table d'appariement. Cette table d'appariement offre des informations concernant l'appariement des entités avec les champs suivants, afin de comprendre le résultat et de faciliter l'inspection a posteriori et une analyse supplémentaire :

  • SRC_FID : ID de l'entité source. La valeur est -1 pour une entité source sans correspondance.
  • TGT_FID : ID de l'entité cible. La valeur est -1 pour une entité cible sans correspondance.
  • FM_GRP : ID de groupe unique pour les entités appariées et -1 pour les entités source ou cible sans correspondance
  • FM_MN : relations d'appariement entre entités source et cible au format m:n, m et n correspondant au nombre d'entités source et cible respectivement, dans un groupe d'appariement. Par exemple, 1:1 est une correspondance de une à une ; et 3:2 une correspondance de deux à trois. Dans le cas de valeurs source ou cible sans correspondance, la valeur dans ce champ est S/O pour « sans objet ».
  • FM_CONF : ce champ stocke les valeurs suivantes qui représentent le niveau de confiance de l'appariement d'entités :
    • 100 - correspondance confirmée par les champs d'appariement spécifiés
    • 75 - correspondance non confirmée par les champs d'appariement spécifiés, soit parce que les champs d'appariement ne sont pas spécifiés soit parce qu’aucune valeur n'est détectée dans les champs d'appariement spécifiés
    • 50 - correspondance avec une différence de valeur de champ dans les champs d'appariement spécifiés
    • 0 - entités source ou cible sans correspondance

La section suivante présente des scénarios d'appariement d'entités et les informations d'appariement dans les tables d'appariement. Dans un souci de simplicité, l'appariement d'attributs est supposé pour toutes les entités appariées, ce qui est reflété dans la valeur 100 du champ FM_CONF.

Groupes d'appariement et relations d'appariement

L'appariement d'entités étant basé sur la topologie des entités et les motifs spatiaux, où une ou plusieurs entités source et une ou plusieurs entités cible sont reconnues comme ayant une structure topologique d'appariement ou un motif spatial, elles deviennent un groupe d'appariement. Au sein de chaque groupe d'appariement, la relation d'appariement est définie par le nombre d'entités source (m) par rapport au nombre d'entités cible (n), comme expliqué ci-après et illustré à la figure 2 :

  • Appariement de une à une (1:1)

    Une entité source correspond à une entité cible ; elles appartiennent au même groupe d'appariement.

  • Appariement de une à plusieurs (1:m)

    Une entité source correspond à plusieurs entités cible ; toutes appartiennent au même groupe d'appariement.

  • Appariement de plusieurs à une (m:1)

    Plusieurs entités source correspondent à une entité cible ; toutes appartiennent au même groupe d'appariement.

  • Appariement de plusieurs à plusieurs (m:n)

    Plusieurs entités source correspondent à plusieurs entités cible ; toutes appartiennent au même groupe d'appariement.

Illustrations des informations sur l'appariement
Figure 2 : Illustrations des informations sur l'appariement