Identifier les critères de qualité des données

Disponible avec une licence Data Reviewer.

L’un des défis de l’implémentation du contrôle qualité des données concerne l’identification des critères de qualité des données techniques de l’organisation. Il est important d’identifier et de comprendre les exigences de votre entreprise par rapport aux données avant de les traduire en critères de qualité techniques qui définissent des données de bonne qualité.

Un traitement de contrôle qualité des données efficace repose sur la compréhension de l’utilisation des produits faisant appel aux données et aux informations au sein de et hors de l’organisation. Chaque organisation définit la qualité de manière différente et adapte cette définition en fonction de l’objectif voulu et de l’utilisation des données. Le diagramme suivant illustre différentes sources de critères qualité susceptibles de s’appliquer à votre organisation.

Sources et critères de qualité des données

Éléments de qualité des données

Les éléments de qualité des données décrivent un certain aspect requis pour qu’un jeu de données soit exact et puisse être utilisé. La qualité des données SIG est liée à différents composants. Comme défini par l’Organisation Internationale de normalisation (ISO), ces composants sont les suivants :

  • intégralité
  • Cohérence logique
  • Précision spatiale
  • Précision thématique
  • Qualité temporelle
  • Usabilité des données

intégralité

Présence ou absence d’entités, de leurs attributs et de relations dans un modèle de données.

Quartier dans lequel des emprises de bâtiment sont manquantes
Un quartier dans lequel des emprises de bâtiment sont manquantes illustre un modèle de données incomplet.

Cohérence logique

Degré d’adhésion aux règles préétablies de la structure d’un modèle de données, à l’attribution et aux relations telles qu’elles ont été définies par une organisation ou un secteur d’activité. De nombreux secteurs d’activité suivent des normes reflétées dans un modèle de données géospatiales, comme les domaines de valeurs, les formats de données et la cohérence topologique du mode de stockage des données.

Autoroute avec une surface routière de type gravier
Une autoroute avec une surface routière de type gravier représente un exemple de norme industrielle.

Précision spatiale

Précision de la position des entités par rapport à la Terre.

Entité lac décalée
Cette entité lac a été décalée, ce qui indique une inexactitude spatiale.

Précision thématique

Précision d’attributs au sein des entités et leurs relations appropriées.

Piscine capturée comme zone humide
Une piscine a été capturée comme zone humide, ce qui représente une inexactitude thématique.

Qualité temporelle

Qualité des attributs temporels et relation temporelle des entités.

Diagramme obsolète avec une piste ouverte
Un diagramme obsolète avec une piste ouverte indique une qualité temporelle médiocre.
Diagramme mis à jour avec la piste fermée
Le diagramme a été mis à jour avec une piste fermée pour améliorer la qualité de l’entité.

Usabilité des données

Adhésion d’un jeu de données à un ensemble spécifique de critères liés à un cas d’utilisation.

Carte des États-Unis utilisée pour les parcs nationaux
Cette carte des États-Unis peut être utilisée pour les parcs nationaux car elle affiche les rivières et la topographie des montagnes avec de légères limites entre les États.
Carte utilisée pour les itinéraires des véhicules d’urgence
Cette carte achemine les véhicules d’urgence et satisfait les exigences en matière de données du secteur d’activité.

Documentation liée aux critères de qualité

Un plan d’assurance qualité est un document qui identifie les normes de qualité d’un projet et les méthodes permettant de les atteindre. Un plan d’assurance qualité est un document dynamique qui change en fonction des nouveaux critères de qualité identifiés par l’organisation et qui permet également de rassembler les parties prenantes essentielles lors de la création d’une image commune de la définition de données de bonne qualité ainsi que des processus métier qui répondent à ces exigences.

Vous trouverez ci-dessous des techniques et des normes qui peuvent s’avérer utiles lors de l’identification des critères de qualité des données :

  • ISO/TC 211 - Informations géographiques/Géomatique : séries de normes de l’Organisation internationale de normalisation (ISO) concernant les informations géographiques pour la définition de méthodes, d’outils et de services de gestion des données en matière d’acquisition, de traitement, d’analyse, d’accès, de présentation et de transfert de telles données au format numérique parmi les utilisateurs, les systèmes et les localisations.
  • Matrice de traçabilité des exigences : document créé pour la gestion et le suivi des exigences des entreprises visant à garantir leur respect lors de l’implémentation d’un projet. Ce document met en corrélation les exigences des entreprises collectées pour le projet et les fonctionnalités d’un produit logiciel.

La colonne Catégorie d’exigence dans le tableau suivant est un exemple d’exigences collectées qui font référence à certains éléments de qualité des données indiqués ci-dessus. L’étape suivante, après l’organisation et la catégorisation des exigences, consiste à corréler les critères de qualité des données aux fonctionnalités correspondantes détectées dans ArcGIS.

IDExigencesNuméro de critèreCatégorie de critèreFonctionnalité du produit

1

Capacité à exécuter des requêtes en fonction d’un certain nombre de segments mis à jour par un utilisateur.

F001

Exigences fonctionnelles

2

Capacité à garantir que le modèle des données de production est conforme aux normes de structure du secteur d’industrie.

D001

Critère des données - Cohérence logique

3

En tant qu’administrateur de base de données, capacité à restreindre les privilèges POST à la version DEFAULT d’un ensemble réduit d’utilisateurs administrateurs

F002

Exigences fonctionnelles

4

Capacité à produire des rapports ad hoc indiquant les écarts dans les données pour n’importe quel attribut sélectionné

F003

Exigences fonctionnelles

5

Capacité à garantir que les données source sont migrées vers la base de données de production et possèdent les relations et les domaines appropriés

D002

Critère des données - Cohérence logique

6

Capacité à garantir que les données source sont exactes selon les normes définies

D003

Exigences liées aux données - Précision spatiale

7

Capacité à garantir que les données de production sont destinées aux collecteurs mobiles et que leurs attributs sont exacts

D004

Critère des données - Précision thématique

8

Capacité à garantir qu’il n’existe pas de superposition entre les mesures d’événement sur la durée du projet entre 2010 et 2020

D005

Critère des données - Qualité temporelle

9

Capacité à créer un hyperlien entre une erreur de validation et une règle métier enfreinte et à fournir une description

F004

Exigences fonctionnelles

10

Capacité à identifier le nombre de cellules qui ne sont pas renseignées (NULL) pour chaque champ d’attribut requis

D006

Critère des données - Précision thématique

11

Capacité à identifier les parcelles qui n’ont aucune entité d’emprise de bâtiment superposée

D007

Critère des données - Cohérence logique

12

Capacité à créer des rapports d’erreur, à générer des fichiers Excel et à les enregistrer sur une unité locale

F005

Exigences fonctionnelles

13

Capacité à valider un attribut d’ID unique reliant une parcelle à des entités d’emprise de bâtiment correspondantes

D008

Critère des données - Cohérence logique

14

Capacité à vérifier que toutes les entités sont conformes aux normes des métadonnées

D009

Exigences liées aux données - Exhaustivité des données

15

Capacité à identifier des entités en tant qu’erreur

F006

Critère des données - Précision thématique

16

Capacité à indiquer la localisation des entités manquantes en tant qu’erreur

F007

Exigences liées aux données - Exhaustivité des données

Exemple de matrice de traçabilité des critères

Rubriques connexes