Identifier les critères de qualité des données

Disponible avec une licence Data Reviewer.

L’un des défis de l’implémentation du contrôle qualité des données concerne l’identification des critères de qualité des données techniques de l’organisation. Il est important d’identifier et de comprendre les exigences de votre entreprise par rapport aux données avant de les traduire en critères de qualité techniques qui définissent des données de bonne qualité.

Un traitement de contrôle qualité des données efficace repose sur la compréhension de l’utilisation des produits faisant appel aux données et aux informations au sein de et hors de l’organisation. Chaque organisation définit la qualité de manière différente et adapte cette définition en fonction de l’objectif voulu et de l’utilisation des données. Le diagramme suivant illustre différentes sources de critères qualité susceptibles de s’appliquer à votre organisation.

Sources et critères de qualité des données

Éléments de qualité des données

Les éléments de qualité des données décrivent un certain aspect requis pour qu’un jeu de données soit exact et puisse être utilisé. La qualité des données SIG est liée à différents composants. Comme défini par l’Organisation Internationale de normalisation (ISO), ces composants sont les suivants :

  • intégralité
  • Cohérence logique
  • Précision spatiale
  • Précision thématique
  • Qualité temporelle
  • Usabilité des données

intégralité

Présence ou absence d’entités, de leurs attributs et de relations dans un modèle de données.

Quartier dans lequel des emprises de bâtiment sont manquantes
Quartier dans lequel des emprises de bâtiment sont manquantes.

Cohérence logique

Degré d’adhésion aux règles préétablies de la structure d’un modèle de données, à l’attribution et aux relations telles qu’elles ont été définies par une organisation ou un secteur d’activité. De nombreux secteurs d’activité suivent des normes reflétées dans un modèle de données géospatiales, comme les domaines de valeurs, les formats de données et la cohérence topologique du mode de stockage des données.

Autoroute avec une surface routière de type gravier
Autoroute avec une surface routière de type gravier.

Précision spatiale

Précision de la position des entités par rapport à la Terre.

Entité lac décalée.
Une entité lac a été décalée.

Précision thématique

Précision d’attributs au sein des entités et leurs relations appropriées.

Piscine capturée comme zone humide
Piscine capturée comme zone humide.

Qualité temporelle

Qualité des attributs temporels et relation temporelle des entités.

Diagramme obsolète avec une piste ouverte
Diagramme obsolète avec une piste ouverte.
Diagramme mis à jour avec la piste fermée
Diagramme mis à jour avec la piste fermée.

Usabilité des données

Adhésion d’un jeu de données à un ensemble spécifique de critères liés à un cas d’utilisation.

Utilisé pour la cartographie de parcs nationaux
Critères utilisés pour la cartographie de parcs nationaux.
Utilisé pour les itinéraires des véhicules d’urgence
Critères utilisés pour les itinéraires des véhicules d’urgence.

Documentation liée aux critères de qualité

Un plan d’assurance qualité est un document qui identifie les normes de qualité d’un projet et les méthodes permettant de les atteindre. Un plan d’assurance qualité est un document dynamique qui change en fonction des nouveaux critères de qualité identifiés par l’organisation et qui permet également de rassembler les parties prenantes essentielles lors de la création d’une image commune de la définition de données de bonne qualité ainsi que des processus métier qui répondent à ces exigences.

Vous trouverez ci-dessous des techniques et des normes qui peuvent s’avérer utiles lors de l’identification des critères de qualité des données :

  • ISO/TC 211 - Informations géographiques/Géomatique : séries de normes de l’Organisation internationale de normalisation (ISO) concernant les informations géographiques pour la définition de méthodes, d’outils et de services de gestion des données en matière d’acquisition, de traitement, d’analyse, d’accès, de présentation et de transfert de telles données au format numérique parmi les utilisateurs, les systèmes et les localisations.
  • Matrice de traçabilité des exigences : document créé pour la gestion et le suivi des exigences des entreprises visant à garantir leur respect lors de l’implémentation d’un projet. Ce document met en corrélation les exigences des entreprises collectées pour le projet et les fonctionnalités d’un produit logiciel.

La colonne Catégorie d’exigence dans le tableau suivant est un exemple d’exigences collectées qui font référence à certains éléments de qualité des données indiqués ci-dessus. L’étape suivante, après l’organisation et la catégorisation des exigences, consiste à corréler les critères de qualité des données aux fonctionnalités correspondantes détectées dans ArcGIS.

IDExigencesNuméro d’exigenceCatégorie d’exigenceFonctionnalité du produit

1

Capacité à exécuter des requêtes en fonction d’un certain nombre de segments mis à jour par un utilisateur.

F001

Exigences fonctionnelles

2

Capacité à garantir que le modèle des données de production est conforme aux normes de structure du secteur d’industrie.

D001

Exigences liées aux données - Cohérence logique

3

En tant qu’administrateur de base de données, capacité à restreindre les privilèges POST à la version DEFAULT d’un ensemble réduit d’utilisateurs administrateurs

F002

Exigences fonctionnelles

4

Capacité à produire des rapports ad hoc indiquant les écarts dans les données pour n’importe quel attribut sélectionné

F003

Exigences fonctionnelles

5

Capacité à garantir que les données source sont migrées vers la base de données de production et possèdent les relations et les domaines appropriés

D002

Exigences liées aux données - Cohérence logique

6

Capacité à garantir que les données source sont exactes selon les normes définies

D003

Exigences liées aux données - Précision spatiale

7

Capacité à garantir que les données de production sont destinées aux collecteurs mobiles et sont précis par rapport aux attributs

D004

Exigences liées aux données - Précision thématique

8

Capacité à garantir qu’il n’existe pas de superposition entre les mesures d’événement sur la durée du projet entre 2010 et 2020

D005

Exigences liées aux données - Qualité temporelle

9

Capacité à créer un hyperlien entre une erreur de validation et une règle métier enfreinte et à fournir une description

F004

Exigences fonctionnelles

10

Capacité à identifier le nombre de cellules qui ne sont pas renseignées (NULL) pour chaque champ d’attribut requis

D006

Exigences liées aux données - Précision thématique

11

Capacité à identifier les parcelles qui n’ont aucune entité d’emprise de bâtiment superposée

D007

Exigences liées aux données - Cohérence logique

12

Capacité à créer des rapports d’erreur, à générer des fichiers Excel et à les enregistrer sur une unité locale

F005

Exigences fonctionnelles

13

Capacité à valider un attribut d’ID unique reliant une parcelle à des entités d’emprise de bâtiment correspondantes

D008

Exigences liées aux données - Cohérence logique

14

Capacité à vérifier que toutes les entités sont conformes aux normes des métadonnées

D009

Exigences liées aux données - Exhaustivité des données

15

Capacité à identifier des entités en tant qu’erreur

F006

Exigences liées aux données - Précision thématique

16

Capacité à indiquer la localisation des entités manquantes en tant qu’erreur

F007

Exigences liées aux données - Exhaustivité des données

Exemple de matrice de traçabilité des exigences

Rubriques connexes