Transformez votre façon de découvrir, gérer et gouverner vos données.

Demandez votre démo

Le glossaire de données, quelles différences avec le dictionnaire ?

Au début de nombreuses réflexions d’exploitation, d’optimisation ou de valorisation des données se trouve bien souvent une démarche de cartographie.

En effet, comment bien gérer un élément dont on ne sait évaluer le volume ou la complexité ?

Mais justement, quand il s’agit de cartographier les données, on se retrouve bien souvent confronté à leur complexité et à leur volume…! Nous voici face à un mur : comment restituer de manière compréhensible pour tous un élément qui ne cesse d’évoluer et dont les points de vue sont si divers ? comment favoriser la compréhension de ces données ?

Et pour une fois, la littérature n’aide pas : différents termes coexistent proposant chacun une facette du résultat d’une démarche de cartographie des données.

Dans cet article je vous propose de revenir sur les principaux termes existants et de préciser le point de vue qu’ils apportent dans la cartographie de vos données.

Pourquoi cette confusion entre glossaire de données, dictionnaire et catalogue ?

Dès qu’une organisation cherche à valoriser ses données, elle se heurte à un enjeu fondamental : comment rendre ce patrimoine informationnel intelligible, partageable, et exploitable par tous ? Pour cela, la cartographie des données est incontournable, mais encore faut-il savoir nommer et structurer les éléments qu’on y retrouve.

Plusieurs termes sont souvent utilisés de manière interchangeable : dictionnaire, glossaire, référentiel, ou encore catalogue. Or, chacun a sa finalité, son audience et son niveau de granularité.

Dictionnaire, glossaire et catalogue : définitions essentielles

Il peut être tentant de mettre ces différents termes dans le même sac. L’article de Philippe Nieuwbourg[1], nous permet cependant de prendre un peu de recul et de mettre en lumière deux notions importantes :

Le dictionnaire de données : précision technique et exhaustivité

Le dictionnaire des données est à comprendre comme un recueil de mots et d’expressions devant les définir avec des attributs essentiels et non essentiels.

  • Pour l’anecdote, l’étymologie du terme germanique pour dictionnaire est très parlante: Wörterbuch qui signifie tout simplement «  livre (buch) de mots (wort) »[2])
  • Wikipedia va plus loin en introduisant la notion de référence, c’est-à-dire un corpus ayant pour but d’enseigner et de renseigner[3].

Outil structurant historiquement lié à l’IT, il fournit une description exhaustive des données présentes dans les systèmes d’information :

  • Nom, type, format, taille
  • Système source ou table associée
  • Attributs de qualité et de conformité (ex. RGPD, HIPAA)
  • Statut de la donnée (critique, personnelle, confidentielle)

Exemple : le champ DATE_NAISSANCE dans une base RH sera défini comme un attribut de type date ISO 8601, soumis au RGPD.

Le glossaire de données : un outil pédagogique et métier

Le glossaire des données est lui historiquement compris comme un recueil de gloses, c’est à dires des mots rares ou étrangers, associés à une définition. L’objectif est alors de décrire ou de commenter de manière sémantique des termes.

Le glossaire met en avant la dimension sémantique et fonctionnelle : il regroupe les termes-clés, propose des définitions accessibles à tous, et favorise une culture commune autour de la donnée.

  • Définitions simples et partagées
  • Alignement métier : « Qu’est-ce qu’un client actif ? »
  • Relations entre concepts métier
  • Indicateurs expliqués

Exemple : « Client actif » = un client ayant effectué au moins un achat au cours des 12 derniers mois.

Le catalogue de données : la combinaison des deux

En intégrant dictionnaire et glossaire, le catalogue constitue une véritable plateforme de gouvernance. Il permet de :

  • Découvrir les jeux de données disponibles
  • Comprendre leur usage et leur qualité
  • Identifier les responsables (Data Stewards, Data Owners)
  • Favoriser la collaboration entre IT et métiers
Glossaire de données illustrant la définition d’un terme métier et son rôle dans la gouvernance des données
Exemple de glossaire de données : un terme métier (« Active Customer ») défini, validé et relié à ses responsables.

Glossaire vs. dictionnaire : deux objectifs complémentaires

  • Le dictionnaire s’adresse aux profils techniques (architectes, développeurs, data engineers).
  • Le glossaire répond aux besoins des métiers (marketing, finance, RH, opérations).
  • Ensemble, ils créent un langage commun et facilitent la gouvernance.

Exemple concret : la donnée “Employé”

  • Dans le glossaire : Un employé est une personne physique liée à l’organisation par un contrat de travail actif.
  • Dans le dictionnaire : Champ EMP_ID dans la table HR_EMPLOYEES, type STRING, base RH1.
  • Dans le catalogue : définition métier + définition technique + relations avec d’autres objets (ex. manager, département).

Pourquoi glossaire de données et dictionnaire sont stratégiques aujourd’hui

La gouvernance des données ne peut plus être l’affaire exclusive des équipes techniques. Les projets de transformation digitale, de conformité (RGPD, BCBS 239, Solvency II) ou d’intelligence artificielle (AI governance) nécessitent une démocratisation de l’accès à la connaissance data.

Chez DataGalaxy, nous positionnons notre plateforme comme un Data & AI Product Governance Platform, capable de :

  • Cartographier vos données à tous les niveaux (technique et métier)
  • Réconcilier dictionnaire, glossaire et catalogue dans une interface unique
  • Favoriser l’appropriation de la donnée par tous les rôles de l’organisation (Data Stewards, Business Analysts, Product Owners, etc.)

Quelle traduction pour la cartographie des données?

Si nous adaptons ces termes à la gestion des données, nous pouvons construire les définitions suivantes

Le dictionnaire de données serait à définir, selon Philippe Nieuwbourg, comme un « inventaire des actifs immatériels que sont les données, qui permet aux utilisateurs de découvrir et d’explorer tous les jeux de données disponibles, d’améliorer leur compréhension de ces données, de faciliter la collaboration avec les autres utilisateurs afin d’enrichir la qualité de ces actifs, et de créer plus de valeur à partir de ces données. » [4].

Cette définition me semble à rapprocher de la tradition de gestion des données d’un point de vue Data Management, donc plutôt côté IT. L’idée est :

  • De réaliser un état des lieux le plus complet et détaillé possible des données : cela consiste donc à avoir pour chacune des données : une description succincte, des attributs techniques (taille, format, type…), un stockage (de quel set ou base de données elle dépend ?)
  • Pouvoir gérer cette donnée : est-ce que cette donnée est de qualité ? est ce qu’il faut la protéger ? est-elle sensible ? soumise à des contraintes particulière ?
  • Permettre l’exploration de ce dictionnaire et la collaboration autour : disposer d’un référentiel permettant de maîtriser la connaissance des données c’est bien… permettre que chacun se l’approprie afin d’éviter le phénomène du sachant c’est mieux !

Je mets volontairement de côté la notion de valeur que j’aurais plutôt à tendance à mettre dans le glossaire.

En pratique, un dictionnaire des données se présentera donc souvent comme une liste des données présentes dans l’organisation avec :

  • Sa classification ou hiérarchisation : Faisons une analogie avec une entrée du dictionnaire, comme le fait Wikipédia : « le chien est un animal de la classe des mammifères, ordre des carnivores et famille des canidés » par analogie, une classification pour la gestion des données consisterait à dire que la donnée dépend d’une chaîne plus ou moins complexe de gestion : table, conteneur, base…
  • Une définition : quel est le sens de cette donnée, comment la décrire…
  • Des attributs permettant de comprendre son contexte de gestion
  • Le glossaire, défini plus haut comme un outil de vulgarisation des données, serait donc à comprendre comme une synthèse des différents termes de l’organisation, définis de manière sémantique, c’est-à-dire compréhensible d’un point de vue fonctionnel. Il n’a pas vocation à traduire l’ensemble des données contenues dans le dictionnaire. Il vise surtout à restituer et décrire les principaux termes utilisés dans l’organisation.

Concrètement le glossaire a pour objectif de :

  • Définir de manière fonctionnelle les termes employés dans l’organisation : que signifie tel indicateur, comment est-il calculé ?
  • De proposer une certaine modélisation de cette donnée afin de la placer dans un contexte d’utilisation compréhensible par tous : Une donnée dépend bien souvent d’un contexte. Plusieurs points de vue peuvent être utilisés pour le décrire : par silos/verticaux de données ? par organisations ?
  • De fournir des attributs de gestion : domaines d’exploitation, contraintes de gestion, qualité intrinsèque de l’information.

Quand nous parlons de définir les données nous avons donc deux points de vue complémentaire :

  • Le dictionnaire visant à définir d’un point de vue technique et de manière exhaustive les données de l’entreprise
  • Le glossaire qui propose une « vulgarisation » fonctionnelle des données.

Chacun traite une partie du besoin: A quoi me sert de connaître la définition précise d’un employé si je ne connais pas les différents éléments gérés dans mon système d’information ? Ainsi avec cet objet “employé” :

  • Mon glossaire me permettra de savoir que la définition d’un employé est « une personne physique ayant un contrat de travail avec l’organisation dont la date de fin est dans le futur ». Plusieurs attributs permettant de décrire cet objet peuvent être utilisés : responsabilité de gestion, caractère personnel de la donnée…. Il peut également être mis en relation avec plusieurs autres typologies d’information : adresse, informations bancaire…
  • Mon dictionnaire me permettra de savoir que mon employé est en réalité une notion potentiellement dispersée dans plusieurs tables voir plusieurs systèmes.

La mise en relation des éléments du dictionnaire avec ceux du glossaire permet donc d’apporter une plus forte valeur ajoutée à cette démarche de cartographie des données. Se pose donc la question de savoir comment appeler cet outil ? deux termes se disputent la palme : référentiel et catalogue des données.

Bien que la notion de référentiel permette de retranscrire cette notion d’ “ensemble général duquel on peut étudier les sous-ensembles”, j’ai une préférence pour la notion de catalogue. En effet, selon Wikipédia, la notion de catalogue est un « inventaire descriptif de ce qu’une entreprise offre habituellement à ses clients. C’est un support de publicité directe qui présente les caractéristiques (références, tailles, options, prix, modalités de paiement, livraison, utilisation, service après-vente…) d’un produit ou service aux clients de l’entreprise. »[5]

Les notions d’inventaires et de caractéristiques me semblent bien contenues dans la définition d’un référentiel. Mais celle du Catalogue introduit deux notions qui me tiennent à coeur :

  • L’offre :qu’est ce que cette donnée? quelle est sa signification? quelle réalité décrit elle?
  • La publicité soit la capacité d’être informé de l’existence de ces informations.

Cette dernière est particulièrement importante. En effet, on nous rappelle fréquemment le déluge de données que nous vivons ainsi que l’injonction à toujours mieux les utiliser. Dès lors il me semble tout à la fois important de faire connaître le patrimoine et de trouver les moyens pour promouvoir son utilisation.

Conclusion : un pilier de la Data & AI Product Governance

La compréhension de vos données passe par une structuration intelligente de la connaissance. Dictionnaire, glossaire et catalogue de données ne sont pas des synonymes, mais bien des outils complémentaires pour une cartographie efficace, évolutive et partagée.

En associant rigueur technique et clarté fonctionnelle, vous créez les conditions d’une gouvernance des données agile, accessible et résiliente, un pilier indispensable à toute stratégie data et IA moderne.

 

FAQ

Puis-je créer un glossaire sans dictionnaire ?

C’est possible, mais limité. Un glossaire sans base technique aura du mal à être connecté à l’infrastructure réelle, l’idéal est de construire les deux simultanément dans une démarche de gouvernance unifiée.

Le glossaire métier définit les termes pour garantir une compréhension partagée. Le data catalog, lui, documente les actifs techniques (tables, champs, rapports) et les relie aux définitions du glossaire. Les deux sont essentiels — et devraient être intégrés.

Le glossaire métier simplifie les concepts pour une audience fonctionnelle ; le glossaire technique est souvent une version plus détaillée ou orientée IT. Dans la pratique, ces deux approches sont complémentaires.

Les Data Stewards et Data Owners sont souvent en charge de la définition métier, avec un support des équipes de gouvernance pour la cohérence globale.

Pour aller plus loin

Sources :

[1] Glossaire, lexique, référentiel ou dictionnaire… de données : https://www.decideo.fr/Glossaire-lexique-referentiel-ou-dictionnaire-de-donnees_a11562.html

[2] Équipe de recherche sur les Littératures, les Imaginaires et les Sociétés : http://www.unicaen.fr/recherche/mrsh/erlis/infosDicos/origine

[3] https://fr.wikipedia.org/wiki/Dictionnaire

[4]Dictionnaire des données : une définition expliquée en détail : https://www.decideo.fr/Dictionnaire-des-donnees-une-definition-expliquee-en-detail_a11848.html

[5] Catalogue d’offres et de produits : https://fr.wikipedia.org/wiki/Catalogue_d%27offres_et_de_produits