Le glossaire de données, quelles différences avec le dictionnaire ?

by | May 28, 2020 | Catalogue de données, Glossaire Data

Au début de nombreuses réflexions d’exploitation, d’optimisation ou de valorisation des données se trouve bien souvent une démarche de cartographie.

En effet, comment bien gérer un élément dont on ne sait évaluer le volume ou la complexité ?

webinar-2-datagalaxy
Jeudi 2 juillet 2020  |  11H 

Mais justement, quand il s’agit de cartographier les données, on se retrouve bien souvent confronté à leur complexité et à leur volume…! Nous voici face à un mur : comment restituer de manière compréhensible pour tous un élément qui ne cesse d’évoluer et dont les points de vue sont si divers ? comment favoriser la compréhension de ces données ?

Et pour une fois, la littérature n’aide pas : différents termes coexistent proposant chacun une facette du résultat d’une démarche de cartographie des données

Dans cet article je vous propose de revenir sur les principaux termes existants et de préciser le point de vue qu’ils apportent dans la cartographie de vos données.

Vous voulez découvrir notre Data Catalog ?

moteur-recherche-datacatalog-360

Dictionnaire, Glossaire, catalogue des données … c’est quoi tout ça ?

Il peut être tentant de mettre ces différents termes dans le même sac. L’article de Philippe Nieuwbourg[1], nous permet cependant de prendre un peu de recul et de mettre en lumière deux notions importantes : 

Le dictionnaire des données est à comprendre comme un recueil de mots et d’expressions devant les définir avec des attributs essentiels et non essentiels. 

Pour l’anecdote, l’étymologie du terme germanique pour dictionnaire est très parlante: Wörterbuch qui signifie tout simplement «  livre (buch) de mots (wort) »[2])

Wikipedia va plus loin en introduisant la notion de référence, c’est-à-dire un corpus ayant pour but d’enseigner et de renseigner[3].

Le glossaire des données est lui historiquement compris comme un recueil de gloses, c’est à dires des mots rares ou étrangers, associés à une définition. L’objectif est alors de décrire ou de commenter de manière sémantique des termes.

Contrairement aux lexiques, qui ont vocation à décrire l’ensemble des mots d’une langue, le glossaire vise à décrire des mots centrés sur un domaine.

Vous voulez tout savoir des DataBakers ?

livre-blanc-databakers

Nous aurions donc deux objets qui, bien que poursuivant un objectif commun : expliquer des mots, ne sont pas construits de la même manière :

  • Le dictionnaire à une vocation d’exhaustivité, de référence et de précision
  • Le glossaire poursuit un objectif de vulgarisation

Quelle traduction pour la cartographie des données?

Si nous adaptons ces termes à la gestion des données, nous pouvons construire les définitions suivantes

1.Le dictionnaire de données serait à définir, selon Philippe Nieuwbourg, comme un « inventaire des actifs immatériels que sont les données, qui permet aux utilisateurs de découvrir et d’explorer tous les jeux de données disponibles, d’améliorer leur compréhension de ces données, de faciliter la collaboration avec les autres utilisateurs afin d’enrichir la qualité de ces actifs, et de créer plus de valeur à partir de ces données. » [4].

Cette définition me semble à rapprocher de la tradition de gestion des données d’un point de vue Data Management, donc plutôt côté IT. L’idée est

  • de réaliser un état des lieux le plus complet et détaillé possible des données : cela consiste donc à avoir pour chacune des données : une description succincte, des attributs techniques (taille, format, type…), un stockage (de quel set ou base de données elle dépend ?)…
  • Pouvoir gérer cette donnée : est-ce que cette donnée est de qualité ? est ce qu’il faut la protéger ? est-elle sensible ? soumise à des contraintes particulière ?
  • Permettre l’exploration de ce dictionnaire et la collaboration autour : disposer d’un référentiel permettant de maîtriser la connaissance des données c’est bien… permettre que chacun se l’approprie afin d’éviter le phénomène du sachant c’est mieux !

Je mets volontairement de côté la notion de valeur que j’aurais plutôt à tendance à mettre dans le glossaire.

En pratique, un dictionnaire des données se présentera donc souvent comme une liste des données présentes dans l’organisation avec :

  • Sa classification ou hiérarchisation : Faisons une analogie avec une entrée du dictionnaire, comme le fait Wikipédia : « le chien est un animal de la classe des mammifères, ordre des carnivores et famille des canidés » par analogie, une classification pour la gestion des données consisterait à dire que la donnée dépend d’une chaîne plus ou moins complexe de gestion : table, conteneur, base…
  • Une définition : quel est le sens de cette donnée, comment la décrire…
  • Des attributs permettant de comprendre son contexte de gestion.

Découvrez notre édude sur les Chief Data Officer

Etude-Chief-Data-Officer
  1.       Le glossaire, défini plus haut comme un outil de vulgarisation des données, serait donc à comprendre comme une synthèse des différents termes de l’organisation, définis de manière sémantique, c’est-à-dire compréhensible d’un point de vue fonctionnel. Il n’a pas vocation à traduire l’ensemble des données contenues dans le dictionnaire. Il vise surtout à restituer et décrire les principaux termes utilisés dans l’organisation.

 Concrètement le glossaire a pour objectif de :

  • Définir de manière fonctionnelle les termes employés dans l’organisation : que signifie tel indicateur, comment est-il calculé ?,
  • De proposer une certaine modélisation de cette donnée afin de la placer dans un contexte d’utilisation compréhensible par tous : Une donnée dépend bien souvent d’un contexte. Plusieurs points de vue peuvent être utilisés pour le décrire : par silos/verticaux de données ? par organisations ?
  • De fournir des attributs de gestion : domaines d’exploitation, contraintes de gestion, qualité intrinsèque de l’information..  

 

Quand nous parlons de définir les données nous avons donc deux points de vue complémentaire :

  • Le dictionnaire visant à définir d’un point de vue technique et de manière exhaustive les données de l’entreprise
  • Le glossaire qui propose une « vulgarisation » fonctionnelle des données.

Chacun traite une partie du besoin: A quoi me sert de connaître la définition précise d’un employé si je ne connais pas les différents éléments gérés dans mon système d’information ? Ainsi avec cet objet “employé” :

  • Mon glossaire me permettra de savoir que la définition d’un employé est « une personne physique ayant un contrat de travail avec l’organisation dont la date de fin est dans le futur ». Plusieurs attributs permettant de décrire cet objet peuvent être utilisés : responsabilité de gestion, caractère personnel de la donnée…. Il peut également être mis en relation avec plusieurs autres typologies d’information : adresse, informations bancaire…
  • Mon dictionnaire me permettra de savoir que mon employé est en réalité une notion potentiellement dispersée dans plusieurs tables voir plusieurs systèmes.

La mise en relation des éléments du dictionnaire avec ceux du glossaire permet donc d’apporter une plus forte valeur ajoutée à cette démarche de cartographie des données. Se pose donc la question de savoir comment appeler cet outil ? deux termes se disputent la palme : référentiel et catalogue des données.

Bien que la notion de référentiel permette de retranscrire cette notion d’ “ensemble général duquel on peut étudier les sous-ensembles”, j’ai une préférence pour la notion de catalogue. En effet, selon Wikipédia, la notion de catalogue est un « inventaire descriptif de ce qu’une entreprise offre habituellement à ses clients. C’est un support de publicité directe qui présente les caractéristiques (références, tailles, options, prix, modalités de paiement, livraison, utilisation, service après-vente…) d’un produit ou service aux clients de l’entreprise. »[5]

Les notions d’inventaires et de caractéristiques me semblent bien contenues dans la définition d’un référentiel. Mais celle du Catalogue introduit deux notions qui me tiennent à coeur :  

  • L’offre :qu’est ce que cette donnée? quelle est sa signification? quelle réalité décrit elle? 
  • La publicité soit la capacité d’être informé de l’existence de ces informations. 

Cette dernière est particulièrement importante. En effet, on nous rappelle fréquemment le déluge de données que nous vivons ainsi que l’injonction à toujours mieux les utiliser. Dès lors il me semble tout à la fois important de faire connaître le patrimoine et de trouver les moyens pour promouvoir son utilisation.

Vous voulez découvrir notre Data Catalog ?

moteur-recherche-datacatalog-360

Conclusion 

Au delà des petites discussions sémantiques explicitées ci dessus il est intéressant de noter que la cartographie des données se modernise.

Elle suit la tendance de fond sur la gestion des données à savoir l’ouverture vers les communautés fonctionnelles pour une meilleure appropriation. Toute la difficulté est maintenant de savoir comment modéliser ce glossaire pour qu’il soit compréhensible par tous. 

Auteur de l’article : Gauthier Coponas est reponsable Professional Services chez DataGalaxy. 

Sources : 

[1] Glossaire, lexique, référentiel ou dictionnaire… de données : https://www.decideo.fr/Glossaire-lexique-referentiel-ou-dictionnaire-de-donnees_a11562.html

[2] Équipe de recherche sur les Littératures, les Imaginaires et les Sociétés : http://www.unicaen.fr/recherche/mrsh/erlis/infosDicos/origine

[3] https://fr.wikipedia.org/wiki/Dictionnaire

[4]Dictionnaire des données : une définition expliquée en détail : https://www.decideo.fr/Dictionnaire-des-donnees-une-definition-expliquee-en-detail_a11848.html

[5] Catalogue d’offres et de produits : https://fr.wikipedia.org/wiki/Catalogue_d%27offres_et_de_produits