Révolutionnez vos données

Au début de nombreuses réflexions d’exploitation, d’optimisation ou de valorisation des données se trouve bien souvent une démarche de cartographie.
En effet, comment bien gérer un élément dont on ne sait évaluer le volume ou la complexité ?
Mais justement, quand il s’agit de cartographier les données, on se retrouve bien souvent confronté à leur complexité et à leur volume…! Nous voici face à un mur : comment restituer de manière compréhensible pour tous un élément qui ne cesse d’évoluer et dont les points de vue sont si divers ? comment favoriser la compréhension de ces données ?
Et pour une fois, la littérature n’aide pas : différents termes coexistent proposant chacun une facette du résultat d’une démarche de cartographie des données.
Dans cet article je vous propose de revenir sur les principaux termes existants et de préciser le point de vue qu’ils apportent dans la cartographie de vos données.
Il peut être tentant de mettre ces différents termes dans le même sac. L’article de Philippe Nieuwbourg[1], nous permet cependant de prendre un peu de recul et de mettre en lumière deux notions importantes :
Le dictionnaire des données est à comprendre comme un recueil de mots et d’expressions devant les définir avec des attributs essentiels et non essentiels.
Le glossaire des données est lui historiquement compris comme un recueil de gloses, c’est à dires des mots rares ou étrangers, associés à une définition. L’objectif est alors de décrire ou de commenter de manière sémantique des termes.
Contrairement aux lexiques, qui ont vocation à décrire l’ensemble des mots d’une langue, le glossaire vise à décrire des mots centrés sur un domaine.
Nous aurions donc deux objets qui, bien que poursuivant un objectif commun : expliquer des mots, ne sont pas construits de la même manière :
Si nous adaptons ces termes à la gestion des données, nous pouvons construire les définitions suivantes
Le dictionnaire de données serait à définir, selon Philippe Nieuwbourg, comme un « inventaire des actifs immatériels que sont les données, qui permet aux utilisateurs de découvrir et d’explorer tous les jeux de données disponibles, d’améliorer leur compréhension de ces données, de faciliter la collaboration avec les autres utilisateurs afin d’enrichir la qualité de ces actifs, et de créer plus de valeur à partir de ces données. » [4].
Cette définition me semble à rapprocher de la tradition de gestion des données d’un point de vue Data Management, donc plutôt côté IT. L’idée est :
Je mets volontairement de côté la notion de valeur que j’aurais plutôt à tendance à mettre dans le glossaire.
En pratique, un dictionnaire des données se présentera donc souvent comme une liste des données présentes dans l’organisation avec :
Concrètement le glossaire a pour objectif de :
Quand nous parlons de définir les données nous avons donc deux points de vue complémentaire :
Chacun traite une partie du besoin: A quoi me sert de connaître la définition précise d’un employé si je ne connais pas les différents éléments gérés dans mon système d’information ? Ainsi avec cet objet “employé” :
La mise en relation des éléments du dictionnaire avec ceux du glossaire permet donc d’apporter une plus forte valeur ajoutée à cette démarche de cartographie des données. Se pose donc la question de savoir comment appeler cet outil ? deux termes se disputent la palme : référentiel et catalogue des données.
Bien que la notion de référentiel permette de retranscrire cette notion d’ “ensemble général duquel on peut étudier les sous-ensembles”, j’ai une préférence pour la notion de catalogue. En effet, selon Wikipédia, la notion de catalogue est un « inventaire descriptif de ce qu’une entreprise offre habituellement à ses clients. C’est un support de publicité directe qui présente les caractéristiques (références, tailles, options, prix, modalités de paiement, livraison, utilisation, service après-vente…) d’un produit ou service aux clients de l’entreprise. »[5]
Les notions d’inventaires et de caractéristiques me semblent bien contenues dans la définition d’un référentiel. Mais celle du Catalogue introduit deux notions qui me tiennent à coeur :
Cette dernière est particulièrement importante. En effet, on nous rappelle fréquemment le déluge de données que nous vivons ainsi que l’injonction à toujours mieux les utiliser. Dès lors il me semble tout à la fois important de faire connaître le patrimoine et de trouver les moyens pour promouvoir son utilisation.
Au delà des petites discussions sémantiques explicitées ci dessus il est intéressant de noter que la cartographie des données se modernise.
Elle suit la tendance de fond sur la gestion des données à savoir l’ouverture vers les communautés fonctionnelles pour une meilleure appropriation. Toute la difficulté est maintenant de savoir comment modéliser ce glossaire pour qu’il soit compréhensible par tous.
Sources :
[1] Glossaire, lexique, référentiel ou dictionnaire… de données : https://www.decideo.fr/Glossaire-lexique-referentiel-ou-dictionnaire-de-donnees_a11562.html
[2] Équipe de recherche sur les Littératures, les Imaginaires et les Sociétés : http://www.unicaen.fr/recherche/mrsh/erlis/infosDicos/origine
[4]Dictionnaire des données : une définition expliquée en détail : https://www.decideo.fr/Dictionnaire-des-donnees-une-definition-expliquee-en-detail_a11848.html
[5] Catalogue d’offres et de produits : https://fr.wikipedia.org/wiki/Catalogue_d%27offres_et_de_produits