Outil central pour la gouvernance des données, le Data Catalog est une référence pour les Data Bakers mais aussi pour tous les métiers d’une entreprise. Cependant, pour être adopté par tous, son interface doit être simple d’utilisation et ne pas nécessiter de compétences techniques. Il doit faciliter le quotidien de tous ceux qui manipulent des données en étant modulable. Mais quelles sont les fonctionnalités indispensables du Data Catalog ?
Les différents modules du Data Catalog
Le Data Catalog est un outil modulable : vous pouvez utiliser une solution complète ou choisir quelques modules seulement (pour des cas d’usage spécifiques). Faisons le point sur les quatre modules principaux d’un catalogue de données.
Les 2 modules dédiés aux métiers techniques
- Le dictionnaire de données recense les connaissances des données stockées dans les sources de l’entreprise (base de données, data lake…). Il sert aussi à la gestion des métadonnées (description de la structure, source, etc.) et à créer un inventaire technique. L’objectif est de relier le terme métier avec les éléments techniques du dictionnaire. Cela permet de voir où se trouve la donnée au sein de l’entreprise.
- Le catalogue de traitements indique l’ensemble des flux et des règles de transformation appliquées aux données de l’entreprise. Il est aussi utilisé pour identifier et retracer le parcours des données (entrée et sortie) utilisées lors des chaînes de manipulation. Le catalogue de traitement est indispensable si vous souhaitez répondre aux exigences RGPD.
Si le dictionnaire de données et le catalogue de traitements sont pensés pour une utilisation par les métiers techniques, ils sont pourtant utiles à toute l’entreprise. À l’aide de ces modules, les données sont « propres » : les sources sont connues, la fiabilité est assurée, etc. Tous les collaborateurs peuvent alors utiliser les données sans souci !
Les 2 modules utilisés par tous les métiers
- Le glossaire métier est une base de connaissance qui regroupe tous les éléments des données utilisées par les métiers. Il permet de classer les informations selon l’organisation interne de l’entreprise. Chacun peut ainsi comprendre les enjeux des données utilisées dans les processus propres à son métier mais aussi dans l’entreprise.
- Le catalogue d’usages sert à inventorier les données, mais aussi à les retrouver. Les collaborateurs peuvent utiliser le catalogue d’usages pour savoir quels jeux de données sont à leur disposition, dans quels rapports, etc. Il permet donc aux équipes de comprendre le contexte de la donnée et d’analyser l’impact des modifications qui ont pu avoir lieu.
Une fonctionnalité pour les lier toutes
S’il s’agit de quatre modules différents, ils ne sont pourtant pas indépendants les uns des autres. Il est donc essentiel de créer des liens entre les informations que les modules contiennent : plus vous les enrichissez, plus la contextualisation de l’ensemble des données sera intéressante pour les métiers.
Data Catalog solutions : les fonctionnalités transverses
Moteur de recherche
Le moteur de recherche est indispensable à un Data Catalog. Il faut en effet pouvoir faire des recherches dans le catalogue de données ! Les équipes ne doivent pas passer des heures et des heures à explorer chaque ligne du catalogue pour trouver une information. Le plus, c’est la possibilité de faire des recherches à partir de requêtes et de filtres (par type d’objet, par étiquettes…) : un moyen simple de découvrir de nouvelles données !
Dimension collaborative
La culture data-driven signifie que l’intégralité des équipes doit pouvoir gérer et utiliser les données de l’entreprise. Le Data Catalog est accessible à tous : il est important que les utilisateurs puissent faire des retours sur les données et leurs métadonnées, en s’attribuant des tâches. Les commentaires et les missions assignés dans la plateforme déclenchent des notifications. Personne ne passe à côté !
Data lineage
Le data lineage est la représentation visuelle de l’ensemble du cycle de vie de la donnée. Il s’agit d’une cartographie des informations sous la forme d’un diagramme en arbre.
Le but ? Pouvoir comprendre rapidement les informations disponibles dans le catalogue. Le data lineage permet aussi de visualiser le parcours de la donnée. Il devient alors possible de voir la source de donnée, son utilisation finale, toutes les modifications qui ont été apportées et par qui…
Les modules du Data Catalog ont un objectif commun : faciliter la compréhension de la donnée, son contexte et son usage. La vision métier de votre entreprise est au cœur du DataCatalog 360° : transformez l’usage de vos données et simplifiez le quotidien de vos équipes !