A quoi sert un Data Catalog ?
Que vous soyez Chief Data Officer, Data Analyst, ou même tourné vers le marketing, les données sont le cœur de votre métier et la base de chaque décision. Vous avez d’ailleurs peut-être entendu parler du Data Catalog… Mais de quoi s’agit-il ? Peut-il être utile pour vous et les autres équipes de votre entreprise ? Découvrez tout ce qu’il faut retenir sur le catalogue de données, un outil au service de la gestion et de la gouvernance des données.
Bases de données et entreprises : l’origine du Data Catalog
Quels sont les enjeux du big data pour une entreprise ?
L’arrivée du big data dans les entreprises a bouleversé la gestion des données. Le volume des données stockées a considérablement augmenté, les formats sont de plus en plus variés… Comment faire pour gérer au mieux une base de données avec tant d’éléments à disposition ?
C’est là que le Data Catalog entre en scène : il s’agit d’un outil d’indexation des données. Il est utile pour structurer la data d’une entreprise, la rendre facilement disponible à tous les collaborateurs et centraliser la connaissance.
L’enjeu de la Business Intelligence et du big data, pour les entreprises, est de trouver un avantage concurrentiel à l’utilisation de toutes les données collectées. Il s’agit d’aider les référents métiers : un catalogue de données, par exemple, est utile pour comprendre les données et les analyser. L’objectif ? S’appuyer sur les résultats obtenus pour prendre de meilleures décisions business.
Le dictionnaire de données, meilleur ami du big data
Pourquoi utiliser un dictionnaire de données ? Quels sont les avantages ? Il s’agit d’un outil qui vous aide à comprendre, définir et structurer les sources et les bases de données de l’entreprise. Il est nécessaire de décrire les données (source, définition, usage, contexte, etc.) à l’aide des métadonnées.
Le dictionnaire de données est le socle du Data Catalog : il sert à décrire et organiser les éléments des différentes sources et bases de données de l’entreprise avec des métadonnées techniques et contextuelles. Le but est d’offrir un langage commun à tous les utilisateurs de la donnée, qu’ils soient spécialistes de la data ou référents métier, afin de faciliter les échanges et améliorer les performances. Pour une entreprise, favoriser la collaboration IT-métiers représente une valeur ajoutée facilement observable (réduction du time-to-market, meilleure réactivité dans un marché ultra-concurrentiel, etc.).
Qu’est-ce qu’un Data Catalog ?
Métadonnées et Data Catalog : définition
Un Data Catalog est un dictionnaire en ligne de métadonnées. La bonne gestion des métadonnées, ou metadata, permet de comprendre les données et de visualiser leurs interconnexions. Elles peuvent indiquer, entre autre, les éléments suivants pour chaque donnée :
-
- définition ;
- structure ;
- source ;
- qualité ;
- utilisation dédiée ;
- procédure à suivre;
- contexte.
Le Data Catalog est utile à l’ensemble de l’entreprise : il s’adresse à tous les métiers, qu’ils utilisent la donnée au quotidien ou plus rarement. Le but est de créer une base de données collaborative pour accélérer la démocratisation de l’accès à la data et encourager son exploitation. Démocratiser l’accès aux données, c’est permettre à toutes les forces vives de l’entreprise – et pas seulement une poignée d’élus – d’être actrices de la valorisation des assets de l’entreprise.
Le Data Catalog, un outil au service du data management
Le Data Catalog spécifie les règles de traitement des données mais permet aussi de les cartographier et de visualiser leur cycle de vie. Il indique leur origine, les modifications apportées, les équipes qui les ont transformées, et les bases de données où elles se trouvent. On peut ainsi visualiser le cycle de vie de la donnée de sa naissance jusqu’à sa mort, en ayant une vision claire de sa contribution et des usages qui ont été les siens.
Uniformiser les données de l’entreprise, c’est le rôle du Data Catalog, qui apporte une vision unique et centralisée du data management. Comme il ne nécessite aucune compétence technique particulière, il peut être utilisé par tous.
Il est l’outil de référence pour trouver une donnée et comprendre son contexte d’utilisation. Attention, on ne peut pas modifier la data directement dans le catalogue ! Si un utilisateur souhaite transformer une donnée, il trouvera facilement dans quelles bases il doit le faire, ou encore à qui s’adresser pour effectuer la modification. Les données sont à jour pour tous !
Comme le Data Catalog encourage la collaboration autour de la donnée, vous évitez le « syndrome du sachant ». Au lieu de se tourner vers la personne qui détient la connaissance, les collaborateurs peuvent simplement utiliser le Data Catalog, dans une logique de self-service, afin de supprimer les goulots d’étranglements et d’échanger plus facilement entre eux pour effectuer leurs missions.
Le syndrome du sachant
Lorsque la connaissance est répartie sur quelques individus historiques, il y a des problématiques de disponibilité de la donnée :
-
- rétention d’information,
- non-fluidité des échanges d’information,
- perte d’information en cas de départ d’une personne.
Définir les usages des données
Le Data Catalog ne fait pas que définir et structurer l’ensemble des données : il définit aussi leurs usages. La Business Intelligence ou les outils d’aide à la décision doivent être libres d’utilisation par l’ensemble de l’entreprise. Les référents métiers doivent s’approprier les données pour les utiliser selon des objectifs business propres à chacun. Avec le Data Catalog, les usages existants sont répertoriés, mais les collaborateurs peuvent en ajouter de nouveaux et les faire connaître à tous.
Métier et Data Catalog : qui est concerné ?
Le Chief Data Officer, gardien de la gouvernance des données
Responsable de la stratégie data de l’entreprise, le Chief Data Officer (CDO) tient le rôle de chef d’orchestre : il a pour mission de mettre en place la gouvernance des données. Il s’agit de créer un ensemble de règles et de processus pour garantir la fiabilité des données mais aussi leur utilisation efficace par l’ensemble de l’entreprise. Si chacun suit les procédures, les référents métiers (des responsables marketing au DRH) pourront alors prendre des décisions business à partir de l’analyse des données stockées.
Le Data Catalog est un allié de poids pour le CDO. Avec cet outil, il va pouvoir définir les règles d’utilisation des données de l’entreprise, sans oublier pour autant de bien prendre en compte tous les métiers. Les procédures correspondent à l’usage de chacune des équipes.
Le Chief Data Officer pourra, de cette manière, définir les lignes directrices de la stratégie data et positionner les Data Catalog au cœur de cette approche.
Le Business Intelligence Manager, responsable de l’analyse des données
Le Business Intelligence Manager, aussi appelé Chief Data Analytics (CDAO), est responsable de l’analyse des données de l’entreprise. Il a pour rôle de garantir que les données utilisées sont fiables et que les analyses effectuées sont correctes.
Avec le Data Catalog, le Business Intelligence Manager est assuré de manipuler des données fiables, qui ont la même signification pour tous les référents métiers de l’entreprise. De plus, il peut vérifier bien plus facilement la source d’une donnée, ou encore s’il y a des doublons. Et faire un peu de nettoyage si c’est le cas !
Le Data Scientist, magicien de l’analyse des données
Le Data Scientist assure la gestion et l’analyse des données, mais d’un point de vue plus technique que le Business Intelligence Manager. Il est amené à créer et à tester des algorithmes et de nouveaux indicateurs pour que les référents métiers puissent utiliser les données et prendre des décisions éclairées.
Le Data Catalog est un atout pour le Data Scientist. Il lui est utile pour :
- vérifier la source des données, et assurer leur fiabilité ;
- collaborer efficacement avec les référents métiers de l’entreprise à l’aide d’un glossaire.
Le glossaire met en place un langage commun autour de la data pour que toutes les équipes de l’entreprise puissent échanger et se comprendre. Le Data Scientist s’appuie sur ce glossaire pour développer les outils qu’il met à disposition des référents métiers.
Résultat ? Les algorithmes et les indicateurs assurent un meilleur impact business !
L’objectif du Data Catalog : une culture data-driven
Une solution pour une business intelligence data-driven
La business intelligence data-driven consiste à prendre des décisions business fondées sur l’analyse de données fiables, effectuées par les référents métiers d’une entreprise. Un principe qui vaut pour tous les métiers : le data-driven concerne aussi le marketing ou encore le marketing by data. Il peut s’agir par exemple de l’utilisation de la géolocalisation de l’internaute pour personnaliser son parcours et optimiser sa conversion.
La business intelligence ne peut fonctionner par elle-même : pour l’exploiter, il est nécessaire d’installer un Data Catalog et d’instaurer une culture data-driven au sein de l’entreprise.
Vers une culture data-driven
Une entreprise dite data-driven demande la collaboration de tous ! Le Data Catalog, par exemple, doit faire partie intégrante des outils utilisés par les référents métiers, et plus particulièrement lors de la prise de décision business. La culture data, ce n’est pas simplement la transformation digitale de l’entreprise. Les managers peuvent prendre la décision de l’instaurer, mais l’entièreté des collaborateurs doit comprendre son rôle dans la chaîne de valeur de la donnée et partager son savoir.
Business, technique… Tous les corps de métiers doivent participer à la mise en place de la data gouvernance et du Data Catalog. Il s’agit d’une approche bottom-up : la direction ne doit pas seulement comprendre les besoins des opérationnels. Ces derniers doivent décider (avec les managers) du contenu du Data Catalog et des règles de la data gouvernance.
Booster la gestion de bases de données avec un Data Catalog
Trouver un cas d’usage à la cartographie de données
Avant de lancer un projet de Data Catalog, il faut avoir défini des objectifs précis. En quoi le Data Catalog va-t-il aider les référents métiers au quotidien ? Par exemple :
- améliorer l’organisation et la gestion des données ;
- cartographier les données ;
- analyser les données à l’aide du data lineage.
Déterminer les besoins des équipes est un bon point de départ. Vous aurez ainsi une vision plus claire des avantages du Data Catalog pour vous et votre entreprise.
Une fois définis les besoins de chacun, vous pouvez construire un premier cas d’usage. Il sera utile pour vous familiariser avec l’outil et pour entamer une conduite du changement auprès des équipes.
Choisir l’équipe pour enrichir la solution et faire avancer le projet
Après avoir déterminé le besoin d’utiliser un Data Catalog, vous pouvez lancer la suite du programme. Le premier cas d’usage se construit en fonction de l’équipe choisie. Cette dernière doit être transversale et représenter à la fois les spécialistes data et les métiers business. Elle va découvrir le projet, enrichir le Data Catalog à partir de leurs connaissances mais aussi de leurs besoins au quotidien.
Par la suite, une fois le premier cas d’usage réussi, l’équipe choisie pourra évangéliser les autres collaborateurs sur l’utilisation du Data Catalog. Des solutions et de nouveaux cas d’usage peuvent aussi être suggérés par l’équipe. Petit à petit, utiliser un Data Catalog deviendra plus naturel. L’objectif final, c’est d’avoir une meilleure organisation et gestion des données dans toute l’entreprise.