Select Page
7 August 2018

Master Data Management

Data Lake : Comment éviter de se noyer dans un lac de données ?

Pour pouvoir répondre à la question, il convient de comprendre ce que sont les lacs de données (Data Lake). Celui-ci désigne un espace de stockage global des données présentes au sein de l’entreprise. C’est donc grâce à lui qu’une stratégie de gouvernance de données peut se mettre en place dans une entreprise. Encore faut-il avoir conscience de l’importance d’une bonne gouvernance des données pour bien gérer l’accumulation des données dans l’entreprise.

Certaines organisations pensent pouvoir s’occuper de la cartographie de leurs données plus tard, qu’elles pourront mettre en place une stratégie de gouvernance quand “cela deviendra nécessaire”. Mais souvent, après quelques mois ou quelques années, ces dernières vont se rendre compte de plusieurs choses :

  • Les rapports tirés de ces données sont incohérents
  • Les données ne sont pas d’assez bonne qualité
  • Des doublons de données s’accumulent en quantité
  • Certaines données sont erronées

Initier une stratégie de gouvernance des données en amont aurait permis de résoudre ces problèmes avant même qu’ils n’en deviennent. Lorsqu’une entreprise ne souhaite pas mettre en place de gouvernance des données parce qu’elle pense ne pas en avoir besoin, c’est qu’elle en aura besoin, le scénario est le même qu’avec une “petite” blessure qu’on ne voudrait pas soigner par “flemme” ou manque de temps mais qui se dégraderait rapidement au point de devenir mortelle.

Voilà pourquoi “il vaut mieux prévenir que guérir”, cela évite de se retrouver face à des problèmes résultant d’effets secondaires évitables, en étant proactif et en gouvernant ses données dès le départ. Selon la prise en compte de cette problématique par l’entreprise, elle peut se retrouver dans plusieurs phases.

Phase : 1

Cette première phase correspond à la situation où la blessure est encore peu dangereuse, une petite coupure. Tout est encore possible pour bien la soigner. A ce stade, la gouvernance des données est mal engagées, des problèmes de données commencent à apparaître, mais seulement au niveau des équipes “en silo”.

Les problèmes liés à la qualité des données ne sont pas trop dangereux tant qu’ils sont cloisonnés à des équipes, des groupes, qui peuvent s’en occuper eux-mêmes sans trop de difficultés. Ces soucis ne se sont pas propagés aux restes des équipes et donc à l’organisation toute entière.

Les Data Stewards des équipes ayant des problèmes liés aux lacs de données peuvent les corriger et rectifier la situation.

Phase : 2

Durant cette phase, la blessure ne présage rien de bon. Il est encore temps d’éviter le pire mais il faut agir vite, avant que les problèmes ne touchent le reste du corps.

En ce qui concerne la Data Governance, les problèmes commencent au sein d’un département de l’organisation, mais peuvent rapidement se généraliser aux autres départements. Pour résoudre ces problèmes, il devient donc nécessaires de mettre rapidement en place une stratégie de gouvernance des données intelligente.

Dans un premier temps, il faut corriger les données erronées, les doublons et instaurer des méthodes pour assurer une qualité des données. A l’instar de la phase 1, les Data Steward (gestionnaire de la donnée) du département concerné par les problèmes de Data Governance devront prendre en main la situation. La prise en compte des raisons qui ont mené le département dans cette situation permettra d’en sortir.

Phase : 3

Une étape qui correspond à une phase de transition. La blessure n’est pas encore mortelle mais doit être prise en compte.

L’intégrité des données et les problèmes liées à la qualité de ces dernières peuvent encore être corrigés. Pour résoudre les problèmes identifiés, il est nécessaire de créer des groupes Data au sein des équipes. Ces référents Data (Data Stewards) garantiront la qualité des données et canaliser les flux afin d’éviter les lacs de données.

Phase : 4

A partir de ce stade de la blessure, le danger devient mortel et il est vital de s’en occuper. Il faut soigner rapidement la ou les causes de cette dernière avant qu’une infection touche le reste du corps.

Les problèmes liés aux données et leur qualité deviennent très préoccupants. Ces derniers impactent fortement les différents départements de l’organisation. La stratégie de gouvernance des données est très mal engagée, c’est pourtant bien elle qui pourrait améliorer la situation.

A partir de cette phase, l’organisation doit mettre en place une véritable équipe Data, avec des Data Stewards pour chaque département qui vont mettre en place une stratégie adaptée de gouvernance des données. Ces responsables data vont devoir travailler ensemble pour mettre fin aux problèmes déjà en place et assurer l’avenir.

Comme le dit si bien l’adage : “Mieux vaut prévenir que guérir”. Les données entrent et sortent des organisations à toute vitesse, le Big Data est passé par là et trouver des données n’est plus vraiment le problème. Avoir une stratégie de gouvernance des données n’est plus réservée aux plus grandes organisations, les plus petites doivent gérer toujours plus de données. Voilà pourquoi il est important de penser “Data Governance” dès que possible, en amont du projet.

Source utile : Data Lake

Comment structurer une organisation Data-Driven ?

Autres articles

DataGalaxy lève 10 millions de dollars pour accompagner l’accélération de la transformation data de ses clients

DataGalaxy lève 10 millions de dollars pour accompagner l’accélération de la transformation data de ses clients

DataGalaxy lève 10 millions de dollars pour accompagner l’accélération de la transformation data de ses clientsDataGalaxy, pionnier de la gouvernance collaborative des données, leader en France et éditeur du premier Data Knowledge Catalog, annonce une levée de fonds...

Loading...