Intelligence business

3 October 2018

Spécification des flux ETL en BI, un défi au quotidien !

Tous les jours, les organisations cherchent à se rendre plus efficaces. Une des meilleures façons de lancer ce processus est de simplifier et agiliser le travail au quotidien de vos équipes.

DataGalaxy vous propose une série d’articles concernant la facilitation des projets BI, depuis la phase de cadrage/conception jusqu’à l’exploitation de votre solution décisionnelle.

Le data mapping

Nous avions vu dans un précédent article que la phase de cadrage permettait notamment de définir quelles sources de données étaient pertinentes pour alimenter le système décisionnel.

A ce stade l’architecture, flux ETL reste très « macro » : on connaît la source, mais souvent très peu de détails sur les informations à récupérer (emplacement/tables/…, format, mode de récupération, fréquence de mise à jour), et par ailleurs les informations sur la cible sont également mouvantes (voir notre prochain article sur le Data Modeling).

Difficile donc de définir précisément les étapes d’Extraction, Transformation et chargement (Load).

Ainsi, il est nécessaire de pouvoir procéder de manière « agile » sur cette phase de spécifications des flux. Par rapport à la phase de cadrage, nous retrouvons forcément le même besoin de centralisation et de partage que pour un dictionnaire de données.

Mais il existe aussi une spécificité qui concerne ces flux de données : lors de l’étape de transformation, il sera nécessaire de croiser des données, les combiner, les filtrer, …

Et, par définition, ces opérations ne s’effectuent pas en mode de chargement « 1 pour 1 », c’est-à-dire qu’à une ou plusieurs informations en entrée peuvent correspondre une ou plusieurs colonnes en sortie.

Un tableur pour faire le data mapping ?

Avec les anciennes méthodes, et en l’absence d’outil adapté ou abordable, de nombreux acteurs des projets BI ont mis en place des spécifications en s’appuyant sur l’outil le plus flexible à leur disposition : le tableur (bien souvent Excel).

Or, nous l’avons vu précédemment dans l’article : Projets BI, ses méthodes et outils ont changés, et vous ?, si ce type d’outil permet de faire des spécifications « a minima », il n’est pas adapté pour gérer certains aspects de la gestion des métadonnées, notamment :

Les modifications des systèmes sources et cibles ne sont pas automatiquement pris en compte dans le data mapping,
Les versions des flux, qui évoluent particulièrement vite durant les phases de spécification ne sont pas gérées de manière adéquate.

Cette spécificité de chargement « n-n » entre les informations sources et cibles n’est pas adressée (le système tabulaire ne permet pas d’y répondre).

Bref, utiliser un tableur pour spécifier des flux se transforme rapidement en une tâche aussi ardue que faire rentrer des ronds dans des carrés (ou inversement).

Designer des flux ETL d’alimentations

Recensons les besoins auxquels un bon outil de spécifications de flux doit permettre de répondre.

D’abord nous l’avons vu la spécificité des chargements « n-n » est primordial. Le seul moyen compréhensible de répondre à cet enjeu consiste en un affichage graphique des données. Cet état de fait est d’ailleurs bien compris dans la plupart des logiciels de Data Transformation, qui proposent pour la plupart des liens graphiques entre les objets dans leurs interfaces de développement.

Dès lors, pourquoi se priver d’une solution qui a fait ses preuves ? Les outils de Métadata management qui gèrent le data mapping doivent intégrer ce type d’interface ; de facto, plusieurs d’entre eux en sont effectivement équipés.

Ensuite, la traçabilité dans l’utilisation des objets doit également être au cœur de cet outil. Les liens notamment avec le Data Modeling, doivent pouvoir être suivi en temps réel entre les collaborateurs. Nous retrouvons ici la problématique de centralisation et partage des données comme pour la phase de cadrage.

Cette traçabilité est désormais présente dans plusieurs plateformes de gestion des métadonnées, permettant de générer des lineages et des analyses d’impacts sur les objets de votre système décisionnel.

Finalement, la question de la collaboration et du versionning pourrait bien faire la différence pour la collaboration des équipes. En effet, toutes les plateformes de Métadata Management ne proposent pas la même simplicité pour gérer cet aspect des spécifications.

Quoi qu’il en soit, il n’existe aujourd’hui plus de freins quant à la migration de toute votre documentation de vos tableurs vers un format qui sera finalement plus pratique à utiliser au quotidien (gain de productivité), à exploiter (analyses d’impact et lineage) et qui proposera donc un bien meilleur retour sur investissement (ROI) que « cette bonne vieille feuille Excel ».

visual-white-paper-resp-fr (2)

Comment structurer une organisation Data-Driven ?

Autres articles

DataGalaxy lève 10 millions de dollars pour accompagner l’accélération de la transformation data de ses clients

DataGalaxy lève 10 millions de dollars pour accompagner l’accélération de la transformation data de ses clients

by Melanie Geheniau | Jul 5, 2023 | Communiqués de presse, Data Gouvernance, Intelligence business, Newsroom

DataGalaxy lève 10 millions de dollars pour accompagner l’accélération de la transformation data de ses clientsDataGalaxy, pionnier de la gouvernance collaborative des données, leader en France et éditeur du premier Data Knowledge Catalog, annonce une levée de fonds...

Data management : comment valoriser vos données ?

Data management : comment valoriser vos données ?

by Maxime Faivre | Jul 6, 2021 | Intelligence business

Data management, le défi de la valorisation des données La data n’est pas un long fleuve tranquille. Au contraire : elle arrive en continu dans les entreprises, avec un flux de plus en plus rapide. Difficile de ne pas se retrouver sous l’eau sans les bons outils !...

La Data Governance et ses 13 meilleures pratiques !

La Data Governance et ses 13 meilleures pratiques !

by xgougeon | Jul 22, 2020 | Data Gouvernance, Intelligence business

Découvrez les 13 bonnes pratiques de la Data Governance Les entreprises doivent pouvoir utiliser les données qu’elles accumulent. Sans un minimum d’organisation, ces dernières ne seront pas ou peu utilisées de façon cohérente, sans apport en terme commercial et en...

Approche

Le chemin de la Data Gouvernance

Data Gouvernance Flywheel
Plateforme

Data Knowledge Catalog

Dictionnaire technique

Glossaire Métier

Usages

Traitements

Connecteurs

Capacités

Moteur de recherche

Data lineage

Collaboration

Intégrations

Developers
Usecases

Inventoriez vos sources de données

Ouvrez votre BI & Analytics en self service

Accompagnez votre démarche Open Data

Supportez votre démarche RGPD

Data Gouvernance : réinventons la relation métiers et DSI !

Entreprise

Jobs We’re hiring!

Presse

Mentions légales

Politique de confidentialité

Conditions générales d’utilisation
Ressources

Devenez Partenaire de service

Devenez Partenaire technologique

Nos Partenaires de service

Nos Partenaires technologiques

Ressource Center

Tout savoir sur le Data Catalog

Data Governance : le guide

Le guide complet du Data Catalog

Le glossaire des métiers de la data

Blog

Suivez-nous par ici

Loading...