Modéliser vos entrepôts en équipe, obtenez un référentiel de connaissance

Partager : 
référentiel de connaissance partagé

Tous les jours, les organisations cherchent à se rendre plus efficaces. Une des meilleures façons de lancer ce processus est de simplifier et agiliser le travail au quotidien de vos équipes.

DataGalaxy vous propose une série d’articles concernant la facilitation des projets BI, depuis la phase de cadrage/conception jusqu’à l’exploitation de votre solution décisionnelle.

La modélisation décisionnelle, un référentiel de connaissance partagé

Pour obtenir un système d’information bien construit, efficace et rapide pour ses utilisateurs, mais aussi facile à maintenir pour les informaticiens le manipulant, le data modeling est une étape clé qui consiste à traduire dans la structure informatique du stockage les liens entre toutes les données (granularité, capacité de croisement, volumétrie, …).

Avec l’essor du Big Data et la mise en place des DataLakes, cette étape a parfois été quelque peu négligée avec l’espoir que les technologies rendraient la modélisation superflue, ou pour le moins avec une faible valeur ajoutée. Cet espoir semble avoir été pour le moins déçu, puisqu’on parle désormais de “DataSwamp” (marécage de données) plutôt que de “DataLake” (lac de données).

La modélisation reste donc une étape incontournable dans les projets BI. Pour autant, l’outillage et les méthodes de cette phase ont relativement peu évolués.

Méthodes et outils de travail

Concernant les méthodes dans le sens « techniques de modélisation », l’OLAP et toute les déclinaisons associées (Rolap, Molap,…) restent probablement parmi les plus efficaces et les plus connues (Ralph Kimball a bien creusé le sujet ! 😉 ). Difficile à ce niveau de « réinventer la poudre ».

On constate néanmoins très souvent un inconvénient non dans la méthode, mais dans sa mise en application.

En effet la mise en œuvre de cette méthode est souvent un processus de conception plutôt individuel : qu’il s’agisse des règles de nommage des objets, de leur représentation dans des diagrammes ou du partage de toute cette connaissance, le fonctionnement collaboratif se réduit au workflow « Conception -> Validation -> Diffusion ». Ce mode de fonctionnement aura des impacts sur la présentation même des données, puisque selon le profil du concepteur, la vision sera orientée selon sa compréhension.

Concernant les outils de modélisation, l’adoption de nouvelles plateformes adaptées se fait à pas de fourmis. Les anciens outils sont d’ailleurs une cause probable du manque de collaboration dans la phase de modélisation. Quelques reproches qu’on peut faire à ces outils :

  • Ils ne présentent pas les données sous un format graphique (tableurs par exemple).
  • Ils ne constituent pas un référentiel de connaissance facilement exploitable ou mis à jour (représentation de diagrammes de données dans powerpoint par exemple).
  • Ils ne centralisent pas les données et ne sont pas collaboratifs (tableurs, powerpoint, outil de bases de données spécifiques).

Bien appliquer les vieilles recettes avec les nouveaux outils

Comme pour les précédents articles de cette série, il faut dire haut et fort qu’il existe les outils adaptés pour cette phase de modélisation : les outils de gestion des métadonnées.

Ceux-ci, grâce à leur référentiel de connaissance partagé, vont permettre d’ajouter un atout collaboratif puissant à votre phase de modélisation.

Par exemple, nous évoquons dans notre article sur les flux ETL l’importance de se synchroniser entre les deux phases de « Data Mapping » et « Data Modeling ». Avec une plateforme de Métadata Management, la prise en compte des éléments extérieurs (quelles sont les données disponibles ? dans quel format ? quels seront les outils de restitutions ?) se fait en temps réel, améliorant la communication et permettant un véritable gain de temps.

Bien sûr, l’exploitation de tels outils sur les aspects de modélisation va bien plus loin que l’étape de conception. Avec un référentiel de connaissance partagé, il devient trivial de recenser tous les emplacements où sont stockées des données. Par exemple, retrouver un indicateur dans toutes les bases de données, s’assurer que le format est bien homogène et éventuellement le faire évoluer de manière sûre.

Enfin, cerise sur le gâteau, la plupart des plateformes proposent également de faire un reverse-engineering de vos bases existantes pour pouvoir rapidement se concentrer sur l’exploitation de la documentation.

Bref, pourquoi continuer à gaspiller du temps avec des outils de modélisation obsolète, quand des outils plus complets permettent de faire le travail mieux et plus vite ?

Partager :