Data lineage : une tentative de définition
Dans la gouvernance des données, on évoque fréquemment la fonctionnalité du data lineage. Malheureusement, une certaine confusion s’installe parfois lorsqu’on en parle à la machine à café. Le lineage a en effet beaucoup évolué ces dernières années…
Une définition très large pourrait être :
“Le lineage d’une donnée est la représentation des objets associés à cette donnée”.
Cet article a pour vocation de tenter d’analyser les deux éléments de cette définition :
- La question primordiale de ce qu’on entend par association d’objets (le contenu)
- Celle secondaire de la représentation (la forme)
Qu’est-ce que le data lineage ? Définition & rôle
En gouvernance des données, le data lineage est un outil essentiel pour comprendre et tracer les flux et transformations des données.
Définition : le lineage d’une donnée représente ses objets et relations tout au long de son cycle de vie. Le Data Lineage est la représentation visuelle du cycle de vie d’une donnée.
Comme le rappelle DataCamp, il s’agit d’un outil clé pour comprendre l’origine, les transformations et les usages des données dans l’entreprise.
Bonne pratiques pour développer et maintenir vos data products
Dans ce guide, nous vous proposons une présentation complète afin de vous aider à faire face aux complexités du développement et du maintien de data products.
Téléchargez le livre blancDeux questions clés qu’il permet de résoudre :
- Le contenu : quels objets ou entités sont liés à la donnée ?
- La forme : comment ces relations sont représentées pour faciliter la compréhension ?
Exemple d’intégration : le data lineage est souvent inclus dans les solutions de metadata management et de Data & AI Product Governance, comme celles proposées par DataGalaxy
Data lineage technique (horizontal)
Initialement, le lignage d’une donnée se rattachait uniquement à la question de son origine et des différentes transformations qui amenaient à son existence ou son utilisation.
Dans ce cadre, on regardait uniquement les associations techniques (quels sont les objets associés qui permettent de charger cette donnée).
Regarder ce lineage dans l’autre direction (quelles sont les transformations et données dont mon objet est la source) était alors appelé analyse d’impact.
Une première évolution a eu lieu, et ces deux sens d’analyse (Amont et aval) se regroupent désormais sous le terme de lineage (en anglais on parle de backward/forward ou end-to end data lineage).
La notion de transformation/déplacement de la donnée implique clairement une question sur la “dynamique” des données, et on qualifie souvent ce type de lineage d’horizontal. On constatera surtout qu’il s’agit d’un lineage technique, qui présente le parcours de la donnée dans l’entreprise en alternant flux et stockage de données.
Data Lineage conceptuel (vertical)
Avec le déploiement de la solution de management de métadata, une autre évolution du lignage semble être en cours : les lignages peuvent désormais présenter la notion de déclinaison entre une donnée conceptuelle et ses déclinaisons logiques et physiques.
Il relie les niveaux :
- Métier : entité “Client” dans un modèle métier
- Logique : table fonctionnelle Client
- Physique : tables CL001 et DIM_CLIENT dans le data warehouse
On parle alors de lignage vertical de la donnée. Bien que le terme ne soit pas encore très répandu, j’utilise également la notion d’empreinte (footprint) pour un lineage descendant.
En effet, il permet de visualiser par exemple toutes les sources qui contiennent une donnée importante.
Vers un data lineage global
Il peut être tentant de chercher à combiner les 2 types de lignée « Horizontal » et « Vertical ».
Néanmoins cette représentation se révèle très rapidement complexe à déchiffrer vu le nombre d’objets et de liens que l’on peut trouver dans un SI standard.
Dans ce cadre, il faut bien garder à l’esprit une notion de catégorisation des liens ainsi que leur direction : il s’agit de pouvoir filtrer sur les objets qui nous intéressent et éviter le bruit des objets inutiles.
Exemple d’analyse optimisée
Prenons l’exemple d’un lineage technique: je souhaite savoir comment la colonne T_CLIENT.ID_CLIENT est alimenté.
En récupérant tous les liens je pourrais disposer d’un lineage comme celui-ci (pas très complexe mais avec beaucoup d’informations superflues) :
Cas : comprendre l’alimentation de T_CLIENT.ID_CLIENT

Je vais filtrer sur les types d’association “Alimentation physique” :

Puis choisir la direction : droite vers gauche en partant de ma colonne :

J’arrive ainsi à visualiser facilement l’origine de mes données.
Bien-sûr nous aurions pu également filtrer sur un niveau de profondeur, les types d’objets,… Comme pour tout outil d’analyse, la réussite d’un lineage dépend d’un facteur prépondérant: quelle est la question que je me pose ?
Il suffit de travailler dans une seule perspective (vertical/horizontal et une seule direction) pour répondre ainsi à la plupart des questions.
Représentations & formats du data lineage
Il est tout à fait possible de représenter textuellement ou via des tableurs des lignages.
Mais le fait de manipuler des objets et leurs associations ramène tout naturellement à des représentations de type base graphe (affichage de nœuds et de relations).
Historiquement, l’objet principal du lineage était au début de l’arborescence et en haut à gauche dans les graphes.

Exemple d’image SAS Data Integration Studio:

Exemple de lineage des données d’un rapport Business Objects (2014).
Les données sources sont positionnées à droite dans ce lineage.
Il semble désormais admis que la représentation du lineage horizontal se fait en positionnant les objets source à gauche et les objets cible à droite de l’objet principal (du moins dans les cultures occidentales pour s’aligner sur le mode de lecture de gauche à droite).

Exemple de Lineage PowerBI. D’une manière générale, les évolutions de représentation graphique dans le web ont grandement servi la représentation des lineages.
Pourquoi le data lineage est stratégique aujourd’hui
- Conformité réglementaire: RGPD, HIPAA, BCBS 239, Solvency II
- Qualité des données: Détection d’erreurs ou ruptures
- Optimisation & performance : Identification de goulets d’étranglement
- Collaboration métier–technique : Langage commun entre data engineers, stewards, métiers et conformité
Data lineage, un pilier de la data & AI product governance
On assiste actuellement à une demande croissante de lignées dans la plupart des outils en lien avec les données et notamment les outils de gouvernance.
On peut supposer que l’amélioration rapide des aspects visuels n’y est pas étrangère.
Attention néanmoins à ne pas négliger les capacités concernant la gestion du contenu (capacité de récupération et de filtrage) au profit de l’esthétisme : le lineage est avant tout un outil d’analyse qui doit servir la productivité et le partage de la connaissance.
FAQ
- Pourquoi le data lineage est-il important pour la conformité ?
-
Il permet de prouver la maîtrise des données vis-à-vis des réglementations (RGPD, HIPAA…), en retraçant précisément l’origine et les transformations des données sensibles.
- Comment éviter un graphe de lineage illisible ?
-
Utiliser des filtres par type d’association, limiter la profondeur d’analyse, et choisir la direction (amont ou aval) avant de visualiser.
- Le data lineage est-il utile pour l’IA ?
-
Oui, il facilite l’audit et la traçabilité des données utilisées pour entraîner des modèles, garantissant qualité, transparence et conformité.
- Quels outils sont les plus utilisés pour le data lineage ?
-
Parmi les plus connus : DataGalaxy, Collibra, Alation, Talend, Informatica, Tableau et Looker.
- Quelle est la différence entre le lineage horizontal et vertical ?
-
Le lineage horizontal trace les flux et transformations techniques des données à travers systèmes et processus. Le lineage vertical relie les concepts métier aux implémentations techniques.
Points à retenir
- Définition : représentation du cycle de vie et des relations d’une donnée
- Deux types principaux : horizontal (technique) et vertical (conceptuel)
- Valeur ajoutée : conformité, qualité, optimisation, collaboration
- Bonnes pratiques : filtrer, limiter la profondeur, choisir la direction
- Outils clés : DataGalaxy, Collibra, Alation, Talend, Informatica, Tableau, Looker
Pour aller plus loin
Pour approfondir vos connaissances sur le data lineage, découvrez nos articles complémentaires qui explorent ses différentes facettes :
- Fonctionnalités du data lineage : une analyse des principales capacités offertes par les solutions modernes de data lineage, de la visualisation interactive au suivi de conformité.
- Idées reçues sur le data lineage : un décryptage des erreurs courantes et des confusions fréquentes autour du data lineage, pour mieux comprendre sa vraie valeur.
- Data lineage vs. traçabilité des données : une comparaison claire entre ces deux notions souvent confondues, afin de saisir leurs différences et complémentarités.