DataGalaxy inclus dans le rapport Gartner® Magic Quadrant™ 2025 pour les solutions de gestion des métadonnées

Transformez votre façon de découvrir, gérer et gouverner vos données.

Demandez votre démo

Data lineage : une tentative de définition

    Résumez cet article avec l'IA ?

    ChatGPT Perplexity

    Dans la gouvernance des données, on évoque fréquemment la fonctionnalité du data lineage. Malheureusement, une certaine confusion s’installe parfois lorsqu’on en parle à la machine à café. Le lineage a en effet beaucoup évolué ces dernières années…

    Une définition très large pourrait être :

    “Le lineage d’une donnée est la représentation des objets associés à cette donnée”.

    Cet article a pour vocation de tenter d’analyser les deux éléments de cette définition :

    • La question primordiale de ce qu’on entend par association d’objets (le contenu)
    • Celle secondaire de la représentation (la forme)

    Qu’est-ce que le data lineage ? Définition & rôle

    En gouvernance des données, le data lineage est un outil essentiel pour comprendre et tracer les flux et transformations des données.

    Définition : le lineage d’une donnée représente ses objets et relations tout au long de son cycle de vie. Le Data Lineage est la représentation visuelle du cycle de vie d’une donnée.

    Comme le rappelle DataCamp, il s’agit d’un outil clé pour comprendre l’origine, les transformations et les usages des données dans l’entreprise.

    Bonne pratiques pour développer et maintenir vos data products

    Dans ce guide, nous vous proposons une présentation complète afin de vous aider à faire face aux complexités du développement et du maintien de data products.

    Téléchargez le livre blanc

    Deux questions clés qu’il permet de résoudre :

    1. Le contenu : quels objets ou entités sont liés à la donnée ?
    2. La forme : comment ces relations sont représentées pour faciliter la compréhension ?

    Exemple d’intégration : le data lineage est souvent inclus dans les solutions de metadata management et de Data & AI Product Governance, comme celles proposées par DataGalaxy

    Data lineage technique (horizontal)

    Initialement, le lignage d’une donnée se rattachait uniquement à la question de son origine et des différentes transformations qui amenaient à son existence ou son utilisation.

    Dans ce cadre, on regardait uniquement les associations techniques (quels sont les objets associés qui permettent de charger cette donnée).

    Regarder ce lineage dans l’autre direction (quelles sont les transformations et données dont mon objet est la source) était alors appelé analyse d’impact.

    Une première évolution a eu lieu, et ces deux sens d’analyse (Amont et aval) se regroupent désormais sous le terme de lineage (en anglais on parle de backward/forward ou end-to end data lineage).

    La notion de transformation/déplacement de la donnée implique clairement une question sur la “dynamique” des données, et on qualifie souvent ce type de lineage d’horizontal. On constatera surtout qu’il s’agit d’un lineage technique, qui présente le parcours de la donnée dans l’entreprise en alternant flux et stockage de données.

    Data Lineage conceptuel (vertical)

    Avec le déploiement de la solution de management de métadata, une autre évolution du lignage semble être en cours : les lignages peuvent désormais présenter la notion de déclinaison entre une donnée conceptuelle et ses déclinaisons logiques et physiques.

    Il relie les niveaux :

    • Métier : entité “Client” dans un modèle métier
    • Logique : table fonctionnelle Client
    • Physique : tables CL001 et DIM_CLIENT dans le data warehouse

    On parle alors de lignage vertical de la donnée. Bien que le terme ne soit pas encore très répandu, j’utilise également la notion d’empreinte (footprint) pour un lineage descendant.

    En effet, il permet de visualiser par exemple toutes les sources qui contiennent une donnée importante.

    Vers un data lineage global

    Il peut être tentant de chercher à combiner les 2 types de lignée « Horizontal » et « Vertical ».

    Néanmoins cette représentation se révèle très rapidement complexe à déchiffrer vu le nombre d’objets et de liens que l’on peut trouver dans un SI standard.

    Dans ce cadre, il faut bien garder à l’esprit une notion de catégorisation des liens ainsi que leur direction : il s’agit de pouvoir filtrer sur les objets qui nous intéressent et éviter le bruit des objets inutiles.

    Exemple d’analyse optimisée

    Prenons l’exemple d’un lineage technique: je souhaite savoir comment la colonne T_CLIENT.ID_CLIENT est alimenté.

    En récupérant tous les liens je pourrais disposer d’un lineage comme celui-ci (pas très complexe mais avec beaucoup d’informations superflues) :

    Cas : comprendre l’alimentation de T_CLIENT.ID_CLIENT

    datalineage-1

    Je vais filtrer sur les types d’association “Alimentation physique” :

    datalineage-2

    Puis choisir la direction : droite vers gauche en partant de ma colonne :

    datalineage-3

    J’arrive ainsi à visualiser facilement l’origine de mes données.

    Bien-sûr nous aurions pu également filtrer sur un niveau de profondeur, les types d’objets,… Comme pour tout outil d’analyse, la réussite d’un lineage dépend d’un facteur prépondérant: quelle est la question que je me pose ?

    Il suffit de travailler dans une seule perspective (vertical/horizontal et une seule direction) pour répondre ainsi à la plupart des questions.

    Représentations & formats du data lineage

    Il est tout à fait possible de représenter textuellement ou via des tableurs des lignages.

    Mais le fait de manipuler des objets et leurs associations ramène tout naturellement à des représentations de type base graphe (affichage de nœuds et de relations).

    Historiquement, l’objet principal du lineage était au début de l’arborescence et en haut à gauche dans les graphes.

    SAS_DI

    Exemple d’image SAS Data Integration Studio:

    LineageBO

    Exemple de lineage des données d’un rapport Business Objects (2014).

    Les données sources sont positionnées à droite dans ce lineage.

    Il semble désormais admis que la représentation du lineage horizontal se fait en positionnant les objets source à gauche et les objets cible à droite de l’objet principal (du moins dans les cultures occidentales pour s’aligner sur le mode de lecture de gauche à droite).

    Lineage_PBI

    Exemple de Lineage PowerBI. D’une manière générale, les évolutions de représentation graphique dans le web ont grandement servi la représentation des lineages.

    Pourquoi le data lineage est stratégique aujourd’hui

    • Conformité réglementaire: RGPD, HIPAA, BCBS 239, Solvency II
    • Qualité des données: Détection d’erreurs ou ruptures
    • Optimisation & performance : Identification de goulets d’étranglement
    • Collaboration métiertechnique : Langage commun entre data engineers, stewards, métiers et conformité

    Data lineage, un pilier de la data & AI product governance

    On assiste actuellement à une demande croissante de lignées dans la plupart des outils en lien avec les données et notamment les outils de gouvernance.

    On peut supposer que l’amélioration rapide des aspects visuels n’y est pas étrangère.

    Attention néanmoins à ne pas négliger les capacités concernant la gestion du contenu (capacité de récupération et de filtrage) au profit de l’esthétisme : le lineage est avant tout un outil d’analyse qui doit servir la productivité et le partage de la connaissance.

    FAQ

    Pourquoi le data lineage est-il important pour la conformité ?

    Il permet de prouver la maîtrise des données vis-à-vis des réglementations (RGPD, HIPAA…), en retraçant précisément l’origine et les transformations des données sensibles.

    Utiliser des filtres par type d’association, limiter la profondeur d’analyse, et choisir la direction (amont ou aval) avant de visualiser.

    Oui, il facilite l’audit et la traçabilité des données utilisées pour entraîner des modèles, garantissant qualité, transparence et conformité.

    Parmi les plus connus : DataGalaxy, Collibra, Alation, Talend, Informatica, Tableau et Looker.

    Le lineage horizontal trace les flux et transformations techniques des données à travers systèmes et processus. Le lineage vertical relie les concepts métier aux implémentations techniques.

    Pour aller plus loin

    Pour approfondir vos connaissances sur le data lineage, découvrez nos articles complémentaires qui explorent ses différentes facettes :

    • Fonctionnalités du data lineage : une analyse des principales capacités offertes par les solutions modernes de data lineage, de la visualisation interactive au suivi de conformité.

    À propos de l'auteur
    Jessica Sandifer Profil LinkedIn
    Passionnée par la transformation de la complexité des données en clarté, Jessica Sandifer est une gestionnaire de contenu expérimentée qui conçoit des histoires qui résonnent auprès d'audiences techniques et commerciales. Chez DataGalaxy, elle crée des messages de marketing de contenu et de produit qui démystifient la gouvernance des données et rendent la préparation à l'IA réalisable.
    Découvrez rapidement les trois meilleures façons de mesurer le succès et de faire une réelle différence dans votre organisation.