Data Hub : 1500 mots pour le maîtriser et briller à la machine à café

Partager : 
maitriser-le-data-hub

Le matin. Vous attendez patiemment votre tour pour sélectionner votre habituel petit serré noir sans sucre, en cochant les éléments de votre ToDo mentale, quand soudain :
« N’est-ce-pas ? T’en penses quoi, toi ? » Vos collègues préférés vous regardent en souriant : « le Data Hub, c’est demain, c’est maintenant, non ? T’en penses quoi ? »…
Zut. Vous pensiez tous les maîtriser, les Data Trucs et compagnie. En voilà un nouveau qui arrive. Enfin nouveau, cela vous rappelle quelque chose mais … Ah ! Il vous faut vraiment ce café.

Pour vous permettre de parler de Data Hub avec assurance, et ce, quel que soit votre taux de caféine, je vous propose de forger votre propre avis sur le concept, au travers d‘une découverte en 2 points : qu’est un Data Hub et à quoi cela sert. Pour compléter, vous trouverez une liste d’éditeurs qui se positionnent aujourd’hui sur ce sujet.

Data Hub – qu’est-ce que c’est ?

On vous parle de Integrated Data Hub, Operationnal Data Hub, Enterprise Data Hub, Customer Data Hub ou même de Data Hub tout court. A l’ombre du buzzing Data Lake de ces dernières années, on retrouve le concept déjà abordé en 2008. Ainsi qu’en 2013, avec Dario Mandago qui formalise un ouvrage abordant les nouveaux paradigmes de collecte, transformation et partage de données. Le Hub est également proposée par Cloudera en 2014. Informatica posait la question en 2017. Pourtant, à l’aube de 2019, relativement peu de voix, et souvent en anglais, traitent le fond du sujet. Et c’est un bien maigre article Wikipedia qui permet de se faire rapidement une première idée. Alors, le Data Hub, qu’est ce que c’est ?

Telle que la définition littéraire le laisse penser, Hub, en français Centre, traduit la concentration, en un lieu central et commun, servant de point de départ comme d’arrivée. D’une manière plus imagée, un hub, c’est une plaque tournante, un point central de réseau de transport. C’est un merveilleux endroit où les diaboliquement fameux silos de données sont abolis.

Autrement dit, le Data Hub est un endroit unique, où se retrouvent l’ensemble de vos données, sans discrimination aucune. Elles y sont intégrées quelles que soient leurs sources, structures, formats, granularité, niveaux d’agrégations, type de contenus, et surtout quelle que soient leurs destinations. En effet, le mot Hub connote bien l’idée de transit d’un point de collecte vers un ou plusieurs points cibles. Mais le Data Hub, ce n’est pas juste un espace de stockage à l’instar du Data Lake. Les données y gagnent également un premier niveau d’intelligence et de gouvernance.

Pour légitimement s’appeler Data Hub, les données qui transitent dans cette plaque tournante sont améliorées : indéxées, taguées, sécurisées et harmonisées (voir la recette de la Data Soup pour quelques pistes d’harmonisation). D’une part, la performance technique est assurée pour les utiliser au mieux, d’autre part, la valeur business est renforcée. Le Hub gère également les notions de planification et de chaînes de traitement des données, dans un cadre de propriétés ACID. Ainsi, la force du Hub est d’améliorer la cohérence des données qui y transitent offrant une vue 360° fiable et compréhensible.

Attention, malgré cette intelligence, il ne faut pas prendre le Data Hub pour un classique Data Warehouse. Aucun schéma n’est imposé lors de l’intégration des données et bien que le Hub soit schema aware, il reste schema agnostic.

En ce qui concerne la centralisation et la valorisation des données, la définition du Data Hub fait l’unanimité. Toutefois, la question du stockage et de l’architecture semble garder un contour de réponse plus floue.

Vous vous demandez : « dans ce centre, les données sont-elles physiquement stockées ? ». A priori, pas forcément. Plusieurs sites décrivent le Data Hub comme un espace de stockage virtuel. Mais alors, ne devrait-on pas parler de Data Virtualization ? L’article de fond de Damon Feldman indique que les données sont effectivement physiquement déplacées dans le Hub. René Mandel, qui met en avant une architecture flexible, ne semble pas indiquer de stockage physique, et glisse même au passage que la couche d’intelligence n’est pas forcément dans le Hub.

Finalement, une définition générale du Data Hub se résume ainsi : le centre névralgique d’une architecture orientée données. Une définition plus en détails dépends de chaque contexte d’entreprise et de comment il a été implémenté.

« Un ODH combine la flexibilité des technologies NoSQL pour traiter tous schémas, avec la gouvernance, la rigueur et l’intégrité transactionnelle des technologies relationnelles. »

Gerhard Ungerer, auteur de Cleanning up the Data Lake with an Operational Data Hub

Vous êtes toujours là ? À ce point, vous devriez vous sentir à l’aise avec ce qu’est, ou à minima ce que n’est pas, un Data Hub. Mais ce n’est pas tout, pour vraiment captiver votre audience à la machine à café, il faut également savoir à quoi ça sert.

Data Hub – à quoi ça sert ?

Vous vous rappelez les fameux silos de données ? Le « fléau du 21 siècle » ? Bonne nouvelle, le Data Hub sert en premier lieu à casser ces silos. Il permet une vue 360° sur les données – harmonisées et sécurisées en plus. Pourquoi c’est utile ? Pour un Data Scientist ou Data Analyst, cela permet un travail de découverte et d’analyse plus exhaustif, en traitant les uses cases Data au travers du prisme de tous les systèmes. Leurs manipulations des données sont simplifiées. Et les données sont traitées avec une plus grande confiance. Ainsi, l’utilisateur gagne du temps en fouille ou préparation des données, pour se concentrer sur sa vraie valeur ajoutée : sortir l’information, la valeur business des données. Mais l’intérêt n’est pas que métier.

L’un des principes de l’architecture moderne énoncés par Joshua Klahr, préconise d’éliminer les copies et mouvements de données. Que l’on adhère ou pas à ces principes, c’est un fait : plus de copies, plus de flux, plus de temps de traitement, plus de chances d’erreurs, plus de maintenance, plus de coût, etc. Centraliser l’intégration et la consommation des données autour d’un Data Hub permet justement de minimiser ces flux. En image, on passe d’un entrelacs de liens entre systèmes, à une gestion des flux d’intégration bien plus fiable et ordonnée – et bien sur on évite les goulots d’étranglement. La performance des traitements est grandement améliorée. Et ce n’est pas tout ! Nous allons voir que dans le Hub, le travail est vertueux.

Dans un Hub, le travail sur les données est fait une seule fois pour être utilisé partout et à chaque fois. La mise en place de gouvernance des données se fait à un unique endroit, clairement identifié. Les études d’impact, suite à des évolutions, sont simplifiées et le risque d’en oublier diminue. Ainsi, on rationalise le travail. La maintenance est simplifiée, les coûts sont réduits et la productivité de l’équipe augmentée.

Pour résumer, en quelques mots, l’objectif d’un Data Hub est de rendre simple, abordable, facile, flexible, rapide et efficace, à la fois l’intégration et l’utilisation de toutes les données, tout en assurant la sécurité et la cohérence entre systèmes. Ambitieux, certes, mais en ligne avec le challenge de devenir une véritable entreprise Data Centric. Conquis par le concept, vous souhaitez le mettre en place ? Pour commencer votre benchmark, quelques éditeurs de solution sont listées dans le paragraphe suivant.

Data Hub – éditeurs de solution

Voici une liste – totalement non-exhaustive comparée à Matt Turck – des éditeurs de solutions qui se positionnent sur le sujet. Mon critère de sélection est simple. Ce sont les éditeurs qui ont mis la force marketing nécessaire (ou bien qui ont un responsable ceinture noire en SEO) pour apparaître en faisant une recherche Google sur le mot clef Data Hub. Dans l’idée, ceux qui parient sur le buzz à venir. On notera la présence de gros éditeurs, qui se positionnent dès à présent et rendent légitime de se pencher sur le sujet.

✦ Cloudera
✦ SAP
✦ MapR
✦ MarkLogic
✦ Indexima
✦ Cogent
✦ OpenDataSoft
✦ Informatica
✦ Equinix
✦ Oracle

Data Hub – futur buzz word ?

Le concept de Data Hub n’est pas nouveau, et pourtant, il n’a pas animé jusque-là les conversations autour de la machine à café. Mais aujourd’hui, la consommation des données en de multiples points ne doit plus complexifier le système d’information. De plus, les entreprises ayant un Data Lake mature réalisent qu’une curation des données est impérative – le Data Swamp est une réalité. Enfin, l’information détenue dans les données est toujours le meilleur moyen d’objectiver la prise de décisions. Le Data Warehouse se modernise et l’on parle même d’une nouvelle ère. Le Data Hub est une solution sexy pour traiter toutes ces problématiques.

data-hub

 

Dans tous les cas, un point commun ressort pour activer les leviers de la connaissance. La gouvernance des données, qui est aujourd’hui reconnue comme indissociable des architectures Data pour en tirer de la valeur. Ainsi, l’avenir peut se voir au travers d’un Data Hub, peut-être. Au travers d’une vraie stratégie de Data Governance, sûrement. D’ailleurs, avez-vous pensé ou repensé la vôtre ? Car aujourd’hui, de nouveaux outils se développent et portent la gouvernance des données dans une nouvelle ère, ou plutôt une nouvelle DataGalaxy.

Fleur de Saignes

Partager :