Big Data : attention aux données de mauvaise qualité !

Partager : 
Big-Data-Data-Quality

Pour corriger un problème, il faut pouvoir comprendre ce problème. Difficile avec des données qui ne sont pas complètes. La plupart des entreprises ont conscience de leurs problèmes liés à la qualité de leurs données, mais ne savent pas toujours comment les résoudre.

Ces mêmes entreprises identifient des problèmes de données déjà connus, c’est une erreur. La plupart des problèmes liés aux données de mauvaise qualité sont cachés et inconnus de l’organisation. Ces difficultés constituent un des défis les plus importants et souvent sous-estimés des entreprises.

En effet, beaucoup de données dans les entreprises sont indéfinies, redondantes, non fiables, complexes ou trop volumineuses. Avec le Big Data, les entreprises ont vu dans l’accumulation de grandes quantités de données, un avantage certain. Mais le volume considérable, la qualité médiocre et la mauvaise gestion des données paralysent les entreprises. 

Ces problèmes liés aux données forcent les entreprises à passer énormément de temps à chercher les données manquantes, corriger les données inexactes, créer des solutions de contournement, supprimer des doublons, etc. Une perte de temps et de ressources entraînant une diminution de productivité et des occasions manquées. 

Voici 5 problèmes liés aux données de mauvaise qualité, les voici : 

1/ Des problème liés à des données de mauvaise qualité

Les entreprises savent qu’elles ont des problèmes de qualité des données. Mais la plupart ne sont pas conscientes de l’ampleur de ces problèmes et surtout du coût et des dommages qu’ils représentent. 

La qualité des données fait référence au degré d’exactitude, d’exhaustivité, de pertinence et de fiabilité de ces dernières. Le coût important des problèmes liés à la qualité des données est connu. Cependant, les entreprises qui s’en inquiètent ne réalisent pas les problèmes liés à des données inconnus et surtout leurs coûts cachés. 

Les utilisateurs de la données dans l’entreprise passent un temps précieux à corriger les données inexactes, rechercher des données manquantes et contrôler l’exactitude des données. D’autant plus que les décisions stratégiques de l’entreprise nécessitent des données précises. Une entreprise qui n’a pas une idée précise de ses stocks, de ses profits, de ses pertes ou de ses clients ne prendra pas de bonnes décisions. 

2/ Les données inconnues et inexactes 

Les données inexactes sont toutes les données présentant un problème d’exactitude, encore faut-il le reconnaître. Les entreprises sont mises au défi par les données inexactes, mais encore plus par leur capacité à les identifier. Comment déterminer si les résultats d’une requête sont faux ? Surtout si la réponse paraît correcte. 

Si un collaborateur recherche le chiffre d’affaires de sa société et tombe sur un résultat de 10€, il aura forcément un doute sur la véracité de l’information. La donnée est sans doute inexacte. Mais si le résultat est de 200 000€, le collaborateur ne le remettra pas en question. La données inexacte est utilisée et participe à créer de nouvelles données de mauvaise qualité

Un autre cas peut se présenter lorsqu’un Data Steward cherche à nettoyer des données incorrectes. Si les données manquent de signification, de définition ou de contexte, le Data Steward se heurte à un problème, il doit “deviner” les erreurs. 

Toutes ces données inexactes, utilisées pour prendre des décisions stratégiques, posent problème. Elles orientent vers de mauvaises décisions, entraînant une perte de confiance dans les données, des situations de non-conformité et d’insécurité. 

3/ La perte de contexte des données 

Les données d’une entreprise représentent son organisation : ses évènements, ses relations, ses objets. Si les données, ou les informations sur ces données (méta-données), sont compromises, alors c’est toute l’entreprise qui fonctionnera mal. 

Lorsqu’une entreprise ne met pas en place une stratégie de gouvernance des données adaptée à son organisation, les données perdent leur signification. Les noms et définitions de données manquent, sont inadéquats ou inexacts entraînant leur mauvaise utilisation. 

Les données sont une ressource indispensable pour l’entreprise. Une organisation existe grâce aux interrelations entre les choses, évènements, collaborateurs et projets. Tout est lié et interdépendant, tout dérive du sens de ses relations. Le contexte des données est donc un élément primordial. 

4/ Les données non définies ou mal définies

La plupart des entreprises ont des données mal définies ou même indéfinies. Cette situation entraîne une perte de la signification des données. Le problème est complexe. Il est évident qu’une définition approximative de la donnée est néfaste, mais une définition trop longue et trop complexe peut elle aussi devenir “dangereuse”. 

Mais lorsque les données sont définies de manière neutre, elles ont l’apparence de données de qualité et inspirent confiance aux utilisateurs, alors même qu’elles peuvent être de mauvaise qualité. 

Il arrive parfois que des données soient correctement définies mais qu’un de leur champ de définition soit “surchargé”. Cette surcharge survient lorsque des types de données supplémentaires, non destinés à ce champ, y sont implémentées. 

Pourquoi ? La plupart du temps, cette surcharge survient pour éviter des améliorations coûteuses du système, ou trouver une “solution rapide” pour un problème lié à ces données. 

Mais cette surcharge pose problème. Elle entraîne des problèmes de compréhension et donc d’utilisation de ces données. 

5/ Les données redondantes et incohérentes

Les données redondantes sont toutes les données dupliquées ou accumulées et stockées dans plusieurs systèmes à des fins différentes. Ce sont des données en doublons. Ces dernières peuvent rapidement devenir incohérentes, lorsque les copies multiples de données se retrouvent avec des valeurs différentes. 

Malheureusement, les données redondantes et incohérentes sont la norme dans la plupart des organisations. Les mêmes données dupliquées dans plusieurs systèmes vont forcément devenir un problème, leur cycle de vie n’étant pas le même. Au bout d’un certain temps, ces données évoluent n’auront plus la même valeur, alors même qu’elles seront identifiées comme similaires. 

Les données redondantes coûtent très cher à l’entreprise, elles créent une dette technique. Chaque donnée dupliquée existant dans un autre système nécessite un logiciel supplémentaire pour la saisie, le déplacement ou la manipulation. Enfin, il y a aussi les coûts de maintenance, pour prendre en charge les éléments de données redondants. 

Mais le coût le plus important provient des données de mauvaise qualité qui résulteraient de données redondantes et incohérentes. Par exemple, les efforts et les risques à devoir choisir quelle version utilisée d’une donnée dupliquée pour prendre une décision commerciale critique. 

Les problèmes dans les entreprises liés aux données de mauvaise qualité ne sont pas toujours identifiés. Il arrive même que ces problèmes soient mis de côté et traités en apparence. 

Pourtant, l’étendue de leur rayon d’action, leur coût et leur impact peuvent faire de gros dégâts dans une organisation. Continuer dans ces conditions n’est pas une option satisfaisante, il faut posséder des responsables data qui s’occupent de ces problèmes dans l’entreprise, que ce soit un Chief Data Officer, un Data Quality Manager ou un Data Steward

Big-Data-attention-aux-données-de-mauvaise-qualité-
Partager :