Traçabilité, qualité, unité : la nouvelle chaîne de valeur de la donnée

Pour exploiter les données, les entreprises doivent éliminer les silos. Mais pour cela, elles doivent en premier lieu s’assurer de leur fiabilité.

Les organisations ne cessent de découvrir de nouvelles données. Que ce soit en interne, dans les applications, services web ou data lake, en externe, sur les places de marché ou les réseaux sociaux, ou encore lors de fusions-acquisitions, les entreprises accèdent continuellement à de nouvelles sources d’informations, et donc bien souvent, à de nouveaux silos de données. D’après les résultats de notre étude Data Paradox, 60 % des dirigeants considèrent ces silos comme un obstacle à la collecte, l’analyse et l’exploitation des données. Pour améliorer l’ensemble de la chaîne, les organisations doivent passer par une étape cruciale d’unification.

Pas de fiabilité sans traçabilité

Les grandes entreprises investissent des moyens importants pour garantir leur conformité, particulièrement dans des secteurs très réglementés comme la finance ou l’assurance. Ce travail peut néanmoins être compromis lorsqu’elles réalisent une opération de fusion-acquisition. De nouveaux jeux de données viennent alors enrichir le système d’information, et avec eux, de nouveaux formats et structures distincts. Toujours selon cette étude, 73 % chefs d’entreprise qui rencontrent des difficultés avec les silos de données identifient les fusions et acquisitions comme la principale cause de ces silos. Rapprocher ces ensembles de données peut être un véritable défi, notamment si la société acquise ne peut établir la traçabilité de ses données. Se pose alors une problématique de confiance, puisqu’il devient impossible de s’assurer de la fiabilité des informations, et donc de les intégrer à de nouveaux projets. La qualité de la donnée est un critère fondamental de tout projet data, car c’est de la fiabilité des données sources que dépend celle du résultat final. L’unification passera donc par l’utilisation d’outils permettant de connaître la provenance des données ainsi que le contexte et la finalité de leur création.

Les entreprises font également appel à la location de données afin de tester des modèles d’analyse et construire les algorithmes qui leur permettront de prendre les bonnes décisions. Les agence de publicité ou marketing par exemple, louent des informations qui leur serviront à mieux comprendre le comportement de leurs clients. Mais une fois encore, cette méthode pose le problème de la traçabilité. Il peut en effet être difficile de prouver l’origine de ces données. Actuellement, 40 % des personnes interrogées dans le cadre de l’étude estiment que les places de marché créent des silos en raison du manque de traçabilité. Ensuite, les sociétés qui commercialisent ces données peuvent le faire sous différents formats. Charge à l’entreprise utilisatrice de passer par des étapes de transformation et nettoyage avant de les exploiter.

Le rôle des bases de données est de fournir cette structure permettant le stockage et l’exploitation de cette donnée. Mais de nouveaux types d’informations sont constamment générés, obligeant les entreprises à déployer de nouvelles technologies pour les utiliser. Ces outils, nécessaires pour tirer parti de jeux de données de plus en plus complexes, sont donc susceptibles de créer des silos additionnels. D’autres approches sont donc nécessaires.

Un indice de confiance pour distinguer la bonne donnée

Des règles de traçabilité et de gouvernance doivent être respectées afin de connaître le cheminement de ces données et les personnes y ayant eu accès. Sans cette connaissance, l’utilisation des données constitue un risque pour l’entreprise. Les travaux de la CNIL (Commission Nationale de l’Informatique et des Libertés), garante de la protection des données personnelles, au format numérique ou papier, dans le privé ou le public, ou encore de l’Union européenne, à travers le Règlement général sur la protection des données (RGPD), contribuent à améliorer les traitements de données en donnant un cadre commun à toutes les organisations.

La Data Confidence Fabric est un autre exemple de projet visant à donner de l’unicité aux informations. Initiée par Dell Technologies, il a servi de base au projet Alvarium de la fondation Linux, au sein duquel sont aujourd’hui réunis d’autres acteurs de l’industrie comme Intel, IBM, IOTA ou Unisys. L’objectif est de créer une norme pour tracer, quantifier et mesurer les données, afin d’en évaluer le niveau de fiabilité, avec à terme, la livraison d’un framework open-source capable d’attribuer un indice de confiance à chaque donnée.

La quantité et la vélocité des données sont aujourd’hui telles que leur traitement nécessite un travail constant. Mais pour le simplifier, les entreprises peuvent dès le départ instaurer certaines bonnes pratiques : évaluer les risques lors de l’ajout de nouveaux systèmes, identifier les projets les plus pertinents, rassembler les données au sein d’un catalogue, utiliser des outils de gouvernance ou encore labelliser les données de confiance.

About the Author: Vincent Barbelin

Vincent Barbelin est CTO, CTO Ambassador de Dell technologies France.