IA & Banque : qualité, confidentialité, une question de gouvernance !

Les LLM ont besoin de données. Et plus particulièrement, de données non structurées. Les banques doivent donc ouvrir de nouveau flux, mais en continuant de garantir la qualité et la confidentialité. Pour Florian Caringi, Manager Big Data & Data Architecture du Groupe BPCE, la réponse à ce défi n’est pas uniquement technique, mais aussi organisationnelle.

– Par Florian Caringi, Manager Data AI Plateform & Architecture, Leader Open Source, Groupe BPCE

Nous avons vu quoi faire de l’intelligence artificielle et quelle plateforme mettre en œuvre. Vous êtes donc prêt à passer à l’action et à envoyer des téraoctets de données vers votre modèle.

Mais voici qu’une troisième question importante se pose : comment gérer la confidentialité et la qualité de ces nouveaux jeux de données ?

Jusqu’à aujourd’hui, nous avions plutôt bien relevé le défi de la donnée relationnelle. Mais pouvons-nous reprendre les mêmes recettes avec les données non structurées utilisées pour alimenter les LLM ?

À l’évidence, non. Au-delà des aspects purement techniques, une des principales difficultés ici vient de la gouvernance. Les data sets que nous exploitions jusqu’à aujourd’hui étaient structurées et avaient un ownership bien défini. La donnée non structurée elle, est beaucoup plus importante en volume que la donnée structurée, mais aussi bien plus dispersée au sein de l’organisation.

Une plateforme fédérée, un outillage industrialisé

Pour assurer à la fois la qualité et la confidentialité des données, il faut à tout prix éviter les silos techniques et organisationnels, synonymes d’incompatibilités, de doublons, de bases incomplètes, de gestion infernale des droits d’accès, etc. D’un point de vue technique, la privacy doit être une notion nativement intégrée dans les caractéristiques et les fonctions de la plateforme data, et cette plateforme doit être fédérée pour tous les utilisateurs.

La mise en place d’une « Design Authority » permettra de s’assurer que tout le monde ne réinvente pas la même roue et que les politiques en matière d’utilisation des données sont bien respectées de manière uniforme. La création de nouveaux rôles de Data Manager permettra également d’assurer que chaque jeu de données est prêt à être intégré à la plateforme et utilisé par les différentes équipes de l’entreprise.

Le fait d’avoir une plateforme technique fédérée et un outillage industrialisé garantit un niveau commun d’exigence en matière de qualité et de confidentialité. Mais il favorise également l’émergence de nouveaux cas d’usage ! Car si tout le monde travaille sur le même socle, les données peuvent plus facilement être corrélées. Il n’est ainsi plus nécessaire de constituer un data set à partir de zéro pour démarrer un PoC. Les données disponibles sur la plateforme sont utilisables par défaut.

L’observabilité pour traquer la qualité

Une autre question connexe que l’on ne se posait pas forcément avant l’émergence de l’IA est celle de l’observabilité des données. Quand bien même, des start-up sont arrivées sur le marché pour y répondre. Et ces technologies d’observabilité permettent désormais de suivre la donnée dans le temps et de garantir la fiabilité des processus de collecte et d’analyse afin d’identifier très rapidement à quel endroit de la chaîne la donnée a perdu en qualité, afin d’y remédier avant que cela n’ait également un impact sur la qualité des résultats.

La technologie a donc elle aussi des réponses à apporter au défi de la qualité. Mais celle-ci ne pourra pas remplacer le travail de sensibilisation, de formation et d’organisation. Dans notre groupe de 120 000 personnes, cela passe notamment par l’animation de groupes de discussion, sur Teams par exemple, ou plusieurs centaines de collaborateurs peuvent échanger autour des besoins, des cas d’usage, et des évolutions techniques qui en découlent.

Il est primordial de construire cet écosystème et d’accélérer le partage d’informations, seule manière de forger cette acculturation à la donnée à l’échelle de l’organisation.

About the Author: Florian Caringi

Florian Caringi est Manager Data AI Plateform & Architecture, Leader Open Source au sein du Groupe BPCE.