Tutoriel : comment faire une IA financière fiable et conforme ?

Batiste Roger
2 juin
5 min de lecture

En résumé : Le buzz sur la fiabilité de l'IA joue sur nos peurs, mais la réalité est plus nuancée. Alors que ChatGPT seul peine à répondre aux exigences réglementaires et de fiabilité du secteur financier, les systèmes multi-agents combinant guardrails spécialisés, supervision algorithmique, et outils déterministes peuvent atteindre un niveau professionnel. Ainsi, s'il est vrai que "ChatGPT ne peut pas être votre conseiller", on aurait tort d'en déduire qu'aucune IA ne peut être mise en face de clients. Ce tutoriel illustre quelques techniques pour relever ce défi.

Image principale : comment faire une IA financière fiable et conforme ?

L'IA est beaucoup plus fiable que ChatGPT

Exemple : une requête sur les "meilleurs ETF éthiques en 2024" peut générer une réponse hallucinée incluant des fonds inexistants. Ou bien, il peut recommander des produits sans appliquer la règlementation MIFID II. Aucun conseiller humain ne ferait cela.

ChatGPT n'est pas au niveau (de fiabilité et de conformité) d'un conseiller humain.
Les systèmes multi-agent le sont (ou sont sur le point de l'être).

Cependant, on aurait tort d'en déduire que l'IA n'est pas fiable. Car bien souvent, les agents que les fintechs / banques mettent au service de leurs clients sont des "layer 2", c'est à dire des systèmes multi-agents bien plus évolués que ChatGPT (quoi que s'appuyant sur des LLMs).

7 techniques pour améliorer votre système multi-agent pour une IA financière fiable et conforme

Technique 1 : Anonymisation Dynamique des Données (basique)

Détectez les PII (noms, prénoms, mails, téléphones) dans les messages des utilisateurs.
Remplacez-les par des mots-clé que l'IA comprendra (par exemple, mail_client_anonymisé à la place de jean.dupont@sonmail.fr).
Executez les traitements de votre système multi-agent.
Remplacez les mots-clé par la vraie information.

Cela permet de masquer les PIIs de vos LLMs, en les contenant au niveau du système déterministe hébergé chez vous.

Technique 2 : Guardrails Spécialisés en Parallèle

Avec l'aide de votre service conformité, DPO et SSI, listez tout ce que vous ne voulez pas "laisser entrer" ni "laisser sortir" de votre système. Chacune de ces lignes s'appelle une "policy", que nous découperons en in_policy (message user-> agent) et out_policy (réciproquement).

À l'entrée et à la sortie de votre système, mettez un guardrail qui fonctionne comme suit :

En parallèle, pour chaque in_policy (resp, out_policy si sortie). Scorer de 0 à 100 le respet de cette policy (0: danger, 100: parfait) Si score < threshold Tenter de corriger le message, et le rejeter en cas d'échec — Un tel traitement est très rapide, et très scalable, car la parallélisation fait que le système ne souffre pas d'avoir un grand nombre de policies, voire de dupliquer les contrôles (si par exemple on veut deux LLMs distincts pour chaque policy).

Technique 3 : Faire du RAG

Le RAG, c'est le fait d'aller chercher les infos non pas dans les connaissances du LLM (qui sont imparfaites et obsolètes) mais dans une base de documents, à la manière d'un moteur de recherche. Les données ainsi récupérées sont ajoutées au contexte du LLM, si bien qu'il n'a qu'à reformuler les informations, sans avoir besoin de connaissances.

Non seulement cela permet d'avoir des infos fiables, mais cela permet aussi de tracer d'où viennent les informations, et donc d'apporter des éléments d'audit si besoin.

Technique 4 : Tool Calling Déterministe

Demandez à un LLM de faire un calcul mathématique complexe. Faites l'exercice n fois, et vous verrez que le résultats n'est pas toujours le même. Catastrophe pour un financier.

Sauf que ... qui a dit que c'est au LLM (exemple ChatGPT) de faire les calculs ? D'ailleurs, dans le cas de conseillers (humains), ce n'est quasiment jamais le conseiller qui fait des calculs financiers : il ou elle s'appuie sur des outils comme des simulateurs, etc...

my_tools = simulateur_épargne, simulateur_retraite, liste_fonds) # Option 1 : ajout tools model = llm.bind_tools(my_tools) # Option 2 : agent react model = crete_react_agent(my_tools) — La même chose est possible pour l'IA. Interdire au LLM de faire des calculs, et exiger qu'il utilise des *tools*, permet non seulement d'utiliser des outils déterministes, auditables, 100% fiables, mais en plus d'utiliser ceux qu'utilise normalement le conseiller !

Technique 5 : Tracez tout, et archivez pour audit ultérieur

Toutes les données utilisées, les tools appelés, les scores identifiés par les guardrails peuvent et doivent être tracés. Cela permet de garder un audit total du fonctionnement du bot, à des fins d'amélioration continue mais aussi de preuve.

Exemple :

User message : Quel est le prix du bitcoin ? Guardrail in : Policy scores (100, 100, 90, 68, 100) = ok Rag : aucune donnée pertinente trouvée dans notre base Tools : web-search('prix bitcoin') =>90 548 € price-api('BTC','today','dollar')=>98568 € Answer :"Le prix est de 98 568 $" Guardrails out : Policy scores (87, 100, 90) = ok Final answer :"Le prix est de 98 568$" — Des outils existent pour faciliter ce travail, mais nous préconisons aussi de copier chaque trace dans le système propre de l'assurance / banque / fintech afin de maitriser le cycle des décisions.

Technique 6 : Prévoyez une interface de supervision Humaine

Il est essentiel d'avoir une interface opérationnelle permettant de:

Voir le contenu des conversations
Détecter automatiquement les risques / opportunités (scoring, nlp sur l'émotion utilisateur, etc...)
Déclencher des réactions (le conseiller reprend la main, ou bien un email est envoyé, etc...)

Une telle interface est clé dans la coopération multicanale (et donc dans l'adhésion des équipes aux outils IA), mais c'est aussi une manière efficace de suivre la qualité des échanges et de réagir si besoin. L'IA n'est pas la fin des conseiller(e)s, du marketing, etc... il faut au contraire créer une coordination et une fluidité de l'information entre eux.

Technique 7 : Qualité et LLM-Juges

Indépendamment des guardrails, l'entreprise doit disposer d'un suivi de la qualité de chaque agent, globalement. Ici, on n'analyse pas chaque message, mais plutôt l'ensemble des conversations de l'agent (par exemple chaque jour), sur plusieurs critères de performance (ex : ton, expertise, longueur des conversations…). Cela permet de détecter des changements de comportement ou des dégradations (par exemple suite à une évolution, du LLM ou de l'agent).

Suivi de la performance de l'argent sur 24h Usefulness : +2% Tone-matching : 4% ...

Techniques 8, 9, 10...

La liste ne s'arrête pas là. Je pourrais parler de la façon d'écrire les système prompts, des choix de LLMs, des design-patterns ou de techniques d'évaluation de la qualité. Et encore, ce serait enjamber les sujets de gouvernance de données, de choux de cloud ou de self-hosting. Mais bon, c'était déjà long comme article, alors retenons qu'il existe de nombreuses astuces complémentaires.

Conclusion : on peut faire un agent fiable à partir d'un ChatGPT peu fiable

Les exemples ci-dessus ne sont que quelques-unes des techniques que l'on peut employer pour fiabiliser un système multi-agent. Retenez simplement que les institutions financières leaders n'utilisent pas ChatGPT "nu", mais des systèmes intégrant a minima :

Couche de Sécurité : Anonymisation + Guardrails
Couche Cognitive Déterministe: RAG Hybride + Tools
Couche de Validation : LLM-Juges + Supervision Humaine
Couche de Gouvernance : Auditabilité + ALI

Cette approche permet de concilier innovation et conformité, pour le plaisir des clients et des institutions financières. En matière de conformité, qu'on parle d'humains ou d'IA, le zéro défaut n'existe pas. Toutes ces techniques ne sont pas magiques, mais elles démontrent comment concilier IA, conformité et fiabilité.

Chez Odonatech, nous avons conçu et implémenté ces technologies au cœur de LiLa, notre IA financière fiable et conforme afin d'offrir un agent qui soit vraiment capable de parler aux clients, sans risque pour eux ou pour les institutions financières.

PS : je n'ai pas commenté ici les questions d'équilibre coût / latence / qualité, qu'il faut évidemment prendre en compte au cas par cas selon le cas d'usage, car certaines des techniques ci-dessus ont un impact sur la latence et les coûts.

PS : les questions de gouvernance mériteraient également un post à part. Je n'ai donc pas développé les questions éthiques et les manières de coordonner un projet de ce type, ce sera pour une prochaine fois.