Une réflexion par Batiste Roger, CTO d'Odonatech
C’est la question qu’on me pose le plus souvent quand je pitch : Qu’est-ce que l’IA générative de niveau 2 ? 🤯
C’est vrai que pendant que les banques s’essaient prudemment à Mistral AI et Llama 3 (et elles ont bien raison), chez Odonatech , nous préparons déjà l’étape d’après.
Quoi de mieux que l’été pour prendre le temps de vous en parler, enfin ?
TLDR ; une IA générative de niveau 2 est un service qui s’appuie sur une IA générative de niveau 1 comme ChatGPT , Anthropic Claude , Google Gemini … pour dépasser largement ses performances, sur un cas d’usage plus spécialisé. La suite du post détaille justement cette question de performance et le fonctionnement de notre “surcouche”, indépendante et à haute valeur ajoutée.
Au programme de ce billet :
Vous allez rencontrer des difficultés en vous mettant à l’IA Générative
On a trouvé plein de solutions, et combinées, on appelle ça un “layer 2”
Peut-être que le mieux c’est de bosser avec nous (et pourquoi ?)
Les difficultés pour adopter l’IA générative, en vrai
Les banques comme les fintechs voudraient bien mettre de l’IA générative dans leurs services, que ce soit en interne ou en face des clients. Le potentiel est énorme, tant dans le gain de temps que dans le plaisir d’utilisation.
Problème, c’est beaucoup plus compliqué qu’il n’y paraît :
🤯 Les IAs ne sont pas fiables (ex : elles peuvent dire que le livret A est à 2%)
🤪 Les IAs ne sont pas déterministes (alors comment les tester ?)
🧠 Les IAs requièrent des prompts … qu’il faut améliorer en continu
😇 Les IAs ont besoin de passer la main à l’humain au moment opportun
🤓 Les IAs ont besoin de connaissances (cf. RAG), pas si simples à configurer
🧩 Les IAs sont en texte libre (données non structurées), difficiles à mettre dans le CRM
Et on pourrait continuer cette liste un bon moment…
🔍 Prompt n.m., instructions que l'on donne à une IA générative pour lui indiquer le comportement qui est attendu d'elle.
Bref, les IAs de Layer 1 (comme ChatGPT, Claude, Mistral, Llama, ...), c'est un marteau-piqueur : pratique mais un peu délicat à utiliser.
Pour mettre en "prod" un vrai cas d’usage, on se retrouve vite à monter toute une équipe avec des datascientists (fine tuning, RAG, …), des botmasters (prompts, retours utilisateurs), des interfaces (suivi des conversations, taggage), … Cher, long, et en plus, potentiellement éphémère 😥
🔍 Fine-tuning n.m., activité consistant a ajuster l'entrainement d'une IA existante, généralement pour la spécialiser, en lui montrant de nouvelles données.
🔍 RAG n.m., architecture permettant à une IA générative de profiter des connaissances d'une base de données. Le principe, c'est de faire une recherche dans la base (basée sur le message de l'utilisateur), puis d'inclure le résultat de cette recherche dans le prompt de l'IA, ce qui lui permet de "connaitre" le contenu de la base qui est pertinent.
😭😭😭 Bon, si c’était que ça, ça irait.
Si vous faites (comme nous) du conseil financier, vous avez par exemple des calculs à faire (actualisation, taux d’intérêt, coût d’un crédit, …). Est-ce que vous voudriez que ChatGPT les fasse, au risque de se tromper ? Évidemment pas. Donc vous allez utiliser vos simulateurs existants. Mais comment les intégrer à un même chat (en langue naturelle), qui combine ChatGPT et vos simulateurs ?
Assez vite, on se retrouve à fabriquer beaucoup de code, et à combiner code classique, IA classique et IA générative. Si on trouve des astuces, on peut avoir le meilleur des trois mondes.
Et ça n'est pas fini. Vient la question réglementaire. Vous voilà à construire des outils de surveillance et des protections pour que l’IA ne raconte rien d’interdit. Ça n'est pas fini. Vient la question de la cybersécurité. Que faire si quelqu'un essaie de voler vos prompts ou de faire dérailler votre IA (risque de notoriété) ? Vous voilà partis pour coder une couche de défense supplémentaire (non, celles proposées par les layer 1 ne suffisent pas).
C’est bon, vous avez réussi ? Que disent vos utilisateurs de leur nouvelle interface ? J’imagine qu’ils ont identifié des défauts, mais aussi des nouvelles idées. Vous devez donc mettre à jour vos prompts. Et comme entre temps Claude est devenu plus performant que ChatGPT, ou le contraire, vous changez d’IA layer-1. Mais changer d’IA layer-1 requiert de remettre à jour les prompts, car elles ne réagissent pas tout à fait pareil. Après avoir fait tous ces changements, comment savoir si votre assistant est mieux ou moins bien qu’avant ?
Supposons que ça se passe bien. Est-ce que le bot est suffisamment performant pour répondre au “job to be done”, c'est-à-dire pour faire ce qu’attend l’utilisateur ? Pour nous, la réponse a d’abord été non : l’IA ne prenait pas assez en compte les émotions pour pouvoir faire du conseil financier pertinent. On peut en rire lors d’un test, mais dire au client qui vient d’hériter qu’on est content pour lui, c’est tout à fait maladroit ! Il faut donc développer une compétence propre à la gestion des émotions, optimisée pour les sujets financiers. Comment faire ? Fine-tuning ? RAG ? IA ou pas IA ? Un peu tout ça ?
Voilà c’est fait, plus qu’à tester ! Mais comment ? On ne va pas faire des heures de tests manuels à la main à chaque changement de quoi que ce soit ? Et pourtant, sachant que l’IA est aléatoire, un test unique par version ne suffit pas. On se retrouve alors à se lancer dans OpenAI Evals ou dans Inspect. C’est génial, mais c’est vite assez lourd aussi.
🔍 Evals et Inspect sont des outils qui permettent d'évaluer la performance d'une IA générative. Ils ont notamment la difficile tâche de nous aider à surmonter l'aléatoire des IAs, et le fait qu'elles s'expriment en texte libre. Plus dur à réaliser donc qu'un logiciel de test automatique classique.
Nos solutions d'IA générative de niveau 2, fruit précieux de notre équipe astucieuse et pointue
Si la partie 1 vous a déprimé(e), celle-ci va vous donner le sourire !
Voici ce que nous avons fabriqué :
LiLa Cœur : c’est le cerveau de LiLa. Une véritable toile de modules spécialisés interconnectés, formant une IA intelligente à partir des IAs layer 1 (et d’autres briques de code déterministes bien sûr). LiLa Cœur étend les performances de l’architecture RAG, appelle des APIs, des calculatrices métier, et possède des capacités de gestion des émotions ainsi qu’un vrai savoir-faire de conseil financier (structuré, réglementaire, à jour, à l’écoute). Et encore, je ne vous ai pas tout dit (notre conseiller en PI est en vacances, je ne prends pas de risque) ! Bref, LiLa Cœur, c’est le centre du “Layer 2”.
LiLa Ali : nos interfaces pour les conseillers et/ou les services marketings : gestion des leads, relance, marketing automation, … C’est ce qui rapporte des opportunités commerciales à nos clients, donc, forcément, c’est le centre de notre ROI !
LiLa Qualité : une suite d’interfaces de surveillance des conversations, de la qualité des messages, et de tout ce qui touche à la conformité et à la sécurité.
LiLa Designer : une suite d’interfaces de paramétrage, de MaJ des prompts, et de test. Bref, tout ce qui fait qu’un projet nous prend quelques jours, pour faire ce qui prend normalement quelques mois 🤩
Et tout cela, ça ne dépend pas de tel ou tel Layer 1. C’est une surcouche. On peut le faire au-dessus de n’importe quelle IA générative, ou groupe d’IAs génératives (elles n’ont pas les mêmes forces, on peut en combiner plusieurs bien sûr !).
Une surcouche qui fonctionne très bien pour des centaines de cas d’usage qui touchent de près ou de loin au conseil financier, à la banque, à l’assurance, et aux activités similaires (ex : génération de leads pour une fintech, aider les employés avec le PEE, coach spécialisé en crypto, …).
Bien sûr, chaque cas d’usage implique un travail de personnalisation de LiLa … mais c’est le cas aussi des Layer 1, pour des résultats bien inférieurs !
L’intérêt de travailler avec nous
Nous sommes peu nombreux, et nous faisons mieux que OpenAI et Mistral AI ? C’est normal, nous ne sommes pas leurs concurrents, mais leurs clients !
Nous ne faisons pas de Big Data (en tout cas, pas aussi Big). Nous n’avons pas de gigantesques data centers onéreux, d’équipes de R&D spécialisées dans les techniques d'entraînement de LLMs, ou de partenariats avec Le Monde pour utiliser leurs données. Tout ça, les layer 1 le font pour nous.
Ce que nous faisons, c’est essentiellement deux choses :
🔭 Nous savons fabriquer des IAs intelligentes à partir d’IAs limitées (les fameux Layer 1)
🙏 Nous savons vous accompagner pour réussir un cas d’usage, que ce soit sur le plan des (nombreux) outils, ou sur les compétences spécifiques
Nous sommes des financiers de métier (Stéphane DOTHEE, Sima Ohadi comme moi-même), ce qui signifie que nous savons créer le pont entre la technologie généraliste des Layer 1 et les besoins spécifiques des banquiers.
Les Layer 1 n’ont ni notre moteur d’IA Layer 2 (plus intelligent, plus fiable, plus subtil), ni l’accompagnement spécialisé dans votre secteur. Les cabinets de conseil n’ont que le second (d’ailleurs nous sommes ouverts à des collaborations). Bref, si vous voulez réussir un projet d’IA générative dans la finance, je pense que vous lisez le bon article.
Conclusion
Les IAs de Layer 2 sont plus intelligentes, et plus spécialisées que les IAs de Layer 1.
A l’avenir, les entreprises de la finance ne travailleront pas directement avec OpenAI, Kyutai ou avec Mistral AI, mais avec des acteurs comme Odonatech.
Il en va de même dans chaque industrie, qui verra naître ses acteurs Layer 2 propres. Ce constat stratégique, qui étend la chaîne de valeur de l’IA générative, découle naturellement de notre retour d’expérience pratique. Il y a une réelle complexité métier et technique liée aux IAs génératives, ainsi bien sûr qu’au conseil financier. Il faut des experts capables de relier ces deux univers.
J’espère que ce post vous a plu, et vous a permis de découvrir ou de préciser ce concept de Layer 2 🤓. J’espère aussi qu’il vous donnera envie de vous intéresser aux acteurs comme Odonatech. 👭
PS : pour les investisseurs qui souhaitent diversifier leur portefeuille, intéressez-vous aux Layer 1 et aux Layer 2. Personne ne sait exactement comment se répartira la valeur entre ces deux types d’acteurs, mais mon petit doigt me dit que les Layer 2 sont très sous-estimés. Ayez un temps d’avance, faites-vous un avis !
Comments