Si si, c'est de l'apprentissage, mais tu es tombé dans le piège marketing de l'IA. Ce que l'IA générative apprend, ce n'est pas le savoir que tu trouves sur internet. C'est comment écrire du contenu qui ressemble à ce que tu trouves sur internet. C'est très différent et ça éclaire beaucoup de choses.
ChatGPT, Mistral, Claude, Gemini, et des milliers d'autres LLM qu'on peut trouver sur
Hugging Face, y compris des équivalents des modèles commerciaux précédents, sont bel et bien basé sur l'apprentissage. Quand tu fais une requête, le principe de base du LLM n'est pas de faire une recherche sur internet. Il ne l'utilise pas lors de ta requête. Le LLM a été entrainé
auparavant sur le contenu internet, comme AlphaGo a été entrainé sur des parties existantes de Go avant de jouer ses matchs. Mais là où AlphaGo a appris à jouer au Go, les LLM apprennent à générer du texte humain : ce qui vient après "le chat a mangé la" est de toute évidence "souris", parce que c'est ça le plus probable dans un texte humain. Peu importe que ce soit vrai ou pas, c'est statistiquement le plus probable. Un LLM génère du texte cohérent, et non pas vrai, c'est fondamental à comprendre car c'est la raison pour laquelle il peut fournir de fausses informations. On appelle ça des illusions mais ça n'a rien de spécial : c'est la limite fondamentale d'un LLM. La ressemblance à du texte humain est tout ce qui compte, la vérité il ne la connais pas. Internet sert à l'entrainement, mais à l'usage il génère une réponse sur la base de ce qu'il en a retenu, sans l'utiliser à nouveau.
Maintenant les LLM peuvent être augmentés par différents outils, et pour comprendre comment ça fonctionne il faut comprendre que plus on donne de contexte et plus le LLM pourra générer une réponse orientée. Par exemple, si tu ajoute comme contexte "Dans un monde où les plus petits mangent les plus gros" ce qui vient après "le chat a mangé la" pourrais bien être autre chose que "souris", genre "vache", car ça ne serait pas cohérent avec ce qui a été écrit avant. Ainsi, apporter du contexte permet d'orienter la réponse pour que le LLM génère une réponse cohérente qui va dans le sens qui nous intéresse. Cela reste statistique, on n'aura pas forcément ce qu'on veut, mais les chances augmentent.
Une fois qu'on sait exploiter le contexte, on peut utiliser des outils du genre récupération de données sur internet. On les ajoute au contexte avant de demander de répondre. La réponse sera donc influencée par ce qu'on a ajouté au contexte. Toujours dans le but de générer du texte cohérent, et non pas vrai. Tu peux ajouter des pages Web, des PDFs, des images (pour les modèles qui savent les traiter) et autres données au format textuel (CSV, Markdown, XML, JSON, etc.). Si tu demandes "Décrit moi les caractéristiques d'un transistor BD777", il te sortira quelque chose qui ressemble à une description technique de transistor, mais si tu compares à la datasheet ça sera surement du pur bullshit. Si tu lui donnes la datasheet en contexte, la même question te retournera quelque chose de bien plus proche de la réalité, peut-être même parfaitement correct. Pas parce que c'est ce qui est vrai (il peut toujours sortir du bullshit) mais parce que c'est cohérent avec le contexte donné avec la requête.
Une fois qu'on a compris ça, on a compris qu'il ne faut jamais faire aveuglément confiance à un LLM. Il faut soit lui demander des trucs où on se fiche de l'aspect véridique (e.g. role play, création d'histoire, etc.) soit lui demander des trucs dont on sait pertinement qu'on passera derrière pour vérifier (ou un tiers de confiance, genre une suite de tests valides pour du code généré par IA). On peut être surpris de voir quelque chose qui semble fonctionner à la perfection, mais on n'est jamais à l'abri d'un dérapage complet.
Tout comme AlphaGo est très bon pour jouer au Go, les LLM sont très bon pour générer du texte cohérent. Mais comme on ne demandera pas à AlphaGo d'expliquer ses coups, on ne demandera pas au LLM de dire des choses factuellement vraies. Il n'en sont juste pas capables car pas entraînés pour ça. La phase de fine tuning qui vient après l'apprentissage oriente le type de discours du LLM, mais ça ne corrige pas complètement ses lacunes fondamentales.
À voir ce qu'il en sera avec ce que Yann Lecun nous sortira.
Partager