Présentation de Talkie : un modèle de langage 13B vintage datant de 1930, vous pouvez désormais discuter avec quelqu’un du passé qui n’a aucune connaissance du monde moderne

Les chercheurs en IA Nick Levine, David Duvenaud et Alec Radford présentent ci-dessous Talkie, un modèle de langage vintage de 13 milliards de paramètres datant de 1930.

L'intelligence artificielle (IA) est l'ensemble des systèmes informatiques capables d'effectuer des tâches typiquement associées à l'intelligence, telles que l'apprentissage, le raisonnement, la résolution de problèmes, la perception ou la prise de décision. L'intelligence artificielle est également le champ de recherche visant à développer de tels systèmes. L'IA est un domaine de l'informatique qui s'appuie sur des fondements mathématiques (statistiques, algèbre linéaire, probabilités) et des concepts issus des sciences cognitives. Elle vise à résoudre des problèmes à forte complexité logique ou algorithmique. Par extension, dans le langage courant, l'IA inclut les dispositifs imitant, simulant ou remplaçant l'homme dans certaines mises en œuvre de ses fonctions cognitives.

En traitement automatique des langues, un modèle de langage, modèle de langue ou modèle linguistique est un modèle statistique de la distribution de symboles distincts (lettres, phonèmes, mots) dans une langue naturelle ou un langage formel. Un modèle de langage vise fondamentalement à prédire le mot suivant dans une séquence de mots. Un grand modèle de langage (abrégé LLM de l'anglais large language model) est un modèle de langage possédant un grand nombre de paramètres (généralement plus d'un milliard).

Au lieu d'être entraînés pour une tâche spécifique comme l'analyse des sentiments, la reconnaissance d'entités nommées ou le raisonnement mathématique, ils peuvent accomplir un large éventail de tâches. Ils sont d'abord « pré-entraînés » à prédire une suite probable pour une entrée donnée. Cela leur permet d'acquérir une grande quantité de connaissances. La qualité du contenu généré semble augmenter régulièrement avec le nombre de paramètres, la taille et la qualité des données d'entraînement, ainsi que la quantité de calculs utilisée pour entraîner le modèle. Les grands modèles de langage sont ensuite le plus souvent entraînés par réglage fin (fine-tuning) pour adopter un rôle d'assistant conversationnel et afin d'être « utiles, sincères et inoffensifs ».

Les chercheurs en IA Nick Levine, David Duvenaud et Alec Radford présentent ci-dessous Talkie, un modèle de langage vintage de 13 milliards de paramètres datant de 1930.

Présentation de Talkie : un modèle de langage 13B vintage datant de 1930

Avez-vous déjà rêvé de parler à quelqu’un du passé ? Que demanderiez-vous à une personne qui n’a aucune connaissance du monde moderne ? Que vous demanderait-elle ? Bien que nous ne disposions pas encore de machines à remonter le temps, nous pouvons simuler cette expérience en entraînant, selon l’expression d’Owain Evans, des modèles de langage « vintage » : des modèles de langage (LM) entraînés uniquement sur des textes historiques.

Ces modèles sont des interlocuteurs passionnants. Mais nous sommes également enthousiasmés par la perspective que l'étude approfondie des comportements et des capacités des modèles de langage (LM) classiques puisse faire progresser notre compréhension de l'IA en général.

Nom : 1.jpg
Affichages : 28216
Taille : 55,3 Ko

Par exemple, nous pouvons évaluer la capacité des modèles de langage à prédire l'avenir. Inspirés par les travaux de Calcifer Computing sur les modèles de langage temporels, nous avons calculé le degré de surprise de brèves descriptions d'événements historiques pour un modèle de 13 milliards de paramètres entraîné sur des textes antérieurs à 1931 (figure 1). Nous observons une augmentation après la limite de connaissances, particulièrement prononcée dans les années 1950 et 1960, suivie d'un plateau. Nous continuerons à développer des évaluations pour mesurer avec plus de certitude comment les performances de prévision s'améliorent avec la taille du modèle et diminuent à plus long terme. L'entraînement de modèles de langage vintage plus volumineux nous permettra de mettre en évidence ces tendances d'échelle.

Nom : 2.jpg
Affichages : 944
Taille : 69,4 Ko

De même, nous pouvons tester la capacité des modèles de langage à proposer de nouvelles idées en vérifiant s’ils peuvent aboutir à des inventions ou à des découvertes scientifiques dont nous savons qu’elles ont eu lieu après leur limite de connaissances, comme celles illustrées à la figure 2. Comme l’a demandé Demis Hassabis, un modèle entraîné jusqu’en 1911 pourrait-il découvrir de manière indépendante la relativité générale, comme Einstein l’a fait en 1915 ?

Nom : 3.jpg
Affichages : 953
Taille : 71,1 Ko

La contamination est un problème persistant pour les modèles de langage et nous conduit à surestimer leurs capacités. Les modèles de langage vintage sont, par construction, exempts de contamination, ce qui permet des expériences de généralisation uniques, comme examiner si un modèle n’ayant aucune connaissance des ordinateurs numériques peut apprendre à coder dans un langage de programmation moderne. La figure 3 (à gauche) montre un premier exemple d'un tel test, mesurant dans quelle mesure des modèles entraînés sur des textes antérieurs à 1931 sont capables, lorsqu'on leur fournit quelques exemples de programmes Python, d'écrire de nouveaux programmes corrects. Bien que les modèles vintage soient nettement moins performants que les modèles entraînés sur des données du Web (qui incluent du code), nous avons constaté qu'ils s'améliorent lentement mais sûrement dans cette tâche à mesure que l'échelle augmente.

Il reste toutefois un long chemin à parcourir avant que cette capacité ne soit notable. Toutes les solutions correctes générées par les modèles vintage sont de simples programmes d’une ligne (tels que l’addition de deux entrées), ou de petites modifications apportées à des exemples de programmes en contexte. Par exemple, notre modèle a implémenté la fonction de décodage d’un chiffrement par rotation lorsqu’on lui a fourni la fonction de codage. Bien que la solution (figure 3, côté droit) ne consiste qu'en une modification d'un seul caractère (remplacer une addition par une soustraction), ce succès suggère une compréhension des fonctions inverses. Nous espérons que les modèles de langage avec des limites de connaissances précoces aideront la communauté scientifique à comprendre dans quelle mesure les modèles de langage peuvent généraliser au-delà de leurs données de pré-entraînement.

Les modèles de langage vintage pourraient également nous éclairer sur l'impact de la diversité des données dans le développement de l'IA. Si les modèles modernes varient en termes de disposition, de capacités et de comportement, ils sont tous étroitement liés les uns aux autres du fait d’avoir été entraînés, directement ou indirectement (via la distillation et les données synthétiques), sur le Web. Comment cela façonne-t-il et limite-t-il ce qu’ils sont ? Dans quelle mesure ce que nous pensons savoir sur les modèles de langage concerne-t-il le langage et la culture humains en général, ou cet ensemble de données particulier — le Web — en particulier ? L'entraînement sur différentes sources peut conduire à la création de types de modèles très différents. Étudier leurs similitudes et leurs différences pourrait améliorer notre compréhension des personnalités, des comportements et des dispositions des modèles de langage.

Présentation de talkie

Nous avons été ravis de voir proliférer les projets de modèles de langage vintage, notamment Ranke-4B, Mr. Chatterbox et Machina Mirabilis.

Parallèlement à ces efforts, nous présentons talkie-1930-13b-base, un modèle linguistique de 13 milliards de paramètres entraîné sur 260 milliards de jetons de textes anglais historiques antérieurs à 1931. De plus, nous présentons un point de contrôle post-entraînement qui transforme notre modèle de base en un partenaire de conversation sans s'appuyer sur des transcriptions de chats modernes ou des données d'ajustement par instruction.

talkie est le plus grand modèle linguistique vintage dont nous ayons connaissance, et nous prévoyons de continuer à l'étendre de manière significative. Dans un deuxième temps, nous entraînons un modèle de niveau GPT-3, que nous espérons publier cet été. Une estimation préliminaire suggère également que nous pouvons étendre notre corpus à bien plus d'un trillion de jetons de textes historiques, ce qui devrait être suffisant pour créer un modèle de niveau GPT-3.5, dont les capacités seraient similaires à celles du ChatGPT original.

Évaluation comparative d'un LM de 1930

Nom : 4.jpg
Affichages : 387
Taille : 53,0 Ko

Pour replacer les capacités de talkie dans leur contexte, nous avons créé un « jumeau moderne » dont l’architecture est identique, mais qui a été formé sur des données Web modernes (FineWeb) plutôt que sur des textes antérieurs à 1931. En moyenne, talkie affiche des performances inférieures à celles de son homologue moderne lors des évaluations standard des modèles de langage, même après correction de l’anachronisme des questions, bien qu’il ait été formé avec le même nombre de FLOP (voir figure 4). Mais nous avons été encouragés par ses performances similaires sur les tâches fondamentales de compréhension du langage et de calcul.

Nous soupçonnons qu’une combinaison de différences dans la qualité des données (mauvaise reconnaissance optique de caractères) et la répartition des sujets du corpus explique pourquoi Talkie-1930 est moins performant sur certains benchmarks. Afin de maximiser l’efficacité de calcul des futurs entraînements de modèles de langage vintage, nous développons un système de reconnaissance optique de caractères (OCR) vintage pour améliorer la qualité de la transcription des textes historiques.

Collecte de données vintage

En nous appuyant sur le travail inestimable d'organisations telles que l'Institutional Data Initiative et l'Internet Archive, ainsi que sur des initiatives comme Common Pile, nous avons collecté des centaines de milliards de jetons en anglais antérieurs à 1931. Ceux-ci comprennent des livres, des journaux, des périodiques, des revues scientifiques, des brevets et de la jurisprudence. Nous avons choisi la fin de l'année 1930 comme date butoir, car c'est à ce moment-là que les œuvres tombent dans le domaine public aux États-Unis. Pour cette version du modèle, nous nous sommes également limités principalement à des textes en anglais, car la validation du pipeline de données nécessite une connaissance approfondie des documents sources, et nous sommes des locuteurs natifs de l'anglais. Cependant, l'extension du corpus multilingue est une priorité absolue, tant pour augmenter la taille du corpus que pour accroître la diversité des perspectives qu'il représente.

Entraînement de modèles de langage vintage

Le développement de modèles de langage vintage présente des défis uniques. Nous en abordons brièvement certains ici. Nous y reviendrons plus en détail dans les mois à venir, à mesure que nous poursuivrons nos recherches.

Fuite temporelle

Nom : 5.jpg
Affichages : 390
Taille : 46,3 Ko

L'objectif le plus important lors de l'entraînement de modèles de langage vintage est qu'aucune donnée postérieure à la date limite de connaissances prévue (dans notre cas, le 31 décembre 1930) ne s'infiltre dans le corpus d'entraînement. Cela peut se produire de plusieurs façons, par exemple en incluant des documents modernes comportant des métadonnées de date erronées, ou des documents anciens comportant des insertions anachroniques a posteriori, telles que des introductions rédactionnelles ou des notes de bas de page.

Pour talkie-1930, nous avons développé un classificateur d'anachronismes basé sur les n-grammes au niveau du document et l'avons utilisé pour filtrer le corpus de pré-entraînement. Cependant, ce système n'était pas parfait. Une version antérieure de talkie (7B) connaissait clairement la présidence de Roosevelt et la législation du New Deal (Figure 5). talkie-1930-13b connaît en outre certains détails liés à la Seconde Guerre mondiale et à l'ordre de l'immédiat après-guerre (les Nations Unies et la division de l'Allemagne). Pour les futures versions du modèle, nous développons de nouvelles techniques de détection et de filtrage des fuites à l'aide de classificateurs plus avancés.

Qualité des données

Nom : 6.jpg
Affichages : 374
Taille : 70,0 Ko

La qualité des données est un enjeu important pour toutes les expériences d'apprentissage automatique. Elle représente un défi particulier lors de l'entraînement de modèles de langage d'époque. Comme il n'y avait pas d'édition numérique en 1930, tous les textes de notre ensemble de données ont dû être transcrits à partir d'une source physique, ce qui introduit une forme de bruit que l'on ne retrouve pas dans les textes natifs numériques. Si l'OCR a été l'une des premières réussites de l'apprentissage automatique et de la vision par ordinateur, les systèmes OCR classiques souvent utilisés pour transcrire des documents historiques peinent à traiter tout ce qui n'est pas une mise en page très simple et un scan très propre. Les systèmes modernes basés sur les VLM offrent une plus grande précision, mais nous avons constaté qu'ils ont tendance à introduire des faits modernes dans notre corpus, ce qui fausse l'exercice.

Lors d'expériences contrôlées, nous avons constaté que lorsqu'on entraîne un modèle de langage (LM) sur des textes antérieurs à 1931 transcrits à l'aide de systèmes OCR conventionnels, pour une quantité de calcul donnée, ces modèles n'atteignent que 30 % des performances d'un modèle entraîné sur des versions des mêmes textes transcrites par des humains (voir figure 6). Un simple nettoyage par expressions régulières porte ce chiffre à 70 %, ce qui reste un écart important. Nous visons à réduire l'écart de performance restant en retranscrivant le corpus Talkie à l'aide de notre système OCR vintage.

Post-entraînement vintage

Nom : 7.jpg
Affichages : 378
Taille : 74,7 Ko

Le manque de données post-entraînement prêtes à l'emploi constitue un autre défi majeur. Affiner notre modèle de base à partir de paires instruction-réponse disponibles dans le commerce reviendrait à y intégrer des connaissances, un style et des attentes anachroniques quant à ce que devrait être un assistant de chat. Plutôt que d'essayer de filtrer ces biais, nous avons construit de toutes pièces un pipeline post-entraînement.

Tout d'abord, nous avons généré des paires instruction-réponse à partir de textes historiques présentant une structure régulière, tels que des manuels de savoir-vivre, des guides de rédaction de lettres, des livres de cuisine, des dictionnaires, des encyclopédies et des recueils de poésie et de fables (voir figure 7), puis nous avons affiné notre modèle de base à partir de ces données en utilisant un format de conversation simple.

Ensuite, afin d'améliorer les capacités de suivi des instructions, nous avons généré des invites synthétiques couvrant différents types de tâches, telles que le résumé de documents, la réponse à des demandes d'informations directes et la poursuite cohérente de conversations à plusieurs tours. Nous avons ensuite effectué une optimisation directe des préférences en ligne sur des déploiements générés à partir de ces invites, en utilisant Claude Sonnet 4.6 comme juge. Au cours de l'entraînement, sur un ensemble d'évaluation mis de côté, la note moyenne attribuée par le juge au respect des instructions dans les réponses de talkie est passée de 2,0 à 3,4 (sur une échelle de cinq points).

Enfin, nous avons effectué une nouvelle série de réglages fins supervisés, cette fois sur des conversations synthétiques à plusieurs tours entre Claude Opus 4.6 et talkie, sélectionnées par échantillonnage par rejet, afin de lisser les imperfections persistantes dans ses capacités conversationnelles.

Bien que nous ayons tenté de post-entraîner Talkie sans influence moderne, l’apprentissage par renforcement avec un retour d’information de l’IA façonne inévitablement le comportement de Talkie de manière anachronique. (La version 7B de Talkie est issue d’un apprentissage par renforcement utilisant des listes.) À mesure que nous nous développons, nous espérons pouvoir utiliser nos modèles de base vintage eux-mêmes comme juges afin de mettre en place un pipeline de post-entraînement entièrement autonome et adapté à l’époque.

Mise à l'échelle de talkie

Nous prévoyons de mettre à l'échelle talkie rapidement au cours des prochains mois. Cela impliquera :

- D'augmenter la taille de notre corpus en anglais et de l'étendre au-delà de l'anglais.

- De procéder à une nouvelle reconnaissance optique de caractères (OCR) sur autant de textes antérieurs à 1931 que possible à l'aide de notre nouveau système OCR.

- De renforcer le pipeline de détection des fuites en développant de nouvelles techniques de classification des anachronismes.

- L'élargissement et le perfectionnement du pipeline de post-entraînement vintage en collaboration avec des historiens, notamment en développant des méthodologies pour construire des personas historiques précis.

Rejoignez-nous

Nous sommes ravis de collaborer avec des chercheurs et des institutions pour construire la prochaine génération de modèles de langage vintage. N'hésitez pas à nous contacter.

- Êtes-vous un chercheur ou une institution disposant de textes historiques ? Nous serions ravis de discuter de la manière dont nous pouvons contribuer à les rendre accessibles aux chercheurs et aux lecteurs, notamment en appliquant notre modèle OCR.

- Êtes-vous un particulier ou une institution souhaitant soutenir le développement de modèles de langage vintage par le biais d'un financement ou de ressources informatiques ? Nous pouvons probablement utiliser l'un ou l'autre, ou vous mettre en contact avec d'autres équipes travaillant dans ce domaine.

- Êtes-vous un universitaire en sciences humaines ? Nous serions ravis de discuter de la manière dont les modèles de langage vintage, ainsi que les données et l'infrastructure utilisées pour les entraîner, pourraient être utiles à vos recherches.

- Êtes-vous un chercheur en IA ? Nous serions ravis de soutenir et de collaborer à des recherches sur l'entraînement et l'étude des modèles de langage vintage.

- Êtes-vous un artiste ou un écrivain ? Nous pensons que les modèles de langage vintage pourraient être des outils fructueux à expérimenter.

Considérations relatives au contenu

talkie reflète la culture et les valeurs des textes sur lesquels il a été entraîné. À ce titre, il peut produire des résultats qui seront offensants pour les utilisateurs.

Remerciements

Merci à Coefficient Giving et Anthropic pour leur soutien financier et informatique.

Nous remercions Pranav Anand, Benjamin Breen, Catherine Brobston, Collin Burns, Matteo Cargnelutti, Mackenzie Cooley, Brandon Duderstadt, Owain Evans, Chloë Farr, Ryan Greenblatt, Michael Hla, John Hughes, Mark Humphries, Andrej Karpathy, Sam Klein, Greg Leppert, Jack Lindsey, Christina Lu, Seoirse Murray, Jake Naviasky, Krishna Patel, Ethan Perez, Puria Radmard, Ludwig Schmidt, John Schulman, Buck Shlegeris, Benjamin Sturgeon, Daniel Tan, Ross Taylor, Cam Tice, Trip Venturella, Merlijn Wajer et Tao Xu.

Auteurs : Nick Levine, David Duvenaud, Alec Radford

Source : Introducing talkie: a 13B vintage language model from 1930

Et vous ?

Pensez-vous que cette présentation est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

Donner une personnalité aux modèles de langage, c'est simplement du bon travail d'ingénierie, par Sean Goedecke

La construction de grands modèles de langage (LLM) ne sera probablement pas une entreprise brillante, par Cal Paterson

La "distillation pas-à-pas", un nouveau paradigme d'apprentissage pour surpasser les performances des grands LLM, avec moins de données d'entraînement et des modèles d'IA de plus petite taille