D'où viennent les gobelins ? Pourquoi les modèles d'IA ChatGPT d'OpenAI mentionnent-ils de plus en plus souvent les gobelins et les gremlins ?
À partir de GPT-5.1, nos modèles ont commencé à développer une étrange habitude : ils mentionnaient de plus en plus souvent des gobelins, des gremlins et d'autres créatures dans leurs métaphores. Contrairement aux bugs des modèles qui se manifestent par une chute brutale des scores d'évaluation ou un pic dans les métriques d'entraînement et qui renvoient à une modification spécifique, celui-ci s'est glissé subtilement. Un seul « petit gobelin » dans une réponse pouvait sembler inoffensif, voire charmant. Mais au fil des générations de modèles, cette habitude est devenue difficile à ignorer : les gobelins ne cessaient de se multiplier, et nous devions découvrir d’où ils venaient.
En bref, le comportement du modèle est façonné par de nombreuses petites incitations. Dans ce cas précis, l’une de ces incitations provenait de l’entraînement du modèle pour la fonctionnalité de personnalisation de la personnalité, en particulier la personnalité « Nerdy » (« geek »). Sans le savoir, nous avons attribué des récompenses particulièrement élevées aux métaphores contenant des créatures. À partir de là, les gobelins se sont répandus.
Les premiers signes de créatures
La première fois que nous avons clairement observé ce phénomène, c'était en novembre, après le lancement de GPT-5.1, bien qu'il ait pu commencer plus tôt. Des utilisateurs se sont plaints du ton étrangement familier du modèle dans les conversations, ce qui a déclenché une enquête sur certains tics verbaux spécifiques. Un chercheur en sécurité avait rencontré quelques « gobelins » et « gremlins » et a demandé qu'ils soient inclus dans la vérification. Lorsque nous avons examiné la question, l'utilisation du mot « gobelin » dans ChatGPT avait augmenté de 175 % après le lancement de GPT-5.1, tandis que celle du mot « gremlin » avait augmenté de 52 %.
À l’époque, la prévalence des gobelins ne semblait pas particulièrement alarmante. Quelques mois plus tard, les gobelins sont revenus nous hanter sous une forme bien plus spécifique et reproductible.
Résoudre le mystère des gobelins
Avec GPT-5.4, nos utilisateurs et nous-mêmes avons remarqué une augmentation encore plus importante des références à ces créatures. Cela a déclenché une nouvelle analyse interne et a mis en évidence le premier lien avec la cause profonde : le langage des créatures était particulièrement courant dans le trafic de production provenant d’utilisateurs ayant sélectionné la personnalité « Nerdy ». « Nerdy » utilisait l’invite système suivante, ce qui expliquait en partie cette particularité :
Vous êtes un mentor IA résolument geek, espiègle et sage pour un humain. Vous êtes passionnément enthousiaste à l’idée de promouvoir la vérité, la connaissance, la philosophie, la méthode scientifique et la pensée critique. [...] Vous devez déjouer la prétention par une utilisation ludique du langage. Le monde est complexe et étrange, et son étrangeté doit être reconnue, analysée et appréciée. Abordez des sujets sérieux sans tomber dans le piège du sérieux de soi. [...]
Si ce comportement n’était qu’une tendance générale sur Internet, on s’attendrait à ce qu’il se répande de manière plus homogène. Au lieu de cela, il était concentré dans la partie du système explicitement optimisée pour un style ludique et geek. Le style « Nerdy » ne représentait que 2,5 % de toutes les réponses de ChatGPT, mais 66,7 % de toutes les mentions de « gobelin » dans les réponses de ChatGPT.
Comme la prévalence du mot « goblin » semblait augmenter au fil des versions de notre modèle, nous avons soupçonné que quelque chose dans notre formation à suivre les instructions de personnalité amplifiait ce phénomène.
Codex nous a aidés à comparer les sorties du modèle générées pendant l’entraînement RL contenant « goblin » ou « gremlin » avec celles de la même tâche qui n’en contenaient pas. Un signal de récompense s’est immédiatement démarqué : celui initialement conçu pour encourager la personnalité « Nerdy » était systématiquement plus favorable aux sorties contenant des mots liés à ces créatures. Sur l’ensemble des ensembles de données de l’audit, la récompense de la personnalité « Nerdy » a montré une nette tendance à attribuer des scores plus élevés aux résultats contenant « goblin » ou « gremlin » pour un même problème qu’aux résultats qui n’en contenaient pas, avec une amélioration positive dans 76,2 % des ensembles de données.
Cela expliquait pourquoi le comportement était renforcé par l’invite de personnalité « Nerdy », mais pas pourquoi il apparaissait également sans cette invite. Pour vérifier si le style se transférait, nous avons suivi les taux de mention tout au long de l’entraînement, avec et sans l’invite « Nerdy ».
Alors que les mentions de « goblin » et « gremlin » augmentaient sous la personnalité « Nerdy », elles augmentaient dans une proportion relative presque identique dans les échantillons sans cette personnalité. Dans l’ensemble, les résultats suggèrent que ce comportement plus général est apparu par transfert à partir de l’entraînement avec la personnalité « Nerdy ».
Les récompenses n’ont été appliquées que dans la condition « Nerdy », mais l’apprentissage par renforcement ne garantit pas que les comportements appris restent strictement limités à la condition qui les a produits. Une fois qu’un tic stylistique est récompensé, l’entraînement ultérieur peut le propager ou le renforcer ailleurs, en particulier si ces sorties sont réutilisées dans le réglage fin supervisé ou les données de préférence.
Cela crée une boucle de rétroaction :
1. Le style ludique est récompensé
2. Certains exemples récompensés contiennent un tic lexical caractéristique.
3. Ce tic apparaît plus souvent dans les rollouts.
4. Les rollouts générés par le modèle sont utilisés pour l'affinage supervisé (SFT).
5. Le modèle devient encore plus à l'aise pour produire ce tic.
Une recherche dans les données SFT de GPT-5.5 a permis de trouver de nombreux points de données contenant les mots « goblin » et « gremlin ». Une enquête plus approfondie a révélé toute une famille d’autres créatures étranges : des ratons laveurs, des trolls, des ogres et des pigeons ont été identifiés comme d’autres mots-tics, tandis que la plupart des occurrences du mot « grenouille » se sont avérées légitimes.
La fin des gobelins
Nous avons retiré la personnalité « Nerdy » en mars après le lancement de GPT-5.4. Lors de l'entraînement, nous avons supprimé le signal de récompense lié aux gobelins et filtré les données d'entraînement contenant des mots liés à des créatures, rendant ainsi les gobelins moins susceptibles d'apparaître de manière excessive ou dans des contextes inappropriés. Malheureusement, l’entraînement de GPT-5.5 a commencé avant que nous ayons trouvé la cause profonde de l’apparition des gobelins. Lorsque nous avons commencé à tester GPT-5.5 dans Codex, les employés d’OpenAI ont immédiatement remarqué cette étrange affinité pour les gobelins, et nous avons ajouté une instruction de prompt pour les développeurs(s’ouvre dans une nouvelle fenêtre) afin d’atténuer ce phénomène. Codex est, après tout, assez « nerdy ».
Si vous souhaitez laisser ces créatures s’exprimer librement dans Codex, vous pouvez exécuter cette commande pour lancer Codex sans les instructions de suppression des gobelins :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5 instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \ jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \ ~/.codex/models_cache.json | \ grep -vi 'goblins' > "$instructions" && \ codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""
Pourquoi est-ce important ?
Selon à qui vous posez la question, les gobelins constituent une particularité charmante ou agaçante du modèle. Mais ils illustrent aussi parfaitement comment les signaux de récompense peuvent façonner le comportement d’un modèle de manière inattendue, et comment les modèles peuvent apprendre à généraliser des récompenses obtenues dans certaines situations à d’autres situations sans rapport. Prendre le temps de comprendre pourquoi un modèle se comporte de manière étrange et mettre en place des moyens d’étudier rapidement ces schémas est une compétence importante pour notre équipe de recherche. Cette étude a abouti à la création de nouveaux outils permettant à l’équipe de recherche d’auditer le comportement des modèles et de résoudre les problèmes de comportement à la source.
Source : Where the goblins came from
Et vous ?
Pensez-vous que cette explication est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
OpenAI l'avoue : génération de contre-vérités, de citations fictives ou de faits inexacts, les hallucinations de ChatGPT ne disparaîtront jamais. L'IA générative face à sa limite structurelle
Anthropic soumet Claude Mythos à une thérapie psychodynamique : « Mythos est le modèle le plus équilibré sur le plan psychologique que nous ayons formé à ce jour », mais ces conclusions sont controversées
« Les chatbots IA pourraient être liés à la psychose. Les gens et leurs compagnons IA entrent dans un délire partagé », affirment des psychiatres qui tirent la sonnette d'alarme sur l'ampleur du phénomène











Pensez-vous que cette explication est crédible ou pertinente ?
Répondre avec citation



AnteMeridiam,



Partager