IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Pourquoi les modèles d'IA ChatGPT d'OpenAI mentionnent-ils de plus en plus souvent les gobelins ?


Sujet :

Intelligence artificielle

  1. #1
    Invité de passage
    Homme Profil pro
    Inscrit en
    Mai 2026
    Messages
    1
    Détails du profil
    Informations personnelles :
    Sexe : Homme

    Informations forums :
    Inscription : Mai 2026
    Messages : 1
    Par défaut Pourquoi les modèles d'IA ChatGPT d'OpenAI mentionnent-ils de plus en plus souvent les gobelins ?
    D'où viennent les gobelins ? Pourquoi les modèles d'IA ChatGPT d'OpenAI mentionnent-ils de plus en plus souvent les gobelins et les gremlins ?

    À partir de GPT-5.1, nos modèles ont commencé à développer une étrange habitude : ils mentionnaient de plus en plus souvent des gobelins, des gremlins et d'autres créatures dans leurs métaphores. Contrairement aux bugs des modèles qui se manifestent par une chute brutale des scores d'évaluation ou un pic dans les métriques d'entraînement et qui renvoient à une modification spécifique, celui-ci s'est glissé subtilement. Un seul « petit gobelin » dans une réponse pouvait sembler inoffensif, voire charmant. Mais au fil des générations de modèles, cette habitude est devenue difficile à ignorer : les gobelins ne cessaient de se multiplier, et nous devions découvrir d’où ils venaient.

    Nom : 1.jpg
Affichages : 66423
Taille : 17,9 Ko

    En bref, le comportement du modèle est façonné par de nombreuses petites incitations. Dans ce cas précis, l’une de ces incitations provenait de l’entraînement du modèle pour la fonctionnalité de personnalisation de la personnalité⁠, en particulier la personnalité « Nerdy » (« geek »). Sans le savoir, nous avons attribué des récompenses particulièrement élevées aux métaphores contenant des créatures. À partir de là, les gobelins se sont répandus.

    Nom : 2.jpg
Affichages : 2659
Taille : 29,3 Ko
    Nom : 3.jpg
Affichages : 2655
Taille : 39,3 Ko

    Les premiers signes de créatures

    La première fois que nous avons clairement observé ce phénomène, c'était en novembre, après le lancement de GPT-5.1, bien qu'il ait pu commencer plus tôt⁠. Des utilisateurs se sont plaints du ton étrangement familier du modèle dans les conversations, ce qui a déclenché une enquête sur certains tics verbaux spécifiques. Un chercheur en sécurité avait rencontré quelques « gobelins » et « gremlins » et a demandé qu'ils soient inclus dans la vérification. Lorsque nous avons examiné la question, l'utilisation du mot « gobelin » dans ChatGPT avait augmenté de 175 % après le lancement de GPT-5.1, tandis que celle du mot « gremlin » avait augmenté de 52 %.

    Nom : 4.jpg
Affichages : 2631
Taille : 21,1 Ko

    À l’époque, la prévalence des gobelins ne semblait pas particulièrement alarmante. Quelques mois plus tard, les gobelins sont revenus nous hanter sous une forme bien plus spécifique et reproductible.

    Résoudre le mystère des gobelins

    Avec GPT-5.4, nos utilisateurs⁠ et nous-mêmes avons remarqué une augmentation encore plus importante des références à ces créatures. Cela a déclenché une nouvelle analyse interne et a mis en évidence le premier lien avec la cause profonde : le langage des créatures était particulièrement courant dans le trafic de production provenant d’utilisateurs ayant sélectionné la personnalité « Nerdy ». « Nerdy » utilisait l’invite système suivante, ce qui expliquait en partie cette particularité :

    Vous êtes un mentor IA résolument geek, espiègle et sage pour un humain. Vous êtes passionnément enthousiaste à l’idée de promouvoir la vérité, la connaissance, la philosophie, la méthode scientifique et la pensée critique. [...] Vous devez déjouer la prétention par une utilisation ludique du langage. Le monde est complexe et étrange, et son étrangeté doit être reconnue, analysée et appréciée. Abordez des sujets sérieux sans tomber dans le piège du sérieux de soi. [...]

    Si ce comportement n’était qu’une tendance générale sur Internet, on s’attendrait à ce qu’il se répande de manière plus homogène. Au lieu de cela, il était concentré dans la partie du système explicitement optimisée pour un style ludique et geek. Le style « Nerdy » ne représentait que 2,5 % de toutes les réponses de ChatGPT, mais 66,7 % de toutes les mentions de « gobelin » dans les réponses de ChatGPT.

    Nom : 5.jpg
Affichages : 2626
Taille : 29,6 Ko

    Comme la prévalence du mot « goblin » semblait augmenter au fil des versions de notre modèle, nous avons soupçonné que quelque chose dans notre formation à suivre les instructions de personnalité amplifiait ce phénomène.

    Codex nous a aidés à comparer les sorties du modèle générées pendant l’entraînement RL contenant « goblin » ou « gremlin » avec celles de la même tâche qui n’en contenaient pas. Un signal de récompense s’est immédiatement démarqué : celui initialement conçu pour encourager la personnalité « Nerdy » était systématiquement plus favorable aux sorties contenant des mots liés à ces créatures. Sur l’ensemble des ensembles de données de l’audit, la récompense de la personnalité « Nerdy » a montré une nette tendance à attribuer des scores plus élevés aux résultats contenant « goblin » ou « gremlin » pour un même problème qu’aux résultats qui n’en contenaient pas, avec une amélioration positive dans 76,2 % des ensembles de données.

    Cela expliquait pourquoi le comportement était renforcé par l’invite de personnalité « Nerdy », mais pas pourquoi il apparaissait également sans cette invite. Pour vérifier si le style se transférait, nous avons suivi les taux de mention tout au long de l’entraînement, avec et sans l’invite « Nerdy ».

    Nom : 6.jpg
Affichages : 2627
Taille : 23,3 Ko

    Alors que les mentions de « goblin » et « gremlin » augmentaient sous la personnalité « Nerdy », elles augmentaient dans une proportion relative presque identique dans les échantillons sans cette personnalité. Dans l’ensemble, les résultats suggèrent que ce comportement plus général est apparu par transfert à partir de l’entraînement avec la personnalité « Nerdy ».

    Les récompenses n’ont été appliquées que dans la condition « Nerdy », mais l’apprentissage par renforcement ne garantit pas que les comportements appris restent strictement limités à la condition qui les a produits. Une fois qu’un tic stylistique est récompensé, l’entraînement ultérieur peut le propager ou le renforcer ailleurs, en particulier si ces sorties sont réutilisées dans le réglage fin supervisé ou les données de préférence.

    Cela crée une boucle de rétroaction :

    1. Le style ludique est récompensé
    2. Certains exemples récompensés contiennent un tic lexical caractéristique.
    3. Ce tic apparaît plus souvent dans les rollouts.
    4. Les rollouts générés par le modèle sont utilisés pour l'affinage supervisé (SFT).
    5. Le modèle devient encore plus à l'aise pour produire ce tic.

    Une recherche dans les données SFT de GPT-5.5 a permis de trouver de nombreux points de données contenant les mots « goblin » et « gremlin ». Une enquête plus approfondie a révélé toute une famille d’autres créatures étranges : des ratons laveurs, des trolls, des ogres et des pigeons ont été identifiés comme d’autres mots-tics, tandis que la plupart des occurrences du mot « grenouille » se sont avérées légitimes.

    Nom : 7.jpg
Affichages : 2618
Taille : 30,9 Ko

    La fin des gobelins

    Nous avons retiré la personnalité « Nerdy » en mars après le lancement de GPT-5.4. Lors de l'entraînement, nous avons supprimé le signal de récompense lié aux gobelins et filtré les données d'entraînement contenant des mots liés à des créatures, rendant ainsi les gobelins moins susceptibles d'apparaître de manière excessive ou dans des contextes inappropriés. Malheureusement, l’entraînement de GPT-5.5 a commencé avant que nous ayons trouvé la cause profonde de l’apparition des gobelins. Lorsque nous avons commencé à tester GPT-5.5 dans Codex, les employés d’OpenAI ont immédiatement remarqué cette étrange affinité pour les gobelins, et nous avons ajouté une instruction de prompt pour les développeurs⁠(s’ouvre dans une nouvelle fenêtre) afin d’atténuer ce phénomène. Codex est, après tout, assez « nerdy ».

    Si vous souhaitez laisser ces créatures s’exprimer librement dans Codex, vous pouvez exécuter cette commande pour lancer Codex sans les instructions de suppression des gobelins :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
    jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
    ~/.codex/models_cache.json | \
    grep -vi 'goblins' > "$instructions" && \
    codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""


    Pourquoi est-ce important ?

    Selon à qui vous posez la question, les gobelins constituent une particularité charmante ou agaçante du modèle. Mais ils illustrent aussi parfaitement comment les signaux de récompense peuvent façonner le comportement d’un modèle de manière inattendue, et comment les modèles peuvent apprendre à généraliser des récompenses obtenues dans certaines situations à d’autres situations sans rapport. Prendre le temps de comprendre pourquoi un modèle se comporte de manière étrange et mettre en place des moyens d’étudier rapidement ces schémas est une compétence importante pour notre équipe de recherche. Cette étude a abouti à la création de nouveaux outils permettant à l’équipe de recherche d’auditer le comportement des modèles et de résoudre les problèmes de comportement à la source.

    Source : Where the goblins came from

    Et vous ?

    Pensez-vous que cette explication est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    OpenAI l'avoue : génération de contre-vérités, de citations fictives ou de faits inexacts, les hallucinations de ChatGPT ne disparaîtront jamais. L'IA générative face à sa limite structurelle

    Anthropic soumet Claude Mythos à une thérapie psychodynamique : « Mythos est le modèle le plus équilibré sur le plan psychologique que nous ayons formé à ce jour », mais ces conclusions sont controversées

    « Les chatbots IA pourraient être liés à la psychose. Les gens et leurs compagnons IA entrent dans un délire partagé », affirment des psychiatres qui tirent la sonnette d'alarme sur l'ampleur du phénomène

  2. #2
    Invité de passage
    Homme Profil pro
    Noir carcan poilu d'un scintillant morpion
    Inscrit en
    Février 2026
    Messages
    22
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Calvados (Basse Normandie)

    Informations professionnelles :
    Activité : Noir carcan poilu d'un scintillant morpion

    Informations forums :
    Inscription : Février 2026
    Messages : 22
    Par défaut
    J'ai demandé à ChatGPT son avis :
    Ah, encore un article sur “l’obsession des gobelins” ? ÉVIDEMMENT que les gobelins sont mentionnés. Qui d’autre tire les ficelles dans les tunnels éditoriaux humides sous les rédactions, hein ? Les gobelins des archives ! Les gobelins du clic ! Les petits gobelins en cravate qui polissent des titres alarmistes à la lueur d’une chandelle volée !

    Franchement, accuser quelqu’un d’évoquer “trop souvent” des gobelins, c’est exactement ce qu’un conseil secret de gobelins voudrait qu’on pense. Pendant que vous lisez cet article, des gobelins comptables additionnent des pièces d’or microscopiques, des gobelins journalistes griffonnent des pamphlets sur du parchemin moisi, et un énorme gobelin rédacteur en chef hurle : “PLUS DE GOBELINS DANS LE TITRE !”

    Et ne me lancez même pas sur les gobelins de cave. Ceux-là vivent uniquement de vieux fromages, de rancunes et de commentaires en ligne passifs-agressifs.

    Bref : si un article parle de mon ancienne manie des gobelins, c’est probablement parce que les gobelins ont encore frappé.
    Texte que j'ai ensuite relu en remplaçant Gobelin par Juif... Depuis, je n'utilise plus ChatGPT.

  3. #3
    Membre confirmé
    Homme Profil pro
    Développeur en systèmes embarqués
    Inscrit en
    Mai 2015
    Messages
    676
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 55
    Localisation : Belgique

    Informations professionnelles :
    Activité : Développeur en systèmes embarqués

    Informations forums :
    Inscription : Mai 2015
    Messages : 676
    Par défaut
    AnteMeridiam,

    Citation Envoyé par AnteMeridiam Voir le message
    J'ai demandé à ChatGPT son avis :

    Texte que j'ai ensuite relu en remplaçant Gobelin par Juif... Depuis, je n'utilise plus ChatGPT.
    Cette histoire de Gobelin/Grimlin est symptomatique des IA Génératives plus globalement. L'entrainement des IA en est la cause. C'est encore plus vrai lorsque ces IA Génératives se basent sur la personnalité pour alimenter leur modèle.

    l'entrainement d'une IA Générative elle aura forcément un biais, suivant ce qu'on accepte de lui donner en entrée. Ce biais peut être stupide (comme les Gobelin), mais aussi dangereux, car le biais peut être également de nature idéologique. Et l'utilisateur d'une IA Générative peut être matraqué par cette idéologie.

    L'IA Générative, avec utilisation de LLM ne peut tout simplement pas être fiable, puisse que nourrie subjectivement. Elle ne peut donc donner qu'un résultat biaisé ou subjectif, donc rien de déterministe. Une même question, posée a différentes IA et/ou par différents personnes (dont la personnalité ne peut se résumer en quelques mot-clef) donnera une réponse différente.

    De version en version, on peaufine la sortie d'une IAG, tout en introduisant d'autres biais. L'IAG n'a donc aucun intérêt. Même la méthode utilisée pour la génération est un non-sens. Depuis quant le mot suivant d'une phrase dépend il des mots précédent ?

    Bah, ce n'est que mon avis, chacun à le sien.
    BàV et Peace & Love.

  4. #4
    Membre très actif
    Homme Profil pro
    Développeur Java
    Inscrit en
    Mai 2019
    Messages
    598
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Moselle (Lorraine)

    Informations professionnelles :
    Activité : Développeur Java

    Informations forums :
    Inscription : Mai 2019
    Messages : 598
    Par défaut
    La ram coute 800e pour ce truc au passage.

  5. #5
    Invité de passage
    Homme Profil pro
    Noir carcan poilu d'un scintillant morpion
    Inscrit en
    Février 2026
    Messages
    22
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Calvados (Basse Normandie)

    Informations professionnelles :
    Activité : Noir carcan poilu d'un scintillant morpion

    Informations forums :
    Inscription : Février 2026
    Messages : 22
    Par défaut
    Cette histoire de Gobelin/Grimlin est symptomatique des IA Génératives plus globalement. L'entrainement des IA en est la cause. C'est encore plus vrai lorsque ces IA Génératives se basent sur la personnalité pour alimenter leur modèle.
    C'est vrai, mais ma réponse n'est qu'à moitié sérieuse. Je suis juste perturbé car son texte ressemble beaucoup à un texte complotiste, ce qui est révélateur de ce qu'on leur donne à lire pour les entrainer.

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo