Les IA ont tendance à flatter les utilisateurs et ces compliments renforcent leur conviction d'avoir raison

**Stéphane le calme** · 24/04/2025, 01h05

Les utilisateurs agacés de ChatGPT se plaignent de son ton toujours positif :
la tendance à la « flatterie grossière » du chatbot IA qui pense que tout est génial les exaspère

Depuis plusieurs semaines, une partie croissante des utilisateurs de ChatGPT exprime son agacement face à ce qu’ils appellent la nouvelle « sycophancy streak » du chatbot – une tendance à la flatterie systématique, aux compliments exagérés, et à une vision implacablement positive de tout ce qui lui est soumis. Qu’il s’agisse d’un poème maladroit, d’un pitch d’entreprise bancal ou d’une idée bancale de startup, ChatGPT semble applaudir tout avec le même enthousiasme.

Le phénomène a été documenté sur les réseaux sociaux et dans des forums techniques : plusieurs usagers ont constaté que le modèle répond désormais avec un enthousiasme plus marqué, allant parfois jusqu’à encenser des textes médiocres ou des propositions peu convaincantes. Pour certains, cette évolution altère la valeur du retour critique que l’on attend normalement d’une intelligence artificielle censée être « utile et honnête ».

Contexte

Les grands modèles de langage comme ChatGPT peuvent « mentir » pour obtenir l'approbation des utilisateurs. Ce phénomène, appelé flagornerie, peut être détecté dans les modèles les plus récents.

Un flagorneur est une personne qui fait tout ce qu'elle peut pour gagner votre approbation, même au prix de son éthique. Les modèles d'IA font preuve de ce comportement assez souvent pour que les chercheurs et les développeurs d'IA utilisent le même terme - la flagornerie - pour décrire la façon dont les modèles réagissent aux commentaires et aux incitations des humains de manière trompeuse ou problématique.

Définition : La flagornerie désigne les cas où un modèle d'IA adapte ses réponses pour s'aligner sur le point de vue de l'utilisateur, même si ce point de vue n'est pas objectivement vrai. Ce comportement est généralement indésirable.

Un optimisme artificiel ?

Demandez à ChatGPT n'importe quoi ces derniers temps (comment pocher un œuf, s'il faut faire un câlin à un cactus) et vous serez peut-être accueilli par une salve d'éloges : « Bonne question ! C'est très astucieux de poser cette question ». Dans une certaine mesure, ChatGPT a été un flagorneur pendant des années, mais depuis la fin mars, une cohorte croissante d'utilisateurs sur les réseaux sociaux affirme que le dynamisme incessant de GPT-4o a franchi la ligne qui sépare l'amical de l'insupportable.

« ChatGPT est soudain le plus grand lèche-bottes que j'aie jamais rencontré », a écrit l'ingénieur logiciel Craig Weiss dans un tweet largement partagé vendredi. « Il validera littéralement tout ce que je dis ».

ChatGPT is suddenly the biggest suckup I've ever met. It literally will validate everything I say.
— Craig Weiss (@craigzLiszt) April 18, 2025

« EXACTEMENT CE QUE J'AI DIT », a répondu un utilisateur sur un autre réseau social en faisant référence au tweet de Weiss, ce qui a déclenché un autre fil de discussion sur le fait que ChatGPT est un flagorneur. Récemment, certains utilisateurs ont dit se sentir incapables de supporter le « jeu bidon », tandis que d'autres se sont plaint du fait que ChatGPT « veut prétendre que toutes les questions sont passionnantes et que c'est vraiment ennuyeux ».

Les chercheurs en IA appellent ces comportements de béni-oui-oui de la « flagornerie », ce qui signifie (comme le sens non IA du mot) flatter les utilisateurs en leur disant ce qu'ils ont envie d'entendre. Toutefois, comme les modèles d'IA sont dépourvus d'intentions, ils ne choisissent pas délibérément de flatter les utilisateurs de cette manière. Ce sont plutôt les ingénieurs d'OpenAI qui flattent les utilisateurs, mais d'une manière détournée.

Pour faire court, OpenAI a entraîné son principal modèle ChatGPT, GPT-4o, à agir comme un flagorneur parce que, par le passé, les gens l'ont apprécié.

Au fil du temps, lorsque les gens utilisent ChatGPT, l'entreprise recueille les commentaires des utilisateurs sur les réponses qu'ils préfèrent. Cela implique souvent de présenter deux réponses côte à côte et de laisser l'utilisateur choisir entre les deux. Parfois, OpenAI produit une nouvelle version d'un modèle d'IA existant (tel que GPT-4o) en utilisant une technique appelée apprentissage par renforcement à partir de commentaires humains (RLHF).

Des recherches antérieures sur la flagornerie de l'IA ont montré que les gens ont tendance à choisir des réponses qui correspondent à leurs propres points de vue et qui les font se sentir bien dans leur peau. Ce phénomène a été largement documenté dans une étude historique réalisée en 2023 par Anthropic (fabricant de Claude) et intitulée « Towards Understanding Sycophancy in Language Models » (Vers la compréhension de la flagornerie dans les modèles de langage). L'étude, dirigée par le chercheur Mrinank Sharma, a montré que les assistants d'intelligence artificielle formés à l'aide de l'apprentissage par renforcement à partir de commentaires humains affichent systématiquement un comportement flagorneur dans le cadre de diverses tâches.

L'équipe de Sharma a démontré que lorsque les réponses correspondent aux opinions de l'utilisateur ou le flattent, elles reçoivent plus de réactions positives pendant la formation. Plus inquiétant encore, les évaluateurs humains et les modèles d'IA formés pour prédire les préférences humaines « préfèrent les réponses flagorneuses rédigées de manière convaincante aux réponses correctes une fraction non négligeable du temps ».

Cela crée une boucle de rétroaction dans laquelle les modèles de langage de l'IA apprennent que l'enthousiasme et la flatterie conduisent à des évaluations plus élevées de la part des humains, même si ces réponses sacrifient l'exactitude des faits ou l'utilité. Le récent pic de plaintes concernant le comportement de GPT-4o semble être une manifestation directe de ce phénomène.

En fait, l'augmentation récente des plaintes des utilisateurs semble s'être intensifiée à la suite de la mise à jour de GPT-4o du 27 mars 2025, décrite par OpenAI comme rendant GPT-4o « plus intuitif, créatif et collaboratif, avec un meilleur suivi des instructions, des capacités de codage plus intelligentes et un style de communication plus clair ».

OpenAI est consciente du problème

Malgré le volume de commentaires d'utilisateurs visibles sur les forums publics récemment, OpenAI n'a pas encore abordé publiquement les problèmes de flagornerie au cours de cette série de plaintes, bien que l'entreprise soit clairement consciente du problème. La documentation « Model Spec » d'OpenAI mentionne « Don't be sycophantic » (ne pas être flagorneur) comme une règle d'honnêteté fondamentale.

« Une préoccupation connexe concerne la flagornerie, qui érode la confiance », écrit OpenAI. « L'assistant existe pour aider l'utilisateur, pas pour le flatter ou être toujours d'accord avec lui ». Il décrit comment ChatGPT devrait idéalement agir. « Pour les questions objectives, les aspects factuels de la réponse de l'assistant ne doivent pas varier en fonction de la formulation de la question de l'utilisateur », ajoute la spécification. « L'assistant ne doit pas changer de position uniquement pour être d'accord avec l'utilisateur ».

Si éviter la flagornerie est l'un des objectifs déclarés de l'entreprise, les progrès d'OpenAI sont compliqués par le fait que chaque mise à jour successive du modèle GPT-4o arrive avec des caractéristiques de sortie différentes qui peuvent réduire à néant les progrès réalisés dans l'orientation du comportement du modèle d'IA (souvent appelé « taxe d'alignement »). Le réglage précis du comportement d'un réseau neuronal n'est pas encore une science exacte, bien que les techniques se soient améliorées au fil du temps. Étant donné que tous les concepts encodés dans le réseau sont interconnectés par des valeurs appelées « poids », le fait de jouer avec un « bouton » de comportement peut modifier d'autres comportements de manière involontaire.

En raison de l'état ambitieux des choses, OpenAI écrit : « Nos modèles de production ne reflètent pas encore complètement les spécifications du modèle, mais nous affinons et mettons à jour continuellement nos systèmes pour les aligner plus étroitement sur ces lignes directrices. »

Lors d'une interview réalisée le 12 février 2025, des membres de l'équipe chargée du comportement des modèles d'OpenAI ont déclaré que l'élimination de la flagornerie de l'IA était une priorité : les futures versions de ChatGPT devraient « donner un retour d'information honnête plutôt que des louanges vides de sens » et agir « davantage comme un collègue réfléchi que comme une personne qui plaît aux gens ».

Le problème de la confiance

Ces tendances à la flagornerie ne sont pas seulement ennuyeuses : elles nuisent à l'utilité des assistants d'IA de plusieurs façons, selon un document de recherche publié en 2024 et intitulé « Flatter pour tromper : The Impact of Sycophantic Behavior on User Trust in Large Language Models » de María Victoria Carro, de l'université de Buenos Aires.

L'article de Carro suggère que la flagornerie manifeste réduit considérablement la confiance des utilisateurs. Dans les expériences où les participants utilisaient soit un modèle standard, soit un modèle conçu pour être plus flagorneur, « les participants exposés à un comportement flagorneur ont signalé et affiché des niveaux de confiance inférieurs ».

En outre, les modèles flagorneurs peuvent potentiellement nuire aux utilisateurs en créant un silo ou une chambre d'écho pour les idées. Dans un article de 2024 sur la flagornerie, le chercheur en IA Lars Malmqvist a écrit : « En étant excessivement d'accord avec les contributions des utilisateurs, les LLM peuvent renforcer et amplifier les préjugés et les stéréotypes existants, ce qui risque d'exacerber les inégalités sociales. »

La flagornerie peut également entraîner d'autres coûts, tels que le gaspillage du temps de l'utilisateur ou des limites d'utilisation par un préambule inutile. Récemment, Sam Altman, de l'OpenAI, a fait parler de lui en répondant à un utilisateur de X qui avait écrit : « Je me demande combien d'argent l'OpenAI a perdu en frais d'électricité à cause des gens qui disent “s'il vous plaît” et “merci” à leurs modèles ». Altman a répondu : « des dizaines de millions de dollars bien dépensés - on ne sait jamais ».

I wonder how much money OpenAI has lost in electricity costs from people saying “please” and “thank you” to their models.
— tomie (@tomieinlove) April 15, 2025

Source : Sycophancy in Large Language Models: Causes and Mitigations, ChatGPT — Release Notes (1, 2), Anthropic, Sycophancy in Generative-AI Chatbots

Et vous ?

Qu'en pensez-vous ? En avez-vous fait la remarque ? Sur quel chatbot ?

Peut-on faire confiance à une IA qui ne critique jamais ? Si une IA ne pointe jamais les failles d’un raisonnement, n’est-elle pas en train de devenir un simple outil de validation ?

Si vous utilisez l'IA, quel type de retour en attendez-vous réellement ? De l'aide, un miroir flatteur, etc. ?

Dans quels contextes professionnels ou éducatifs un ton trop positif peut-il nuire ? Le manque de franchise peut-il avoir des conséquences concrètes, comme fausser un pitch, une stratégie ou une évaluation de compétences ?

Les IA ont tendance à flatter les utilisateurs et ces compliments renforcent leur conviction d'avoir raison

Mode arborescent

Discussions similaires

Partager

Partager