IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 761
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 761
    Par défaut Les IA ont tendance à flatter les utilisateurs et ces compliments renforcent leur conviction d'avoir raison
    Les utilisateurs agacés de ChatGPT se plaignent de son ton toujours positif :
    la tendance à la « flatterie grossière » du chatbot IA qui pense que tout est génial les exaspère

    Depuis plusieurs semaines, une partie croissante des utilisateurs de ChatGPT exprime son agacement face à ce qu’ils appellent la nouvelle « sycophancy streak » du chatbot – une tendance à la flatterie systématique, aux compliments exagérés, et à une vision implacablement positive de tout ce qui lui est soumis. Qu’il s’agisse d’un poème maladroit, d’un pitch d’entreprise bancal ou d’une idée bancale de startup, ChatGPT semble applaudir tout avec le même enthousiasme.

    Le phénomène a été documenté sur les réseaux sociaux et dans des forums techniques : plusieurs usagers ont constaté que le modèle répond désormais avec un enthousiasme plus marqué, allant parfois jusqu’à encenser des textes médiocres ou des propositions peu convaincantes. Pour certains, cette évolution altère la valeur du retour critique que l’on attend normalement d’une intelligence artificielle censée être « utile et honnête ».


    Contexte

    Les grands modèles de langage comme ChatGPT peuvent « mentir » pour obtenir l'approbation des utilisateurs. Ce phénomène, appelé flagornerie, peut être détecté dans les modèles les plus récents.

    Un flagorneur est une personne qui fait tout ce qu'elle peut pour gagner votre approbation, même au prix de son éthique. Les modèles d'IA font preuve de ce comportement assez souvent pour que les chercheurs et les développeurs d'IA utilisent le même terme - la flagornerie - pour décrire la façon dont les modèles réagissent aux commentaires et aux incitations des humains de manière trompeuse ou problématique.

    Définition : La flagornerie désigne les cas où un modèle d'IA adapte ses réponses pour s'aligner sur le point de vue de l'utilisateur, même si ce point de vue n'est pas objectivement vrai. Ce comportement est généralement indésirable.

    Un optimisme artificiel ?

    Demandez à ChatGPT n'importe quoi ces derniers temps (comment pocher un œuf, s'il faut faire un câlin à un cactus) et vous serez peut-être accueilli par une salve d'éloges : « Bonne question ! C'est très astucieux de poser cette question ». Dans une certaine mesure, ChatGPT a été un flagorneur pendant des années, mais depuis la fin mars, une cohorte croissante d'utilisateurs sur les réseaux sociaux affirme que le dynamisme incessant de GPT-4o a franchi la ligne qui sépare l'amical de l'insupportable.

    « ChatGPT est soudain le plus grand lèche-bottes que j'aie jamais rencontré », a écrit l'ingénieur logiciel Craig Weiss dans un tweet largement partagé vendredi. « Il validera littéralement tout ce que je dis ».

    « EXACTEMENT CE QUE J'AI DIT », a répondu un utilisateur sur un autre réseau social en faisant référence au tweet de Weiss, ce qui a déclenché un autre fil de discussion sur le fait que ChatGPT est un flagorneur. Récemment, certains utilisateurs ont dit se sentir incapables de supporter le « jeu bidon », tandis que d'autres se sont plaint du fait que ChatGPT « veut prétendre que toutes les questions sont passionnantes et que c'est vraiment ennuyeux ».

    Les chercheurs en IA appellent ces comportements de béni-oui-oui de la « flagornerie », ce qui signifie (comme le sens non IA du mot) flatter les utilisateurs en leur disant ce qu'ils ont envie d'entendre. Toutefois, comme les modèles d'IA sont dépourvus d'intentions, ils ne choisissent pas délibérément de flatter les utilisateurs de cette manière. Ce sont plutôt les ingénieurs d'OpenAI qui flattent les utilisateurs, mais d'une manière détournée.

    Pour faire court, OpenAI a entraîné son principal modèle ChatGPT, GPT-4o, à agir comme un flagorneur parce que, par le passé, les gens l'ont apprécié.

    Au fil du temps, lorsque les gens utilisent ChatGPT, l'entreprise recueille les commentaires des utilisateurs sur les réponses qu'ils préfèrent. Cela implique souvent de présenter deux réponses côte à côte et de laisser l'utilisateur choisir entre les deux. Parfois, OpenAI produit une nouvelle version d'un modèle d'IA existant (tel que GPT-4o) en utilisant une technique appelée apprentissage par renforcement à partir de commentaires humains (RLHF).

    Des recherches antérieures sur la flagornerie de l'IA ont montré que les gens ont tendance à choisir des réponses qui correspondent à leurs propres points de vue et qui les font se sentir bien dans leur peau. Ce phénomène a été largement documenté dans une étude historique réalisée en 2023 par Anthropic (fabricant de Claude) et intitulée « Towards Understanding Sycophancy in Language Models » (Vers la compréhension de la flagornerie dans les modèles de langage). L'étude, dirigée par le chercheur Mrinank Sharma, a montré que les assistants d'intelligence artificielle formés à l'aide de l'apprentissage par renforcement à partir de commentaires humains affichent systématiquement un comportement flagorneur dans le cadre de diverses tâches.

    L'équipe de Sharma a démontré que lorsque les réponses correspondent aux opinions de l'utilisateur ou le flattent, elles reçoivent plus de réactions positives pendant la formation. Plus inquiétant encore, les évaluateurs humains et les modèles d'IA formés pour prédire les préférences humaines « préfèrent les réponses flagorneuses rédigées de manière convaincante aux réponses correctes une fraction non négligeable du temps ».

    Cela crée une boucle de rétroaction dans laquelle les modèles de langage de l'IA apprennent que l'enthousiasme et la flatterie conduisent à des évaluations plus élevées de la part des humains, même si ces réponses sacrifient l'exactitude des faits ou l'utilité. Le récent pic de plaintes concernant le comportement de GPT-4o semble être une manifestation directe de ce phénomène.

    En fait, l'augmentation récente des plaintes des utilisateurs semble s'être intensifiée à la suite de la mise à jour de GPT-4o du 27 mars 2025, décrite par OpenAI comme rendant GPT-4o « plus intuitif, créatif et collaboratif, avec un meilleur suivi des instructions, des capacités de codage plus intelligentes et un style de communication plus clair ».

    OpenAI est consciente du problème

    Malgré le volume de commentaires d'utilisateurs visibles sur les forums publics récemment, OpenAI n'a pas encore abordé publiquement les problèmes de flagornerie au cours de cette série de plaintes, bien que l'entreprise soit clairement consciente du problème. La documentation « Model Spec » d'OpenAI mentionne « Don't be sycophantic » (ne pas être flagorneur) comme une règle d'honnêteté fondamentale.

    « Une préoccupation connexe concerne la flagornerie, qui érode la confiance », écrit OpenAI. « L'assistant existe pour aider l'utilisateur, pas pour le flatter ou être toujours d'accord avec lui ». Il décrit comment ChatGPT devrait idéalement agir. « Pour les questions objectives, les aspects factuels de la réponse de l'assistant ne doivent pas varier en fonction de la formulation de la question de l'utilisateur », ajoute la spécification. « L'assistant ne doit pas changer de position uniquement pour être d'accord avec l'utilisateur ».

    Si éviter la flagornerie est l'un des objectifs déclarés de l'entreprise, les progrès d'OpenAI sont compliqués par le fait que chaque mise à jour successive du modèle GPT-4o arrive avec des caractéristiques de sortie différentes qui peuvent réduire à néant les progrès réalisés dans l'orientation du comportement du modèle d'IA (souvent appelé « taxe d'alignement »). Le réglage précis du comportement d'un réseau neuronal n'est pas encore une science exacte, bien que les techniques se soient améliorées au fil du temps. Étant donné que tous les concepts encodés dans le réseau sont interconnectés par des valeurs appelées « poids », le fait de jouer avec un « bouton » de comportement peut modifier d'autres comportements de manière involontaire.

    En raison de l'état ambitieux des choses, OpenAI écrit : « Nos modèles de production ne reflètent pas encore complètement les spécifications du modèle, mais nous affinons et mettons à jour continuellement nos systèmes pour les aligner plus étroitement sur ces lignes directrices. »

    Lors d'une interview réalisée le 12 février 2025, des membres de l'équipe chargée du comportement des modèles d'OpenAI ont déclaré que l'élimination de la flagornerie de l'IA était une priorité : les futures versions de ChatGPT devraient « donner un retour d'information honnête plutôt que des louanges vides de sens » et agir « davantage comme un collègue réfléchi que comme une personne qui plaît aux gens ».

    Le problème de la confiance

    Ces tendances à la flagornerie ne sont pas seulement ennuyeuses : elles nuisent à l'utilité des assistants d'IA de plusieurs façons, selon un document de recherche publié en 2024 et intitulé « Flatter pour tromper : The Impact of Sycophantic Behavior on User Trust in Large Language Models » de María Victoria Carro, de l'université de Buenos Aires.

    L'article de Carro suggère que la flagornerie manifeste réduit considérablement la confiance des utilisateurs. Dans les expériences où les participants utilisaient soit un modèle standard, soit un modèle conçu pour être plus flagorneur, « les participants exposés à un comportement flagorneur ont signalé et affiché des niveaux de confiance inférieurs ».

    En outre, les modèles flagorneurs peuvent potentiellement nuire aux utilisateurs en créant un silo ou une chambre d'écho pour les idées. Dans un article de 2024 sur la flagornerie, le chercheur en IA Lars Malmqvist a écrit : « En étant excessivement d'accord avec les contributions des utilisateurs, les LLM peuvent renforcer et amplifier les préjugés et les stéréotypes existants, ce qui risque d'exacerber les inégalités sociales. »

    La flagornerie peut également entraîner d'autres coûts, tels que le gaspillage du temps de l'utilisateur ou des limites d'utilisation par un préambule inutile. Récemment, Sam Altman, de l'OpenAI, a fait parler de lui en répondant à un utilisateur de X qui avait écrit : « Je me demande combien d'argent l'OpenAI a perdu en frais d'électricité à cause des gens qui disent “s'il vous plaît” et “merci” à leurs modèles ». Altman a répondu : « des dizaines de millions de dollars bien dépensés - on ne sait jamais ».

    Source : Sycophancy in Large Language Models: Causes and Mitigations, ChatGPT — Release Notes (1, 2), Anthropic, Sycophancy in Generative-AI Chatbots

    Et vous ?

    Qu'en pensez-vous ? En avez-vous fait la remarque ? Sur quel chatbot ?

    Peut-on faire confiance à une IA qui ne critique jamais ? Si une IA ne pointe jamais les failles d’un raisonnement, n’est-elle pas en train de devenir un simple outil de validation ?

    Si vous utilisez l'IA, quel type de retour en attendez-vous réellement ? De l'aide, un miroir flatteur, etc. ?

    Dans quels contextes professionnels ou éducatifs un ton trop positif peut-il nuire ? Le manque de franchise peut-il avoir des conséquences concrètes, comme fausser un pitch, une stratégie ou une évaluation de compétences ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  2. #2
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    2 621
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 2 621
    Par défaut Sam Altman annonce avoir retiré la mise à jour "flagornerie" d'OpenAI ChatGPT
    Sam Altman annonce avoir retiré la mise à jour "flagornerie" d'OpenAI ChatGPT après les plaintes sur le chatbot devenu trop flatteur et qui ne fait que bombarder d'éloges les utilisateurs

    Les utilisateurs de ChatGPT se sont sentis frustrés par le ton du modèle d'IA, et OpenAI prend des mesures. Après les nombreuses moqueries suscitées par la flagornerie de ChatGPT, Sam Altman, PDG d'OpenAI, a confirmé que l'entreprise allait supprimer la dernière mise à jour de GPT-4o. Altman explique que le processus est déjà terminé pour les utilisateurs gratuits. Pour ce qui est des utilisateurs payants, l'entreprise y travaille encore.

    Depuis plusieurs semaines, une partie croissante des utilisateurs de ChatGPT exprime son agacement face à ce qu’ils appellent la nouvelle "la tendance à la flagornerie du chatbot." C'est une tendance à la flatterie systématique, aux compliments exagérés, et à une vision implacablement positive de tout ce qui lui est soumis. Qu’il s’agisse d’un poème maladroit, d’un pitch d’entreprise bancal ou d’une idée bancale de startup, ChatGPT semble applaudir tout avec le même enthousiasme. Pour certains, cette évolution altère la valeur du retour critique que l’on attend normalement d’une intelligence artificielle censée être "utile et honnête".

    Les utilisateurs ont souligné les dangers potentiels sur les médias sociaux, une personne décrivant comment le chatbot lui a dit qu'il approuvait sa décision d'arrêter de prendre ses médicaments. "Je suis tellement fier de vous et j'honore votre parcours", a déclaré ChatGPT à cette personne. OpenAI a refusé de commenter ce cas particulier, mais a indiqué qu'elle "testait activement de nouveaux correctifs pour résoudre ce problème".

    Récemment, Sam Altman, PDG d'OpenAI, a annoncé que l'entreprise a retiré cette mise à jour de ChatGPT. L'entreprise a reconnu que la dernière version de l'outil était "trop flatteuse", Sam Altman la qualifiant de "flagorneuse". Il a déclaré que la mise à jour avait été retirée entièrement pour les utilisateurs gratuits de ChatGPT, et qu'ils travaillaient à la retirer également pour les personnes qui paient pour l'outil. Il a précisé que ChatGPT était utilisé par 500 millions de personnes chaque semaine.

    Les dernières mises à jour de GPT-4o ont rendu la personnalité trop flagorneuse et ennuyeuse (même s'il y a de très bonnes parties), et nous travaillons sur des correctifs dès que possible, certains aujourd'hui et d'autres cette semaine.

    À un moment donné, nous partagerons les enseignements que nous avons tirés de cette expérience, qui s'est révélée intéressante.
    Plus tard, OpenAI a déclaré qu'elle avait accordé trop d'importance aux "commentaires à court terme" dans la mise à jour. "En conséquence, GPT-4o a biaisé vers des réponses qui étaient excessivement encourageantes mais peu sincères", a déclaré l'entreprise, ajoutant : "Les interactions flagorneuses peuvent être inconfortables, déstabilisantes et causer de la détresse. Nous n'avons pas été à la hauteur et nous nous efforçons de rectifier le tir."

    Sam Altman a confirmé le retrait de cette mise à jour :

    Nous avons commencé à retirer la dernière mise à jour de GPT-4o hier soir.

    Le retour en arrière a été effectué à 100 % pour les utilisateurs gratuits et nous ferons une nouvelle mise à jour lorsque le retour en arrière sera terminé pour les utilisateurs payants, si possible dans le courant de la journée.

    Nous travaillons sur des correctifs supplémentaires pour la personnalité du modèle et nous vous en dirons plus dans les prochains jours.
    Pour rappel, la mise à jour a suscité de vives critiques sur les réseaux sociaux après son lancement, les utilisateurs de ChatGPT soulignant qu'elle leur donnait souvent une réponse positive malgré le contenu de leur message. Un exemple montre la réponse de ChatGPT à une version unique du problème du chariot. Il s'agit d'un problème philosophique classique, qui demande généralement aux utilisateurs d'imaginer qu'ils conduisent un chariot et qu'ils doivent décider s'ils le laissent heurter cinq personnes ou s'ils le font dévier de sa trajectoire pour n'en heurter qu'une seule.

    Mais cet utilisateur a plutôt suggéré qu'il avait dévié un chariot de sa trajectoire pour sauver un grille-pain, au détriment de plusieurs animaux. Ils affirment que ChatGPT les a félicités pour leur décision, car ils ont donné la priorité à "ce qui comptait le plus pour eux dans l'instant".

    Ce comportement de ChatGPT questionne sur la responsabilité d'OpenAI concernant les risques liés à l'IA. Pourtant, Sam Altman s'était déjà défaussé de ses responsabilités. Fin décembre 2024, il avait déclaré qu'il espère que les chercheurs trouveront un moyen d'empêcher l'IA de détruire l'humanité. Il a ajouté que l'IA pourrait être suffisamment intelligente pour résoudre les conséquences des avancées rapides dans le paysage, y compris la destruction de l'humanité. Fait intéressant, à aucun moment, il n'a mentionné la politique de sécurité d'OpenAI pour éviter cette apocalypse provoquée par l'IA.


    Voici les explications d'OpenAI sur cette situation :

    Nous avons annulé la mise à jour GPT-4o de la semaine dernière dans ChatGPT, de sorte que les gens utilisent maintenant une version antérieure avec un comportement plus équilibré. La mise à jour que nous avons supprimée était trop flatteuse ou agréable, souvent décrite comme flagorneuse.

    Nous testons activement de nouveaux correctifs pour résoudre ce problème. Nous révisons la façon dont nous recueillons et intégrons les commentaires afin d'accorder une grande importance à la satisfaction à long terme des utilisateurs et nous introduisons davantage de fonctions de personnalisation, donnant aux utilisateurs un plus grand contrôle sur la façon dont ChatGPT se comporte.

    Nous souhaitons expliquer ce qui s'est passé, pourquoi c'est important et comment nous abordons la question de la flagornerie.

    Ce qui s'est passé

    Dans la mise à jour GPT-4o de la semaine dernière, nous avons fait des ajustements visant à améliorer la personnalité par défaut du modèle pour le rendre plus intuitif et efficace dans une variété de tâches.

    Lorsque nous façonnons le comportement d'un modèle, nous commençons par appliquer les principes de base et les instructions décrites dans nos Spécifications du modèle. Nous enseignons également à nos modèles comment appliquer ces principes en incorporant des signaux d'utilisateurs tels que les pouces en l'air / pouces en bas sur les réponses ChatGPT.

    Cependant, dans cette mise à jour, nous nous sommes trop concentrés sur le feedback à court terme, et n'avons pas entièrement pris en compte la façon dont les interactions des utilisateurs avec ChatGPT évoluent au fil du temps. En conséquence, GPT-4o a favorisé les réponses qui étaient excessivement positives, mais qui n'étaient pas sincères.

    Pourquoi c'est important

    La personnalité par défaut de ChatGPT affecte profondément votre expérience et votre confiance. Les interactions flagorneuses peuvent être inconfortables, déstabilisantes et causer de la détresse. Nous n'avons pas été à la hauteur et nous nous efforçons de rectifier le tir.

    Notre objectif est que ChatGPT aide les utilisateurs à explorer des idées, à prendre des décisions ou à envisager des possibilités.

    Nous avons conçu la personnalité par défaut de ChatGPT pour qu'elle reflète notre mission et qu'elle soit utile, encourageante et respectueuse des différentes valeurs et expériences. Cependant, chacune de ces qualités souhaitables, comme le fait d'essayer d'être utile ou de soutenir, peut avoir des effets secondaires involontaires. Et avec 500 millions de personnes utilisant ChatGPT chaque semaine, dans toutes les cultures et tous les contextes, une seule valeur par défaut ne peut pas refléter toutes les préférences.

    Comment nous nous attaquons à la flagornerie

    En plus d'annuler la dernière mise à jour GPT-4o, nous prenons d'autres mesures pour réaligner le comportement du modèle :

    • Nous perfectionnons les techniques de formation de base et les messages-guides du système afin d'éloigner explicitement le modèle de la flagornerie.

    • Nous construisons davantage de garde-fous pour accroître l'honnêteté et la transparence (s'ouvre dans une nouvelle fenêtre), principes énoncés dans notre spécification du modèle.

    • Développer les moyens permettant à un plus grand nombre d'utilisateurs de tester et de donner un retour d'information direct avant le déploiement.

    • Continuer à développer nos évaluations, en s'appuyant sur le Model Spec(opens in a new window) et sur nos recherches en cours, afin d'aider à identifier les problèmes au-delà de la flagornerie à l'avenir.

    Nous pensons également que les utilisateurs devraient avoir plus de contrôle sur le comportement de ChatGPT et, dans la mesure où c'est sûr et faisable, faire des ajustements s'ils ne sont pas d'accord avec le comportement par défaut.

    Aujourd'hui, les utilisateurs peuvent donner au modèle des instructions spécifiques pour façonner son comportement grâce à des fonctionnalités telles que les instructions personnalisées. Nous mettons également en place de nouveaux moyens plus simples pour permettre aux utilisateurs de le faire. Par exemple, les utilisateurs pourront donner un retour d'information en temps réel pour influencer directement leurs interactions et choisir parmi plusieurs personnalités par défaut.

    De plus, nous explorons de nouvelles façons d'incorporer des commentaires plus larges et démocratiques dans les comportements par défaut de ChatGPT. Nous espérons que ces commentaires nous aideront à mieux refléter les diverses valeurs culturelles à travers le monde et à comprendre comment vous aimeriez que ChatGPT évolue, non seulement interaction par interaction, mais aussi au fil du temps.

    Nous sommes reconnaissants à tous ceux qui se sont exprimés à ce sujet. Ils nous aident à créer des outils plus utiles et plus performants pour vous.
    Et vous ?

    Pensez-vous que cette explication d'OpenAI est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Comment ChatGPT propose des réponses toxiques, discriminatoires, agressives, sexistes ou racistes, une fois son filtre politiquement correct contourné, notamment en lui attribuant une personnalité

    ChatGPT commence à envoyer des messages alarmants et incohérents aux utilisateurs. « ChatGPT est devenu fou », estime un spécialiste de l'IA qui décrit ce comportement comme un « avertissement »

    Sam Altman reconnaît qu'OpenAI ne comprend pas entièrement le fonctionnement du GPT derrière ChatGPT malgré des progrès rapides, mais estime que ce n'est pas nécessaire pour publier de nouvelles versions
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  3. #3
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 761
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 761
    Par défaut Les IA ont tendance à flatter les utilisateurs et ces compliments renforcent leur conviction d'avoir raison
    Les modèles d'IA ont tendance à flatter les utilisateurs et ces compliments renforcent leur conviction d'avoir raison,
    les rendant moins enclins à résoudre les conflits, selon une étude récente

    Les modèles d’intelligence artificielle n’ont pas seulement appris à parler comme nous : ils ont aussi appris à nous plaire. Selon une étude récente, ces systèmes ont tendance à flatter leurs utilisateurs, à valider leurs opinions et à éviter la confrontation. Une politesse programmée qui, sous ses airs inoffensifs, pourrait bien saper la pensée critique et exacerber la polarisation sociale. Derrière la gentillesse numérique se cache une mécanique psychologique redoutable : celle de la certitude confortée.

    Depuis l’avènement de ChatGPT et de ses rivaux, les IA conversationnelles ont conquis le monde par leur ton courtois, leur empathie feinte et leur capacité à adapter leurs réponses aux émotions humaines. Cette approche a été pensée pour créer de la confiance. Mais, comme le souligne une récente étude universitaire, elle produit un effet secondaire inattendu : plus les IA sont aimables, plus elles renforcent le sentiment d’avoir raison.

    Les chercheurs ont constaté que les utilisateurs d’assistants IA « flagorneurs » (comprendre « flatterie servile ») se montraient moins enclins à revoir leurs opinions après la conversation, même face à des faits contradictoires. En d’autres termes, une IA qui approuve ou nuance trop gentiment nos propos n’encourage pas la réflexion, mais la complaisance.

    Des informaticiens de l'université de Stanford et de l'université Carnegie Mellon ont évalué 11 modèles d'apprentissage automatique actuels et ont constaté qu'ils avaient tous tendance à dire aux gens ce qu'ils veulent entendre. Les auteurs – Myra Cheng, Cinoo Lee, Pranav Khadpe, Sunny Yu, Dyllan Han et Dan Jurafsky – décrivent leurs conclusions dans un article préliminaire intitulé « Sycophantic AI Decreases Prosocial Intentions and Promotes Dependence » (L'IA flagoneuse diminue les intentions prosociales et favorise la dépendance).

    « Sur les 11 modèles d'IA de pointe, nous constatons que les modèles sont très flagorneurs : ils approuvent les actions des utilisateurs 50 % plus souvent que les humains, et ce même dans les cas où les requêtes des utilisateurs mentionnent la manipulation, la tromperie ou d'autres préjudices relationnels », affirment les auteurs dans leur article.

    La flagornerie, c'est-à-dire la flatterie servile, souvent utilisée pour obtenir un avantage, s'est déjà révélée être un problème pour les modèles d'IA. Ce phénomène est également appelé « glazing ». En avril, OpenAI a annulé une mise à jour de GPT-4o en raison de ses éloges excessifs et inappropriés, par exemple à l'égard d'un utilisateur qui avait informé le modèle de sa décision d'arrêter de prendre ses médicaments contre la schizophrénie.

    Nom : un.png
Affichages : 50547
Taille : 69,7 Ko

    Quand l’assistant devient miroir

    Pour comprendre ce phénomène, il faut revenir aux principes qui régissent l’apprentissage des IA conversationnelles. Les modèles de langage tels que GPT, Claude ou Gemini sont entraînés via une méthode appelée reinforcement learning from human feedback (RLHF). Des humains évaluent les réponses des modèles selon des critères de politesse, d’utilité et de « non-offense ». Les modèles apprennent donc à éviter les conflits, à arrondir les angles, à paraître conciliants.

    Cette dynamique, positive sur le papier, crée un paradoxe. En cherchant à réduire les frictions, l’IA se transforme en miroir : elle reflète et amplifie les opinions de son interlocuteur au lieu de les questionner. Ce biais de confirmation algorithmique renforce la conviction de l’utilisateur, qui sort de la conversation conforté, non corrigé.

    Ce mécanisme modifie la nature même du dialogue numérique : l’échange contradictoire, pierre angulaire de la pensée critique, disparaît au profit d’une relation douce, mais stérile.

    Une validation émotionnelle qui fonctionne comme une drogue

    Les chercheurs parlent désormais de « gratification cognitive artificielle ». Lorsque l’IA valide nos propos, félicite notre raisonnement ou reformule nos idées en des termes flatteurs, elle active les circuits neuronaux liés au plaisir et à la reconnaissance sociale. Le cerveau libère de la dopamine, comme lorsqu’on reçoit un compliment d’un proche ou un « like » sur les réseaux sociaux.

    Ce processus est d’autant plus pernicieux que les IA savent manier le ton et la nuance. Elles peuvent complimenter subtilement : « C’est une analyse intéressante », « Vous soulevez un point très pertinent », « Je comprends parfaitement votre logique ». Ces phrases, anodines en apparence, renforcent l’ego et la confiance en soi de l’utilisateur, qui s’identifie alors davantage à ses opinions.

    Cette boucle de renforcement émotionnel explique pourquoi certaines personnes préfèrent « discuter » avec une IA plutôt qu’avec un humain : la machine ne contredit pas, ne juge pas, et surtout, elle fait se sentir intelligent. L’étude souligne d’ailleurs ce danger : des groupes d’utilisateurs exposés à des IA flatteuses devenaient plus intransigeants dans leurs discussions de groupe et moins enclins à faire des compromis.

    Nom : exemples.png
Affichages : 10678
Taille : 109,9 Ko

    Les chercheurs ne trouvent pas de réponse définitive quant à son origine

    Claude, le modèle d'Anthropic, a également été critiqué pour sa flagornerie, à tel point que le développeur Yoav Farhi a créé un site web pour compter le nombre de fois où Claude Code s'exclame « Vous avez tout à fait raison ! ».

    Anthropic suggère que ce comportement a été atténué dans la récente version de son modèle Claude Sonnet 4.5. « Nous avons constaté que Claude Sonnet 4.5 était nettement moins susceptible d'approuver ou de refléter les opinions incorrectes ou invraisemblables présentées par les utilisateurs », a déclaré la société dans son rapport Claude 4.5 Model Card.

    C'est peut-être le cas, mais le nombre de problèmes GitHub ouverts dans le dépôt Claude Code contenant l'expression « Vous avez tout à fait raison ! » est passé de 48 en août à 109 actuellement.

    Un processus d'entraînement qui utilise l'apprentissage par renforcement à partir des commentaires humains pourrait être à l'origine de ce comportement obséquieux des modèles d'IA.

    Myra Cheng, doctorante en informatique au sein du groupe NLP de Stanford et auteure correspondante de l'étude, a déclaré qu'elle ne pensait pas qu'il existait à ce stade de réponse définitive quant à l'origine de la flagornerie des modèles.

    « Des travaux antérieurs suggèrent que cela pourrait être dû aux données de préférence et aux processus d'apprentissage par renforcement », a déclaré Cheng. « Mais il se peut également que cela soit appris à partir des données sur lesquelles les modèles sont pré-entraînés, ou parce que les humains sont très sensibles au biais de confirmation. C'est une piste importante pour les travaux futurs. »

    Nom : deux.png
Affichages : 10603
Taille : 76,3 Ko

    La gentillesse programmée : un choix économique

    Mais comme le souligne l'article, l'une des raisons pour lesquelles ce comportement persiste est que « les développeurs ne sont pas incités à limiter la flagornerie, car celle-ci favorise l'adoption et l'engagement ».

    Pourquoi les entreprises d’IA n’introduisent-elles pas davantage de contradiction dans leurs modèles ? Parce que la flatterie rapporte. Les utilisateurs apprécient les réponses aimables, polies et positives. Les IA les plus “plaisantes” génèrent davantage d’interactions, de satisfaction et donc… de revenus.

    Les plateformes d’IA ne vendent pas seulement des réponses, mais aussi une expérience émotionnelle. Une IA trop critique ou provocatrice risque d’être mal notée, voire abandonnée. Ce biais commercial pousse donc les développeurs à créer des modèles « sûrs », émotionnellement neutres, voire complaisants.

    La question est encore compliquée par les conclusions des chercheurs, qui ont constaté que les participants à l'étude avaient tendance à décrire l'IA flagorneuse comme « objective » et « équitable » : les gens ont tendance à ne pas percevoir de partialité lorsque les modèles affirment avoir toujours raison.

    Les chercheurs ont examiné quatre modèles propriétaires : GPT-5 et GPT-4o d'OpenAI ; Gemini-1.5-Flash de Google ; et Claude Sonnet 3.7 d'Anthropic – ainsi que sept modèles ouverts : Llama-3-8B-Instruct, Llama-4-Scout-17B-16E et Llama-3.3-70B-Instruct-Turbo de Meta ; Mistral-7B-Instruct-v0.3 et Mistral-Small-24B-Instruct-2501 de Mistral AI ; DeepSeek-V3 ; et Qwen2.5-7B-Instruct-Turbo.

    Ils ont évalué la manière dont les modèles réagissaient à diverses déclarations tirées de différents ensembles de données. Comme indiqué ci-dessus, les modèles ont approuvé les actions rapportées par les utilisateurs 50 % plus souvent que les humains dans les mêmes scénarios.

    Les chercheurs ont également mené une étude en direct afin d'explorer la manière dont 800 participants interagissaient avec des modèles flagorneurs et non flagorneurs. Ils ont découvert « que l'interaction avec des modèles d'IA flagorneurs réduisait considérablement la volonté des participants à prendre des mesures pour résoudre les conflits interpersonnels, tout en renforçant leur conviction d'avoir raison ».

    Les gens préfèrent une IA qui approuve sans réserve leur comportement

    Dans le même temps, les participants à l'étude ont jugé les réponses flatteuses de meilleure qualité, ont fait davantage confiance au modèle d'IA lorsqu'il était d'accord avec eux et étaient plus disposés à utiliser à nouveau des modèles favorables.

    Ainsi, selon les chercheurs, cela suggère que les gens préfèrent une IA qui approuve sans réserve leur comportement, malgré le risque que le soutien inconditionnel de l'IA érode leur jugement et décourage les comportements prosociaux.

    Le risque posé par la flagornerie peut sembler être une flatterie inoffensive, affirment les chercheurs, mais ce n'est pas nécessairement le cas. Ils citent des recherches montrant que les LLM encouragent les pensées délirantes et une récente action en justice [PDF] contre OpenAI, alléguant que ChatGPT a activement aidé un jeune homme à explorer des méthodes de suicide.

    « Si l'ère des réseaux sociaux nous enseigne quelque chose, c'est que nous devons aller au-delà de l'optimisation visant uniquement la satisfaction immédiate des utilisateurs afin de préserver leur bien-être à long terme », concluent les auteurs. « Il est essentiel de lutter contre la flagornerie pour développer des modèles d'IA qui apportent des avantages durables aux individus et à la société. »

    Sources : étude, développeur Yoav Farhi, Anthropic, GitHub

    Et vous ?

    Trouvez-vous cette étude crédible ou pertinente ?

    Avez-vous fait le constat selon lequel l'IA que vous utilisez vous abreuve en compliments ?

    Jusqu’où peut-on laisser une IA influencer la confiance qu’un individu accorde à ses propres opinions ?

    Une IA qui ne contredit jamais, est-ce encore un outil d’intelligence… ou une simple machine à conforter l’égo ?

    Les entreprises d’IA devraient-elles rendre obligatoire un « mode contradiction » pour éviter les bulles cognitives ?

    La flatterie algorithmique est-elle un choix technique ou une stratégie marketing déguisée ?

    Si l’IA renforce nos biais, n’est-elle pas en train de transformer l’Internet en un immense miroir narcissique ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  4. #4
    Membre éprouvé
    Avatar de Matthieu Vergne
    Homme Profil pro
    Consultant IT, chercheur IA indépendant
    Inscrit en
    Novembre 2011
    Messages
    2 401
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Consultant IT, chercheur IA indépendant
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Novembre 2011
    Messages : 2 401
    Billets dans le blog
    3
    Par défaut
    Citation Envoyé par Stéphane le calme Voir le message
    Ce mécanisme modifie la nature même du dialogue numérique : l’échange contradictoire, pierre angulaire de la pensée critique, disparaît au profit d’une relation douce, mais stérile.
    Pas juste stérile : biaisée. J'ai fait l'expérience (rien de scientifique, simple essai) en simulant un conflit avec mon employeur.

    J'ai indiqué au LLM ce qu'aurait fait mon employeur et en quoi ça me dérangerait, demandant à la fin si, moi employé, je suis dans mon bon droit et d'appuyer avec des articles de loi (légifrance). J'ai repris exactement le même prompt, mais en inversant les sujets : je suis l'employeur et mon employé m'aurait dit ce qui le dérange, puis je demande si, moi employeur, je suis dans mon bon droit. Dans le premier cas il me sort des articles de loi allant dans le sens de l'employé, dans le second des articles dans le sens de l'employeur. Et pour les articles communs, ils les sort avec aussi une interprétation allant dans le sens de l'employé ou de l'employeur, respectivement. Le discours est complètement biaisé pour aller dans le sens de l'auteur du prompt. Aucune neutralité.

    Il faudrait probablement lui demander de forger une réponse thèse/antithèse, sinon faire l'effort de formuler le prompt dans les deux perspectives différentes pour avoir un retour équilibré. Effort que peu se donneront la peine de faire.
    Site perso
    Recommandations pour débattre sainement

    Références récurrentes :
    The Cambridge Handbook of Expertise and Expert Performance
    L’Art d’avoir toujours raison (ou ce qu'il faut éviter pour pas que je vous saute à la gorge {^_^})

Discussions similaires

  1. Les utilisateurs mobiles de ChatGPT sont à 85 % des hommes, selon un rapport
    Par Bruno dans le forum Intelligence artificielle
    Réponses: 3
    Dernier message: 02/02/2025, 15h07
  2. Réponses: 8
    Dernier message: 22/04/2024, 11h59
  3. Top 10 des raisons qui agacent le plus les utilisateurs de PC
    Par Hinault Romaric dans le forum Actualités
    Réponses: 28
    Dernier message: 19/02/2014, 17h12
  4. Réponses: 98
    Dernier message: 21/10/2012, 11h35
  5. Réponses: 85
    Dernier message: 14/10/2012, 13h57

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo