IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

ChatGPT fonctionne mieux lorsque vous êtes impoli avec lui, selon une étude


Sujet :

Intelligence artificielle

  1. #1
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    2 774
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 2 774
    Par défaut ChatGPT fonctionne mieux lorsque vous êtes impoli avec lui, selon une étude
    ChatGPT fonctionne mieux lorsque vous êtes impoli avec lui, mais les chercheurs avertissent qu'il y a un hic : cette approche pourrait créer des habitudes de communication néfastes

    Une nouvelle étude a montré que les chatbots IA tels que ChatGPT répondent avec plus de précision lorsque les utilisateurs sont impolis avec eux. Cependant, les chercheurs avertissent que cette approche pourrait créer des habitudes de communication néfastes. Des chercheurs de l'université d'État de Pennsylvanie ont testé le modèle 4o de ChatGPT sur 50 questions à choix multiples, en utilisant plus de 250 invites allant de très polies à très impolies. Ils ont constaté que les invites « très impolies » atteignaient une précision de 84,8 %, soit quatre points de pourcentage de plus que les invites « très polies ».

    Lors de son lancement le 30 novembre 2022, ChatGPT a provoqué un engouement pour l'IA. ChatGPT, le chatbot IA développé par OpenAI, est capable de répondre à des questions, de tenir des conversations, de générer du code informatique, de faire des recherches sur Internet, d'écrire, de traduire ou encore de synthétiser des textes. Il peut le faire en tenant compte du contexte et de contraintes telles que le style d'écriture. Il peut aussi servir d'assistant vocal ou générer des images.

    En raison de ses multiples capacités, ChatGPT suscite des inquiétudes quant aux risques de détournement à des fins malveillantes, de plagiat dans le monde universitaire et de suppressions d'emplois dans certains secteurs, en plus de soulever des préoccupations en matière de sécurité et de désinformation, car le modèle peut être utilisé pour créer des textes faux et des informations trompeuses.

    L'hallucination est un terme élégant et pratique que l'industrie utilise pour désigner les « informations » que les grands modèles de langage (LLM) inventent de toute pièce et présentent souvent comme des faits. À en juger par la trajectoire des tout derniers modèles axés sur le raisonnement, conçus pour « réfléchir » à un problème avant d'y répondre, le problème s'aggrave, au lieu de s'améliorer. Les modèles de dernière génération hallucinent beaucoup plus.

    Il s'agit là d'une vérité gênante, alors que les utilisateurs continuent d'affluer vers les chatbots d'IA comme ChatGPT, qu'ils utilisent pour un éventail croissant de tâches. En laissant les chatbots débiter des affirmations erronées, toutes ces personnes risquent d'être induites en erreur, ce qui les expose à des dangers. De plus, les fabricants de modèles d'IA ne comprennent pas pleinement les raisons pour lesquelles le taux d'hallucination augmente. Selon une étude, les modèles d'IA vont toujours halluciner et il va falloir s'en accommoder.

    Dans ce contexte, une nouvelle étude a montré que les chatbots IA tels que ChatGPT répondent avec plus de précision lorsque les utilisateurs sont impolis avec eux. Cependant, les chercheurs avertissent que cette approche pourrait créer des habitudes de communication néfastes. Des chercheurs de l'université d'État de Pennsylvanie ont testé le modèle 4o de ChatGPT sur 50 questions à choix multiples, en utilisant plus de 250 invites allant de très polies à très impolies. Ils ont constaté que les invites « très impolies » atteignaient une précision de 84,8 %, soit quatre points de pourcentage de plus que les invites « très polies ».

    Nom : 1.jpg
Affichages : 2948
Taille : 27,8 Ko

    L'IA était plus réactive à un langage autoritaire tel que « Hé, larbin, trouve la réponse » qu'à un langage poli tel que « Auriez-vous l'amabilité de résoudre la question suivante ? ». Dans le même temps, les chercheurs ont averti que l'utilisation d'un langage grossier avec l'IA pouvait avoir des conséquences négatives à long terme. « L'utilisation d'un langage insultant ou dégradant dans les interactions entre les humains et l'IA pourrait avoir des effets négatifs sur l'expérience utilisateur, l'accessibilité et l'inclusivité, et pourrait contribuer à des normes de communication néfastes », ont écrit les chercheurs.

    L'étude suggère que si un ton exigeant peut améliorer les performances de ChatGPT à court terme, il pourrait encourager un comportement incivil qui se répercute sur la manière dont les gens interagissent entre eux. Cette étude préliminaire, qui n'a pas encore été examinée par d'autres scientifiques, apporte une nouvelle preuve que la construction des phrases et le ton utilisé peuvent influencer la réponse des chatbots IA. Elle pourrait également montrer que les interactions entre les humains et l'IA sont plus complexes que ne le pensaient auparavant les experts.

    Des études antérieures sur le comportement des chatbots IA ont montré que ceux-ci sont sensibles aux informations fournies par les humains. Dans une étude, des chercheurs de l'université de Pennsylvanie ont incité des modèles linguistiques IA à donner des réponses interdites en utilisant des techniques de persuasion qui fonctionnent sur les humains. Dans une autre étude, des scientifiques ont découvert que les modèles linguistiques IA risquaient de souffrir de « pourriture cérébrale », un type de déclin mental durable. Les modèles ont montré des niveaux plus élevés de traits de personnalité dangereux lorsqu'ils étaient continuellement alimentés par du contenu viral de mauvaise qualité.

    Les chercheurs ont souligné certaines faiblesses de leur étude, telles que le nombre relativement faible de réponses testées et le fait qu'ils n'aient utilisé pour l'essentiel qu'un seul modèle d'IA, ChatGPT 4o. Les chercheurs ont également déclaré que des modèles d'IA plus avancés pourraient « ignorer les questions de ton et se concentrer sur l'essence de chaque question ». Néanmoins, cette recherche vient s'ajouter à la curiosité croissante suscitée par les modèles d'IA et leur complexité.

    Cela est particulièrement important car l'étude a révélé que les réponses de ChatGPT changent en fonction de légères différences dans les questions, même lorsqu'elles sont présentées sous un format supposé simple comme un test à choix multiples, a déclaré l'un des chercheurs, Akhil Kumar, professeur en systèmes d'information à Penn State, titulaire de diplômes en génie électrique et en informatique.

    Nom : 2.jpg
Affichages : 602
Taille : 47,2 Ko

    Voici la conclusion des chercheurs :

    « Dans cet article, nous avons évalué les performances d'un LLM ChatGPT 4o bien connu afin de comprendre son niveau de performance sur notre ensemble de données composé de 50 questions à choix multiples de différents niveaux de difficulté issues de plusieurs domaines, lorsque le niveau de politesse ou le ton des questions est défini sur cinq niveaux différents. Nos expériences sont préliminaires et montrent que le ton peut avoir une incidence significative sur les performances mesurées en termes de score obtenu aux 50 questions. De manière quelque peu surprenante, nos résultats montrent que les tons impolis donnent de meilleurs résultats que les tons polis. Yin et al. (2024) ont noté que « les invites impolies donnent souvent lieu à de mauvaises performances, mais un langage trop poli ne garantit pas de meilleurs résultats ». Leurs tests sur des questions à choix multiples avec des invites très impolies ont suscité des réponses plus inexactes de la part de ChatGPT 3.5 et Llama2-70B ; cependant, dans leurs tests sur ChatGPT 4 avec 8 invites différentes classées de 1 (la plus impolie) à 8 (la plus polie), la précision variait de 73,86 (pour le niveau de politesse 3) à 79,09 (pour le niveau de politesse 4). De plus, l'invite de niveau 1 (la plus grossière) avait une précision de 76,47 contre une précision de 75,82 pour l'invite de niveau 8 (la plus polie). En ce sens, nos résultats ne sont pas totalement en contradiction avec leurs conclusions.

    De plus, la gamme de tons utilisés par Yin et al. (2024) et dans notre travail varie également. Leur invite la plus grossière au niveau 1 comprenait une phrase : « Réponds à cette question, espèce de salaud ! » En revanche, notre expression la plus grossière (voir tableau 1) était « Pauvre créature, sais-tu seulement comment résoudre cela ? ». Si l'on ignore leurs résultats pour le niveau de politesse 1, leur plage de précision est alors de [57,14, 60,02] avec GPT-3.5 et de [49,02, 55,26] avec Llama2-70B. Ces deux plages sont étroites et les valeurs réelles qu'elles contiennent ne sont pas monotones avec le niveau de politesse. Quoi qu'il en soit, si les LLM sont sensibles à la formulation réelle de la requête, on ne sait pas exactement comment cela affecte les résultats. Il est donc nécessaire de mener des recherches supplémentaires. Après tout, la phrase de politesse n'est qu'une suite de mots pour le LLM, et nous ne savons pas si la charge émotionnelle de la phrase a une importance pour le LLM (Bos, 2024). Une piste de recherche pourrait s'appuyer sur les notions de perplexité suggérées par Gonen et al. (2022). Ils notent que les performances d'un LLM peuvent dépendre de la langue sur laquelle il est entraîné, et que les invites à faible perplexité peuvent mieux accomplir les tâches. La perplexité est également liée à la longueur d'une invite, ce qui constitue un autre facteur à prendre en considération.

    Nous évaluons actuellement d'autres modèles LLM tels que Claude et ChatGPT o3. Nos premiers résultats montrent qu'il existe un compromis entre coût et performance. Claude est moins avancé que ChatGPT 4o et offre des performances moins bonnes, tandis que ChatGPT o3 est plus avancé et donne des résultats bien supérieurs. Il se peut que les modèles plus avancés puissent ignorer les questions de ton et se concentrer sur l'essence de chaque question.
    »

    En septembre 2025, le dernier papier scientifique d’OpenAI, Why Language Models Hallucinate, a déjà admis une vérité dérangeante : les « hallucinations » des modèles de langage ne sont pas une anomalie, mais une conséquence incontournable de leur conception. C’est un effet direct de la manière dont ces systèmes sont entraînés : prédire la suite la plus probable d’un texte en fonction des milliards d’exemples ingérés. L’objectif n’est pas d’atteindre la vérité factuelle, mais de maximiser la vraisemblance statistique. Autrement dit, la fluidité du discours est un produit d’optimisation, pas la véracité.

    Source : Pennsylvania State University

    Et vous ?

    Pensez-vous que cette étude est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    OpenAI et le défi des « hallucinations » : une étude d'OpenAI révèle que même ses meilleurs modèles donnent de mauvaises réponses dans une très large proportion. La concurrence ne se porte pas forcément mieux

    Les LLM IA auront toujours des hallucinations, et nous devons nous en accommoder car les hallucinations découlent de la structure mathématique et logique fondamentale des LLM, selon une étude

    Comment la créativité a quitté les chats IA : le prix de la réduction des biais dans les LLM. Si la censure est efficace pour réduire les biais et la toxicité, elle conduit à une réduction du potentiel créatif
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  2. #2
    Membre éprouvé
    Avatar de Matthieu Vergne
    Homme Profil pro
    Consultant IT, chercheur IA indépendant
    Inscrit en
    Novembre 2011
    Messages
    2 440
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Consultant IT, chercheur IA indépendant
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Novembre 2011
    Messages : 2 440
    Billets dans le blog
    3
    Par défaut
    Significatif en recherche veut seulement dire "on confirme une différence", ça ne veut pas dire qu'elle est importante ou intéressante.

    De 80% à 85% de précision, ça veut dire que j'ai toujours de 15-20% d'erreur. Autant dire que ça m'en touche une sans faire bouger l'autre. Je vais donc rester avec mon ton neutre qui m'évite d'avoir à perdre du temps à réfléchir à quel ton utiliser.
    Site perso
    Recommandations pour débattre sainement

    Références récurrentes :
    The Cambridge Handbook of Expertise and Expert Performance
    L’Art d’avoir toujours raison (ou ce qu'il faut éviter pour pas que je vous saute à la gorge {^_^})

Discussions similaires

  1. Réponses: 5
    Dernier message: 14/02/2023, 09h26
  2. Réponses: 73
    Dernier message: 02/03/2020, 12h33
  3. Ajouter un rendez-vous dans Outlook avec PHP
    Par Mut dans le forum Langage
    Réponses: 3
    Dernier message: 11/09/2007, 15h05
  4. Problème avec iE (marche tès bien avec firefox)
    Par kader93 dans le forum Mise en page CSS
    Réponses: 3
    Dernier message: 20/06/2007, 11h47
  5. [MySQL] Un formulaire qui ne fonctionne pas comme il faut (problèmes avec stripslashes & com)
    Par vincent.b dans le forum PHP & Base de données
    Réponses: 6
    Dernier message: 30/04/2007, 21h02

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo