Pourquoi ChatGPT devient-il plus nul en mathématiques de base ? Selon une étude, la raison serait un phénomène de dérive imprévisible.
Depuis qu'ils sont devenus largement accessibles au public, les chatbots d'intelligence artificielle ont ébloui les personnes qui les ont expérimentés. Ils ont également suscité la crainte qu'ils ne s'améliorent inexorablement et ne menacent l'humanité. Mais de nouvelles recherches publiées révèlent un défi fondamental pour le développement de l'intelligence artificielle : ChatGPT est devenu moins performant pour effectuer certaines opérations mathématiques de base.
Des chercheurs de l'Université de Stanford et de l'Université de Californie à Berkeley ont fait une étude pour connaitre les raisons du changement et de l'évolution de ChatGPT. Voici un bref résumé de leurs recherches :
Pour être clair, le chatbot n'est pas devenu universellement pire. Il s'est également amélioré dans certaines fonctions. Dans certains tests, GPT-3.5, bien que moins précis dans l'ensemble, s'est amélioré, tandis que GPT-4 s'est dégradé. Le phénomène de la dérive imprévisible est connu des chercheurs qui étudient l'apprentissage automatique et l'intelligence artificielle, a déclaré James Zou. "Nous soupçonnions que cela pouvait se produire ici, mais nous avons été très surpris par la rapidité avec laquelle la dérive se produit."GPT-3.5 et GPT-4 sont les deux services de grands modèles linguistiques (LLM) les plus utilisés. Cependant, il est difficile de savoir quand et comment ces modèles sont mis à jour au fil du temps. Nous évaluons ici les versions de mars 2023 et de juin 2023 de GPT-3.5 et de GPT-4 sur plusieurs tâches différentes : 1) problèmes mathématiques, 2) questions sensibles/dangereuses, 3) sondages d'opinion, 4) questions à connaissances multiples, 5) génération de code, 6) tests de licence médicale américaine, et 7) raisonnement visuel. Nous avons constaté que les performances et le comportement de GPT-3.5 et de GPT-4 peuvent varier considérablement dans le temps. Par exemple, le GPT-4 (mars 2023) était raisonnable pour identifier les nombres premiers par rapport aux nombres composés (84 % d'exactitude), mais le GPT-4 (juin 2023) était médiocre pour ces mêmes questions (51 % d'exactitude). Cela s'explique en partie par une baisse de l'aptitude du GPT-4 à suivre la chaîne de pensée. Il est intéressant de noter que le GPT-3.5 était bien meilleur en juin qu'en mars dans cette tâche. En juin, GPT-4 était moins enclin à répondre aux questions sensibles et aux questions d'enquête d'opinion en juin qu'en mars. GPT-4 a obtenu de meilleurs résultats aux questions "multi-hop" en juin qu'en mars, alors que les performances de GPT-3.5 ont chuté dans cette tâche. GPT-4 et GPT-3.5 ont tous deux commis plus d'erreurs de formatage lors de la génération de code en juin qu'en mars. Dans l'ensemble, nos résultats montrent que le comportement du "même" service LLM peut changer de manière substantielle dans un laps de temps relativement court, soulignant la nécessité d'une surveillance continue des LLM.
Les chercheurs de Stanford-Berkeley ne se sont pas contentés de poser des questions mathématiques au ChatGPT. Ils ont également posé des questions d'opinion pour voir si le chatbot y répondrait, en puisant dans une base de données d'environ 1 500 questions.
En mars, la version 4 du chatbot répondait à 98 % des questions. En juin, il ne répondait plus qu'à 23 % des questions, reportant souvent sa réponse à plus tard, en disant que la question était subjective et qu'en tant qu'IA, il n'avait pas d'opinion. Cela révèle quelque chose sur ce qui se passe avec les systèmes d'IA. Depuis le lancement des chatbots, une sorte d'industrie artisanale dédiée à ce que l'on appelle l'ingénierie des messages-guides a vu le jour.
Parfois, ceux qui expérimentent différentes commandes essaient simplement de tirer le meilleur parti des modèles en trouvant la meilleure façon de poser des questions pour obtenir les résultats souhaités. Mais parfois, ils essaient de tromper les robots en leur faisant dire quelque chose d'offensant ou d'outrageant. (Une technique populaire et extrêmement efficace consiste à amener l'IA à jouer le rôle d'une conversation amorale avec Niccolo Machiavel).
Bien entendu, certaines de ces techniques sont tout à fait inoffensives. L'année dernière, Jason Wei et Denny Zhou, scientifiques chez Google Research, ont publié un article montrant que les modèles d'intelligence artificielle étaient bien plus performants dans les tâches de raisonnement complexes lorsqu'on leur demandait d'aborder le problème étape par étape. En mars, cette technique, connue sous le nom de "chaîne de pensée", fonctionnait bien. Mais en juin, elle était devenue beaucoup moins efficace.
L'érosion de la capacité à résoudre des problèmes mathématiques pourrait-elle être une conséquence involontaire de la volonté d'empêcher les gens de tromper l'IA en lui donnant des réponses exagérées ? Pourrait-il s'agir d'une tentative de répression de l'ingénierie de l'invite et d'une erreur involontaire dans l'utilisation d'une invite qui améliorait les performances en mathématiques ? Serait-ce une conséquence de la volonté de rendre l'IA moins verbeuse ? Les modèles sont si complexes que même les équipes qui les développent n'en ont pas la certitude.
James Zou a déclaré qu'il ne s'agissait pas d'abandonner la technologie. Il s'agit plutôt de surveiller l'IA de beaucoup plus près. L'équipe de Stanford et de Berkeley continuera à tester systématiquement les modèles d'IA (ChatGPT et autres) contre des milliers de questions afin d'analyser empiriquement leurs performances au fil du temps.
Nous avons l'habitude de considérer que la connaissance consiste à maîtriser un problème et à le développer ensuite. En raison de son incroyable complexité, l'IA pourrait ne pas fonctionner de cette manière. Au lieu de cela, elle fait un pas en avant, un pas à la dérive et titube dans une direction inattendue. Au fil du temps, l'IA continuera probablement à progresser, mais elle est loin d'être une ligne droite.
Source : How Is ChatGPT’s Behavior Changing over Time?
Et vous ?
Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?
Voir aussi :
GPT-4 est passé de 98 % à 2 % de réponses exactes à un problème mathématique simple en l'espace de quelques mois, selon une étude qui révèle que les performances de ChatGPT et GPT-4 sont en déclin
GPT-4 a réussi à tromper un humain, l'incitant à résoudre un CAPTCHA après avoir prétendu être aveugle. OpenAI a présenté cette version de ChatGPT comme étant « meilleure et plus précise »
ChatGPT réussit l'entretien de codage Google pour un ingénieur de niveau 3 avec un salaire de 183 000 $, tout en indiquant qu'il ne peut pas reproduire la créativité humaine
Partager