Quel est le meilleur chatbot d'intelligence artificielle ? Cette étude pourrait apporter la réponse

**Anthony** · 26/06/2023, 13h23

Quel est le meilleur chatbot d'intelligence artificielle ? Cette étude pourrait apporter la réponse, en attribuant le podium à ChatGPT 4 et à deux versions du chatbot Claude d'Anthropic

Il semble que toutes les grandes entreprises technologiques essaient de mettre au point leur propre chatbot d'IA. Microsoft a mis la main sur OpenAI et ChatGPT, ce qui en fait l'un des plus grands acteurs de cette toute nouvelle arène. Google est également entré en lice avec Bard, et Microsoft fait monter les enchères avec Bing en incorporant un chatbot IA dans sa propre propriété.

La question se pose donc de savoir quel chatbot IA est meilleur que les autres. L'université de Berkeley a tenté d'apporter une réponse appropriée en s'associant à l'université de San Diego et à Carnegie Mellon pour former la Large Model Systems Organization, ou LMSYS Org en abrégé.

Nom : Classement AI chatbot.PNG
Affichages : 1601
Taille : 90,2 Ko

Le groupe se compose de quatre membres de la faculté qui s'intéressent tout particulièrement à l'IA et à l'informatique, et qui mènent des recherches dans ces domaines. Ils sont accompagnés de dix étudiants, et ces 14 personnes ont participé à ce que l'on appelle un "Chatbot Arena".

Cela permet aux participants au test de comparer et d'opposer deux chatbots en même temps. Il convient de mentionner que les participants n'ont été informés des chatbots IA avec lesquels ils parlaient qu'après le test. Ils ont voté pour le chatbot qu'ils préféraient en fonction des réponses qu'ils ont reçues, et le fait de ne pas connaître le nom du chatbot avec lequel ils conversaient a sans doute réduit les biais dans une large mesure.

Nom : Classement AI chatbot 2.PNG
Affichages : 934
Taille : 47,1 Ko

Au final, ChatGPT 4 est arrivé en tête du classement avec un score de 1 225. Claude d'Anthropic est arrivé en deuxième et troisième position, avec une version qui a obtenu un score de 1 195 et une autre qui a reçu une note Elo de 1 153. Si vous ne voulez pas payer 20 $ par mois pour GPT 4, vous pouvez toujours utiliser la version gratuite ChatGPT 3.5 qui s'est classée quatrième avec un score Elo global de 1 143.

Source : Large Model Systems Organization

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous de ce classement ? Est-il pertinent, selon vous ?

À votre avis, sur la base des informations fournies, pourquoi pensez-vous que ChatGPT 4 s'est classé premier dans le Chatbot Arena ?

En considérant les résultats de ce classement, pensez-vous que la différence de performance entre ChatGPT 4 et ChatGPT 3.5 justifie le coût de l'abonnement de 20 $ par mois pour la version 4 ?

Voir aussi

DeepMind, la filiale de Google spécialisée dans l'IA, annonce qu'elle lancera bientôt un concurrent de ChatGPT, et affirme que son système est plus avancé et réduit le risque de réponses toxiques

Les chatbots d'IA conquièrent le monde alors que les téléchargements sur l'App Store se comptent par millions, en particulier pour les chatbots payants AskAI, Genie, AI Smith, AI Chat et ChatOn

Révolution de l'IA : les développeurs de chatbots gagnent des millions de dollars de revenus, les applications Kiyo, Genie et AI Chatbot ont généré 3 Mns $ de recettes depuis le début de l'année

Comparaison entre ChatGPT et Google Translate : quel chatbot d'intelligence artificielle est le meilleur traducteur de langues ? ChatGPT arrive en tête devant Google Bard, Translate et Bing AI

**Mathis Lucas** · 28/03/2024, 02h52

Claude 3 Opus devient le nouveau roi et sa variante la plus petite "Haiku" égale les performances d'une version de GPT-4
ce qui met la pression sur OpenAI et son prochain modèle d'IA GPT-5

Une nouvelle évaluation des chatbots d'IA les plus populaires réalisée par la plateforme LMSYS suggère que Claude 3 d'Anthropic surpasse GPT-4 d'OpenAI. Les résultats des tests montrent que Claude 3 Opus occupe la première place avec un score Elo de 1253. Deux récents modèles GPT-4 de prévisualisation le suivent de près, avec des notes respectives de 1251 et 1248. Gemini Pro de Google occupe la quatrième place du classement, avec des performances qui sont légèrement supérieures à celles de Claude 3 Sonnet (1198 points). Les résultats montrent que l'étau se resserre autour d'OpenAI, dont l'industrie attend impatiemment qu'il publie son modèle GPT-5.

LMSYS (Large Model Systems Organization) est un projet sponsorisé par la startup d'IA Hugging Face. Il comprend le site Chatbot Arena qui permet de comparer les grands modèles de langage (LLM). Le site utilise le système d'évaluation Elo pour classer les modèles. (Le système d'évaluation Elo est une méthode de calcul des niveaux de compétence relatifs des joueurs dans les jeux à somme nulle comme les échecs.) Le site offre aux utilisateurs plusieurs moyens de comparer et d'évaluer les modèles. Sur la base des commentaires soumis, Chatbot Arena classe les différents modèles dans un tableau de classement public.

Nom : Capture d'écran 2024-03-28 024703.png
Affichages : 29553
Taille : 242,6 Ko

Dans le cadre du test, les classements Elo sont dérivés des combats en tête-à-tête entre les modèles, les évaluateurs humains votant pour déterminer le modèle le plus performant dans chaque match. Les données du classement donnent un aperçu des performances de chaque modèle :

Claude 3 Opus a obtenu un score impressionnant de +5/-5 dans ses défis, accumulant 33 250 votes au total ;
les modèles GPT-4 de prévisualisation ont obtenu des résultats de +4/-4 avec 54 141 et 34 825 votes, respectivement ;
Claude 3 Sonnet a également réalisé une bonne performance, avec un score de +5/-5 lors des comparaisons et 32 761 votes ;
Claude 3 Haiku a obtenu un score de +5/-5 lors des tests et 18 776 votes. Il égale presque les performances de l'ancien GPT-4-0314.

« Anthropic est maintenant le leader et possède le meilleur modèle d'IA au monde ! Et je suis sûr qu'ils sont déjà en train de développer Claude 4 », a écrit un critique. Selon d'autres critiques, GPT-4-Turbo est devenu très "paresseux". « Sur n'importe quelle tâche de codage, il saute des parties du code en disant : "vous savez vous-même ce qu'il faut mettre ici". Mais Claude 3 Opus peut produire un code entier sans omissions. GPT-4 a tendance à fournir des exemples de code au lieu du code littéral que vous avez fourni (c'est-à-dire qu'il travaille en tant que professeur et non comme un subordonné) », note un commentaire.

Selon les analystes, l'indice de référence Elo constitue une méthode précieuse et objective pour comparer les modèles d'IA et suivre les progrès rapides dans ce domaine. Alors que les modèles continuent d'évoluer à un rythme sans précédent, ces classements permettent d'identifier les modèles et les architectures les plus performants. GPT-4 a placé la barre très haut lors de sa sortie, mais des challengers comme Claude le dépassent aujourd'hui grâce à des architectures et des approches de formation innovantes. Selon les experts, cette concurrence dynamique est à l'origine d'innovations remarquables dans le domaine de l'IA.

Pour rappel, Anthropic, un acteur relativement nouveau dans la course à l'IA, a lancé au début du mois son nouveau modèle Claude 3, un puissant modèle de langage disponible en trois tailles différentes : Haiku (le plus petit), Sonnet (de taille moyenne) et Opus (le plus grand). Claude 3 offre une meilleure compréhension du contexte que ses prédécesseurs, ce qui permet de réduire le nombre de refus. Selon Anthropic, la variante Claude 3 Opus rivalise avec GPT-4, voire le surpasse, si l'on considère les performances obtenues dans le cadre de divers tests de référence. Le classement ci-dessus vient confirmer cette déclaration.

Anthropic a cité des scores de référence pour étayer son affirmation selon laquelle le modèle Claude 3 Opus est plus performant que le GPT-4. Par exemple, sur le benchmark GSM8K, qui évalue les modèles de langage sur leur capacité à comprendre et à raisonner sur le langage naturel, le modèle Claude 3 Opus a nettement surpassé GPT-4, obtenant un score de 95,0 % contre 92,0 % pour GPT-4. Toutefois il est important de noter que cette comparaison a été faite avec le modèle GPT-4 par défaut, et non avec la variante avancée GPT-4 Turbo. Lorsque GPT-4 Turbo est pris en compte pour le test, les choses changent légèrement.

Sur le même benchmark GSM8K, GPT-4 Turbo a obtenu un score de 95,3 %, devançant le modèle Claude 3 Opus. Tout comme le GPT-4V, le Claude 3 est également doté d'un support Vision et crée des points de référence pour la compréhension multilingue, le raisonnement, etc. L'un des domaines dans lesquels le GPT-4 présente un avantage certain est sa capacité à traiter un large éventail de formats d'entrée et de sortie. GPT-4 prend en charge divers formats de données, y compris les entrées textuelles, codées, visuelles et audio. Il génère des sorties précises en comprenant et en combinant ces diverses informations.

En outre, la variante GPT-4V peut produire des images nouvelles et distinctives en analysant des invites textuelles ou visuelles, ce qui en fait un outil polyvalent pour les professionnels dans les domaines nécessitant la création de contenu visuel. En revanche, Claude 3 est limité au traitement d'entrées textuelles et visuelles, et ne produit que des sorties textuelles. Il peut extraire des informations d'images et lire des graphiques et des tableaux, mais il ne peut pas produire de sorties visuelles comme GPT-4V. Bien qu'il soit plus avancé que GPT-3.5, Claude 3 Sonnet semble moins performant que GPT-4 en matière de capacités globales.

En somme, l'étude de LMSYS offre un aperçu de l'état actuel de l'IA, soulignant la grande performance des modèles Claude d'Anthropic et GPT-4 d'OpenAI. Alors que les chercheurs continuent à repousser les limites de ce qui est possible avec les LLM, ces benchmarks fournissent un outil précieux pour suivre les progrès et identifier les approches les plus prometteuses. Compte tenu du rythme rapide de l'innovation dans ce domaine, il sera passionnant de voir comment ces modèles continuent d'évoluer et quelles nouvelles percées seront réalisées dans un avenir proche. Par exemple, OpenAI prépare la sortie de son modèle GPT-5.

La concurrence entre Mistral AI, Anthropic, OpenAI, Google etc., est à l'origine de progrès remarquables dans le domaine de l'IA, en particulier des modèles de langage, ouvrant ainsi la voie à des modèles plus sophistiqués et plus performants susceptibles de révolutionner divers secteurs et applications.

Source : Chat Arena

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des résultats des tests réalisés par Chatbot Arena ?

Selon vous, OpenAI pourra-t-il reprendre sa place de leader après le lancement de GPT-5 ?

Que pensez-vous de la méthodologie de Chatbot Arena ? Que signifient ces résultats pour le secteur de l'IA ?

Voir aussi

Le PDG de Mistral confirme qu'un modèle d'IA open source de l'entreprise avec des performances proches de celles de GPT-4 a fait l'objet de fuite, ces résultats accentuent la pression sur OpenAI

Quel est le meilleur chatbot d'intelligence artificielle ? Cette étude pourrait apporter la réponse en attribuant le podium à ChatGPT 4 et à deux versions du chatbot Claude d'Anthropic

Quel modèle d'IA fournit les "meilleures" réponses ? Une étude suggère que les modèles propriétaires surpassent les modèles open source, mais la méthode d'évaluation est controversée

**Diablo150** · 28/03/2024, 09h25

Selon vous, OpenAI pourra-t-il reprendre sa place de leader après le lancement de GPT-5 ?

C'est impossible à dire.
Pour moi l'avantage d'OpenAI est la puissance des moyens financiers qui soutiennent la structure, ce qui lui a permis de se diversifier (génération d'images, de vidéos, vision, gestion de la voix, API étendue pour les appels de fonctions, création d'agents, etc...)
Si d'autres entreprises ont rattrapé OpenAI sur la partie modèle de langage, elle ne proposent généralement rien sur les autres types d'application, ce qui est une lacune.

Malgré tout ça fait plaisir de voir GPT-4 tomber de son piédestal.
Espérons que Mistral parvienne également à monter d'un cran.

**SuperPat** · 28/03/2024, 10h43

Je remarque aussi que le modÃ¨le opensource Starling-LM-7B-beta est passÃ© Ã* la premiÃ¨re place des modÃ¨les open sources devant Mixtral-8x7b-Instruct-v0.1

Starling dÃ©passe GPT 3.5 et est une version fine-tunÃ© du modÃ¨le Openchat-3.5 lui-mÃªme basÃ© sur Mistral-7B

**Jade Emy** · 28/03/2024, 13h46

Claude 3 bat GPT-4 sur le benchmark d'édition de code d'Aider, et surpasse tous les modèles d'OpenAI, ce qui en fait le meilleur modèle disponible pour la programmation en binôme avec l'IA.

Claude 3 bat GPT-4 sur le benchmark d'édition de code d'Aider. Aider, c'est la programmation en binôme avec l'IA dans votre terminal.

Anthropic vient de sortir ses nouveaux modèles Claude 3 avec des évaluations montrant de meilleures performances sur les tâches de codage. Dans cette optique, un test a été fait sur les nouveaux modèles en utilisant la suite de tests d'édition de code d'Aider.

Claude 3 Opus surpasse tous les modèles d'OpenAI, ce qui en fait le meilleur modèle disponible pour la programmation en binôme avec l'IA.

Aider supporte actuellement Claude 3 Opus via OpenRouter :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
# Install aider
pip install aider-chat
 
# Setup OpenRouter access
export OPENAI_API_KEY=<your-openrouter-key>
export OPENAI_API_BASE=https://openrouter.ai/api/v1
 
# Run aider with Claude 3 Opus using the diff editing format
aider --model anthropic/claude-3-opus --edit-format diff

Le benchmark d'édition de code d'Aider

Aider est un outil de chat en ligne de commande open source qui vous permet de programmer en binôme avec l'IA sur du code dans votre dépôt git local.

Aider s'appuie sur un benchmark d'édition de code pour évaluer quantitativement la capacité d'un LLM à apporter des modifications à un code existant. Le benchmark utilise Aider pour essayer de compléter 133 exercices de codage Python d'Exercism. Pour chaque exercice, Exercism fournit un fichier Python de départ avec les fonctions nécessaires, une description en langage naturel du problème à résoudre et une suite de tests pour évaluer si le codeur a correctement résolu le problème.

Le LLM a deux essais pour résoudre chaque problème :

Au premier essai, il obtient le code initial et la description en anglais de la tâche de codage. Si tous les tests sont réussis, c'est terminé.
Si l'un des tests a échoué, Aider envoie au LLM la sortie du test qui a échoué et lui donne une deuxième chance de terminer la tâche.

Nom : 1.png
Affichages : 17909
Taille : 30,5 Ko

Résultats des tests de référence

Claude 3 Opus

Le nouveau modèle claude-3-opus-20240229 a obtenu le score le plus élevé jamais obtenu pour ce test de référence, réalisant 68,4 % des tâches en deux essais.
Ses performances en un seul essai sont comparables à celles du dernier modèle GPT-4 Turbo gpt-4-0125-preview, avec 54,1 %.
Si Opus a obtenu le score le plus élevé, il n'est que de quelques points supérieur aux résultats de GPT-4 Turbo. Compte tenu des coûts supplémentaires d'Opus et des temps de réponse plus lents, il reste à voir quel est le modèle le plus pratique pour l'utilisation quotidienne du codage.

Claude 3 Sonnet

Le nouveau modèle claude-3-sonnet-20240229 a obtenu des résultats similaires à ceux des modèles GPT-3.5 Turbo d'OpenAI, avec un score global de 54,9 % et un score au premier essai de 43,6 %.

Édition du code

Il est très souhaitable que le LLM renvoie les modifications de code sous forme de diffs, plutôt que de renvoyer une copie mise à jour de l'ensemble du code source.

Les modèles faibles comme GPT-3.5 sont incapables d'utiliser les diffs et sont obligés de renvoyer des copies mises à jour de fichiers source entiers. Aider utilise des blocs de recherche/remplacement plus efficaces avec le GPT-4 original et des diffs unifiés avec les nouveaux modèles GPT-4 Turbo.

Claude 3 Opus fonctionne mieux avec les blocs de recherche/remplacement, ce qui lui permet de renvoyer des modifications de code de manière efficace. Malheureusement, le modèle Sonnet n'a pu fonctionner de manière fiable qu'avec des fichiers entiers, ce qui le limite à l'édition de fichiers sources plus petits et consomme plus de jetons, d'argent et de temps.

Autres observations

Quelques autres points méritent d'être soulignés :

Claude 3 Opus et Sonnet sont tous deux plus lents et plus chers que les modèles d'OpenAI. Vous pouvez obtenir presque la même compétence de codage plus rapidement et à moindre coût avec les modèles d'OpenAI.
Claude 3 a une fenêtre de contexte deux fois plus grande que le dernier GPT-4 Turbo, ce qui peut être un avantage lorsque l'on travaille avec des bases de code plus importantes.
Les modèles Claude ont refusé d'effectuer un certain nombre de tâches de codage et ont renvoyé l'erreur "Output blocked by content filtering policy" (sortie bloquée par la politique de filtrage du contenu). Ils ont refusé de coder le programme de chansons sur la bière, ce qui est assez logique. Mais ils ont également refusé de travailler dans certaines bases de code open source plus importantes, pour des raisons obscures.
Les API de Claude semblent quelque peu instables, renvoyant des erreurs HTTP 5xx de toutes sortes. Aider récupère automatiquement ces erreurs avec des tentatives exponentielles, mais c'est un signe qu'Anthropic pourrait être en train de lutter contre une demande croissante.