La dernière IA d'Alibaba, Qwen 1.5, bat GPT-3.5 et Claude dans plusieurs tests d'évaluation des performances

**Jade Emy** · 18/08/2023, 09h56

Alibaba, le géant technologique chinois, lance un modèle d'IA en libre accès pour tenter de concurrencer le Llama 2 de Meta.

La société basée à Hangzhou a déclaré dans un communiqué de presse qu'elle avait mis en libre accès deux grands modèles de langage (LLM), un type de modèle d'IA, nommés Qwen-7B et Qwen-7B-Chat, jeudi. Chaque modèle compte 7 milliards de paramètres, ce qui est souvent utilisé pour mesurer la puissance. C'est la première fois qu'une grande entreprise technologique chinoise met en libre accès ses LLM.

Elle intervient également après que Meta a dévoilé le mois dernier un modèle similaire en libre accès, appelé Llama 2, qui a suscité un grand intérêt. Certains analystes estiment que les modèles en libre accès peuvent réduire la domination actuelle du marché par OpenAI, le développeur de ChatGPT, et Google, dont les modèles d'IA font payer des frais élevés aux utilisateurs.

Alibaba Cloud a annoncé en avril son LLM, baptisé Tongyi Qianwen, qui se décline en plusieurs versions comportant différents nombres de paramètres. Alibaba a déclaré que Qwen-7B et Qwen-7B-Chat sont deux versions de petite taille de Tongyi Qiawen qui visent à aider les petites et moyennes entreprises à commencer à utiliser l'IA. "Le code, les poids des modèles et la documentation des deux modèles seront librement accessibles aux universitaires, aux chercheurs et aux institutions commerciales du monde entier", a déclaré l'entreprise.

Toutefois, les entreprises comptant plus de 100 millions d'utilisateurs actifs mensuels devront demander une licence à Alibaba avant d'utiliser les deux modèles. De même, le Llama 2 de Meta nécessite une licence pour les utilisateurs de plus de 700 millions d'utilisateurs.

Alibaba a déclaré que Tongyi Qianwen possédait des versions comportant un plus grand nombre de paramètres qui n'ont pas été mis en libre accès, mais elle n'a pas précisé combien de paramètres contenait son plus grand modèle. La plus grande version du Llama 2 de Meta comporte 70 milliards de paramètres.

La Chine tente de rattraper les États-Unis dans le domaine de l'IA, Pékin encourageant les entreprises chinoises à développer rapidement des modèles d'IA nationaux et "contrôlables" capables de rivaliser avec ceux mis au point par les entreprises américaines.

Outre Alibaba, les géants de la technologie tels que Tencent Holdings et Huawei ont développé de manière agressive leurs propres modèles d'IA au cours des derniers mois.

Source : Alibaba

Et vous ?

Que pensez-vous de l’augmentation de l'offre et donc la concurrence pour les LLM ?

Pensez-vous pouvoir être intéressé par l'offre d'Alibaba ?

Voir aussi :

Le modèle LLamA-2 de Meta, qui vient d'être publié, ne serait pas open source, de l'avis de Alessio Fanelli, Ingénieur logiciel associé chez Decibel

La version professionnelle de ChatGPT est maintenant disponible et coûte 42 dollars par mois, mais beaucoup critiquent ce prix et le jugent "trop élevé pour les utilisateurs occasionnels"

OpenAI sur l'impact économique du GPT-4: « 80% des travailleurs auront au moins 10% de leurs tâches touchées ». L'entreprise affirme que ses produits vont automatiser une vaste gamme de tâches pros

**eddy72** · 18/08/2023, 13h29

Je serais curieux de connaître les pourcentages de personnes hors territoire chinois qui utilisent les services d'Alibaba ?

**Pierre Louis Chevalier** · 18/08/2023, 13h44

Sur le Cloud Alibaba est le 4eme mondial (2023).

Nom : Capture d’écran 2023-08-18 133555 cloud.png
Affichages : 1806
Taille : 31,4 Ko

Sur la France c'est différent vu qu'il y a OVH en sus dans les prestataires Cloud, et Alibaba n'avait pas de parts de marchés visibles sur le sondage Cloud developpez de 2021.

Alibaba a créé encore un nouveau Data center en Europe en 2022, en Allemagne, donc il est clair qu'Alibaba va essayer de concurrencer les Big tech US en Europe, mais en France et voir en Europe, OVH va le freiner clairement dans cet objectif, d'ailleurs OVH apparait même dans le classement mondial 2023.

**Anthony** · 01/12/2023, 14h46

Alibaba publie le modèle open source Qwen-72B LLM avec une longueur de contexte de 32k, ainsi que Qwen-Chat, qui surpassent les modèles de taille similaire sur les ensembles de données de référence

Alibaba ouvre sa série Qwen, qui comprend maintenant Qwen, les modèles de langage de base, à savoir Qwen-1.8B, Qwen-7B, Qwen-14B, et Qwen-72B, ainsi que Qwen-Chat, les modèles de chat, à savoir Qwen-1.8B-Chat, Qwen-7B-Chat, Qwen-14B-Chat, et Qwen-72B-Chat.

Alibaba dispose de modèles linguistiques de base solides, qui ont été préformés de manière stable pour offrir jusqu'à 3 000 milliards de tokens de données multilingues avec une large couverture de domaines, de langues (avec un accent sur le chinois et l'anglais), etc. Ils sont capables d'atteindre des performances compétitives sur des ensembles de données de référence. En outre, nous disposons de modèles de chat alignés sur les préférences humaines basées sur SFT et RLHF (pas encore publiés), qui sont capables de chatter, de créer du contenu, d'extraire des informations, de résumer, de traduire, de coder, de résoudre des problèmes mathématiques, etc. et d'utiliser des outils, de jouer le rôle d'agents ou même d'interprètes de code, etc.

Nom : qwen.PNG
Affichages : 1297
Taille : 34,0 Ko

Performances

Les modèles Qwen surpassent les modèles de référence de taille similaire sur une série d'ensembles de données de référence, par exemple MMLU, C-Eval, GSM8K, MATH, HumanEval, MBPP, BBH, etc., qui évaluent les capacités des modèles en matière de compréhension du langage naturel, de résolution de problèmes mathématiques, de codage, etc. Qwen-72B obtient de meilleures performances que LLaMA2-70B dans toutes les tâches et surpasse GPT-3.5 dans 7 tâches sur 10.

Nom : radar_72b.jpg
Affichages : 934
Taille : 38,5 Ko

Nom : qwen perf table.PNG
Affichages : 927
Taille : 74,1 Ko

Pour tous les modèles comparés, les meilleurs scores entre leurs résultats officiels et OpenCompass sont indiqués.

Pour plus de résultats expérimentaux (performances détaillées du modèle sur d'autres ensembles de données de référence) et de détails, veuillez vous référer au rapport technique en cliquant ici.

Source : Qwen (GitHub)

Et vous ?

Que pensez-vous de la série de modèles de base Qwen et de leurs performances ?

Voir aussi

Alibaba, le géant technologique chinois, lance un modèle d'IA en libre accès pour tenter de concurrencer le Llama 2 de Meta

Alibaba DAMO Academy dévoile M6, un modèle d'IA à 10 000 milliards de paramètres doté de fonctions multimodales et multitâches, il surpasse les modèles de Google, OpenAI et Microsoft

**jamesdu75** · 01/12/2023, 22h28

Envoyé par eddy72

Je serais curieux de connaître les pourcentages de personnes hors territoire chinois qui utilisent les services d'Alibaba ?

ben déjà Ali Express et pas mal de pays d'Asie

**Bruno** · 08/02/2024, 16h22

La dernière IA d'Alibaba, Qwen 1.5, bat GPT-3.5 et Claude dans plusieurs tests d'évaluation des performances,
des critiques exigent une analyse approfondie de la méthodologie employée

En ce début d'année 2024, Alibaba Group, le géant technologique chinois, annonce la sortie de sa dernière version d'intelligence artificielle, Qwen 1.5, qui se positionne en compétition avec des modèles renommés tels que ChatGPT d'OpenAI et Claude d'Anthropic. Des tests partagés sur la plateforme de médias sociaux X révèlent que Qwen 1.5 surpasse ces concurrents dans certains benchmarks, notamment MT-bench et Alapaca-Eval, évaluant la capacité du modèle à répondre à des questions prédéfinies et à émuler des interactions humaines.

L'intelligence artificielle générative (IA) fait référence à l'utilisation d'algorithmes d'apprentissage automatique qui s'appuient sur du matériel existant, tel que du texte, de l'audio ou des images, pour créer un nouveau contenu. Les progrès récents dans ce domaine, associés à son accessibilité sans précédent, ont conduit de nombreuses personnes à le considérer comme un « changement de donne auquel la société et l'industrie doivent se préparer ».

Nom : Qwen.jpg
Affichages : 5433
Taille : 10,4 Ko

L'année dernière, Alibaba Cloud a dévoilé son LLM, baptisé Tongyi Qianwen, proposant diverses versions avec des nombres de paramètres variés. Deux de ces versions, Qwen-7B et Qwen-7B-Chat, ont été spécialement conçues en taille réduite pour faciliter l'adoption de l'IA par les petites et moyennes entreprises. L'entreprise a affirmé que le code, les poids des modèles et la documentation de ces deux versions seraient librement accessibles aux universitaires, aux chercheurs et aux institutions commerciales du monde entier.

Qwen représente une série de modèles linguistiques de grande envergure développées par Alibaba Cloud, basés sur des transformateurs et pré-entraînés sur d'amples volumes de données, incluant des textes web, des ouvrages, du code, et autres.
Principales caractéristiques :

Déploiement économique : l'inférence nécessite une mémoire minimale, inférieure à 2 Go ;
Corpus d'entraînement étendu de haute qualité : les modèles sont préalablement entraînés sur plus de 2,2 billions de tokens, englobant des textes en chinois, anglais, et multilingues, ainsi que du code et des éléments mathématiques, couvrant des domaines généraux et spécialisés. La distribution du corpus de préformation est optimisée grâce à de nombreuses expériences d'ablation ;
Performances supérieures : Qwen prend en charge des contextes étendus (8K pour les modèles à 1,8b, 7b, et 14b paramètres, et 32K pour le modèle à 72b paramètres), surpassant significativement les modèles open-source existants de taille similaire dans diverses tâches d'évaluation en chinois et en anglais (comprenant le bon sens, le raisonnement, le code, les mathématiques, etc.) ;
Couverture vocabulaire étendue : Qwen utilise un vocabulaire de plus de 150 000 tokens, offrant une couverture plus complète par rapport à d'autres modèles open-source basés sur des vocabulaires chinois et anglais. Ceci le rend convivial pour les langues multiples, permettant aux utilisateurs d'améliorer directement les compétences linguistiques sans avoir à étendre le vocabulaire ;
Invite système : Qwen peut accomplir des jeux de rôle, des transferts de style linguistique, des tâches spécifiques, et adopter différents comportements à travers des invites système.

Les résultats démontrent que Qwen 1.5 se positionne parmi les meilleurs, rivalisant avec des modèles tels que GPT-4 Turbo et Yi-34B de HuggingFace. La nature open source de Qwen 1.5 facilite l'accès au code pour les utilisateurs et développeurs, encourageant la compréhension approfondie et la création de variantes personnalisées. En parallèle, d'autres acteurs majeurs, tels que Meta et leur modèle Llama, accordent une importance particulière à l'intelligence artificielle, investissant massivement dans l'augmentation de la capacité de calcul.

MT-bench teste la capacité d'un modèle à répondre à une série de questions prédéfinies qui cherchent non seulement à le différencier d'un chatbot, mais aussi à déterminer si le modèle peut "tenir le coup" dans un contexte conversationnel difficile qui implique deux parties s'engageant rapidement l'une avec l'autre. Les résultats de l'analyse comparative montrent que Qwen était le quatrième meilleur score dans MT-bench, et qu'il n'était qu'à la traîne de GPT-4 Turbo et des deux premières versions de GPT-4, à savoir les versions 0613 et 0314.

Alibaba releases Qwen 1.5

demo: https://t.co/goMcWMsIzT

largest open-source Qwen1.5-72B-Chat, exhibits superior performance, surpassing Claude-2.1, GPT-3.5-Turbo-0613, on both MT-Bench and Alpaca-Eval v2 pic.twitter.com/50dNuUpEBx
— AK (@_akhaliq) February 5, 2024

Les progrès rapides de la Chine dans le domaine de l'intelligence artificielle suscitent à la fois admiration et inquiétude. D'un côté, les accomplissements impressionnants de sociétés telles que Baidu, Alibaba et Tencent témoignent de l'engagement du pays à investir massivement dans la recherche et le développement de technologies de pointe. Ces avancées ont le potentiel de stimuler l'innovation à l'échelle mondiale et de favoriser des applications bénéfiques pour la société.

La validité et la représentativité des benchmarks utilisés pour évaluer Qwen 1.5 méritent une remise en question

Il est crucial de maintenir une vigilance quant à la validité et à la représentativité des benchmarks utilisés pour évaluer Qwen 1.5. Des critiques constructives requièrent une analyse approfondie de la méthodologie employée dans ces évaluations, en particulier en ce qui concerne la diversité des tâches et des données d'entraînement. Une transparence accrue sur ces aspects serait bénéfique pour renforcer la crédibilité des déclarations affirmant la supériorité de Qwen 1.5 par rapport à ses concurrents.

Cependant, ces réussites ne peuvent être dissociées des préoccupations éthiques et sociales. Les investissements massifs du gouvernement chinois soulèvent des questions sur la transparence et l'équité dans le développement de l'IA. Il est crucial de garantir que ces avancées technologiques soient utilisées de manière responsable, respectueuse des droits de l'homme et de la vie privée.

Une source majeure d'inquiétude réside dans l'utilisation de l'IA à des fins de surveillance de masse en Chine. Les modèles d'IA alimentent des systèmes de surveillance omniprésents, suscitant des préoccupations légitimes quant aux libertés individuelles et à la possibilité d'une surveillance excessive. Les implications de ces pratiques nécessitent une réflexion approfondie sur la manière dont la technologie est déployée et réglementée.

Source : Vidéo

Et vous ?

Quel est votre avis sur ce sujet ?

Les benchmarks sont-ils crédibles s'ils ne tiennent pas compte des implications éthiques et sociales de l'utilisation de Qwen 1.5 dans un contexte de surveillance de masse ?

Voir aussi :

Alibaba publie le modèle open source Qwen-72B LLM avec une longueur de contexte de 32k, ainsi que Qwen-Chat, qui surpassent les modèles de taille similaire sur les ensembles de données de référence

Alibaba, le géant technologique chinois, lance un modèle d'IA en libre accès pour tenter de concurrencer le Llama 2 de Meta