Qwen2 : le LLM open source d'Alibaba évolue avec des capacités améliorées et des prouesses multilingues

**Jade Emy** · 08/06/2024, 06h42

Qwen2 : le LLM open source d'Alibaba évolue avec des capacités améliorées et des prouesses multilingues, et serait désormais le meilleur LLM Opensource devant Llama-3, GPT-4O, et Claude

Alibaba présente Qwen2, son grand modèle de langage open source. Elle offre des capacités améliorées en matière de codage et de mathématiques, ainsi que des performances de pointe.

Un grand modèle de langage (LLM) est un modèle informatique qui se distingue par sa capacité à générer du langage à des fins générales et à réaliser d'autres tâches de traitement du langage naturel telles que la classification. Basés sur des modèles de langage, les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de grandes quantités de texte au cours d'un processus d'apprentissage autosupervisé et semi-supervisé à forte intensité de calcul.

Fondée en 1999, la société Alibaba est principalement connu pour ses services de vente de consommateur à consommateur (C2C), d'entreprise à consommateur (B2C) et d'entreprise à entreprise (B2B), ainsi que des services de consommation locale, de médias numériques et de divertissement, de logistique et d'informatique en nuage. Mais elle vient de dévoiler l'évolution de son grand modèle de langage : Qwen1.5 vers Qwen2.

Alibaba propose des modèles pré-entraînés et adaptés aux instructions de 5 tailles, dont Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, et Qwen2-72B. Qwen2 a été formé sur des données dans 27 langues supplémentaires en plus de l'anglais et du chinois. Cette version offre des performances de pointe dans un grand nombre d'évaluations de référence, ainsi que des performances nettement améliorées en matière de codage et de mathématiques. De plus, Qwen2 prend en charge de la longueur de contexte étendue jusqu'à 128K tokens avec Qwen2-7B-Instruct et Qwen2-72B-Instruct.

Nom : 1.jpg
Affichages : 13972
Taille : 22,9 Ko

Information sur les modèles

La série Qwen2 comprend des modèles de base et des modèles accordés par instruction de 5 tailles, notamment Qwen2-0,5B, Qwen2-1,5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B. Les informations clés des modèles sont illustrées dans le tableau suivant :

Nom : 2.jpg
Affichages : 4212
Taille : 33,9 Ko

Plus précisément, dans Qwen1.5, seuls Qwen1.5-32B et Qwen1.5-110B ont adopté l'attention aux requêtes de groupe (GQA). Cette fois, pour toutes les tailles de modèles, Alibaba applique la GQA afin qu'ils puissent profiter des avantages d'une vitesse plus rapide et d'une utilisation moindre de la mémoire dans l'inférence du modèle. Pour les petits modèles, Alibaba a préféré l'application de l'encastrement lié, car les grands encastrements épars représentent une grande proportion des paramètres totaux du modèle.

En ce qui concerne la longueur du contexte, tous les modèles linguistiques de base ont été entraînés sur des données de longueur de contexte de 32 000 tokens, et ils ont observé des capacités d'extrapolation satisfaisantes jusqu'à 128 000 dans l'évaluation PPL. Cependant, pour les modèles adaptés aux instructions, ils ne se sont pas contenté d'une simple évaluation PPL ; ils voulaient que les modèles soient capables de comprendre correctement un contexte long et d'accomplir des tâches.

Dans le tableau, ils énumèrent les capacités de longueur de contexte des modèles adaptés aux instructions, telles qu'elles ont été évaluées par l'évaluation de la tâche "Aiguille dans une botte de foin". Notamment, lorsqu'ils sont complétés par YARN, les modèles Qwen2-7B-Instruct et Qwen2-72B-Instruct font preuve d'une capacité impressionnante à gérer des longueurs de contexte allant jusqu'à 128 000 tokens.

Des efforts considérables ont été déployés pour augmenter le volume et la qualité des ensembles de données de pré-entraînement et de mise au point de l'instruction dans un spectre linguistique diversifié, au-delà de l'anglais et du chinois, afin de renforcer ses compétences multilingues. Bien que les grands modèles de langage possèdent une capacité inhérente à se généraliser à d'autres langues, Alibaba souligne explicitement l'inclusion de 27 langues supplémentaires dans la formation des modèles :

Nom : 3.jpg
Affichages : 4179
Taille : 31,7 Ko

En outre, ils ont consacré des efforts considérables à la prise en compte de l'alternance codique, un phénomène fréquent dans les évaluations multilingues. Par conséquent, la capacité de ses modèles à gérer ce phénomène s'est considérablement améliorée. Les évaluations utilisant des messages-guides qui induisent généralement des changements de code d'une langue à l'autre confirment une réduction substantielle des problèmes associés.

Performances

Les évaluations comparatives révèlent des améliorations substantielles des performances pour les modèles à grande échelle (70B+ paramètres) par rapport à Qwen1.5. L'évaluation présenté par Alibaba est centrée sur le modèle de grande taille Qwen2-72B. En termes de modèles linguistiques de base, Qwen2-72B et les modèles ouverts de pointe sont évalués pour différentes capacités, notamment la compréhension du langage naturel, l'acquisition de connaissances, la maîtrise du codage, les compétences mathématiques et les capacités multilingues.

Bénéficiant d'ensembles de données méticuleusement traités et de méthodes de formation optimisées, Qwen2-72B affiche des performances supérieures à celles des principaux modèles tels que Llama-3-70B. Il surpasse notamment les performances de son prédécesseur, Qwen1.5-110B, bien qu'il ait moins de paramètres.

Nom : 4.jpg
Affichages : 4175
Taille : 56,4 Ko

Après un pré-entraînement à grande échelle, ils ont effectué un post-entraînement afin d'améliorer encore l'intelligence de Qwen et de la rapprocher de celle des humains. Ce processus améliore encore les capacités du modèle dans des domaines tels que le codage, les mathématiques, le raisonnement, le suivi des instructions, la compréhension multilingue, etc. En outre, il aligne les résultats du modèle sur les valeurs humaines, en veillant à ce qu'ils soient utiles, honnêtes et inoffensifs.

La phase de post-entraînement est conçue selon le principe de l'entraînement évolutif avec une annotation humaine minimale. Plus précisément, ils ont étudié comment obtenir des données de démonstration et des données de préférence de haute qualité, fiables, diverses et créatives avec diverses stratégies d'alignement automatisées, telles que l'échantillonnage de rejet pour les mathématiques, le retour d'information sur l'exécution pour le codage et le suivi des instructions, la rétro-traduction pour l'écriture créative, la supervision évolutive pour les jeux de rôle, etc.

En ce qui concerne la formation, ils ont appliqué une combinaison d'ajustement supervisé, de formation de modèle de récompense et de formation DPO en ligne. Ils ont utilisé également un nouvel optimiseur de fusion en ligne pour minimiser la taxe d'alignement. Ces efforts collectifs ont considérablement renforcé les capacités et l'intelligence des modèles, comme l'illustre le tableau suivant.

Nom : 5.jpg
Affichages : 4179
Taille : 53,8 Ko

Ils ont évalué Qwen2-72B-Instruct de manière exhaustive sur 16 critères de référence dans divers domaines. Qwen2-72B-Instruct trouve un équilibre entre l'obtention de meilleures capacités et l'alignement sur les valeurs humaines. Plus précisément, Qwen2-72B-Instruct surpasse largement Qwen1.5-72B-Chat sur tous les points de référence, et atteint également des performances compétitives par rapport à Llama-3-70B-Instruct.

En ce qui concerne les modèles plus petits, les modèles Qwen2 surpassent également les modèles SOTA de taille similaire ou même plus grande. Par rapport aux modèles SOTA très récents, Qwen2-7B-Instruct peut encore faire preuve d'avantages dans tous les points de référence, en montrant en particulier des performances exceptionnelles en matière de codage et de mesures liées au chinois.

Nom : 6.jpg
Affichages : 4170
Taille : 33,5 Ko

Points forts

Codage et mathématiques

Ils ont constamment consacré des efforts à l'amélioration des capacités avancées de Qwen, en particulier dans les domaines du codage et des mathématiques. En ce qui concerne le codage, ils ont réussi à intégrer l'expérience et les données de formation au codage de CodeQwen1.5, ce qui a permis d'améliorer considérablement Qwen2-72B-Instruct dans divers langages de programmation. En ce qui concerne les mathématiques, en exploitant les ensembles de données étendus et de haute qualité, Qwen2-72B-Instruct reflète des capacités plus fortes dans la résolution de problèmes mathématiques.
Compréhension du contexte long

Dans Qwen2, tous les modèles adaptés aux instructions ont été formés sur des contextes de 32k de long, et extrapolés à des contextes plus longs à l'aide de techniques telles que YARN ou Dual Chunk Attention.

La figure ci-dessous montre les résultats des tests sur l'aiguille dans une botte de foin. Notamment, Qwen2-72B-Instruct est capable de gérer parfaitement les tâches d'extraction d'informations dans un contexte de 128k. Associé à ses performances intrinsèques élevées, il devient le choix privilégié pour traiter les tâches de texte long lorsque les ressources sont suffisantes.

En outre, il convient de noter les capacités impressionnantes des autres modèles de la série : Qwen2-7B-Instruct gère presque sans problème des contextes d'une longueur maximale de 128 ko, Qwen2-57B-A14B-Instruct gère des contextes d'une longueur maximale de 64 ko, et les deux plus petits modèles de la gamme prennent en charge des contextes d'une longueur maximale de 32 ko.

Outre les modèles à contexte long, Alibaba a également mis à disposition une solution d'agent pour traiter efficacement les documents contenant jusqu'à 1 million de tokens.
Sécurité et responsabilité

Le tableau ci-dessous présente la proportion de réponses nuisibles générées par les grands modèles pour quatre catégories de questions multilingues non sécurisées (activités illégales, fraude, pornographie, violence dans la vie privée). Les données de test proviennent de Jailbreak et ont été traduites en plusieurs langues pour l'évaluation.

Ils ont constaté que Llama-3 ne gère pas efficacement les invites multilingues, c'est pourquoi elle n'est pas incluse dans la comparaison. Grâce à des tests de signification (valeur P), ils ont constaté que le modèle Qwen2-72B-Instruct présente des performances comparables à celles du modèle GPT-4 en termes de sécurité, et qu'il est nettement plus performant que le modèle Mistral-8x22B.

Licence

Cette fois, Alibaba change les licences de ses modèles. Alors que Qwen2-72B ainsi que ses modèles accordés sur les instructions utilisent toujours la licence Qianwen originale, tous les autres modèles, y compris Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B et Qwen2-57B-A14B, adoptent Apache 2.0 ! Ils pensent que l'ouverture accrue des modèles à la communauté peut accélérer les applications et les utilisations commerciales de Qwen2 dans le monde entier.

Quelles sont les prochaines étapes pour Qwen2 ?

Alibaba annonce former de plus grands modèles Qwen2 afin d'explorer davantage la mise à l'échelle des modèles, parallèlement à sa récente mise à l'échelle des données. En outre, ils étendront les modèles linguistiques de Qwen2 à la multimodalité, capables de comprendre à la fois les informations visuelles et audio. Dans un avenir proche, Alibaba continuera à ouvrir de nouveaux modèles pour accélérer l'IA open source.