Ai2, l'organisation de recherche en IA à but non lucratif fondée par feu Paul Allen, cofondateur de Microsoft, a publié OLMo 2, "le meilleur modèle de langage entièrement open-source à ce jour".

Ai2, l'organisation de recherche en IA à but non lucratif, a publié OLMo 2. OLMo2 est une nouvelle famille de modèles 7B et 13B entraînés sur un maximum de 5 000 milliards de jetons. Selon leurs évaluations, OLMo 2 serait le meilleur modèle de langage entièrement ouvert à ce jour. Ai2 a également partagé les poids, les données, le code, les recettes, les points de contrôle intermédiaires et les modèles adaptés aux instructions de ces nouveaux modèles.

Ai2 est un institut de recherche en IA à but non lucratif basé à Seattle et fondé en 2014 par feu Paul Allen. L'organisation développe la recherche et l'innovation en matière d'IA afin d'avoir un impact grâce à des modèles ouverts à grande échelle, aux données, à la robotique, à la conservation et au-delà. Elle s'est donnée pour mission de construire une IA révolutionnaire pour résoudre les plus grands problèmes du monde.

Pour rappel, un grand modèle de langage (LLM) est un type de modèle informatique conçu pour des tâches de traitement du langage naturel telles que la génération de langage. En tant que modèles de langage, les LLM acquièrent ces capacités en apprenant des relations statistiques à partir de grandes quantités de texte au cours d'un processus d'apprentissage autosupervisé et semi-supervisé.

Ai2 a publié son premier modèle OLMo en février 2024, puis la version OLMo-0424 avec une augmentation des performances en aval par rapport à la première version. Ils ont également participé aux modèles ouverts : Amber de LLM360, Neo de M-A-P et les modèles de base de DCLM. En septembre, Ai2 a publié OLMoE, un modèle de mélange d'experts, le premier du genre à être ouvert et qui se situe à la frontière de Pareto en termes de performance et de taille.

Depuis, l'écosystème des modèles de langage open-source a connu une croissance et l'écart de performance entre les modèles ouverts et les modèles propriétaires continue de se réduire. Pour favoriser une science entièrement ouverte, Ai2 annonce OLMo 2 une nouvelle famille de modèles 7B et 13B entraînés sur un maximum de 5 000 milliards de jetons. Ces modèles seraient équivalents ou meilleurs que les modèles entièrement ouverts de taille équivalente, et compétitifs par rapport aux modèles ouverts tels que Llama 3.1 sur les benchmarks académiques anglais. Ai2 a également partagé les poids, les données, le code, les recettes, les points de contrôle intermédiaires et les modèles adaptés aux instructions de ces nouveaux modèles.

Nom : 1.jpg
Affichages : 10662
Taille : 8,1 Ko

Présentation d'OLMo 2

Voici les aspects où Ai2 s'est concentrés lors du développement de modèles :

  • Stabilité de l'entraînement : Les longues séries d'entraînement de modèles peuvent être affectées par des instabilités d'entraînement et des pics de perte, qui sont connus pour être en corrélation avec des performances finales de modèles plus faibles.

  • Formation par étapes : Interventions au cours de la préformation tardive. La préformation est lente et coûteuse, ce qui a poussé Ai2 à chercher des solutions pour surmonter les lacunes en matière de connaissances ou de capacités découvertes au cours des longs cycles de formation. Ai2 a examiné le rôle du recuit du taux d'apprentissage et du curriculum de données en tant qu'interventions pouvant être appliquées à la fin du processus de préformation pour "corriger" les capacités du modèle qui n'ont pas été acquises avec succès au début de la formation.

  • Recettes de post-formation : Les chercheurs ont appliqué la méthodologie de post-entraînement de Tülu 3 aux modèles OLMo 2, pour créer des modèles OLMo 2-Instruct.

  • Cadre d'évaluation exploitable: Pour OLMo 2, ils ont établi des objectifs de performance clairs et des lois d'échelonnement des tâches, et conçu un cadre d'évaluation (Open Language Modeling Evaluation System, OLMES) qui a permis de guider les améliorations tout au long des étapes de développement. OLMES consiste en une suite de 20 critères d'évaluation permettant d'évaluer les capacités essentielles des modèles, telles que le rappel des connaissances et le raisonnement de bon sens, général et mathématique, transformés pour maximiser le rapport signal-bruit afin d'évaluer les améliorations de la modélisation dans le cadre d'expériences à petite échelle.


Nom : 2.jpg
Affichages : 2127
Taille : 57,7 Ko

Voici un résumé des performances d'OLMo 2, présenté par Ai2 :

Nous comparons OLMo 2 à d'autres modèles ouverts en utilisant une sélection de tâches dans OLMES. Nous regroupons les benchmarks en développement, que nous avons suivis pendant le développement d'OLMo (par exemple, ARC Challenge, HellaSwag, WinoGrande, MMLU, DROP et Natural Questions) et non vus, pour lesquels nous n'avons pas calculé de métriques avant la fin du développement du modèle (par exemple, AGIEval, MMLU Pro, GSM8k, TriviaQA).

Nous comparons OLMo 2 à un ensemble de modèles de référence, que nous regroupons en trois familles :

  • Modèles à poids ouvert : modèles publiés avec seulement leur point de contrôle final, et très peu ou pas d'informations sur leurs données d'entraînement et leur recette sont connues ;
  • Modèles partiellement ouverts : modèles diffusés avec des poids, et la plupart des données (ou des détails nécessaires pour les reproduire) sont soit diffusées, soit connues ;
  • Modèles entièrement ouverts : modèles publiés avec les poids, les données d'entraînement, le code et l'évaluation dans leur intégralité, et qui peuvent donc être entièrement inspectés et reproduits.

Tout d'abord, nous constatons que les modèles OLMo 2 7B et 13B sont les meilleurs modèles entièrement ouverts à ce jour, surpassant souvent les modèles de poids ouverts de taille équivalente. Non seulement nous observons une amélioration spectaculaire des performances dans toutes les tâches par rapport à notre modèle OLMo 0424 antérieur, mais, notamment, OLMo 2 7B surpasse LLama-3.1 8B et OLMo 2 13B surpasse Qwen 2.5 7B malgré un nombre total de FLOP d'entraînement inférieur. Les modèles OLMo 2 se situent à la frontière de Pareto entre les FLOP d'entraînement et la performance moyenne du modèle.

Dans l'ensemble, nous constatons que les gains observés sur les mesures de développement se traduisent largement dans notre suite d'évaluation des tâches inédites. Bien sûr, nous n'avons aucune garantie que les tâches que nous considérons comme non vues pendant le développement d'OLMo 2 ne font pas partie de l'ensemble des tâches de développement des autres modèles auxquels nous nous comparons. Néanmoins, nous pensons que les développeurs de modèles devraient avoir pour habitude de garder un sous-ensemble de tâches d'évaluation invisibles ; en outre, nous encourageons les autres développeurs de modèles à poids ouvert à indiquer clairement quelles tâches ont été utilisées comme référence pendant le développement du modèle.
Nom : 3.jpg
Affichages : 2099
Taille : 135,1 Ko

Pré-entraînement d'OLMo 2

En général, l'architecture d'OLMo 2 est similaire à celle du premier OLMo, mais avec plusieurs changements clés pour améliorer la stabilité de l'entraînement, tels que le passage d'une norme de couche non paramétrique à RMSNorm, la réorganisation de la norme de couche et l'utilisation de QK-Norm, et le remplacement des encastrements positionnels absolus par des encastrements positionnels rotatifs. Les chercheurs ont également utilisé la régularisation Z-loss, ainsi qu'une initialisation améliorée qui préserve mieux l'échelle des activations et des gradients à travers les couches.

OLMo 2 a été pré-entraîné en deux étapes :

Dans la première étape, qui couvre plus de 90% du budget total de pré-entraînement, ils ont utilisé le OLMo-Mix-1124, une collection d'environ 3 900 milliards de jetons provenant de DCLM, Dolma, Starcoder, et Proof Pile II. OLMo 2 7B est entraîné pendant environ 1 epoch (Cycle de traitement de l'ensemble des données d'apprentissage) sur cet ensemble de données, tandis qu'OLMo 2 13B est entraîné pendant 1,2 epoch jusqu'à 5 000 milliards de jetons.

Dans la deuxième étape, ils ont sélectionné un mélange de (a) données web qui ont été filtrées pour leur haute qualité et (b) une collection de données de haute qualité spécifiques à un domaine (contenu académique, forums de questions-réponses, données d'instruction et cahiers d'exercices de mathématiques, à la fois synthétiques et générés par l'homme). Cette collection est disponible sous le nom de Dolmino-Mix-1124. Au total, elle se compose de 843 milliards de jetons, qui a été échantillés pour créer 3 mélanges de 50 milliards, 100 milliards et 300 milliards de jetons chacun, chaque mélange contenant 50 % de données provenant de (a) et (b).

Pour OLMo 2 7B, ils ont entraîné 3 copies du point de contrôle final de l'étape 1 sur le mélange 50B avec un ordre différent des données. Comme pour les versions précédentes d'OLMo, le taux d'apprentissage est ramené linéairement à zéro à partir de l'endroit où il s'est arrêté après l'étape 1 pour chacune d'entre elles. Ensuite, elles ont été fusionnées pour obtenir le point de contrôle final de la base à l'aide d'une technique appelée "model souping". Pour OLMo 2 13B, les chercheurs ont répété ce processus, mais nous créons trois modèles utilisant 100B tokens, et un autre modèle utilisant 300B tokens. Ils sont fusionnés pour créer le point de contrôle final de la base 13B.

Concernant le développement d'OLMo 2 Instruct, voici les informations partagé par Ai2 :

La semaine dernière, nous avons publié Tülu 3, notre famille de modèles post-entraînés de pointe, entièrement ouverts, avec des données, du code, des recettes et bien plus encore. Ces recettes combinent plusieurs types de techniques d'entraînement, y compris le réglage fin supervisé (SFT) sur l'achèvement de l'invite du modèle, le réglage des préférences avec DPO et l'apprentissage par renforcement avec récompenses vérifiables (RLVR). Nous avons appliqué notre meilleure recette aux modèles OLMo 2 et les avons évalués sur la suite d'évaluation Tülu 3 mise en œuvre dans OLMES, qui consiste en des repères évaluant le suivi des instructions par les modèles, le rappel des connaissances et les capacités de raisonnement mathématique et général.

Nos variantes Instruct d'OLMo 2 sont compétitives par rapport aux meilleurs modèles à poids ouvert, OLMo 2 13B Instruct surpassant les modèles Qwen 2.5 14B instruct, Tülu 3 8B et Llama 3.1 8B instruct.

Nous sommes ravis de constater que la recette Tülu 3 peut être largement appliquée aux modèles OLMo 2 sans qu'il soit nécessaire de procéder à des adaptations coûteuses. Par exemple, nous avons supprimé les modèles de notre pool de complétions afin d'éliminer toute restriction sur l'utilisation des résultats des modèles pour les modèles dérivés. En outre, nous avons mis à jour les données relatives aux préférences afin d'intégrer les achèvements en cours générés par nos modèles OLMo 2. Par ailleurs, le mélange de réglage fin supervisé (SFT) et le processus de réglage des préférences sont restés largement inchangés. La plupart des changements apportés à ces deux premières étapes sont des différences dans les taux d'apprentissage. Pour la dernière étape, l'apprentissage par renforcement avec récompenses vérifiables (RLVR), nous avons également constaté des améliorations cohérentes dans des évaluations clés telles que GSM8K et MATH pour les modèles 7B et 13B.
Nom : 4.jpg
Affichages : 2092
Taille : 94,1 Ko

Source : Présentation d'OLMo

Et vous ?

Pensez-vous que ces performances sont crédibles ou pertinentes ?
Quel est votre avis sur ces modèles ?

Voir aussi :

L'IA open source est la voie à suivre, car elle permet à un plus grand nombre de personnes dans le monde d'avoir accès aux avantages et aux opportunités de l'IA, par Mark Zuckerberg, fondateur et PDG de Meta

Anthropic rend open-source le Model Context Protocol (MCP) pour l'intégration de l'IA avec une connectivité universelle des données, pour des applications plus intelligentes, contextuelles et évolutives

Le laboratoire d'IA privé français PleIAs annonce un ensemble de données multilingues entièrement ouvert pour la formation de LLM, contenant plus de 2 000 milliards de jetons de contenu sous licence autorisée