Suite au succès de notre version Tülu 3 en novembre, nous sommes ravis d'annoncer le lancement de Tülu 3 405B - la première application de recettes de post-entraînement entièrement ouvertes aux plus grands modèles à poids ouvert. Avec cette version, nous démontrons l'évolutivité et l'efficacité de notre recette de post-entraînement appliquée à l'échelle des paramètres 405B.
Tülu 3 405B atteint des performances compétitives ou supérieures à celles de Deepseek v3 et de GPT-4o, tout en surpassant les modèles post-entraînement ouverts antérieurs de la même taille, notamment Llama 3.1 405B Instruct et Nous Hermes 3 405B, sur de nombreux points de référence standard. Il est intéressant de noter que notre cadre d'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) a amélioré les performances de MATH de manière plus significative à une plus grande échelle, c'est-à-dire 405B par rapport à 70B et 8B, ce qui est similaire aux conclusions du rapport DeepSeek-R1. Dans l'ensemble, nos résultats montrent un avantage constant par rapport à DeepSeek V3, en particulier avec l'inclusion de repères de sécurité.
Mise à l'échelle de la recette Tülu 3
L'objectif principal de cette version était de tester notre nouvelle approche RLVR et notre infrastructure de formation à grande échelle et d'étendre la recette Tülu 3 au modèle de base Llama-405B. Notre recette d'entraînement pour le modèle 405B a été très similaire à celle des modèles 8B et 70B introduits dans le cadre de la recette post-entraînement de Tulu 3 :
- Curation et synthèse soigneuses des données ciblant les compétences de base
- Mise au point supervisée (SFT) sur notre mélange soigneusement sélectionné d'invites et de leurs complétions
- Optimisation directe des préférences (DPO) sur les données de préférences à la fois hors et sur la politique.
- RLVR, une nouvelle méthode basée sur RL pour améliorer des compétences spécifiques avec des récompenses vérifiables
- Une série d'évaluations standardisées pour le développement, la décontamination et l'évaluation finale.
Formation RLVR
Dans notre recette post-formation, nous tirons parti de l'apprentissage par renforcement avec récompenses vérifiables (RLVR), une nouvelle méthode que nous avons introduite pour former des modèles de langage à des tâches dont les résultats sont vérifiables, telles que la résolution de problèmes mathématiques et le suivi d'instructions.

Pour faire passer RLVR à l'échelle 405B, nous avons déployé le modèle en utilisant vLLM avec un parallélisme tensoriel à 16 voies, tout en utilisant les 240 GPU restants pour l'entraînement. Après chaque itération de RLVR, les poids sont synchronisés avec le moteur vLLM à l'aide de la diffusion NCCL, ce qui est possible grâce à une suggestion de correction récente de l'équipe vLLM. À chaque itération du RLVR, l'inférence prend typiquement ~550 secondes, le transfert des poids ~25 secondes et l'entraînement ~1500 secondes. Pour réduire les coûts de calcul au cours de l'étape RLVR, nous utilisons un modèle de valeur de 8B. Les travaux futurs pourraient bénéficier de l'exploration de modèles de valeurs plus grands ou d'algorithmes RL alternatifs sans modèle de valeur tels que GRPO.
Nous avons constaté que l'utilisation exclusive des données MATH - plutôt qu'une combinaison des données GSM8k et IFEval - donnait de meilleurs résultats pour les modèles plus importants. Cela contraste avec les résultats obtenus avec des modèles plus petits, qui bénéficient de données plus diversifiées. Notre hypothèse est que les grands modèles sont mieux adaptés aux tâches complexes nécessitant des données spécialisées.
Dans la figure ci-dessous, nous montrons les courbes d'apprentissage des récompenses vérifiables, de la divergence KL et de la longueur des réponses au fil des épisodes. Dans l'ensemble, nous sommes ravis de constater que les récompenses vérifiables augmentent comme nous l'avons observé dans les paramètres 8B et 70B. Nous marquons d'une étoile le point de contrôle final. Nous notons qu'il s'agit du dernier point de contrôle sauvegardé - nous avions l'intention de nous entraîner plus longtemps, mais nous avons rencontré des contraintes de calcul. Comme nous n'avons pas observé de saturation des performances de MATH au cours de l'entraînement, un entraînement plus poussé pourrait encore améliorer les performances.
Défis techniques
Le passage à 405B a nécessité plusieurs efforts d'ingénierie et a posé un certain nombre de défis :
- Exigences en matière de calcul : L'entraînement de Tülu 3 405B a nécessité 32 nœuds (256 GPU) fonctionnant en parallèle. Pour l'inférence, nous avons déployé le modèle en utilisant vLLM avec un parallélisme tensoriel à 16 voies, tout en utilisant les 240 GPU restants pour la formation. Bien que la majeure partie de notre base de code ait bien évolué, nous avons occasionnellement rencontré des problèmes de synchronisation et de dépassement de temps NCCL qui ont nécessité une surveillance et une intervention méticuleuses.
- Défis liés au réglage des hyperparamètres : Compte tenu des coûts de calcul, le réglage des hyperparamètres a été limité. Nous avons suivi le principe des "taux d'apprentissage plus faibles pour les modèles plus importants", conformément à la pratique antérieure avec les modèles Llama.
Malgré ces obstacles, notre pipeline de formation s'est avéré robuste, ce qui nous a permis de publier le plus grand modèle formé à l'aide d'une recette entièrement ouverte à ce jour. Nous avons mis à jour l'article avec ces résultats 405B et de nombreux détails expliquant davantage nos résultats d'évaluation et notre méthodologie pour tous les modèles de la famille Tülu 3.
Partager