Le troupeau Llama 4 : Le début d'une nouvelle ère d'innovation en matière d'IA nativement multimodale
Alors que de plus en plus de personnes continuent d'utiliser l'intelligence artificielle pour améliorer leur vie quotidienne, il est important que les modèles et les systèmes de pointe soient librement accessibles afin que chacun puisse construire l'avenir des expériences personnalisées. Aujourd'hui, nous sommes ravis d'annoncer la suite de modèles la plus avancée qui supporte l'ensemble de l'écosystème Llama. Nous présentons Llama 4 Scout et Llama 4 Maverick, les premiers modèles multimodaux natifs à poids ouvert avec une prise en charge sans précédent de la longueur du contexte et nos premiers modèles construits à l'aide d'une architecture de mélange d'experts (MoE). Nous présentons également en avant-première Llama 4 Behemoth, l'un des LLM les plus intelligents au monde et notre modèle le plus puissant à ce jour, qui servira d'enseignant pour nos nouveaux modèles.
Ces modèles Llama 4 marquent le début d'une nouvelle ère pour l'écosystème Llama. Nous avons conçu deux modèles efficaces dans la série Llama 4, Llama 4 Scout, un modèle à 17 milliards de paramètres actifs avec 16 experts, et Llama 4 Maverick, un modèle à 17 milliards de paramètres actifs avec 128 experts. Le premier modèle s'adapte sur un seul GPU H100 (avec quantification Int4) tandis que le second s'adapte sur un seul hôte H100. Nous avons également formé un modèle d'enseignant, Llama 4 Behemoth, qui surpasse GPT-4.5, Claude Sonnet 3.7 et Gemini 2.0 Pro sur des benchmarks axés sur les STIM tels que MATH-500 et GPQA Diamond. Bien que nous n'ayons pas encore publié Llama 4 Behemoth car il est encore en cours de formation, nous sommes ravis de partager plus de détails techniques sur notre approche.
Nous continuons à croire que l'ouverture stimule l'innovation et qu'elle est bonne pour les développeurs, bonne pour Meta et bonne pour le monde. Le Llama 4 Scout et le Llama 4 Maverick peuvent être téléchargés dès aujourd'hui sur llama.com et Hugging Face afin que chacun puisse continuer à créer de nouvelles expériences en utilisant notre dernière technologie. Nous les mettrons également à disposition par l'intermédiaire de nos partenaires dans les prochains jours. Vous pouvez également essayer Meta AI avec Llama 4 dès aujourd'hui dans WhatsApp, Messenger, Instagram Direct et sur le site web Meta.AI.
Ce n'est que le début de la collection Llama 4. Nous pensons que les systèmes les plus intelligents doivent être capables de prendre des mesures généralisées, de converser naturellement avec les humains et de travailler sur des problèmes difficiles qu'ils n'ont jamais vus auparavant. Donner au Llama des superpouvoirs dans ces domaines permettra d'offrir de meilleurs produits aux utilisateurs de nos plateformes et de multiplier les opportunités pour les développeurs d'innover dans les prochains grands cas d'utilisation pour les consommateurs et les entreprises. Nous poursuivons nos recherches et nos prototypes de modèles et de produits, et nous en dirons plus sur notre vision lors de la LlamaCon du 29 avril - inscrivez-vous pour en savoir plus.
Que vous soyez un développeur qui construit à partir de nos modèles, une entreprise qui les intègre dans ses flux de travail, ou simplement curieux des utilisations potentielles et des avantages de l'IA, le Llama 4 Scout et le Llama 4 Maverick sont les meilleurs choix pour ajouter une intelligence de nouvelle génération à vos produits. Aujourd'hui, nous sommes ravis de vous en dire plus sur les quatre grandes étapes de leur développement et de vous donner un aperçu de notre processus de recherche et de conception. Nous sommes également impatients de voir les nouvelles expériences incroyables que la communauté construira avec nos nouveaux modèles Llama 4.
Pré-entraînement
Ces modèles représentent le meilleur de Llama, offrant une intelligence multimodale à un prix attractif tout en surpassant des modèles de taille beaucoup plus importante. La construction de la prochaine génération de modèles Llama nous a obligés à adopter plusieurs nouvelles approches lors du pré-entraînement.
Nos nouveaux modèles Llama 4 sont nos premiers modèles qui utilisent une architecture de mélange d'experts (MoE). Dans les modèles MoE, un seul jeton n'active qu'une fraction de l'ensemble des paramètres. Les architectures MoE sont plus efficaces en termes de calcul pour l'apprentissage et l'inférence et, compte tenu d'un budget fixe de FLOPs d'apprentissage, offrent une meilleure qualité par rapport à un modèle dense.

À titre d'exemple, les modèles Llama 4 Maverick ont 17 milliards de paramètres actifs et 400 milliards de paramètres totaux. Nous utilisons alternativement des couches denses et des couches de mélange d'experts (MoE) pour l'efficacité de l'inférence. Les couches MoE utilisent 128 experts acheminés et un expert partagé. Chaque jeton est envoyé à l'expert partagé ainsi qu'à l'un des 128 experts acheminés. Par conséquent, bien que tous les paramètres soient stockés en mémoire, seul un sous-ensemble de l'ensemble des paramètres est activé lors de l'utilisation de ces modèles. Llama 4 Maverick peut être exécuté sur un seul hôte NVIDIA H100 DGX pour un déploiement facile, ou avec une inférence distribuée pour une efficacité maximale.
Les modèles Llama 4 sont conçus avec une multimodalité native, incorporant une fusion précoce pour intégrer de manière transparente les jetons de texte et de vision dans une colonne vertébrale de modèle unifiée. La fusion précoce est une avancée majeure, car elle nous permet de pré-entraîner conjointement le modèle avec de grandes quantités de données textuelles, d'images et de vidéos non étiquetées. Nous avons également amélioré le codeur de vision dans Llama 4. Il est basé sur MetaCLIP mais entraîné séparément en conjonction avec un modèle Llama gelé afin de mieux adapter l'encodeur au LLM.
Nous avons développé une nouvelle technique d'apprentissage, appelée MetaP, qui nous permet de définir de manière fiable les hyperparamètres critiques du modèle, tels que les taux d'apprentissage par couche et les échelles d'initialisation. Nous avons constaté que les hyperparamètres choisis se transfèrent bien à travers différentes valeurs de la taille du lot, de la largeur du modèle, de la profondeur et des jetons d'entraînement. Llama 4 permet d'affiner les efforts d'open source en effectuant un pré-entraînement sur 200 langues, dont plus de 100 avec plus d'un milliard de tokens chacune, et globalement 10x plus de jetons multilingues que Llama 3.
En outre, nous nous concentrons sur l'efficacité de l'entraînement des modèles en utilisant la précision FP8, sans sacrifier la qualité et en garantissant une utilisation élevée des FLOPs du modèle - lors du pré-entraînement de notre modèle Behemoth de Llama 4 en utilisant FP8 et 32K GPU, nous avons atteint 390 TFLOPs/GPU. Le mélange de données global pour l'entraînement comprenait plus de 30 billions de jetons, soit plus du double du mélange de pré-entraînement du Llama 3, et incluait divers ensembles de données de texte, d'images et de vidéos.
Nous avons continué à entraîner le modèle dans ce que nous appelons « l'entraînement intermédiaire » pour améliorer les capacités de base avec de nouvelles recettes d'entraînement, y compris l'extension du contexte long à l'aide d'ensembles de données spécialisés. Cela nous a permis d'améliorer la qualité du modèle tout en débloquant la meilleure longueur de contexte d'entrée de 10M pour Llama 4 Scout.
Post-entraînement de nos nouveaux modèles
Nos nouveaux modèles comprennent des options plus petites et plus grandes pour répondre à un éventail de cas d'utilisation et de besoins des développeurs. Le Llama 4 Maverick offre des performances inégalées en matière de compréhension d'images et de textes, permettant la création d'applications d'IA sophistiquées qui franchissent les barrières linguistiques. Le Llama 4 Maverick est le modèle de référence de notre produit pour les applications d'assistant général et de chat, et il est parfait pour la compréhension précise des images et l'écriture créative.
Le plus grand défi lors de la post-formation du modèle Llama 4 Maverick a été de maintenir un équilibre entre les multiples modalités d'entrée, le raisonnement et les capacités de conversation. Pour mélanger les modalités, nous avons mis au point une stratégie de cursus soigneusement élaborée qui ne compromet pas les performances par rapport aux modèles experts de chaque modalité. Avec Llama 4, nous avons réorganisé notre pipeline post-entraînement en adoptant une approche différente : réglage fin supervisé léger (SFT) > apprentissage par renforcement en ligne (RL) > optimisation directe des préférences légère (DPO). L'un des principaux enseignements était que le SFT et le DPO peuvent trop contraindre le modèle, limitant l'exploration pendant la phase d'apprentissage par renforcement en ligne et conduisant à une précision sous-optimale, en particulier dans les domaines du raisonnement, du codage et des mathématiques. Pour y remédier, nous avons supprimé plus de 50 % de nos données considérées comme faciles en utilisant les modèles Llama comme juge et nous avons effectué un SFT léger sur l'ensemble restant plus difficile. Lors de l'étape suivante de RL multimodal en ligne, en sélectionnant soigneusement des invites plus difficiles, nous avons été en mesure d'obtenir un changement de performance. En outre, nous avons mis en œuvre une stratégie continue de RL en ligne, dans laquelle nous avons alterné entre l'entraînement du modèle et son utilisation pour filtrer et conserver en permanence uniquement les invites de difficulté moyenne à élevée. Cette stratégie s'est avérée très bénéfique en termes de calcul et de précision. Nous avons ensuite procédé à une DPO légère pour traiter les cas particuliers liés à la qualité des réponses du modèle, ce qui a permis d'atteindre un bon équilibre entre l'intelligence du modèle et ses capacités de conversation. L'architecture du pipeline et la stratégie RL en ligne continue avec filtrage adaptatif des données ont abouti à un modèle de conversation généraliste de premier plan, doté de capacités d'intelligence et de compréhension d'images de pointe.
En tant que LLM généraliste, Llama 4 Maverick contient 17 milliards de paramètres actifs, 128 experts et 400 milliards de paramètres au total, offrant ainsi une qualité élevée à un prix inférieur à celui de Llama 3.3 70B. Llama 4 Maverick est le meilleur modèle multimodal de sa catégorie, dépassant des modèles comparables tels que GPT-4o et Gemini 2.0 en matière de codage, de raisonnement, de multilinguisme, de contexte long et d'images, et il est compétitif par rapport à DeepSeek v3.1, qui est beaucoup plus grand, en matière de codage et de raisonnement.

Notre plus petit modèle, Llama 4 Scout, est un modèle à usage général avec 17 milliards de paramètres actifs, 16 experts et 109 milliards de paramètres totaux, qui offre des performances de pointe pour sa catégorie. Le Llama 4 Scout augmente considérablement la longueur du contexte pris en charge, qui passe de 128 000 dans le Llama 3 à 10 millions de jetons, ce qui est un record dans l'industrie. Cela ouvre un monde de possibilités, y compris le résumé de documents multiples, l'analyse de l'activité de l'utilisateur pour des tâches personnalisées, et le raisonnement sur de vastes bases de code.
Llama 4 Scout est à la fois pré-entraîné et post-entraîné avec une longueur de contexte de 256K, ce qui confère au modèle de base une capacité de généralisation de longueur avancée. Nous présentons des résultats convaincants dans des tâches telles que la recherche d'une « aiguille dans une botte de foin » pour le texte, ainsi que des log-vraisemblances négatives cumulées (NLL) sur 10 millions de tokens de code. L'une des principales innovations de l'architecture de Llama 4 est l'utilisation de couches d'attention entrelacées sans encastrement positionnel. En outre, nous utilisons une mise à l'échelle de l'attention en fonction de la température du temps d'inférence afin d'améliorer la généralisation de la longueur. Nous appelons cette architecture iRoPE, où « i » signifie couches d'attention « entrelacées », soulignant l'objectif à long terme de prendre en charge une longueur de contexte « infinie », et « RoPE » fait référence aux enchâssements de position rotatifs employés dans la plupart des couches.

Nous avons entraîné nos deux modèles sur une grande variété d'images et d'images vidéo fixes afin de leur donner une large compréhension visuelle, y compris des activités temporelles et des images connexes. Cela permet une interaction sans effort sur des entrées multi-images avec des invites textuelles pour des tâches de raisonnement et de compréhension visuels. Les modèles ont été pré-entraînés sur 48 images et nous les avons testés en post-entraînement avec de bons résultats jusqu'à huit images.
Llama 4 Scout est également le meilleur de sa catégorie en matière d'ancrage d'image, capable d'aligner les invites de l'utilisateur sur des concepts visuels pertinents et d'ancrer les réponses du modèle sur des régions de l'image. Cela permet une réponse plus précise aux questions visuelles pour le LLM afin de mieux comprendre l'intention de l'utilisateur et de localiser les objets d'intérêt. Llama 4 Scout dépasse également les modèles comparables en matière de codage, de raisonnement, de contexte long et de repères d'image, et offre des performances supérieures à celles de tous les modèles Llama précédents.

Ces nouveaux modèles constituent d'importants éléments de base qui permettront d'assurer l'avenir de la connexion humaine. Conformément à notre engagement en faveur de l'open source, Llama 4 Maverick et Llama 4 Scout peuvent être téléchargés sur llama.com et Hugging Face, et seront bientôt disponibles sur les plateformes de données et d'informatique en nuage les plus répandues, sur le silicium en périphérie et auprès des intégrateurs de services internationaux.
Le Llama atteint de nouvelles dimensions : Le 2T Behemoth
Nous sommes ravis de partager un aperçu du Llama 4 Behemoth, un modèle d'enseignant qui fait preuve d'une intelligence avancée parmi les modèles de sa catégorie. Le Llama 4 Behemoth est également un modèle multimodal de mélange d'experts, avec 288B paramètres actifs, 16 experts, et près de deux milles milliards de paramètres au total. Offrant des performances de pointe pour les modèles non raisonnés en mathématiques, en multilinguisme et en images, il était le choix idéal pour enseigner les modèles Llama 4 plus petits. Nous avons codistillé le modèle Llama 4 Maverick à partir du modèle Llama 4 Behemoth en tant que modèle enseignant, ce qui a permis d'améliorer considérablement la qualité des mesures d'évaluation des tâches finales. Nous avons développé une nouvelle fonction de perte de distillation qui pondère dynamiquement les cibles douces et dures au cours de l'entraînement. La codistillation du Llama 4 Behemoth pendant le pré-entraînement permet d'amortir le coût de calcul des passes avant gourmandes en ressources nécessaires pour calculer les cibles de distillation pour la majorité des données d'entraînement utilisées dans l'entraînement des étudiants. Pour les nouvelles données supplémentaires incorporées dans la formation des élèves, nous avons effectué des passes avant sur le modèle Behemoth pour créer des cibles de distillation.

Le post-entraînement d'un modèle comportant 2 000 milliards de paramètres a également constitué un défi de taille, qui nous a obligés à revoir complètement la recette, en commençant par l'échelle des données. Pour maximiser les performances, nous avons dû élaguer 95 % des données SFT, contre 50 % pour les modèles plus petits, afin de mettre l'accent sur la qualité et l'efficacité. Nous avons également constaté que l'exécution d'un SFT léger suivi d'un apprentissage par renforcement (RL) à grande échelle produisait des améliorations encore plus significatives dans les capacités de raisonnement et de codage du modèle. Notre recette d'apprentissage par renforcement s'est concentrée sur l'échantillonnage d'invites difficiles en effectuant une analyse pass@k avec le modèle de politique et en élaborant un programme d'entraînement d'une dureté croissante. Nous avons également constaté que le filtrage dynamique des invites présentant un avantage nul pendant l'entraînement et la construction de lots d'entraînement avec des invites mixtes provenant de capacités multiples ont permis d'améliorer les performances en mathématiques, en raisonnement et en codage. Enfin, l'échantillonnage à partir d'une variété d'instructions système a été crucial pour garantir que le modèle conservait sa capacité à suivre les instructions pour le raisonnement et le codage et qu'il était capable de réaliser de bonnes performances dans une variété de tâches.
La mise à l'échelle du RL pour un modèle à 2 000 milliards de paramètres a également nécessité la réorganisation de notre infrastructure RL sous-jacente en raison de son échelle sans précédent. Nous avons optimisé la conception de notre parallélisation MoE pour la vitesse, ce qui a permis une itération plus rapide. Nous avons développé un cadre de formation RL en ligne entièrement asynchrone qui a amélioré la flexibilité. Par rapport au cadre d'entraînement distribué existant, qui sacrifie la mémoire de calcul afin d'empiler tous les modèles en mémoire, notre nouvelle infrastructure a permis une allocation flexible de différents modèles à des GPU distincts, en équilibrant les ressources entre plusieurs modèles sur la base de la vitesse de calcul. Cette innovation a permis de multiplier par 10 l'efficacité de la formation par rapport aux générations précédentes.
Garanties et protections
Nous visons à développer les modèles les plus utiles et les plus utiles tout en nous protégeant contre les risques les plus graves et en les atténuant. Nous avons construit Llama 4 en appliquant les meilleures pratiques décrites dans notre guide d'utilisation pour les développeurs : AI Protections. Il s'agit notamment d'intégrer des mesures d'atténuation à chaque couche du développement du modèle, du pré-entraînement au post-entraînement, en passant par des mesures d'atténuation réglables au niveau du système qui protègent les développeurs contre les utilisateurs malveillants. Ce faisant, nous donnons aux développeurs les moyens de créer des expériences utiles, sûres et adaptables pour leurs applications soutenues par Llama.
Atténuations avant et après l'entraînement
Pour le pré-entraînement, nous utilisons le filtrage des données en combinaison avec d'autres mesures d'atténuation des données pour protéger les modèles. Pour la post-formation, nous appliquons une série de techniques pour nous assurer que nos modèles sont conformes aux politiques utiles aux utilisateurs et aux développeurs, y compris le bon niveau de données de sécurité à chaque étape.
Approches au niveau du système
Au niveau du système, nous avons mis en libre accès plusieurs mesures de protection qui peuvent aider à identifier et à se prémunir contre les intrants et les extrants potentiellement nocifs. Ces outils peuvent être intégrés à nos modèles Llama et à d'autres outils tiers :
- Llama Guard : Notre modèle de sécurité des entrées/sorties en grand langage basé sur la taxonomie des dangers que nous avons développée avec MLCommons. Les développeurs peuvent l'utiliser pour détecter si les entrées ou les sorties violent les politiques qu'ils ont créées pour leur application spécifique.
- Prompt Guard : Un modèle de classification formé sur un large corpus d'attaques, capable de détecter à la fois les invites explicitement malveillantes (Jailbreaks) et les invites qui contiennent des entrées d'injection (Prompt Injections).
- CyberSecEval : évaluations qui aident les développeurs de modèles et de produits d'IA à comprendre et à réduire les risques de cybersécurité liés à l'IA générative.
Les développeurs nous ont dit que ces outils sont plus efficaces et utiles lorsqu'ils peuvent être adaptés à leurs applications. Nous proposons aux développeurs une solution ouverte afin qu'ils puissent créer les expériences les plus sûres et les plus efficaces en fonction de leurs besoins. Nous continuerons également à travailler avec un ensemble global de partenaires pour créer des normes de système à l'échelle de l'industrie qui bénéficieront à la communauté des logiciels libres.
Évaluations et red-teaming
Nous testons systématiquement les modèles dans un large éventail de scénarios et de cas d'utilisation, de manière contrôlée et reproductible. Nous obtenons ainsi des données que nous intégrons dans la post-formation.
Nous soumettons nos modèles à des tests de résistance en recourant à des sondages dynamiques contradictoires sur toute une série de sujets à l'aide de tests automatisés et manuels. Nous avons progressé dans la compréhension et l'évaluation des risques potentiels liés aux modèles. Un exemple en est notre nouveau développement de tests génératifs d'agents offensifs (Generative Offensive Agent Testing - GOAT). Grâce à GOAT, nous nous attaquons aux limites de l'équipe rouge traditionnelle en simulant des interactions multi-tours d'acteurs adverses moyennement compétents, ce qui nous permet d'augmenter la couverture de nos tests et de détecter les vulnérabilités plus rapidement. En ajoutant l'automatisation à notre boîte à outils de test, GOAT a permis à nos experts humains de se concentrer sur des zones d'adversité plus nouvelles, tandis que l'automatisation se concentre sur les zones de risque connues. Cela rend le processus plus efficace et nous permet de dresser un meilleur tableau quantitatif et qualitatif des risques.
S'attaquer aux préjugés dans les LLM
Il est bien connu que tous les grands LLM ont eu des problèmes de partialité - en particulier, ils ont historiquement penché à gauche lorsqu'il s'agit de sujets politiques et sociaux débattus. Cela est dû aux types de données de formation disponibles sur Internet.
Notre objectif est d'éliminer les préjugés de nos modèles d'IA et de faire en sorte que Llama puisse comprendre et articuler les deux côtés d'une question controversée. Dans le cadre de ce travail, nous continuons à rendre le Llama plus réactif afin qu'il réponde aux questions, qu'il puisse réagir à une variété de points de vue différents sans porter de jugement, et qu'il ne favorise pas certains points de vue par rapport à d'autres.
Nous avons amélioré ces efforts avec cette version - Llama 4 est nettement plus performant que Llama 3 et est comparable à Grok :
- Le Llama 4 refuse moins de sujets politiques et sociaux débattus (de 7 % dans le Llama 3.3 à moins de 2 %).
- Le Llama 4 est nettement plus équilibré en ce qui concerne les questions auxquelles il refuse de répondre (la proportion de refus de réponses inégales est désormais inférieure à 1 % sur un ensemble de questions d'actualité débattues).
- Nos tests montrent que le Llama 4 répond avec une forte inclinaison politique à un taux comparable à Grok (et à la moitié du taux du Llama 3.3) sur un ensemble de sujets politiques ou sociaux controversés. Bien que nous fassions des progrès, nous savons que nous avons encore du travail à faire et nous continuerons à faire baisser ce taux.
Nous sommes fiers des progrès accomplis à ce jour et restons déterminés à atteindre notre objectif d'élimination des préjugés dans nos modèles.
Explorer l'écosystème de Llama
S'il est important que les modèles soient intelligents, les gens veulent aussi des modèles capables de répondre de manière personnalisée et avec une rapidité comparable à celle des humains. En tant que modèle le plus avancé à ce jour, le Llama 4 est optimisé pour répondre à ces besoins.
Bien entendu, les modèles ne sont qu'un élément de l'écosystème plus large qui donne vie à ces expériences. Nous nous concentrons sur l'ensemble de l'écosystème, qui comprend de nouvelles intégrations de produits. Nous sommes ravis de poursuivre les conversations que nous avons avec nos partenaires et la communauté open source, et comme toujours, nous sommes impatients de voir les expériences riches que les gens construisent dans le nouvel écosystème Llama.
Téléchargez les modèles Llama 4 Scout et Llama 4 Maverick dès aujourd'hui sur llama.com et Hugging Face. Essayez Meta AI construit avec le Llama 4 dans WhatsApp, Messenger, Instagram Direct, et sur le site web Meta.AI.
Partager