Inception lance Mercury 2, le LLM à raisonnement le plus rapide, qui serait 5 fois plus rapide que les principaux LLM optimisés pour la vitesse, avec un coût d'inférence réduit

Alors que l'industrie de l'IA dépense des milliards pour gagner quelques fractions de seconde sur les modèles autorégressifs jeton par jeton, la génération basée sur la diffusion d'Inception est une avancée architecturale qui rend le raisonnement à haut débit natif au modèle. Fondée par des chercheurs de Stanford, UCLA et Cornell à l'origine des travaux fondamentaux sur la diffusion, Inception a commercialisé la diffusion pour le texte et Mercury 2 étend cette avancée à un raisonnement de niveau production conçu pour l'inférence dans le monde réel. Mercury 2 est conçu pour les workflows de production à forte valeur ajoutée où les performances d'inférence déterminent l'adoption : boucles d'agents, voix et recherche en temps réel, codage et édition instantanés à grande échelle.

Tous les principaux LLM actuellement en production, y compris GPT, Claude et Gemini, reposent sur le même mécanisme de base : la génération autorégressive. Ils produisent du texte de manière séquentielle. Un. Jeton. À. La. Fois. Cette approche a un plafond bas, car la vitesse est finalement limitée par la nature séquentielle de la génération, et les contraintes s'aggravent à mesure que la profondeur du raisonnement augmente, ce qui augmente les coûts de service et réduit la réactivité.

Limitée par ce plafond, l'industrie a largement emprunté trois voies pour améliorer la vitesse : des puces spécialisées, des piles de service optimisées et la compression des modèles, troquant la capacité contre la vitesse. Les principaux laboratoires et fournisseurs d'infrastructures ont investi des milliards dans ces efforts afin de tirer le maximum de gains de performance de la même boucle de génération jeton par jeton.

Inception, la société à l'origine des premiers grands modèles de langage commerciaux basés sur la diffusion (dLLM), a emprunté une voie fondamentalement différente, fondée sur la diffusion, la même approche technique que celle utilisée dans les systèmes modernes de génération d'images et de vidéos, désormais appliquée au langage. Inception a annoncé le lancement de Mercury 2, le LLM de raisonnement le plus rapide et le premier dLLM de raisonnement.

Mercury 2 fait progresser cette base de diffusion vers un raisonnement de niveau production et établit une nouvelle norme de performance pour les LLM optimisés en termes de vitesse, offrant un raisonnement rentable à un débit de 1 000 tokens par seconde avec des performances équivalentes à celles de Claude 4.5 Haiku et GPT 5.2 Mini. Il en résulte un débit et une réactivité qui proviennent du modèle lui-même, permettant une inférence rapide et évolutive.


Comment fonctionnent les dLLM

Au lieu de prédire le prochain jeton d'une séquence, Mercury 2 commence par une esquisse approximative de la sortie complète et l'affine de manière itérative grâce à un processus appelé « débruitagec fr », sur plusieurs jetons en parallèle. Chaque passage dans le modèle modifie et améliore simultanément plusieurs jetons, de sorte qu'une seule évaluation du réseau neuronal produit un travail beaucoup plus utile à chaque étape. L'avantage en termes de vitesse provient du modèle lui-même, et non d'un matériel spécialisé. Et comme le modèle affine de manière itérative plutôt que de s'engager de manière permanente sur chaque jeton, il peut corriger les erreurs en cours de génération.

« Les modèles de raisonnement ne sont utiles que dans la mesure où ils peuvent être utilisés en production », a déclaré Stefano Ermon, PDG et cofondateur d'Inception. « Au cours des dernières années, nous avons constaté des progrès incroyables dans les capacités des modèles, mais beaucoup moins dans leur utilisation dans des cas d'utilisation à faible latence. Avec Mercury 2, nous avons construit un système où le raisonnement de haute qualité fonctionne suffisamment rapidement et efficacement pour des applications en temps réel. Lorsque la vitesse, le coût et la qualité fonctionnent ensemble, vous ouvrez de toutes nouvelles possibilités, et c'est ce qui nous enthousiasme le plus. »

Nom : 1.jpg
Affichages : 5452
Taille : 56,7 Ko

Dans les benchmarks standard, conformément à la méthodologie d'Artificial Analysis, Mercury 2 atteint un débit de sortie d'environ 1 000 tokens par seconde, contre environ 89 tokens par seconde pour Claude 4.5 Haiku Reasoning et environ 71 tokens par seconde pour GPT-5 Mini. En termes de qualité, Mercury 2 a obtenu un score de 91,1 sur AIME 2025, 73,6 sur GPQA, 71,3 sur IFBench, 67,3 sur LiveCodeBench, 38,4 sur SciCode et 52,9 sur Tau. Ces scores placent Mercury 2 dans la fourchette concurrentielle de Claude 4.5 Haiku et GPT 5.2 Mini en termes de qualité, tout en offrant un débit environ 10 fois supérieur.

« La plupart des équipes considèrent l'inférence comme un exercice d'optimisation autour de la pile autorégressive, mais Inception est parti d'un principe plus fondamental : la diffusion pour le langage », a déclaré Tim Tully, associé chez Menlo Ventures. « Mercury 2 montre ce qui se passe lorsque cette base est associée à une approche sérieuse du raisonnement et du déploiement, et pas seulement à des démonstrations. Nous pensons que la feuille de route basée sur la diffusion d'Inception a le potentiel de redéfinir les attentes en matière de rapidité et d'évolutivité des modèles de raisonnement. »

Nom : 2.jpg
Affichages : 1319
Taille : 17,2 Ko

S'appuyant sur le principe de diffusion prioritaire d'Inception, Mercury 2 offre les cas d'utilisation suivants :

- Boucles d'agents rapides et à haut volume : Mercury 2 transforme les agents de « démonstration sympa » en « système de production fiable » en réduisant la pénalité de latence qui s'accumule dans les workflows en plusieurs étapes. Cela signifie que les agents de code, le triage IT et SecOps, et les boucles d'automatisation back-office en plusieurs étapes peuvent exécuter davantage d'étapes avec des cycles de rétroaction plus courts, améliorant ainsi directement la contrôlabilité et la confiance.

- Recherche et voix : Mercury 2 permet d'intégrer le raisonnement dans des SLA en temps réel stricts, où les latences p95 et p99 déterminent si l'expérience semble naturelle. Cela permet de renforcer les applications telles que les agents vocaux d'assistance et de vente, les copilotes d'assistance à la clientèle, les questions-réponses interactives de tutorat et la traduction en temps réel.

- Codage et édition instantanés : Mercury 2 alimente la boucle de codage itérative, permettant aux utilisateurs de demander, de réviser et de modifier rapidement.

Mercury 2 offre également des capacités difficiles à obtenir avec une génération strictement séquentielle. Le raffinement itératif prend en charge la correction des erreurs pendant la génération et des sorties plus contrôlables, notamment des réponses structurées pour l'orchestration des agents, les modifications de code et l'appel de fonctions, ce qui aide les équipes à maintenir la cohérence et la supervision lorsqu'elles passent des prototypes à la production.

Nom : 3.jpg
Affichages : 1320
Taille : 29,2 Ko

Inception a été fondée par des chercheurs de Stanford, de l'UCLA et de Cornell qui ont contribué aux travaux fondamentaux sur les modèles de diffusion et d'autres techniques d'IA essentielles, notamment l'attention flash, les transformateurs de décision et l'optimisation directe des préférences. Le PDG Stefano Ermon est le co-inventeur des méthodes de diffusion largement utilisées dans les systèmes modernes de génération d'images et de vidéos. Les modèles Mercury 2 sont disponibles dès aujourd'hui via l'API Inception.

Voici un extrait de l'annonce de Mercury 2 :

Ce que Mercury 2 apporte à la production

Mercury 2 excelle dans les applications sensibles à la latence où l'expérience utilisateur est non négociable.

1. Codage et édition

Saisie semi-automatique, suggestions de modification suivante, refactorisations, agents de code interactifs : autant de workflows où le développeur est dans la boucle et où toute pause interrompt le flux.

« Les suggestions arrivent suffisamment vite pour donner l'impression de faire partie de votre propre réflexion, et non pas d'être quelque chose que vous devez attendre. » Max Brunsfeld, cofondateur, Zed

2. Boucles agentiques

Les flux de travail agentiques enchaînent des dizaines d'appels d'inférence par tâche. Réduire la latence par appel ne permet pas seulement de gagner du temps, cela modifie également le nombre d'étapes que vous pouvez vous permettre d'exécuter et la qualité du résultat final.

« Nous exploitons désormais le dernier modèle Mercury pour optimiser intelligemment l'exécution des campagnes à grande échelle. En faisant émerger des informations et en améliorant dynamiquement la diffusion en temps réel, nous obtenons de meilleures performances, une plus grande efficacité et un écosystème publicitaire plus résilient, alimenté par l'IA. Cette avancée renforce notre engagement en faveur de la publicité autonome, où des systèmes intelligents affinent en permanence l'exécution afin de fournir des résultats mesurables à nos clients. » Adrian Witas, vice-président senior, architecte en chef, Viant

« Nous avons évalué Mercury 2 en raison de sa latence et de sa qualité inégalées, particulièrement précieuses pour le nettoyage des transcriptions en temps réel et les applications HCI interactives. Aucun autre modèle n'a réussi à égaler la vitesse offerte par Mercury ! » Sahaj Garg, directeur technique et cofondateur, Wispr Flow

« Mercury 2 est au moins deux fois plus rapide que GPT-5.2, ce qui change la donne pour nous. » Suchintan Singh, directeur technique et cofondateur, Skyvern

3. Voix et interaction en temps réel

Les interfaces vocales ont le budget de latence le plus serré de l'IA. Mercury 2 rend la qualité du raisonnement viable dans le cadre de cadences vocales naturelles.

« Nous créons des avatars vidéo IA réalistes qui conversent en temps réel avec de vraies personnes. La faible latence n'est donc pas un simple atout, c'est une nécessité absolue. Mercury 2 a été une avancée majeure dans notre pile vocale : une génération de texte rapide et cohérente qui rend l'expérience naturelle et humaine. » Max Sapo, PDG et cofondateur, Happyverse AI

« La qualité de Mercury 2 est excellente, et la faible latence du modèle permet d'avoir des agents vocaux plus réactifs. » Oliver Silverstein, PDG et cofondateur, OpenCall

4. Pipelines de recherche et RAG

Les latences de récupération multi-sauts, de reclassement et de résumé s'accumulent rapidement. Mercury 2 vous permet d'ajouter du raisonnement à la boucle de recherche sans dépasser votre budget de latence.

« Notre partenariat avec Inception rend l'IA en temps réel pratique pour notre produit de recherche. Tous les clients de SearchBlox, qu'ils soient dans le domaine du support client, de la conformité, du risque, de l'analyse ou du commerce électronique, bénéficient d'une intelligence en moins d'une seconde sur l'ensemble de leurs données. » Timo Selvaraj, directeur produit, SearchBlox

Source : Annonce de Mercury 2

Et vous ?

Pensez-vous que cette annonce est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

Alors que les progrès des LLM ralentissent, les entreprises d'IA investissent massivement dans les « modèles de monde » capables de comprendre les environnements humains et simuler la réalité au-delà du texte

Google introduit Gemini 3 Flash comme nouveau modèle par défaut dans l'application Gemini et le mode IA dans Google Search, se positionnant comme un modèle d'IA plus rapide et plus abordable

Anthropic lance Claude Haiku 4.5, la variante la plus compacte de cette génération de LLM d'Anthropic, et promet des performances proches de celles du modèle d'IA GPT-5 d'OpenAI