En 2030, l'exécution d'opérations d'inférence sur un grand modèle de langage (LLM) comportant 1 000 milliards de paramètres coûtera aux fournisseurs de GenAI plus de 90 % moins cher qu'en 2025, d'après Gartner
À l'horizon 2030, le coût de l'exécution d'inférences sur un grand modèle de langage (LLM) de mille milliards de paramètres sera inférieur de plus de 90 % à celui de 2025, selon Gartner. Le cabinet attribue cette baisse aux progrès réalisés dans le domaine des semi-conducteurs, à l'efficacité des infrastructures et à la conception des modèles. Toutefois, la baisse du coût des jetons chez les fournisseurs d'intelligence artificielle (IA) générative ne sera pas entièrement répercutée sur les entreprises clientes et ne démocratisera pas l'intelligence de pointe, estime l'entreprise de conseil.
Un grand modèle de langage (LLM) est un modèle informatique entraîné sur une immense quantité de données, conçu pour des tâches de traitement du langage naturel, en particulier la génération de texte. Les LLM les plus volumineux et les plus performants sont les transformateurs génératifs pré-entraînés (GPT), qui constituent le cœur des capacités des chatbots d'intelligence artificielle modernes. Les LLM utilisent un grand nombre de paramètres d'IA pour générer, résumer, traduire et raisonner à partir de textes dans une grande variété de contextes. Les modèles peuvent être affinés pour effectuer des tâches spécifiques, ou les utilisateurs peuvent leur fournir des instructions plus précises afin d'affiner leurs résultats. Comme les LLM sont entraînés sur des collections de textes rédigés par des humains, ils sont capables de refléter les schémas du langage naturel. Ils peuvent également comporter des inexactitudes et des biais présents dans les données sur lesquelles ils sont formés.
Gartner, Inc., une société spécialisée dans les analyses stratégiques et technologiques, prévoit qu'en 2030, l'exécution d'opérations d'inférence sur un grand modèle de langage (LLM) de mille milliards de paramètres coûtera aux fournisseurs de GenAI plus de 90 % moins cher qu'en 2025.
« Ces réductions de coûts résulteront d'une combinaison de plusieurs facteurs : l'amélioration de l'efficacité des semi-conducteurs et des infrastructures, les innovations en matière de conception des modèles, une meilleure utilisation des puces, le recours accru à des circuits intégrés spécialisés dans l'inférence, ainsi que l'utilisation de périphériques en périphérie pour des cas d'utilisation spécifiques », a déclaré Will Sommer, analyste principal chez Gartner.
Compte tenu de ces tendances, Gartner prévoit qu'en 2030, les LLM seront jusqu'à 100 fois plus rentables que les premiers modèles de taille similaire développés en 2022. Les résultats des modèles de prévision de Gartner sont répartis entre deux séries de scénarios concernant les semi-conducteurs :
- Scénarios de pointe « Frontier » : le traitement du modèle repose sur une représentation des puces de pointe.
- Scénarios mixtes « Legacy blend » : le traitement du modèle repose sur un mélange représentatif des semi-conducteurs disponibles, évalué par rapport aux prévisions de Gartner.
Gartner GenAI Inference Cost Scenario Forecasts (Source: Gartner, March 2026)
Les coûts modélisés dans les scénarios prévisionnels « mixtes » sont nettement plus élevés que dans les scénarios « de pointe », en raison d'une puissance de calcul moindre.
La baisse du coût des jetons ne démocratisera pas l'intelligence de pointe
La baisse du coût des jetons chez les fournisseurs de GenAI ne sera cependant pas entièrement répercutée sur les entreprises clientes, selon la société d'analyses. Les jetons IA sont les unités de données traitées par les modèles d'IA générative. Dans le cadre de l'analyse de Gartner, un jeton correspond à 3,5 octets de données, soit environ 4 caractères.
De plus, l'intelligence de pointe nécessitera beaucoup plus de jetons que les applications grand public actuelles. Les modèles agentiques, par exemple, requièrent entre 5 et 30 fois plus de jetons par tâche qu'un chatbot GenAI standard, et sont capables d'effectuer bien plus de tâches qu'un être humain utilisant la GenAI.
Si la baisse du coût unitaire des jetons permettra de bénéficier de capacités d'IA générative plus avancées, ces progrès entraîneront une augmentation disproportionnée de la demande en jetons. La consommation de jetons augmentant plus rapidement que leur coût ne diminue, les coûts globaux d'inférence devraient s'alourdir.
« Les directeurs des produits (CPO) ne doivent pas confondre la banalisation des jetons de base avec la démocratisation du raisonnement de pointe », a déclaré Will Sommer. « Alors que l'intelligence banalisée tend vers un coût quasi nul, les ressources informatiques et les systèmes nécessaires pour prendre en charge le raisonnement avancé restent rares. Les CPO qui masquent aujourd'hui les inefficacités architecturales à l'aide de jetons bon marché verront demain l'échelle agentique leur échapper. »
La valeur s'accumulera au profit des plateformes capables de coordonner les charges de travail à travers un portefeuille diversifié de modèles. Les tâches routinières et à haute fréquence doivent être confiées à des modèles de langage plus efficaces, de petite taille et spécialisés dans un domaine particulier, qui offrent de meilleures performances que les solutions génériques pour un coût nettement inférieur lorsqu'ils sont adaptés à des flux de travail spécialisés. L'inférence coûteuse des modèles de pointe doit être strictement contrôlée et réservée exclusivement aux tâches de raisonnement complexes et à forte marge.
Ces prévisions de Gartner s'inscrivent dans un contexte où les fournisseurs d'IA intensifient leurs investissements pour accroître les performances et l'efficacité. Dans cette optique, Nvidia a dévoilé en janvier dernier, lors du CES 2026, sa plateforme de nouvelle génération Vera Rubin, présentée par son PDG, Jensen Huang, comme une évolution majeure pour les infrastructures d'IA. Conçue pour les centres de données, les fournisseurs de cloud et les entreprises, cette plateforme serait « cinq fois plus puissante que l'architecture Blackwell » et permettrait de réduire le coût du calcul tout en accélérant l'entraînement et l'inférence à grande échelle.
Vera Rubin comprend notamment les GPU Rubin, les processeurs Vera, le réseau NVLink 6, la photonique Ethernet Spectrum-X, les cartes réseau ConnectX-9 et les unités de traitement de données BlueField-4, afin de limiter les goulots d'étranglement et d'améliorer les performances pour les grandes charges de travail d'IA. Nvidia a indiqué que le GPU Rubin peut atteindre 50 pétaflops de performance d'inférence avec une précision NVFP4, tandis que le CPU Vera est optimisé pour la gestion des flux de données et les tâches de traitement des agents d'IA. Cette stratégie illustre la volonté de Nvidia d'industrialiser l'intelligence artificielle sur une plus grande échelle.
Source : Gartner
Et vous ?
Quel est votre avis sur le sujet ?
Trouvez-vous ces prévisions de Gartner crédibles ou pertinentes ?
Voir aussi :
Les LLM sont mauvais en inférence logique, mais excellents pour produire un « charabia fluide », et leurs capacités de raisonnement simulé sont un « mirage fragile », selon une étude
Le coût des calculs d'inférence de l'IA sera divisé par 100 au cours des deux prochaines années en raison de la loi d'échelle, d'après Kai-Fu Lee
Après avoir investi 30 milliards de $, Nvidia prévoit apparemment de développer une nouvelle puce pour OpenAI, qui sera conçue pour le calcul d'inférence plutôt que pour la formation de l'IA
L'étude d'Apple prouve que les modèles d'IA basés sur le LLM sont défectueux car ils ne peuvent pas raisonner : "Nous n'avons trouvé aucune preuve de raisonnement formel dans les modèles de langage"








Quel est votre avis sur le sujet ?
Répondre avec citation
Partager