L'IA consomme tellement d'énergie que la puissance de calcul mondiale commence à manquer,
les pannes à répétitions obligent les fournisseurs à rationner les accès
En quelques mois, la demande en puissance de calcul pour l'intelligence artificielle a dépassé toutes les projections. Pannes à répétition, rationnement des accès, envolée des prix des GPU, contrats pluriannuels à plusieurs milliards de dollars : le secteur de l'IA générative se heurte de plein fouet à une contrainte que l'argent ne peut pas, à court terme, résoudre ; le temps. Bienvenue dans l'ère de la pénurie de calcul.
Pendant des années, la conversation autour de l'IA a tourné autour des données, des algorithmes, des modèles. La puissance de calcul était considérée comme une ressource certes coûteuse, mais fondamentalement extensible ; il suffisait d'ajouter des serveurs. Ce postulat vient d'être mis à mal de façon spectaculaire.
« Tout le monde parle de pétrole, mais je pense que ce dont le monde manque surtout, ce sont des tokens », déclarait récemment Ben Pouladian, ingénieur et investisseur basé à Los Angeles. Le token, unité de mesure de la consommation de ressources de calcul par une tâche d'IA, est devenu le nouvel or noir d'une industrie qui se retrouve à court de la ressource la plus fondamentale de son existence : la capacité à traiter des requêtes. « L'IA n'est plus simplement un chatbot qu'on interroge pour une recette devant le frigo. Elle orchestre des tâches, elle devient plus intelligente », ajoute-t-il.
L'explosion de la demande est documentée avec une précision qui laisse peu de place à l'interprétation. Chez OpenAI, le volume de tokens traités via l'API (la plateforme d'accès principalement utilisée par les entreprises) est passé de six milliards par minute en octobre 2024 à quinze milliards par minute fin mars 2025. Une multiplication par 2,5 en moins de six mois, sur un périmètre qui ne représente qu'une fraction de l'usage total.
Les agents IA, détonateur d'une crise infrastructurelle
Si la croissance était prévisible, son accélération brutale s'explique par un facteur précis : l'essor des agents IA autonomes. Contrairement à un échange ponctuel avec un assistant textuel, un agent peut enchaîner des dizaines, voire des centaines d'appels à un modèle pour accomplir une tâche complexe : rédiger et tester du code, planifier des visites immobilières, automatiser des processus métier entiers. Chaque étape consomme des tokens. La charge par utilisateur a donc explosé indépendamment du nombre d'utilisateurs.
Anthropic, OpenAI et leurs concurrents se retrouvent ainsi confrontés à un problème classique des booms technologiques : la demande progresse bien plus vite que la capacité à déployer les infrastructures nécessaires. Le parallèle avec le boom ferroviaire du XIXe siècle ou l'explosion des télécommunications au début des années 2000 est tentant, et pas seulement rhétorique : dans les deux cas, l'inadéquation entre la vitesse d'adoption et la vitesse de construction s'était traduite par des tensions tarifaires, des faillites et une recomposition des acteurs.
Anthropic en première ligne : quand la croissance dépasse l'infrastructure
Peu de compagnies illustrent aussi clairement ce paradoxe qu'Anthropic. Sa trajectoire de revenus est presque irréelle : 9 milliards de dollars de revenu annualisé à la fin 2025, 14 milliards en février 2026, puis 30 milliards deux mois plus tard, une multiplication par trois en quelques semaines. Mais cette croissance foudroyante s'est accompagnée d'un effondrement progressif de la qualité de service.
Depuis mi-février 2026, les pannes se sont multipliées à une fréquence telle que certains clients entreprises ont commencé à migrer vers d'autres fournisseurs. La disponibilité de l'API Claude, mesurée sur 90 jours à la date du 8 avril, s'établissait à 98,95 %. Chiffre qui peut sembler élevé pour un profane, mais qui représente, dans le monde des services numériques professionnels, une anomalie grave. « Ce n'est pas normal », tranche Amir Haghighat, directeur technique de Baseten, une startup spécialisée dans l'inférence IA. « AWS, les bases de données, Stripe, ces services doivent être très résilients, avec une disponibilité très élevée. Ce n'est pas la qualité de service que l'on veut obtenir de la société qui fournit l'intelligence pour votre application. »
L'impact commercial est déjà mesurable. David Hsu, fondateur et PDG de Retool, une plateforme de développement logiciel, confie au Wall Street Journal qu'il préfère le modèle Opus 4.6 d'Anthropic pour alimenter son outil d'agent IA mais qu'il a dû basculer vers OpenAI faute de fiabilité. « Anthropic était en panne tout le temps », dit-il simplement.
Fin mars, Anthropic a mis en place un contingentement de tokens pendant les heures de pointe, entre 5h et 11h du matin, heure du Pacifique, en semaine. La réaction des utilisateurs sur les réseaux sociaux a été immédiate. « Je n'avais pas atteint ma limite sur Claude Code depuis des semaines, mais cette semaine je l'ai atteinte en 45 minutes environ », écrit un utilisateur sur X. Boris Cherny, créateur de Claude Code, a défendu la mesure publiquement : « La capacité est une ressource que nous gérons avec soin et nous priorisons nos clients qui utilisent nos produits et notre API. »
GPU : une inflation qui ne laisse pas d'alternative
La pénurie de calcul n'est pas seulement un problème de gestion interne chez les laboratoires d'IA, c'est une contrainte physique et économique qui touche l'ensemble de la chaîne d'approvisionnement. Les prix des GPU sur le marché spot ont grimpé en flèche. Selon l'Ornn Compute Price Index, la location d'une puce Blackwell de dernière génération de Nvidia coûte désormais 4,08 dollars de l'heure, contre 2,75 dollars il y a deux mois, soit une hausse de 48 % en quelques semaines.
CoreWeave, l'un des principaux fournisseurs de cloud GPU, a lui aussi durci ses conditions : hausse de prix de plus de 20 % fin 2025, et exigence de contrats de trois ans pour les petits clients, contre un an auparavant. Les analystes de Bank of America qui ont repris la couverture de la valeur estiment que la demande excédera l'offre au moins jusqu'en 2029.
J.J. Kardwell, PDG de Vultr, une infrastructure cloud, résume brutalement la situation : « Il y a une pénurie massive de capacité comme je n'en ai pas vu en plus de cinq ans que je dirige cette entreprise. La question est : pourquoi ne pas simplement déployer plus de matériel ? Les délais de livraison sont trop longs. Les temps de construction des centres de données sont longs, et la puissance électrique disponible jusqu'en 2026 est déjà entièrement réservée. »
La course aux contrats : CoreWeave comme pivot de l'industrie
La réponse structurelle à cette crise se matérialise sous la forme d'une course aux engagements à long terme. En l'espace de 48 heures début avril 2026, CoreWeave a enchaîné deux annonces majeures : un accord d'expansion avec Meta pour 21 milliards de dollars de capacité dédiée jusqu'en 2032, puis un contrat pluriannuel avec Anthropic pour alimenter les modèles Claude à l'échelle de la production.
Ce contrat Anthropic, d'une valeur estimée à 6,8 milliards de dollars, porte sur la fourniture de GPU Vera Rubin de Nvidia, la dernière génération de puces, et est présenté comme un accès à une architecture dite « bare-metal » susceptible d'améliorer les performances d'inférence de 20 à 30 % par rapport aux environnements cloud virtualisés traditionnels. Un gain essentiel pour les agents IA qui exigent une faible latence et un débit élevé.
Avec cet accord, CoreWeave compte désormais neuf des dix principaux fournisseurs de modèles d'IA parmi ses clients, dont Microsoft, OpenAI, Meta, Mistral, Cohere, IBM et Nvidia elle-même. La société, introduite en bourse sur le Nasdaq en mars 2025, affichait 5,13 milliards de dollars de revenus pour l'exercice 2025 et prévoit entre 12 et 13 milliards en 2026, adossée à un carnet de commandes contractualisé dépassant 66 milliards de dollars.
OpenAI, de son côté, a également renforcé ses engagements avec CoreWeave à hauteur de 6,5 milliards de dollars supplémentaires en 2026, pendant que son directeur financier, Sarah Friar, reconnaissait publiquement les arbitrages douloureux imposés par la pénurie : « Nous faisons des choix très difficiles en ce moment sur des choses que nous ne poursuivons pas parce que nous n'avons pas suffisamment de capacité de calcul. »
La contrainte invisible : l'énergie
Derrière la pénurie de GPU se cache une contrainte encore plus fondamentale : l'énergie électrique. Les centres de données modernes opèrent à des densités de rack de plus de 120 kilowatts, rendant les infrastructures de refroidissement par air traditionnelles obsolètes et les actifs qui en dépendent potentiellement inutilisables. Construire ou reconvertir un datacenter aux standards requis par les modèles actuels prend des années.
En 2025 seulement, Amazon, Google, Microsoft et Meta ont projeté de dépenser jusqu'à 320 milliards de dollars dans la construction de nouveaux centres de données dédiés à l'IA Built In, un niveau d'investissement qui met déjà sous tension les réseaux électriques et les ressources en eau aux États-Unis. Anthropic a pour sa part annoncé un partenariat de 50 milliards de dollars avec la société de neocloud Fluidstack pour construire des centres de données dédiés au Texas et à New York.
Meta, OpenAI, Google et Anthropic ont tous engagé d'importants programmes de développement de puces personnalisées, tout en continuant à louer massivement des GPU Nvidia chez des tiers, parce que les délais de maturation des puces maison et la courbe de demande en calcul IA ne s'alignent pas suffisamment pour permettre une transition propre. La dépendance à Nvidia reste donc structurelle, au moins jusqu'à la fin de la décennie.
Un boom qui ressemble à ses prédécesseurs... avec une différence de taille
L'histoire des grandes transitions technologiques est jalonnée de crises d'infrastructure similaires. Le boom ferroviaire américain du XIXe siècle, l'expansion des réseaux téléphoniques, la bulle internet des années 2000 : tous ont connu une phase où la demande d'usage dépassait radicalement la capacité de production. Dans tous ces cas, la résolution est passée par l'augmentation des prix, la consolidation des acteurs, et parfois l'implosion spectaculaire de ceux qui avaient surinvesti.
La spécificité de la crise actuelle est qu'elle survient dans un secteur où la compétition interdit, à court terme, la répercussion intégrale des coûts sur les utilisateurs finaux. OpenAI, Anthropic, Google, et les dizaines de challengers qui les talonnent se livrent une guerre de parts de marché dans laquelle augmenter les prix de façon trop agressive revient à ouvrir la porte à la concurrence. L'accès aux modèles de pointe commence déjà à devenir un privilège réservé, certains laboratoires limitant l'accès à leurs dernières versions à une quarantaine d'organisations seulement.
La « démocratisation de l'IA », promesse centrale de la décennie, se heurte ainsi à une réalité économique et physique brutale : le calcul n'est pas infini, les centres de données ne se construisent pas en quelques semaines, et l'électricité disponible est déjà réservée pour des années. Pour la première fois, ce ne sont plus les algorithmes ni les données qui définissent la frontière technologique, mais l'accès à des ressources aussi prosaïques que des baies de serveurs et des mégawatts.
Sources : vidéo dans le texte, WSJ, Tomasz Tunguz
Et vous ?
La pénurie de calcul va-t-elle accélérer la consolidation du marché de l'IA, en éliminant les acteurs qui ne peuvent pas se payer des contrats pluriannuels à plusieurs milliards ? Ou au contraire favoriser l'émergence de modèles plus légers et moins gourmands en ressources ?
Le modèle CoreWeave (fournisseur de GPU spécialisé indépendant des hyperscalers) est-il viable à long terme, ou sera-t-il absorbé par Microsoft, Amazon ou Google dès que ces derniers auront rattrapé leur retard en infrastructure dédiée ?
Le rationnement des tokens pendant les heures de pointe, tel que pratiqué par Anthropic, est-il une mesure transitoire acceptable, ou constitue-t-il un précédent dangereux qui risque de fragmenter l'accès à l'IA selon des logiques purement économiques ?
Si la contrainte principale devient l'énergie électrique disponible, quelle responsabilité les laboratoires d'IA ont-ils vis-à-vis des territoires et des réseaux électriques qu'ils mettent sous tension ?
Voir aussi :
Les centres de données IA sont tellement gourmands en énergie qu'ils utilisent désormais d'anciens moteurs à réaction d'avions pour profiter d'une source d'énergie « flexible » et immédiatement disponible
"Énergivore, l'IA fera-t-elle baisser notre consommation d'énergie ?", par Anne-Muriel Brouet





La pénurie de calcul va-t-elle accélérer la consolidation du marché de l'IA, en éliminant les acteurs qui ne peuvent pas se payer des contrats pluriannuels à plusieurs milliards ? Ou au contraire favoriser l'émergence de modèles plus légers et moins gourmands en ressources ?
Répondre avec citation


Partager