IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #1
    Inactif  

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    10 084
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 10 084
    Par défaut Anthropic a testé le retrait de Claude Code de l'offre Pro face à une demande insoutenable
    L'IA consomme tellement d'énergie que la puissance de calcul mondiale commence à manquer,
    les pannes à répétitions obligent les fournisseurs à rationner les accès

    En quelques mois, la demande en puissance de calcul pour l'intelligence artificielle a dépassé toutes les projections. Pannes à répétition, rationnement des accès, envolée des prix des GPU, contrats pluriannuels à plusieurs milliards de dollars : le secteur de l'IA générative se heurte de plein fouet à une contrainte que l'argent ne peut pas, à court terme, résoudre ; le temps. Bienvenue dans l'ère de la pénurie de calcul.

    Pendant des années, la conversation autour de l'IA a tourné autour des données, des algorithmes, des modèles. La puissance de calcul était considérée comme une ressource certes coûteuse, mais fondamentalement extensible ; il suffisait d'ajouter des serveurs. Ce postulat vient d'être mis à mal de façon spectaculaire.

    « Tout le monde parle de pétrole, mais je pense que ce dont le monde manque surtout, ce sont des tokens », déclarait récemment Ben Pouladian, ingénieur et investisseur basé à Los Angeles. Le token, unité de mesure de la consommation de ressources de calcul par une tâche d'IA, est devenu le nouvel or noir d'une industrie qui se retrouve à court de la ressource la plus fondamentale de son existence : la capacité à traiter des requêtes. « L'IA n'est plus simplement un chatbot qu'on interroge pour une recette devant le frigo. Elle orchestre des tâches, elle devient plus intelligente », ajoute-t-il.

    L'explosion de la demande est documentée avec une précision qui laisse peu de place à l'interprétation. Chez OpenAI, le volume de tokens traités via l'API (la plateforme d'accès principalement utilisée par les entreprises) est passé de six milliards par minute en octobre 2024 à quinze milliards par minute fin mars 2025. Une multiplication par 2,5 en moins de six mois, sur un périmètre qui ne représente qu'une fraction de l'usage total.

    Les agents IA, détonateur d'une crise infrastructurelle

    Si la croissance était prévisible, son accélération brutale s'explique par un facteur précis : l'essor des agents IA autonomes. Contrairement à un échange ponctuel avec un assistant textuel, un agent peut enchaîner des dizaines, voire des centaines d'appels à un modèle pour accomplir une tâche complexe : rédiger et tester du code, planifier des visites immobilières, automatiser des processus métier entiers. Chaque étape consomme des tokens. La charge par utilisateur a donc explosé indépendamment du nombre d'utilisateurs.

    Anthropic, OpenAI et leurs concurrents se retrouvent ainsi confrontés à un problème classique des booms technologiques : la demande progresse bien plus vite que la capacité à déployer les infrastructures nécessaires. Le parallèle avec le boom ferroviaire du XIXe siècle ou l'explosion des télécommunications au début des années 2000 est tentant, et pas seulement rhétorique : dans les deux cas, l'inadéquation entre la vitesse d'adoption et la vitesse de construction s'était traduite par des tensions tarifaires, des faillites et une recomposition des acteurs.

    Anthropic en première ligne : quand la croissance dépasse l'infrastructure

    Peu de compagnies illustrent aussi clairement ce paradoxe qu'Anthropic. Sa trajectoire de revenus est presque irréelle : 9 milliards de dollars de revenu annualisé à la fin 2025, 14 milliards en février 2026, puis 30 milliards deux mois plus tard, une multiplication par trois en quelques semaines. Mais cette croissance foudroyante s'est accompagnée d'un effondrement progressif de la qualité de service.

    Depuis mi-février 2026, les pannes se sont multipliées à une fréquence telle que certains clients entreprises ont commencé à migrer vers d'autres fournisseurs. La disponibilité de l'API Claude, mesurée sur 90 jours à la date du 8 avril, s'établissait à 98,95 %. Chiffre qui peut sembler élevé pour un profane, mais qui représente, dans le monde des services numériques professionnels, une anomalie grave. « Ce n'est pas normal », tranche Amir Haghighat, directeur technique de Baseten, une startup spécialisée dans l'inférence IA. « AWS, les bases de données, Stripe, ces services doivent être très résilients, avec une disponibilité très élevée. Ce n'est pas la qualité de service que l'on veut obtenir de la société qui fournit l'intelligence pour votre application. »

    L'impact commercial est déjà mesurable. David Hsu, fondateur et PDG de Retool, une plateforme de développement logiciel, confie au Wall Street Journal qu'il préfère le modèle Opus 4.6 d'Anthropic pour alimenter son outil d'agent IA mais qu'il a dû basculer vers OpenAI faute de fiabilité. « Anthropic était en panne tout le temps », dit-il simplement.

    Fin mars, Anthropic a mis en place un contingentement de tokens pendant les heures de pointe, entre 5h et 11h du matin, heure du Pacifique, en semaine. La réaction des utilisateurs sur les réseaux sociaux a été immédiate. « Je n'avais pas atteint ma limite sur Claude Code depuis des semaines, mais cette semaine je l'ai atteinte en 45 minutes environ », écrit un utilisateur sur X. Boris Cherny, créateur de Claude Code, a défendu la mesure publiquement : « La capacité est une ressource que nous gérons avec soin et nous priorisons nos clients qui utilisent nos produits et notre API. »

    Nom : coreweave.png
Affichages : 18734
Taille : 455,0 Ko

    GPU : une inflation qui ne laisse pas d'alternative

    La pénurie de calcul n'est pas seulement un problème de gestion interne chez les laboratoires d'IA, c'est une contrainte physique et économique qui touche l'ensemble de la chaîne d'approvisionnement. Les prix des GPU sur le marché spot ont grimpé en flèche. Selon l'Ornn Compute Price Index, la location d'une puce Blackwell de dernière génération de Nvidia coûte désormais 4,08 dollars de l'heure, contre 2,75 dollars il y a deux mois, soit une hausse de 48 % en quelques semaines.

    CoreWeave, l'un des principaux fournisseurs de cloud GPU, a lui aussi durci ses conditions : hausse de prix de plus de 20 % fin 2025, et exigence de contrats de trois ans pour les petits clients, contre un an auparavant. Les analystes de Bank of America qui ont repris la couverture de la valeur estiment que la demande excédera l'offre au moins jusqu'en 2029.

    J.J. Kardwell, PDG de Vultr, une infrastructure cloud, résume brutalement la situation : « Il y a une pénurie massive de capacité comme je n'en ai pas vu en plus de cinq ans que je dirige cette entreprise. La question est : pourquoi ne pas simplement déployer plus de matériel ? Les délais de livraison sont trop longs. Les temps de construction des centres de données sont longs, et la puissance électrique disponible jusqu'en 2026 est déjà entièrement réservée. »

    La course aux contrats : CoreWeave comme pivot de l'industrie

    La réponse structurelle à cette crise se matérialise sous la forme d'une course aux engagements à long terme. En l'espace de 48 heures début avril 2026, CoreWeave a enchaîné deux annonces majeures : un accord d'expansion avec Meta pour 21 milliards de dollars de capacité dédiée jusqu'en 2032, puis un contrat pluriannuel avec Anthropic pour alimenter les modèles Claude à l'échelle de la production.

    Ce contrat Anthropic, d'une valeur estimée à 6,8 milliards de dollars, porte sur la fourniture de GPU Vera Rubin de Nvidia, la dernière génération de puces, et est présenté comme un accès à une architecture dite « bare-metal » susceptible d'améliorer les performances d'inférence de 20 à 30 % par rapport aux environnements cloud virtualisés traditionnels. Un gain essentiel pour les agents IA qui exigent une faible latence et un débit élevé.

    Avec cet accord, CoreWeave compte désormais neuf des dix principaux fournisseurs de modèles d'IA parmi ses clients, dont Microsoft, OpenAI, Meta, Mistral, Cohere, IBM et Nvidia elle-même. La société, introduite en bourse sur le Nasdaq en mars 2025, affichait 5,13 milliards de dollars de revenus pour l'exercice 2025 et prévoit entre 12 et 13 milliards en 2026, adossée à un carnet de commandes contractualisé dépassant 66 milliards de dollars.

    OpenAI, de son côté, a également renforcé ses engagements avec CoreWeave à hauteur de 6,5 milliards de dollars supplémentaires en 2026, pendant que son directeur financier, Sarah Friar, reconnaissait publiquement les arbitrages douloureux imposés par la pénurie : « Nous faisons des choix très difficiles en ce moment sur des choses que nous ne poursuivons pas parce que nous n'avons pas suffisamment de capacité de calcul. »


    La contrainte invisible : l'énergie

    Derrière la pénurie de GPU se cache une contrainte encore plus fondamentale : l'énergie électrique. Les centres de données modernes opèrent à des densités de rack de plus de 120 kilowatts, rendant les infrastructures de refroidissement par air traditionnelles obsolètes et les actifs qui en dépendent potentiellement inutilisables. Construire ou reconvertir un datacenter aux standards requis par les modèles actuels prend des années.

    En 2025 seulement, Amazon, Google, Microsoft et Meta ont projeté de dépenser jusqu'à 320 milliards de dollars dans la construction de nouveaux centres de données dédiés à l'IA Built In, un niveau d'investissement qui met déjà sous tension les réseaux électriques et les ressources en eau aux États-Unis. Anthropic a pour sa part annoncé un partenariat de 50 milliards de dollars avec la société de neocloud Fluidstack pour construire des centres de données dédiés au Texas et à New York.

    Meta, OpenAI, Google et Anthropic ont tous engagé d'importants programmes de développement de puces personnalisées, tout en continuant à louer massivement des GPU Nvidia chez des tiers, parce que les délais de maturation des puces maison et la courbe de demande en calcul IA ne s'alignent pas suffisamment pour permettre une transition propre. La dépendance à Nvidia reste donc structurelle, au moins jusqu'à la fin de la décennie.

    Un boom qui ressemble à ses prédécesseurs... avec une différence de taille

    L'histoire des grandes transitions technologiques est jalonnée de crises d'infrastructure similaires. Le boom ferroviaire américain du XIXe siècle, l'expansion des réseaux téléphoniques, la bulle internet des années 2000 : tous ont connu une phase où la demande d'usage dépassait radicalement la capacité de production. Dans tous ces cas, la résolution est passée par l'augmentation des prix, la consolidation des acteurs, et parfois l'implosion spectaculaire de ceux qui avaient surinvesti.

    La spécificité de la crise actuelle est qu'elle survient dans un secteur où la compétition interdit, à court terme, la répercussion intégrale des coûts sur les utilisateurs finaux. OpenAI, Anthropic, Google, et les dizaines de challengers qui les talonnent se livrent une guerre de parts de marché dans laquelle augmenter les prix de façon trop agressive revient à ouvrir la porte à la concurrence. L'accès aux modèles de pointe commence déjà à devenir un privilège réservé, certains laboratoires limitant l'accès à leurs dernières versions à une quarantaine d'organisations seulement.

    La « démocratisation de l'IA », promesse centrale de la décennie, se heurte ainsi à une réalité économique et physique brutale : le calcul n'est pas infini, les centres de données ne se construisent pas en quelques semaines, et l'électricité disponible est déjà réservée pour des années. Pour la première fois, ce ne sont plus les algorithmes ni les données qui définissent la frontière technologique, mais l'accès à des ressources aussi prosaïques que des baies de serveurs et des mégawatts.

    Sources : vidéo dans le texte, WSJ, Tomasz Tunguz

    Et vous ?

    La pénurie de calcul va-t-elle accélérer la consolidation du marché de l'IA, en éliminant les acteurs qui ne peuvent pas se payer des contrats pluriannuels à plusieurs milliards ? Ou au contraire favoriser l'émergence de modèles plus légers et moins gourmands en ressources ?

    Le modèle CoreWeave (fournisseur de GPU spécialisé indépendant des hyperscalers) est-il viable à long terme, ou sera-t-il absorbé par Microsoft, Amazon ou Google dès que ces derniers auront rattrapé leur retard en infrastructure dédiée ?

    Le rationnement des tokens pendant les heures de pointe, tel que pratiqué par Anthropic, est-il une mesure transitoire acceptable, ou constitue-t-il un précédent dangereux qui risque de fragmenter l'accès à l'IA selon des logiques purement économiques ?

    Si la contrainte principale devient l'énergie électrique disponible, quelle responsabilité les laboratoires d'IA ont-ils vis-à-vis des territoires et des réseaux électriques qu'ils mettent sous tension ?

    Voir aussi :

    Les centres de données IA sont tellement gourmands en énergie qu'ils utilisent désormais d'anciens moteurs à réaction d'avions pour profiter d'une source d'énergie « flexible » et immédiatement disponible

    "Énergivore, l'IA fera-t-elle baisser notre consommation d'énergie ?", par Anne-Muriel Brouet
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  2. #2
    Chroniqueur Actualités
    Avatar de Patrick Ruiz
    Homme Profil pro
    Redacteur web
    Inscrit en
    Février 2017
    Messages
    2 416
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cameroun

    Informations professionnelles :
    Activité : Redacteur web
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Février 2017
    Messages : 2 416
    Par défaut Anthropic a testé le retrait de Claude Code de l'offre Pro face à une demande insoutenable
    Anthropic a testé le retrait de Claude Code de l'offre Pro face à une demande insoutenable. L'entreprise explore de nouveaux moyens pour rationner son service qui bute face à la pénurie des ressources de calcul.

    Anthropic a fait sensation parmi les développeurs avec ce qui semblait être un changement inattendu de sa tarification : la société a annoncé que Claude Code, le célèbre outil de développement d'agents, ne serait plus accessible aux abonnés du forfait Pro à 20 dollars par mois. Un responsable de l’entreprise a ensuite fait une publication pour indiquer qu’il s’agissait d’un test. Le problème de fond : l’IA est tellement énergivore que la puissance de calcul mondiale nécessaire pour satisfaire à la demande commence à faire défaut. Les pannes à répétition obligent donc les fournisseurs à rationner les accès.

    Des utilisateurs se sont exprimés sur les réseaux sociaux pour signaler que la page des tarifs d'Anthropic consacrée à Claude indiquait clairement que Claude Code n'était pas pris en charge dans la formule Pro. (Cette fonctionnalité restait disponible dans la formule Max, à partir de 100 $ par mois.) Certains nouveaux utilisateurs ayant souscrit à un abonnement Pro n'ont pas pu accéder à Claude Code. En revanche, les abonnés existants n'ont subi aucune interruption.

    Alors que les spéculations et la frustration gagnaient du terrain, Amol Avasare, responsable de la croissance chez Anthropic, s'est exprimé sur les réseaux sociaux pour préciser qu'il s'agissait d'un petit test mené sur environ 2 % des nouvelles souscriptions au service. Claude Code est à nouveau disponible dans la formule Pro comme indiqué par certains utilisateurs.

    La filière de l’intelligence artificielle se heurte désormais à de multiples écueils : croissance des agents d’IA qui dépasse les capacités de l’infrastructure, pénurie des GPU et inflation liée, réseaux électriques sous tension, etc.

    Pendant des années, la conversation autour de l'intelligence artificielle a tourné autour des données, des algorithmes, des modèles. La puissance de calcul était considérée comme une ressource certes coûteuse, mais fondamentalement extensible ; il suffisait d'ajouter des serveurs. Ce postulat est désormais dépassé.

    « Tout le monde parle de pétrole, mais je pense que ce dont le monde manque surtout, ce sont des tokens », déclarait récemment Ben Pouladian, ingénieur et investisseur basé à Los Angeles. Le token, unité de mesure de la consommation de ressources de calcul par une tâche d'IA, est devenu le nouvel or noir d'une industrie qui se retrouve à court de la ressource la plus fondamentale de son existence : la capacité à traiter des requêtes.

    « L'IA n'est plus simplement un chatbot qu'on interroge pour une recette devant le frigo. Elle orchestre des tâches, elle devient plus intelligente », ajoute-t-il.

    La demande croissante en agents IA autonomes entre en collision frontale avec des capacités de calcul limitées. Le matériel informatique traverse une zone de turbulence en termes de coûts. Le boom de l'intelligence artificielle consomme plus de ressources informatiques (puissance de calcul, mémoire, etc.) que l’industrie ne peut en fournir.

    OpenAI a vu sa consommation de tokens sur l'API bondir de 6 milliards par minute en octobre à 15 milliards par minute fin mars, selon le Wall Street Journal. La directrice financière Sarah Friar a indiqué passer une grande partie de son temps à chercher des capacités de calcul à court terme et à prendre des décisions difficiles sur les projets à mettre en veille, faute de ressources disponibles.

    Depuis la mi-février, les pannes se sont accumulées chez OpenAI avec une telle fréquence que certains clients entreprises ont commencé à migrer vers d'autres fournisseurs. GitHub a lui aussi annoncé de nouvelles limites pour Copilot le 10 avril, citant explicitement la croissance rapide, la haute concurrence et l'usage intensif comme raisons. La rareté des ressources en calcul est en train de devenir le principal facteur d'arbitrage stratégique dans tout le secteur.

    Anthropic, OpenAI et leurs concurrents se retrouvent ainsi confrontés à un problème classique des booms technologiques : la demande progresse bien plus vite que la capacité à déployer les infrastructures nécessaires. La situation appelle à faire un parallèle avec le boom ferroviaire du 19e siècle ou l'explosion des télécommunications au début des années 2000. Dans les deux cas, l'inadéquation entre la vitesse d'adoption et la vitesse de construction s'était traduite par des tensions tarifaires, des faillites et une recomposition des acteurs.

    Et vous ?

    La pénurie de calcul va-t-elle accélérer la consolidation du marché de l'IA ? Ou au contraire favoriser l'émergence de modèles plus légers et moins gourmands en ressources ?

    Le rationnement des tokens, tel que pratiqué par les entreprises de la filière, est-il une mesure transitoire acceptable, ou constitue-t-il un précédent dangereux qui risque de fragmenter l'accès à l'IA selon des logiques purement économiques ?

    Voir aussi :

    Les centres de données IA sont tellement gourmands en énergie qu'ils utilisent désormais d'anciens moteurs à réaction d'avions pour profiter d'une source d'énergie « flexible » et immédiatement disponible

    "Énergivore, l'IA fera-t-elle baisser notre consommation d'énergie ?", par Anne-Muriel Brouet
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo