L'IA en entreprise court à la catastrophe : code défaillant, hallucinations facturées au prix fort.
Comment les entreprises mesurent tout sauf ce qui compte vraiment
Entre métriques trompeuses, code défaillant et rapports truffés d'hallucinations, les professionnels de l'IA commencent à décrire l'écart béant entre la promesse de la technologie et son déploiement réel. Un secteur entier, de la grande consultation aux équipes d'ingénierie, s'apprête à affronter une facture que personne ne veut encore regarder en face.
Dorian Smiley et Connor Deeks sont co-fondateurs de Codestrap, une société de conseil spécialisée en stratégie d'intelligence artificielle. Tous deux ont fait leurs armes chez PwC, l'un des quatre grands cabinets d'audit mondiaux. Leur verdict, formulé dans une interview accordée à The Register en mars 2026, est sans appel : personne ne sait vraiment comment intégrer l'IA dans son organisation. « Personne ne connaît les bonnes architectures de référence ou les bons cas d'usage pour son institution », reconnaît Smiley. « Beaucoup font semblant de le savoir. Mais il n'existe pas de guide à suivre. »
Cette absence de méthode n'est pas anodine. Elle traduit une réalité que le secteur peine à formuler : l'enthousiasme affiché par les directions est souvent de la mise en scène, une réponse à la pression des marchés financiers et des conseils d'administration, davantage qu'une transformation réelle des processus métier. Selon Deeks, si on construisait un système d'IA en repartant de zéro, il ressemblerait bien peu à ce qui est proposé aujourd'hui. Tout le discours sur la disparition des métiers d'ingénierie ou du travail de bureau, dit-il, « nous n'y souscrivons pas ».
Ce constat rejoint les données du terrain. D'après une étude de Lucidworks portant sur plus de 1 600 responsables IA et 1 100 entreprises, plus de sept organisations sur dix ont introduit l'IA générative dans leurs opérations. Pourtant, seulement 6 % ont pleinement déployé l'IA agentique, qui représente la prochaine étape de l'automatisation intelligente. L'adoption de surface est massive ; la transformation profonde, rarissime.
Des métriques qui mesurent tout sauf ce qui compte
Le problème fondamental que soulèvent Smiley et Deeks tient à la manière dont les organisations évaluent le succès de leurs déploiements d'IA. Dans le domaine du développement logiciel, les entreprises se félicitent d'une augmentation du nombre de lignes de code produites ou du volume de demandes de fusion (pull requests) traitées. Ce sont précisément les mauvaises métriques.
« Le code peut sembler correct, passer tous les tests unitaires, et être néanmoins défaillant », explique Smiley. « La façon de mesurer cela passe par des tests de performance. Beaucoup d'entreprises n'ont pas encore mis en place la boucle de retour nécessaire pour évaluer l'impact réel de la programmation assistée par IA sur les résultats qui leur importent. Les lignes de code, le nombre de demandes de fusion : ce sont des passifs, pas des indicateurs d'excellence technique. »
Les véritables métriques du génie logiciel sont d'un autre ordre : fréquence de déploiement en production, délai entre la conception et la mise en service, taux d'échec des modifications, temps moyen de rétablissement après incident. Smiley insiste : il nous faut un nouvel ensemble d'indicateurs pour mesurer l'impact de l'IA sur la performance des équipes d'ingénierie. « Nous ne savons pas encore quels sont ces indicateurs. »
Les chiffres disponibles renforcent son inquiétude. Selon une analyse de 2026 portant sur des systèmes en production, le code généré par IA introduit 1,7 fois plus de problèmes que le code écrit par des humains. Les erreurs de maintenabilité sont 1,64 fois plus fréquentes, les erreurs logiques 1,75 fois plus répandues, et les failles de sécurité augmentent d'un facteur 1,57 dans les bases de code où l'IA est fortement sollicitée. Le sentiment positif à l'égard des outils de programmation assistée par IA est d'ailleurs passé sous la barre des 60 % en 2025, contre plus de 70 % les années précédentes.
SQLite réécrit en Rust : un cas d'école dévastateur
Pour illustrer concrètement les dérives de cette mécanique, Smiley cite l'exemple d'une tentative de réécriture de SQLite en langage Rust, entièrement pilotée par une IA. Le résultat ? Un code 3,7 fois plus volumineux que l'original, affichant des performances 2 000 fois inférieures. « Pour une base de données, des performances 2 000 fois inférieures, c'est un produit non viable. On jette tout ça à la poubelle. Tout l'argent investi ne vaut rien. »
Ce cas illustre l'un des angles morts les plus préoccupants de l'IA appliquée à l'ingénierie logicielle : les modèles de langage n'ont pas la capacité d'évaluer eux-mêmes la qualité de leur production. « Un modèle ne peut pas relire son propre travail. Il ne sait pas si la réponse qu'il vous a donnée est juste. Ce sont des problèmes fondamentaux que personne n'a résolus dans la technologie des grands modèles de langage (LLM). Et vous voulez me dire que ça ne va pas se manifester dans des problèmes de qualité du code ? Bien sûr que ça va se manifester. »
À cela s'ajoute la non-déterminisme des modèles de raisonnement : la passe en avant à travers les réseaux de neurones produit des résultats différents à chaque exécution, en particulier pour les modèles qui mobilisent un monologue interne pour augmenter l'efficacité de la prédiction du prochain token. Autrement dit, demander deux fois la même chose à un modèle de raisonnement peut donner deux réponses différentes — sans que le système en soit conscient.
La grande consultation face à ses propres hallucinations
Si ces problèmes concernent en premier lieu les équipes techniques, les firmes de conseil ne sont pas épargnées. L'affaire Deloitte Australie, révélée à l'été 2025, reste à ce jour l'exemple le plus documenté de l'échec à grande échelle de la supervision humaine dans les processus de production assistée par IA.
Deloitte Australie a partiellement remboursé les 440 000 dollars australiens versés par le gouvernement pour un rapport de 237 pages truffé d'erreurs : une citation fabriquée à partir d'un jugement d'un tribunal fédéral, des références à des articles de recherche universitaires inexistants. C'est le chercheur australien Chris Rudge, de l'Université de Sydney, qui a donné l'alerte, relevant une vingtaine d'anomalies et soupçonnant les hallucinations typiques d'un modèle de langage. L'enquête interne a confirmé que le cabinet avait utilisé Azure OpenAI GPT-4o pour rédiger ce document d'audit censé évaluer la conformité juridique du système informatique automatisant les sanctions du régime d'aide sociale.
L'ironie de la situation n'a échappé à personne : le même jour où il était contraint au remboursement partiel, Deloitte signait un partenariat avec Anthropic pour déployer le modèle Claude auprès de l'ensemble de ses 450 000 employés dans le monde. Un pied dans le scandale, l'autre dans le prochain contrat IA.
Deeks, chez Codestrap, voit dans cet épisode le signe d'une tendance systémique. « Les grands cabinets de conseil adoptent désormais l'IA à grande échelle pour rédiger leurs présentations et leurs analyses. Ça va se traduire par des procès retentissants et des pertes financières importantes, parce que la qualité n'est tout simplement pas surveillée. Tout le monde a cru à la fable que c'était déjà parfait. »
Des incitations structurellement incompatibles avec la qualité
Pourquoi les organisations ne corrigent-elles pas d'elles-mêmes ces dérives ? La réponse de Smiley tient à l'alignement des incitations à l'intérieur des grandes structures professionnelles. Dans les grands cabinets comme PwC, l'associé veut davantage de chiffre d'affaires et de marges plus élevées. Donner accès à l'IA sans imposer une relecture systématique des sorties n'est pas une décision irrationnelle : c'est la rationalité économique qui l'emporte sur la rigueur. Le directeur cessera de consulter les analystes pour confier leur travail à l'IA. L'analyste, lui, cherchera à boucler la tâche plus vite pour s'accorder du temps libre. « Ces incitations ne s'alignent pas d'une façon qui rende l'IA complémentaire à l'activité et génératrice de valeur. »
Cette tension entre incitations économiques et exigences de qualité se retrouve dans les données sectorielles. En 2025, les entreprises mondiales ont investi 684 milliards de dollars dans des initiatives d'IA. À la fin de l'année, plus de 547 milliards, soit plus de 80 % de cette somme, n'avaient pas produit la valeur escomptée. Parmi les obstacles à l'adoption identifiés dans une vaste enquête sectorielle, 73 % des projets échouent faute d'indicateurs de performance clairs, et 68 % souffrent d'un sous-investissement dans les fondations techniques.
L'assurance : le signal d'alarme que personne n'entend
L'un des points les plus significatifs de l'analyse de Codestrap concerne un acteur rarement évoqué dans les débats sur l'IA : les compagnies d'assurance. Des souscripteurs de grands assureurs cherchent activement à exclure de leurs polices les sinistres liés à des flux de travail faisant appel à l'IA, dès lors qu'il n'existe pas de chaîne de responsabilité clairement établie. Si les systèmes d'IA sont vraiment aussi efficaces qu'on le prétend, pourquoi les assureurs déploient-ils tant d'efforts pour refuser de couvrir les risques associés ? Ils sont généralement assez bons pour établir des profils de risque. »
Des lobbyistes sectoriels se déploieraient déjà auprès des régulateurs d'assurance au niveau des États américains pour obtenir des exemptions dans les polices de responsabilité commerciale. Si ces démarches aboutissent, les entreprises qui auront massivement déployé l'IA sans gouvernance sérieuse pourraient se retrouver exposées à des sinistres non couverts au moment même où les premières vagues de défaillances se matérialiseront.
L'échéance : dans huit à neuf mois
La temporalité n'est pas floue dans l'analyse de Codestrap. Smiley anticipe des « problèmes liés à la qualité du code qui feront surface dans huit à neuf mois pour les utilisateurs intensifs d'IA ». Deeks, lui, prévoit une multiplication des procédures judiciaires, parce que c'est ce qui arrive invariablement quand de mauvais conseils causent des dégâts.
À plus court terme, une autre pression s'exerce déjà : la déflation tarifaire. Les entreprises commencent à réclamer des remises aux prestataires de services dès lors qu'elles savent que ces derniers utilisent l'IA pour produire leurs livrables. KPMG aurait déjà subi cette pression de la part d'un autre cabinet comptable qui a exigé une baisse de tarif en arguant de l'usage d'outils d'IA.
Ce mouvement est logique et probablement irréversible : si l'IA compresse le temps de production, pourquoi le client paierait-il le même prix qu'auparavant ? La valeur perçue du travail intellectuel se trouve ainsi structurellement menacée, non par l'IA en tant que telle, mais par l'opacité dans laquelle elle est déployée.
La lucidité de Deeks sur ce point mérite d'être citée : ce qu'il réclame n'est pas un moratoire sur l'IA, mais une conversation honnête. « Peut-on réellement en parler ? Est-ce que quelqu'un va évoquer l'opposé de l'intelligence artificielle générale et de son avenir utopique ? » Une question que beaucoup évitent, parce que les capitalisations boursières, les stratégies de communication d'entreprise et les discours de conférences technologiques en dépendent.
L'IA n'est pas en train d'échouer parce qu'elle est mauvaise. Elle est en train d'échouer parce que les organisations la déploient sans métriques, sans supervision et sans chaîne de responsabilité et que les systèmes d'incitations en place les poussent à continuer.
Sources : Lucidworks, Second Talent, Pertama Partners, interview de Dorian Smiley et Connor Deeks, SQLite réécrit en Rust
Et vous ?
Les métriques traditionnelles du génie logiciel (nombre de lignes de code, volume de demandes de fusion) sont-elles structurellement incompatibles avec l'évaluation de la qualité du code généré par IA, ou peut-on les adapter ?
L'affaire Deloitte Australie constitue-t-elle un cas isolé ou le premier symptôme visible d'une épidémie silencieuse de livrables professionnels dégradés par des hallucinations non détectées ?
Si les assureurs refusent de couvrir les risques liés à l'IA, qui portera la responsabilité juridique et financière des défaillances à venir — les éditeurs de modèles, les intégrateurs ou les entreprises clientes ?
La pression tarifaire exercée par les clients qui savent que leurs prestataires utilisent l'IA va-t-elle accélérer une course vers le bas en matière de qualité, ou au contraire forcer le secteur à formaliser des standards de gouvernance ?
Dans quelle mesure le discours dominant sur l'IA, porté par des entreprises dont la valorisation boursière dépend de l'enthousiasme des marchés, constitue-t-il lui-même un obstacle à une évaluation sérieuse des risques ?










Les métriques traditionnelles du génie logiciel (nombre de lignes de code, volume de demandes de fusion) sont-elles structurellement incompatibles avec l'évaluation de la qualité du code généré par IA, ou peut-on les adapter ?
Répondre avec citation















à tous,

Partager