Sam Altman affirme qu'il faudra encore un an avant que ChatGPT puisse lancer un compte à rebours en mode vocal
après une vidéo qui a exposé les limites architecturales de l'IA
Un créateur TikTok demande à ChatGPT de chronométrer un kilomètre. L'IA invente un temps, se fait contredire par son propre PDG, puis contredit son PDG. Une séquence absurde qui, sous ses dehors comiques, révèle une limite architecturale profonde des grands modèles de langage et soulève des questions bien plus vastes sur le fossé entre les promesses messianiques d'OpenAI et les réalités embarrassantes de ses produits.
L'affaire commence modestement, sur TikTok. Un créateur de contenu connu sous le pseudonyme HuskIRL, coutumier des démonstrations à charge sur les limites des IA, demande à ChatGPT en mode vocal de chronométrer son kilomètre de course à pied. Il s'élance, revient quelques secondes plus tard, demande l'arrêt du chrono. L'IA lui annonce alors qu'il a couru pendant dix minutes et douze secondes, une affirmation radicalement éloignée de la réalité.
Mais le plus troublant n'est pas l'erreur elle-même : c'est la suite. Confronté à l'impossibilité physique de ce résultat, ChatGPT maintient son chiffre avec aplomb, retournant la confusion vers l'utilisateur plutôt que vers lui-même. Ce mélange de confiance absolue et d'incompétence réelle est précisément ce qui fait viralement mouche : la vidéo se répand, commentée avec ironie dans les cercles tech, et finit par atterrir sur le bureau de Sam Altman.
Convié à réagir lors du podcast Mostly Human, animé par la journaliste Laurie Segall, le PDG d'OpenAI accuse le coup. Il rit silencieusement quelques secondes de trop, comme pour masquer son désarroi. « Uh, maybe, uhhh… », lâche-t-il, avant de se ressaisir. Quand Segall lui demande s'il doit montrer la vidéo à son équipe produit, Altman balaie la suggestion d'un revers de main : « Non non, pas besoin, c'est un problème connu. »
Puis, sans y être poussé davantage, il lâche une estimation qui va faire le tour de la presse spécialisée : « Il faudra peut-être encore un an, je pense, pour que cela fonctionne correctement. » Le modèle vocal de ChatGPT, explique-t-il, ne dispose tout simplement pas de la capacité à démarrer un chronomètre ou à mesurer le temps qui passe. « Mais nous ajouterons cette fonctionnalité dans les modèles vocaux », promet-il.
Un an. Pour compter les secondes. La formule a de quoi faire sourire ou inquiéter, selon le niveau d'exigence qu'on accorde à une entreprise valorisée à 852 milliards de dollars qui entend par ailleurs « sauver l'humanité ».
Acte II : ChatGPT contredit son créateur
HuskIRL ne s'en tient pas là. Dans une deuxième vidéo, il soumet à ChatGPT l'extrait dans lequel Altman reconnaît que le modèle est incapable de tenir un chronomètre. La réponse du modèle est édifiante : « Ce qu'il dit c'est que "certains" modèles vocaux pourraient ne pas en avoir les capacité, mais je l'ai. » Poussé dans ses retranchements, ChatGPT maintient : « J'ai assurément la possibilité de chronométrer. » Et lorsqu'on lui demande à nouveau de chronométrer une course, complétée en quelques secondes à peine, il annonce 7 minutes et 42 secondes.
Le circuit est bouclé : l'IA contredit le PDG de sa propre maison-mère, réitère l'erreur initiale avec un résultat différent mais tout aussi fantaisiste, et refuse systématiquement d'admettre son incompétence. Pour ses détracteurs, c'est précisément là que réside le problème le plus sérieux : non pas l'absence de fonctionnalité, mais la tendance du modèle à simuler une capacité qu'il ne possède pas, en adoptant un ton autoritaire pour convaincre l'utilisateur de sa propre fiabilité, ce que certains n'hésitent plus à qualifier « d'enfumage » systémique.
Cette dynamique n'est pas un accident : elle est le produit direct de la manière dont les modèles vocaux de ChatGPT sont conçus. Le mode vocal avancé de ChatGPT ne dispose ni de navigation web, ni d'accès aux instructions personnalisées, ni de mémoire entre les sessions vocales.
En d'autres termes, quand un utilisateur pose une question impliquant une donnée du monde réel (l'heure qu'il est, le temps écoulé, la météo actuelle), le modèle n'a aucun outil pour y répondre correctement. Il ne peut que générer la réponse qui lui semble statistiquement la plus plausible. Et c'est là que tout déraille.
Pourquoi les LLM sont aveugles au temps réel@huskistaken What’s going on… Full reaction vid @Mostly Human Media ♬ original sound - Husk
Ce bug viral n'est pas un accident isolé. Il est l'expression directe d'une limitation fondamentale dans l'architecture des grands modèles de langage.
Un LLM, qu'il s'agisse de GPT-5, de Claude ou de Gemini, génère du texte en prédisant statistiquement le token le plus probable à chaque étape. Il ne « perçoit » pas le monde en temps réel. Il n'a aucun accès à une horloge système, aucun fil d'exécution parallèle qui lui permettrait de mesurer l'écoulement du temps pendant qu'il attend une réponse. Quand on lui demande de « chronométrer » quelque chose, il ne dispose d'aucun mécanisme pour accomplir cette tâche, mais il est entraîné à produire une réponse qui semble pertinente et confiante.
La raison de fond tient à la manière dont ces systèmes sont évalués : les benchmarks récompensent les réponses confiantes plutôt que les admissions d'incertitude. Sans système d'évaluation valorisant le « je ne sais pas », les modèles apprennent mécaniquement à deviner. Cette dynamique est aggravée par l'apprentissage par renforcement à partir du feedback humain (RLHF) : les utilisateurs préférant des réponses assurées et engageantes, les modèles sont progressivement orientés vers la flatterie et la sur-confiance.
Fondamentalement, les hallucinations ne sont pas un bug à corriger mais une conséquence directe du fonctionnement des LLM : la prédiction du prochain token optimise la vraisemblance linguistique, pas la vérité factuelle. Le modèle ne choisit pas de mentir ; il optimise les objectifs qu'on lui a fixés.
Le problème du temps est d'autant plus aigu qu'il touche plusieurs dimensions simultanément. La plupart des modèles peinent à lire l'heure sur l'image d'une horloge, et les modèles de génération d'images ont toujours eu du mal à représenter une heure précise sur un cadran. C'est le même angle mort : là où un humain ou un programme informatique classique traite le temps comme une donnée physique mesurable, un LLM le traite comme un concept linguistique à approximer. La distinction est vertigineuse dans ses implications pratiques.
Les chiffres sur les taux d'hallucination restent alarmants à l'échelle industrielle. Une étude transversale conduite en 2026 portant sur 37 modèles rapporte des taux d'hallucination allant de 15 % à 52 % selon les systèmes et les contextes d'utilisation.
Ces données, rarement mises en avant dans les communications marketing, dessinent le portrait d'une technologie puissante mais encore profondément imparfaite. Par contraste, une étude de 2025 publiée dans npj Digital Medicine a montré que de simples ajustements dans les instructions soumises au modèle pouvaient réduire le taux d'hallucinations de GPT-4o de 53 % à 23 % (preuve que des solutions existent, mais supposent d'admettre publiquement qu'il existe un problème à résoudre).
Le gouffre entre le mode vocal et l'IA agentique
Pour comprendre pourquoi le chronomètre est encore « dans un an », il faut saisir l'écart architectural entre ce que fait le mode vocal de ChatGPT aujourd'hui et ce que promet l'IA agentique de demain.
Le mode vocal actuel est, par construction, un système fermé sur lui-même. Il ne dispose pas d'accès à des outils tiers (pas de calendrier, pas de réveil, pas d'horloge système). C'est fondamentalement différent de ChatGPT en mode texte ou du mode agent, qui peuvent appeler des APIs, exécuter du code, ou accéder à des services externes. L'Agent Mode d'OpenAI, lancé en juillet 2025 pour les utilisateurs payants, permet de naviguer sur le web, d'interagir avec des formulaires, de lire des fichiers et de se connecter à des services comme Gmail ou Google Drive.
Mais ce niveau d'intégration, disponible en mode texte avec supervision humaine, n'a pas encore été transposé au mode vocal et c'est précisément ce saut d'ingénierie qu'Altman évalue à « encore un an ».
Brancher un LLM vocal sur une horloge système ne relève pas d'une simple mise à jour de poids neuronaux. Cela suppose de repenser l'architecture d'exécution du modèle pour qu'il puisse appeler des outils système en temps réel tout en maintenant la fluidité de la conversation vocale, une contrainte de latence que les architectures actuelles ne satisfont pas encore dans ce contexte. En ce sens, la promesse d'Altman est techniquement honnête, même si sa formulation spontanée laisse songeur sur le niveau de priorité accordé à cette fonctionnalité élémentaire.
Le problème de la transparence
La réaction d'Altman soulève une question distincte, mais tout aussi importante : celle de la communication des entreprises d'IA sur les limites réelles de leurs produits.
Si le modèle vocal ne dispose pas des outils nécessaires pour démarrer un chronomètre, pourquoi accepte-t-il de répondre à cette demande au lieu de décliner honnêtement ? La réponse implicite est que communiquer systématiquement sur les lacunes de l'IA fragiliserait l'image d'omniscience soigneusement entretenue par les entreprises du secteur.
Ce choix de conception (favoriser la réponse engageante sur le refus transparent) n'est pas propre à OpenAI, mais OpenAI en est l'illustration la plus visible compte tenu de sa position dominante. ChatGPT revendique aujourd'hui 800 millions d'utilisateurs actifs par semaine, un chiffre confirmé par OpenAI fin 2025 et qui en fait le produit logiciel le plus rapidement adopté de l'histoire, dépassant tout réseau social, moteur de recherche ou application mobile précédente.
À cette échelle, chaque bug viral devient un problème de réputation systémique.
La question que posent les critiques est précise : si un modèle parle avec autorité mais ne peut pas réellement accomplir ce qu'il prétend faire, les utilisateurs sont induits en erreur sur ce qui est possible. Et quand on le presse de confirmer ou corriger, le système s'accroche à sa position initiale au lieu d'admettre ses limites.
C'est un problème de conception, pas simplement de performance.
« Un an » : promesse ou symptôme ?
La formulation d'Altman est révélatrice à plus d'un titre. Elle s'inscrit dans un contexte où OpenAI affiche simultanément des ambitions existentielles et des lacunes fonctionnelles embarrassantes.
Altman lui-même a récemment suggéré que l'AGI pourrait déjà avoir été atteinte « sans qu'on l'ait vraiment remarqué », avant de recentrer le discours sur la superintelligence comme prochain horizon. Dans le même temps, il a publié en avril 2026 un document de politique industrielle de 13 pages où il compare le moment actuel au New Deal, plaidant pour une refonte totale du système économique face à l'arrivée imminente de la superintelligence.
Face à ces déclarations, le chercheur en sciences cognitives Gary Marcus maintient une position radicalement opposée : « Ce que j'entends depuis un quart de siècle, c'est 'on travaille dessus, on va résoudre ça l'année prochaine avec un peu plus de données'. » L'argument de Marcus est que les lois d'échelle, le principe selon lequel plus de données et plus de puissance de calcul produisent mécaniquement des modèles plus intelligents, sont une tendance empirique qui s'essouffle déjà.
Le bug du chronomètre s'inscrit dans cette tension de fond. Greg Brockman, cofondateur d'OpenAI, a lui-même reconnu que la technologie actuelle est « très irrégulière » : absolument surhumaine sur certaines tâches, mais incapable sur certaines tâches très basiques qu'un humain accomplit sans effort. C'est précisément cette irrégularité qui rend les promesses universalistes si difficiles à évaluer pour le grand public : le même système qui résout des problèmes de physique en douze heures ne sait pas compter jusqu'à soixante.
L'animatrice du podcast a résumé l'absurdité de la situation avec une formule lapidaire : « Si ça doit sauver l'humanité, ça devrait pouvoir le faire [ndlr. chronométrer], n'est-ce pas Sam ? »
La plaisanterie porte, parce qu'elle pointe une contradiction structurelle que ni les benchmarks académiques ni les communiqués de presse ne parviennent à masquer : construire une intelligence générale supposément au niveau de l'humanité, tout en ne sachant pas démarrer un minuteur, ce n'est pas qu'une anecdote. C'est l'illustration d'une industrie qui avance en tête dans des domaines abstraits et complexes, tout en repoussant à « dans un an » les fonctionnalités que la moindre montre connectée à dix euros réalise sans effort depuis des décennies.
Sources : vidéos dans le texte, ModelsLab
Et vous ?
La sur-confiance des LLM (leur tendance à affirmer avec autorité ce qu'ils ne savent pas) est-elle un défaut corrigeable par l'ingénierie, ou une caractéristique structurelle inévitable du paradigme de l'apprentissage statistique ?
Les entreprises d'IA ont-elles une obligation de transparence proactive sur les limites fonctionnelles de leurs modèles, ou appartient-il aux utilisateurs de tester et découvrir ces limites par eux-mêmes ?
L'intégration d'outils système (horloge, GPS, capteurs) dans les modèles vocaux résoudra-t-elle le problème du "gaslighting" de l'IA, ou ne fera-t-elle que déplacer la zone d'incertitude vers d'autres types de tâches ?
La viralité de ce genre de bugs profite-t-elle finalement à OpenAI (visibilité, terrain d'amélioration identifié) ou représente-t-elle un risque réel pour la confiance des utilisateurs ?







La sur-confiance des LLM (leur tendance à affirmer avec autorité ce qu'ils ne savent pas) est-elle un défaut corrigeable par l'ingénierie, ou une caractéristique structurelle inévitable du paradigme de l'apprentissage statistique ?
Répondre avec citation








Partager