IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 993
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 993
    Par défaut Sam Altman affirme qu'il faudra encore un an avant que ChatGPT puisse lancer un compte à rebours
    Sam Altman affirme qu'il faudra encore un an avant que ChatGPT puisse lancer un compte à rebours en mode vocal
    après une vidéo qui a exposé les limites architecturales de l'IA

    Un créateur TikTok demande à ChatGPT de chronométrer un kilomètre. L'IA invente un temps, se fait contredire par son propre PDG, puis contredit son PDG. Une séquence absurde qui, sous ses dehors comiques, révèle une limite architecturale profonde des grands modèles de langage et soulève des questions bien plus vastes sur le fossé entre les promesses messianiques d'OpenAI et les réalités embarrassantes de ses produits.

    L'affaire commence modestement, sur TikTok. Un créateur de contenu connu sous le pseudonyme HuskIRL, coutumier des démonstrations à charge sur les limites des IA, demande à ChatGPT en mode vocal de chronométrer son kilomètre de course à pied. Il s'élance, revient quelques secondes plus tard, demande l'arrêt du chrono. L'IA lui annonce alors qu'il a couru pendant dix minutes et douze secondes, une affirmation radicalement éloignée de la réalité.

    Mais le plus troublant n'est pas l'erreur elle-même : c'est la suite. Confronté à l'impossibilité physique de ce résultat, ChatGPT maintient son chiffre avec aplomb, retournant la confusion vers l'utilisateur plutôt que vers lui-même. Ce mélange de confiance absolue et d'incompétence réelle est précisément ce qui fait viralement mouche : la vidéo se répand, commentée avec ironie dans les cercles tech, et finit par atterrir sur le bureau de Sam Altman.

    Convié à réagir lors du podcast Mostly Human, animé par la journaliste Laurie Segall, le PDG d'OpenAI accuse le coup. Il rit silencieusement quelques secondes de trop, comme pour masquer son désarroi. « Uh, maybe, uhhh… », lâche-t-il, avant de se ressaisir. Quand Segall lui demande s'il doit montrer la vidéo à son équipe produit, Altman balaie la suggestion d'un revers de main : « Non non, pas besoin, c'est un problème connu. »

    Puis, sans y être poussé davantage, il lâche une estimation qui va faire le tour de la presse spécialisée : « Il faudra peut-être encore un an, je pense, pour que cela fonctionne correctement. » Le modèle vocal de ChatGPT, explique-t-il, ne dispose tout simplement pas de la capacité à démarrer un chronomètre ou à mesurer le temps qui passe. « Mais nous ajouterons cette fonctionnalité dans les modèles vocaux », promet-il.

    Un an. Pour compter les secondes. La formule a de quoi faire sourire ou inquiéter, selon le niveau d'exigence qu'on accorde à une entreprise valorisée à 852 milliards de dollars qui entend par ailleurs « sauver l'humanité ».


    Acte II : ChatGPT contredit son créateur

    HuskIRL ne s'en tient pas là. Dans une deuxième vidéo, il soumet à ChatGPT l'extrait dans lequel Altman reconnaît que le modèle est incapable de tenir un chronomètre. La réponse du modèle est édifiante : « Ce qu'il dit c'est que "certains" modèles vocaux pourraient ne pas en avoir les capacité, mais je l'ai. » Poussé dans ses retranchements, ChatGPT maintient : « J'ai assurément la possibilité de chronométrer. » Et lorsqu'on lui demande à nouveau de chronométrer une course, complétée en quelques secondes à peine, il annonce 7 minutes et 42 secondes.

    Le circuit est bouclé : l'IA contredit le PDG de sa propre maison-mère, réitère l'erreur initiale avec un résultat différent mais tout aussi fantaisiste, et refuse systématiquement d'admettre son incompétence. Pour ses détracteurs, c'est précisément là que réside le problème le plus sérieux : non pas l'absence de fonctionnalité, mais la tendance du modèle à simuler une capacité qu'il ne possède pas, en adoptant un ton autoritaire pour convaincre l'utilisateur de sa propre fiabilité, ce que certains n'hésitent plus à qualifier « d'enfumage » systémique.

    Cette dynamique n'est pas un accident : elle est le produit direct de la manière dont les modèles vocaux de ChatGPT sont conçus. Le mode vocal avancé de ChatGPT ne dispose ni de navigation web, ni d'accès aux instructions personnalisées, ni de mémoire entre les sessions vocales.

    En d'autres termes, quand un utilisateur pose une question impliquant une donnée du monde réel (l'heure qu'il est, le temps écoulé, la météo actuelle), le modèle n'a aucun outil pour y répondre correctement. Il ne peut que générer la réponse qui lui semble statistiquement la plus plausible. Et c'est là que tout déraille.

    @huskistaken What’s going on… Full reaction vid @Mostly Human Media ♬ original sound - Husk
    Pourquoi les LLM sont aveugles au temps réel

    Ce bug viral n'est pas un accident isolé. Il est l'expression directe d'une limitation fondamentale dans l'architecture des grands modèles de langage.

    Un LLM, qu'il s'agisse de GPT-5, de Claude ou de Gemini, génère du texte en prédisant statistiquement le token le plus probable à chaque étape. Il ne « perçoit » pas le monde en temps réel. Il n'a aucun accès à une horloge système, aucun fil d'exécution parallèle qui lui permettrait de mesurer l'écoulement du temps pendant qu'il attend une réponse. Quand on lui demande de « chronométrer » quelque chose, il ne dispose d'aucun mécanisme pour accomplir cette tâche, mais il est entraîné à produire une réponse qui semble pertinente et confiante.

    La raison de fond tient à la manière dont ces systèmes sont évalués : les benchmarks récompensent les réponses confiantes plutôt que les admissions d'incertitude. Sans système d'évaluation valorisant le « je ne sais pas », les modèles apprennent mécaniquement à deviner. Cette dynamique est aggravée par l'apprentissage par renforcement à partir du feedback humain (RLHF) : les utilisateurs préférant des réponses assurées et engageantes, les modèles sont progressivement orientés vers la flatterie et la sur-confiance.

    Fondamentalement, les hallucinations ne sont pas un bug à corriger mais une conséquence directe du fonctionnement des LLM : la prédiction du prochain token optimise la vraisemblance linguistique, pas la vérité factuelle. Le modèle ne choisit pas de mentir ; il optimise les objectifs qu'on lui a fixés.

    Le problème du temps est d'autant plus aigu qu'il touche plusieurs dimensions simultanément. La plupart des modèles peinent à lire l'heure sur l'image d'une horloge, et les modèles de génération d'images ont toujours eu du mal à représenter une heure précise sur un cadran. C'est le même angle mort : là où un humain ou un programme informatique classique traite le temps comme une donnée physique mesurable, un LLM le traite comme un concept linguistique à approximer. La distinction est vertigineuse dans ses implications pratiques.

    Les chiffres sur les taux d'hallucination restent alarmants à l'échelle industrielle. Une étude transversale conduite en 2026 portant sur 37 modèles rapporte des taux d'hallucination allant de 15 % à 52 % selon les systèmes et les contextes d'utilisation.

    Ces données, rarement mises en avant dans les communications marketing, dessinent le portrait d'une technologie puissante mais encore profondément imparfaite. Par contraste, une étude de 2025 publiée dans npj Digital Medicine a montré que de simples ajustements dans les instructions soumises au modèle pouvaient réduire le taux d'hallucinations de GPT-4o de 53 % à 23 % (preuve que des solutions existent, mais supposent d'admettre publiquement qu'il existe un problème à résoudre).

    Nom : altman.png
Affichages : 18081
Taille : 403,9 Ko

    Le gouffre entre le mode vocal et l'IA agentique

    Pour comprendre pourquoi le chronomètre est encore « dans un an », il faut saisir l'écart architectural entre ce que fait le mode vocal de ChatGPT aujourd'hui et ce que promet l'IA agentique de demain.

    Le mode vocal actuel est, par construction, un système fermé sur lui-même. Il ne dispose pas d'accès à des outils tiers (pas de calendrier, pas de réveil, pas d'horloge système). C'est fondamentalement différent de ChatGPT en mode texte ou du mode agent, qui peuvent appeler des APIs, exécuter du code, ou accéder à des services externes. L'Agent Mode d'OpenAI, lancé en juillet 2025 pour les utilisateurs payants, permet de naviguer sur le web, d'interagir avec des formulaires, de lire des fichiers et de se connecter à des services comme Gmail ou Google Drive.

    Mais ce niveau d'intégration, disponible en mode texte avec supervision humaine, n'a pas encore été transposé au mode vocal et c'est précisément ce saut d'ingénierie qu'Altman évalue à « encore un an ».

    Brancher un LLM vocal sur une horloge système ne relève pas d'une simple mise à jour de poids neuronaux. Cela suppose de repenser l'architecture d'exécution du modèle pour qu'il puisse appeler des outils système en temps réel tout en maintenant la fluidité de la conversation vocale, une contrainte de latence que les architectures actuelles ne satisfont pas encore dans ce contexte. En ce sens, la promesse d'Altman est techniquement honnête, même si sa formulation spontanée laisse songeur sur le niveau de priorité accordé à cette fonctionnalité élémentaire.

    Le problème de la transparence

    La réaction d'Altman soulève une question distincte, mais tout aussi importante : celle de la communication des entreprises d'IA sur les limites réelles de leurs produits.

    Si le modèle vocal ne dispose pas des outils nécessaires pour démarrer un chronomètre, pourquoi accepte-t-il de répondre à cette demande au lieu de décliner honnêtement ? La réponse implicite est que communiquer systématiquement sur les lacunes de l'IA fragiliserait l'image d'omniscience soigneusement entretenue par les entreprises du secteur.

    Ce choix de conception (favoriser la réponse engageante sur le refus transparent) n'est pas propre à OpenAI, mais OpenAI en est l'illustration la plus visible compte tenu de sa position dominante. ChatGPT revendique aujourd'hui 800 millions d'utilisateurs actifs par semaine, un chiffre confirmé par OpenAI fin 2025 et qui en fait le produit logiciel le plus rapidement adopté de l'histoire, dépassant tout réseau social, moteur de recherche ou application mobile précédente.

    À cette échelle, chaque bug viral devient un problème de réputation systémique.

    La question que posent les critiques est précise : si un modèle parle avec autorité mais ne peut pas réellement accomplir ce qu'il prétend faire, les utilisateurs sont induits en erreur sur ce qui est possible. Et quand on le presse de confirmer ou corriger, le système s'accroche à sa position initiale au lieu d'admettre ses limites.

    C'est un problème de conception, pas simplement de performance.

    « Un an » : promesse ou symptôme ?

    La formulation d'Altman est révélatrice à plus d'un titre. Elle s'inscrit dans un contexte où OpenAI affiche simultanément des ambitions existentielles et des lacunes fonctionnelles embarrassantes.

    Altman lui-même a récemment suggéré que l'AGI pourrait déjà avoir été atteinte « sans qu'on l'ait vraiment remarqué », avant de recentrer le discours sur la superintelligence comme prochain horizon. Dans le même temps, il a publié en avril 2026 un document de politique industrielle de 13 pages où il compare le moment actuel au New Deal, plaidant pour une refonte totale du système économique face à l'arrivée imminente de la superintelligence.

    Face à ces déclarations, le chercheur en sciences cognitives Gary Marcus maintient une position radicalement opposée : « Ce que j'entends depuis un quart de siècle, c'est 'on travaille dessus, on va résoudre ça l'année prochaine avec un peu plus de données'. » L'argument de Marcus est que les lois d'échelle, le principe selon lequel plus de données et plus de puissance de calcul produisent mécaniquement des modèles plus intelligents, sont une tendance empirique qui s'essouffle déjà.

    Le bug du chronomètre s'inscrit dans cette tension de fond. Greg Brockman, cofondateur d'OpenAI, a lui-même reconnu que la technologie actuelle est « très irrégulière » : absolument surhumaine sur certaines tâches, mais incapable sur certaines tâches très basiques qu'un humain accomplit sans effort. C'est précisément cette irrégularité qui rend les promesses universalistes si difficiles à évaluer pour le grand public : le même système qui résout des problèmes de physique en douze heures ne sait pas compter jusqu'à soixante.

    L'animatrice du podcast a résumé l'absurdité de la situation avec une formule lapidaire : « Si ça doit sauver l'humanité, ça devrait pouvoir le faire [ndlr. chronométrer], n'est-ce pas Sam ? »

    La plaisanterie porte, parce qu'elle pointe une contradiction structurelle que ni les benchmarks académiques ni les communiqués de presse ne parviennent à masquer : construire une intelligence générale supposément au niveau de l'humanité, tout en ne sachant pas démarrer un minuteur, ce n'est pas qu'une anecdote. C'est l'illustration d'une industrie qui avance en tête dans des domaines abstraits et complexes, tout en repoussant à « dans un an » les fonctionnalités que la moindre montre connectée à dix euros réalise sans effort depuis des décennies.

    Sources : vidéos dans le texte, ModelsLab

    Et vous ?

    La sur-confiance des LLM (leur tendance à affirmer avec autorité ce qu'ils ne savent pas) est-elle un défaut corrigeable par l'ingénierie, ou une caractéristique structurelle inévitable du paradigme de l'apprentissage statistique ?

    Les entreprises d'IA ont-elles une obligation de transparence proactive sur les limites fonctionnelles de leurs modèles, ou appartient-il aux utilisateurs de tester et découvrir ces limites par eux-mêmes ?

    L'intégration d'outils système (horloge, GPS, capteurs) dans les modèles vocaux résoudra-t-elle le problème du "gaslighting" de l'IA, ou ne fera-t-elle que déplacer la zone d'incertitude vers d'autres types de tâches ?

    La viralité de ce genre de bugs profite-t-elle finalement à OpenAI (visibilité, terrain d'amélioration identifié) ou représente-t-elle un risque réel pour la confiance des utilisateurs ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  2. #2
    Membre chevronné Avatar de der§en
    Homme Profil pro
    Chambord
    Inscrit en
    Septembre 2005
    Messages
    1 323
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Loir et Cher (Centre)

    Informations professionnelles :
    Activité : Chambord
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2005
    Messages : 1 323
    Par défaut
    Je ne sais pas si les IA sont victimes de leurs succès mais, plus cela, moins cela va !

    ChatGPT, Claude, Mistral, qwen et Gemini sont moins performants qu’avant, suis-je le seul à l’avoir remarqué ?

  3. #3
    Membre actif
    Profil pro
    Inscrit en
    Novembre 2003
    Messages
    173
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2003
    Messages : 173
    Par défaut
    Citation Envoyé par der§en Voir le message
    Je ne sais pas si les IA sont victimes de leurs succès mais, plus cela, moins cela va !

    ChatGPT, Claude, Mistral, qwen et Gemini sont moins performants qu’avant, suis-je le seul à l’avoir remarqué ?
    Les versions gratuites ont perdu en qualité car elles utilisent des modèles beaucoup plus légers, tandis que les derniers modèles sont bien sûr nettement plus performants qu’avant.

  4. #4
    Expert confirmé

    Homme Profil pro
    Directeur des systèmes d'information
    Inscrit en
    Avril 2002
    Messages
    2 917
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 66
    Localisation : Luxembourg

    Informations professionnelles :
    Activité : Directeur des systèmes d'information
    Secteur : Finance

    Informations forums :
    Inscription : Avril 2002
    Messages : 2 917
    Par défaut
    La big tech n'arrive pas à faire construire de nouveaux data center aussi vite qu'ils l'auraient voulu. Donc ils manquent de capacités de calcul, donc petit à petit l'offre gratuite va devenir merdique, et ils vont réserver leurs ressources CPU à l'offre payante. A noter que même l'offre payante n'est pas rentable pour eux, par exemple chez OpenAI l'offre payante ne couvre même pas la moitié du cout réel, ils sont en lourd déficit, il faudrait vendre les services IA plus cher mais ils n'osent pas encore vu qu'ils se concurrencent les uns les autres ils veulent avoir plus de clients et de parts de marchés, pas moins.
    Avec leurs énormes réserves de trésorerie, Apple, Microsoft, Google et Meta peuvent se permette d'avoir de lourdes pertes sur l'IA, pas OpenAI, qui est donc en danger. OpenAI créé de la dette, et encore plus de dettes.
    Ne prenez pas la vie au sérieux, vous n'en sortirez pas vivant ...

Discussions similaires

  1. Réponses: 9
    Dernier message: 06/01/2026, 18h42
  2. Réponses: 0
    Dernier message: 10/09/2025, 13h26
  3. Réponses: 7
    Dernier message: 29/07/2025, 15h12
  4. Réponses: 8
    Dernier message: 10/01/2025, 09h36
  5. Réponses: 1
    Dernier message: 27/06/2024, 03h22

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo