IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Une étude montre pourquoi les LLM à raisonnement simulé ne sont pas encore à la hauteur de leur réputation


Sujet :

Intelligence artificielle

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    2 387
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 2 387
    Par défaut Une étude montre pourquoi les LLM à raisonnement simulé ne sont pas encore à la hauteur de leur réputation
    L'IA obtient la médaille d'argent en résolvant les problèmes des Olympiades internationales de mathématiques, avec les systèmes AlphaProof et AlphaGeometry 2 de Google DeepMind.

    Google DeepMind annonce que ses modèles AlphaProof et AlphaGeometry 2 ont permis à l'IA d'obtenir la médaille d'argent en résolvant les problèmes des Olympiades internationales de mathématiques. AlphaProof est un nouveau système d'apprentissage par renforcement pour le raisonnement mathématique formel, tandis qu'AlphaGeometry 2 est un système de résolution de géométrie. Les systèmes d'IA ont résolu un problème en quelques minutes et ont mis jusqu'à trois jours pour résoudre les autres.

    L'intelligence artificielle (IA), dans son sens le plus large, est l'intelligence dont font preuve les machines, en particulier les systèmes informatiques. Les objectifs de la recherche en IA comprennent le raisonnement, la représentation des connaissances, l'apprentissage, le traitement du langage naturel, ainsi que l'intelligence artificielle générale (AGI), c'est-à-dire la capacité d'accomplir toute tâche réalisable par un humain à un niveau au moins égal. Pour atteindre ces objectifs, les chercheurs en IA ont adapté et intégré un large éventail de techniques, notamment la recherche et l'optimisation mathématique, la logique formelle, les réseaux neuronaux artificiels et les méthodes fondées sur les statistiques, la recherche opérationnelle et l'économie.

    Parmi les acteurs majeurs de la recherche en IA, il y a Google DeepMind, un laboratoire de recherche en IA qui sert de filiale à Google. DeepMind a introduit les machines de Turing neuronales (réseaux neuronaux qui peuvent accéder à la mémoire externe comme une machine de Turing conventionnelle), ce qui a permis de créer un ordinateur qui ressemble vaguement à la mémoire à court terme du cerveau humain.

    Avec ses modèles AlphaProof et AlphaGeometry 2, Google DeepMind annonce que l'IA a obtenu la médaille d'argent en résolvant les problèmes des Olympiades internationales de mathématiques. Cela confirme que l'intelligence artificielle générale (AGI) dotée d'un raisonnement mathématique avancé a le potentiel d'ouvrir de nouvelles frontières dans les domaines de la science et de la technologie.

    Nom : 0.jpg
Affichages : 8141
Taille : 39,0 Ko

    DeepMind déclare pour l'annonce :

    Nous avons beaucoup progressé dans la construction de systèmes d'IA qui aident les mathématiciens à découvrir de nouvelles idées, de nouveaux algorithmes et des réponses à des problèmes ouverts. Mais les systèmes d'IA actuels ont encore du mal à résoudre des problèmes mathématiques généraux en raison des limites des capacités de raisonnement et des données d'entraînement.

    Aujourd'hui, nous présentons AlphaProof, un nouveau système basé sur l'apprentissage par renforcement pour le raisonnement mathématique formel, et AlphaGeometry 2, une version améliorée de notre système de résolution de géométrie. Ensemble, ces systèmes ont résolu quatre des six problèmes de l'Olympiade internationale de mathématiques (OIM) de cette année, atteignant pour la première fois le même niveau qu'un médaillé d'argent dans la compétition.
    Des systèmes d'IA pour résoudre des problèmes mathématiques complexes

    L'OIM est le concours le plus ancien, le plus important et le plus prestigieux pour les jeunes mathématiciens, organisé chaque année depuis 1959. Chaque année, des mathématiciens d'élite s'entraînent, parfois pendant des milliers d'heures, pour résoudre six problèmes exceptionnellement difficiles d'algèbre, de combinatoire, de géométrie et de théorie des nombres. De nombreux lauréats de la médaille Fields, l'une des plus hautes distinctions accordées aux mathématiciens, ont représenté leur pays à l'OIM.

    Plus récemment, le concours annuel de l'OIM a également été largement reconnu comme un grand défi dans le domaine de l'apprentissage automatique et comme une référence idéale pour mesurer les capacités de raisonnement mathématique avancé d'un système d'intelligence artificielle. DeepMind a donc appliqué son système d'IA combiné aux problèmes du concours, fournis par les organisateurs de l'OIM. Les solutions ont été notées conformément aux règles d'attribution des points de l'OIM par d'éminents mathématiciens, le professeur Sir Timothy Gowers, médaillé d'or de l'OIM et lauréat de la médaille Fields, et le Dr Joseph Myers, deux fois médaillé d'or de l'OIM et président du comité de sélection des problèmes de l'OIM 2024.

    Le professeur Sir Timothy Gowers a commenté la participation de l'IA en déclarant :

    Le fait que le programme puisse proposer une construction non évidente comme celle-ci est très impressionnant et va bien au-delà de ce que je pensais être l'état de l'art.

    Tout d'abord, les problèmes ont été traduits manuellement en langage mathématique formel pour que les systèmes puissent les comprendre. Dans la compétition officielle, les étudiants soumettent leurs réponses en deux sessions de 4 heures et demie chacune. Les systèmes d'IA ont résolu un problème en quelques minutes et ont mis jusqu'à trois jours pour résoudre les autres.

    AlphaProof a résolu deux problèmes d'algèbre et un problème de théorie des nombres en déterminant la réponse et en prouvant qu'elle était correcte. Il s'agissait notamment du problème le plus difficile de la compétition, qui n'a été résolu que par cinq concurrents lors de l'OIM de cette année. AlphaGeometry 2 a résolu le problème de géométrie, tandis que les deux problèmes de combinatoire sont restés sans réponse.

    Chacun des six problèmes peut rapporter sept points, avec un maximum total de 42. Les systèmes ont obtenu un score final de 28 points, soit un score parfait pour chaque problème résolu, ce qui équivaut à l'extrémité supérieure de la catégorie de la médaille d'argent. Cette année, le seuil de la médaille d'or commence à 29 points et a été atteint par 58 des 609 participants à la compétition officielle.

    Nom : 1.jpg
Affichages : 1321
Taille : 19,5 Ko
    Les performances de l'IA par rapport aux concurrents humains à l'OIM 2024

    AlphaProof : une approche formelle du raisonnement

    AlphaProof est un système qui s'entraîne à prouver des énoncés mathématiques dans le langage formel Lean. Il associe un modèle de langage préformé à l'algorithme d'apprentissage par renforcement AlphaZero, qui s'est déjà auto-appris à maîtriser les jeux d'échecs, de shogi et de Go.

    Les langages formels présentent l'avantage essentiel de permettre la vérification formelle de l'exactitude des preuves impliquant un raisonnement mathématique. Leur utilisation dans l'apprentissage automatique a toutefois été limitée par la quantité très restreinte de données humaines disponibles. En revanche, les approches basées sur le langage naturel peuvent halluciner des étapes de raisonnement et des solutions intermédiaires plausibles mais incorrectes, bien qu'elles aient accès à des ordres de grandeur de données plus importants.

    Les chercheurs de DeepMind ont établi un pont entre ces deux sphères complémentaires en affinant un modèle Gemini pour traduire automatiquement les énoncés de problèmes en langage naturel en énoncés formels, créant ainsi une grande bibliothèque de problèmes formels de difficulté variable. Lorsqu'on lui présente un problème, AlphaProof génère des solutions candidates et les prouve ou les réfute en recherchant les étapes de preuve possibles dans Lean. Chaque preuve trouvée et vérifiée est utilisée pour renforcer le modèle de langage d'AlphaProof, améliorant ainsi sa capacité à résoudre des problèmes ultérieurs plus difficiles.

    Les chercheurs commentent :

    Nous avons entraîné AlphaProof pour l'OIM en prouvant ou en réfutant des millions de problèmes, couvrant un large éventail de difficultés et de sujets mathématiques sur une période de plusieurs semaines précédant la compétition. La boucle d'entraînement a également été appliquée pendant le concours, en renforçant les preuves des variations auto-générées des problèmes du concours jusqu'à ce qu'une solution complète puisse être trouvée.
    Nom : 2.jpg
Affichages : 1312
Taille : 37,3 Ko
    Processus d'apprentissage par renforcement d'AlphaProof

    AlphaGeometry 2 : une version améliorée pour être plus compétitive

    AlphaGeometry 2 est une version considérablement améliorée d'AlphaGeometry. Il s'agit d'un système hybride neuro-symbolique dans lequel le modèle de langage est basé sur Gemini et entraîné à partir de zéro sur un ordre de grandeur de données synthétiques plus important que son prédécesseur. Cela a permis au modèle de s'attaquer à des problèmes de géométrie beaucoup plus complexes, y compris des problèmes concernant les mouvements d'objets et les équations d'angles, de rapports ou de distances.

    AlphaGeometry 2 utilise un moteur symbolique deux fois plus rapide que son prédécesseur. Lorsqu'un nouveau problème est présenté, un nouveau mécanisme de partage des connaissances est utilisé pour permettre des combinaisons avancées de différents arbres de recherche afin de résoudre des problèmes plus complexes. Avant la compétition de cette année, AlphaGeometry 2 pouvait résoudre 83 % de tous les problèmes de géométrie de l'OIM des 25 dernières années, contre 53 % pour son prédécesseur. Pour OIM 2024, AlphaGeometry 2 a résolu le problème 4 en 19 secondes après avoir reçu sa formalisation.

    Nom : 3.jpg
Affichages : 1302
Taille : 37,4 Ko
    Illustration du problème 4

    Nouvelles frontières du raisonnement mathématique

    Dans le cadre des travaux sur l'OIM, DeepMind annonce également avoir expérimenté un système de raisonnement en langage naturel, basé sur Gemini et sur ces dernières recherches pour permettre des compétences avancées en matière de résolution de problèmes. Ce système ne nécessite pas que les problèmes soient traduits dans un langage formel et pourrait être combiné avec d'autres systèmes d'IA. Ils ont également testé cette approche sur les problèmes de l'OIM de cette année et les résultats se sont révélés très prometteurs.

    DeepMind conclue en soulignant :

    Nos équipes continuent d'explorer de multiples approches de l'IA pour faire progresser le raisonnement mathématique et prévoient de publier bientôt plus de détails techniques sur AlphaProof.

    Nous sommes enthousiastes à l'idée d'un avenir dans lequel les mathématiciens travailleront avec des outils d'IA pour explorer des hypothèses, essayer de nouvelles approches audacieuses pour résoudre des problèmes de longue date et compléter rapidement des éléments de preuves qui prennent du temps - et où les systèmes d'IA comme Gemini deviendront plus performants en mathématiques et en raisonnement plus large.
    Source : Google DeepMind

    Et vous ?

    Pensez-vous que ces résultats sont crédibles ou pertinents ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Google DeepMind a utilisé un grand modèle de langage pour résoudre un problème mathématique insoluble : "C'est une façon intéressante d'exploiter la puissance des LLM", déclare Terence Tao

    Google tente de combler les lacunes de son chatbot d'IA Bard avec des capacités mathématiques et logiques avancées, après que Bard est apparu particulièrement stupide aux yeux des premiers testeurs

    Une recherche sur les tâches simples montrant la décomposition du raisonnement IA dans les LLM de pointe donne OpenAI GPT-4o largement en tête, suivi d'Anthropic Claude 3
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  2. #2
    Membre averti
    Homme Profil pro
    Inscrit en
    Janvier 2013
    Messages
    30
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Janvier 2013
    Messages : 30
    Par défaut Un progrès et quelques réticences
    C'est un réel progrès qui est fait là. D'abord parce que c'est ici un domaine sans hallucination possibles, nous ne sommes plus dans les ChatGPT qui affirment avec aplomb des conneries monumentales mais dans des affirmations prouvées et cela développe aussi la capacité des IA à rejeter ce qui est faux quitte à ne pas proposer de solutions. Et c'est une voie à suivre et à développer parce que cette voie ne fait pas d'erreurs.
    Imaginez une voiture intelligente qui au lieu de se dire qu'elle ne maîtrise pas vraiment la situation et roule quand même, nous ayons une voiture sûre de ce qu'elle fait et capable de savoir qu'elle est en échec dans une situation donnée: cela conduirait à des comportements de sauvegarde et empêcherait les accidents qui ont lieu aujourd'hui.

    Imaginez un ChatGPT qui vous donne des solutions fiables au lieu d'affirmer péremptoirement tout et surtout n'importe quoi. Là il deviendrait possible de construire de vraie solution complexe et d'avoir une IA vraiment en co-construction de l'humain.
    Mince me voilà encore dans mes délires bisounours et il est certain que ceux qui ont les mains sur l'IA ne feront rien d'autre qu'exploiter l'IA pour obtenir plus de pouvoir sur les autres et plus d'argent etc ... Ce qui nous conduira plus sûrement à Terminator qu'a ... mince, l'humanité est incapable de faire un film sur un futur meilleurs qui ait des chances de marcher.

    Bon, reste que ces ces IA n'inventent rien. Il y a un biais à se féliciter des progrès faits alors que ces IA ne font qu'utiliser les connaissances actuelles pour résoudre des problèmes construits pour être résolus avec les connaissances actuelles. Il ne faut pas se leurrer sur l'innovation dont sont capables les IA.
    En tout cas, ces IA innovent dans ce qu'elles sont capables de vérifier la réalité de leurs solutions et de rejeter celles qui sont mauvaises. Et c'est un progrès réel.

  3. #3
    Chroniqueur Actualités
    Avatar de Bruno
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Mai 2019
    Messages
    2 117
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cameroun

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : Mai 2019
    Messages : 2 117
    Par défaut Une étude montre pourquoi les LLM à raisonnement simulé ne sont pas encore à la hauteur de leur réputation
    Une nouvelle étude montre pourquoi les modèles d'IA à raisonnement simulé ne sont pas encore à la hauteur de leur réputation,
    performants sur les problèmes standards, mais limités en raisonnement olympique

    Les modèles d’IA actuels, bien qu’impressionnants dans la résolution de problèmes mathématiques standards, révèlent des lacunes profondes dès qu’il s’agit de raisonnement complexe, comme en témoigne leur piètre performance face aux épreuves des Olympiades de mathématiques. Une étude récente menée par des chercheurs de l’ETH Zurich et de l’INSAIT souligne que ces modèles, malgré leur capacité à générer des réponses plausibles, échouent à produire des preuves rigoureuses, souvent en raison d’erreurs logiques, d’hypothèses non justifiées ou d’une confiance excessive dans des schémas préétablis. Cette limite met en lumière la différence cruciale entre la reconnaissance de motifs et un véritable raisonnement mathématique, remettant en question les prétentions des modèles dits à « raisonnement simulé ».

    Pourtant, certains défenseurs estiment que ces échecs ne disqualifient pas entièrement l’utilité des grands modèles de langage (LLM), notamment dans des contextes où une réponse approximative peut servir de point de départ à une réflexion humaine. D’autres, plus sceptiques, y voient la confirmation que ces systèmes ne sont que des « artistes de la connerie », incapables de comprendre les concepts qu’ils manipulent. L’étude suggère que des approches hybrides, combinant réseaux neuronaux et raisonnement symbolique (comme AlphaGeometry), pourraient offrir une voie prometteuse. Mais pour l’heure, les modèles purement statistiques restent prisonniers de leurs données d’entraînement, loin de la flexibilité et de la profondeur d’un esprit humain.

    Les chercheurs ont examiné comment la production d'une chaîne de pensée, une séquence d'étapes de raisonnement intermédiaires, améliore de manière significative les capacités des grands modèles de langage à traiter des tâches complexes. Plus précisément, ils démontrent que ces aptitudes au raisonnement émergent naturellement dans les modèles suffisamment volumineux grâce à une technique simple : l'incitation par chaîne de pensée (chain-of-thought prompting), où quelques exemples illustrant un raisonnement pas à pas sont fournis en amorce.

    Les expériences, menées sur trois grands modèles de langage, révèlent que cette approche améliore leurs performances sur diverses tâches, allant de l'arithmétique au raisonnement symbolique. Les gains observés sont parfois spectaculaires. Par exemple, avec seulement huit exemples de chaînes de pensée, le modèle PaLM 540B atteint une précision record sur le benchmark GSM8K (problèmes mathématiques en langage naturel), surpassant même un GPT-3 finement ajusté et équipé d'un vérificateur. Cette méthode met en évidence le potentiel des LLM à développer des raisonnements structurés, simplement en les guidant avec des démonstrations explicites.

    Nom : stf.PNG
Affichages : 5796
Taille : 121,3 Ko

    La sollicitation de la chaîne de pensée permet à de grands modèles de langage de se confronter à des tâches arithmétiques, de bon sens et de raisonnement symbolique complexes. Les processus de raisonnement en chaîne sont mis en évidence.

    Le modèle Qwen2-Math d'Alibaba démontre des performances supérieures en matière de raisonnement mathématique complexe. Lors des évalutions, Qwen2-Math-72B-Instruct a surpassé les modèles propriétaires tels que GPT-4o et Claude 3.5 dans les tâches liées aux mathématiques. Malgré cela, Alibaba continuera à améliorer la capacité de ses modèles à résoudre des problèmes mathématiques complexes et difficiles.

    De récents benchmarks mathématiques pour les grands modèles de langage tels que MathArena indiquent que les modèles de raisonnement de pointe atteignent des performances impressionnantes lors de compétitions mathématiques telles que l'AIME, le modèle principal, Gemini-2.5-Pro, obtenant des scores comparables à ceux des meilleurs compétiteurs humains. Cependant, ces benchmarks évaluent les modèles uniquement sur la base des réponses numériques finales, en négligeant le raisonnement rigoureux et la génération de preuves qui sont essentiels pour les tâches mathématiques du monde réel. Pour remédier à ce problème, les chercheurs présentent la première évaluation complète du raisonnement de la solution complète pour les problèmes mathématiques difficiles.

    En utilisant des annotateurs humains experts, les chercheurs ont évalué plusieurs modèles de raisonnement de pointe sur les six problèmes de l'USAMO 2025 dans les heures qui ont suivi leur publication. Les résultats révèlent que tous les modèles testés ont connu des difficultés importantes : seul Gemini-2.5-Pro atteint un score non trivial de 25 %, alors que tous les autres modèles atteignent moins de 5 %. Grâce à une analyse détaillée des traces de raisonnement, ils identifient les modes d'échec les plus courants et trouvent plusieurs artefacts indésirables provenant des stratégies d'optimisation employées pendant l'apprentissage du modèle. Dans l'ensemble, les résultats suggèrent que les LLMs actuels sont inadéquats pour les tâches de raisonnement mathématique rigoureux, soulignant le besoin d'améliorations substantielles dans les capacités de raisonnement et de génération de preuves.

    Les modèles d'IA les plus performants d'aujourd'hui, qui prétendent « raisonner », présentent une curieuse contradiction : Ils peuvent résoudre des problèmes mathématiques courants avec précision, mais échouent souvent lorsqu'il s'agit de formuler des preuves mathématiques plus approfondies, comme c'est le cas dans les concours. C'est ce qui ressort d'une recherche sur les modèles de raisonnement simulé (SR), initialement publiée en mars et mise à jour en avril, qui est passée inaperçue. Cette recherche constitue une étude de cas instructive sur les limites mathématiques des modèles de raisonnement simulé, malgré les déclarations marketing parfois grandiloquentes des fournisseurs d'IA.

    Les modèles de raisonnement simulé se distinguent des grands modèles de langage traditionnels par le fait qu'ils ont été entraînés à produire un processus de « réflexion » étape par étape (souvent appelé « chaîne de pensée ») pour résoudre des problèmes. Il convient de noter que le terme « simulé » dans ce cas ne signifie pas que les modèles ne raisonnent pas du tout, mais plutôt qu'ils ne raisonnent pas nécessairement en utilisant les mêmes techniques que les humains. Cette distinction est importante car le raisonnement humain lui-même est difficile à définir.

    Le nouveau document de recherche, intitulé « Proof or Bluff ? Evaluating LLMs on 2025 USA Math Olympiad », émane d'une équipe de chercheurs de l'ETH Zurich et de l'INSAIT de l'université de Sofia, dirigée par Ivo Petrov et Martin Vechev. Dans cette étude, lorsque les chercheurs ont présenté aux modèles de SR des problèmes tirés des Olympiades américaines de mathématiques 2025 organisées par la Mathematical Association of America, la plupart des modèles ont obtenu un score moyen inférieur à 5 % lorsqu'ils ont généré des preuves mathématiques complètes, bien qu'un modèle ait affiché des performances nettement meilleures, quoique encore limitées. Ce score représente le pourcentage moyen du total des points possibles (attribués sur l'échelle standard de 0 à 7 par problème, comme pour l'Olympiade officielle) obtenus par les modèles au cours de plusieurs tentatives, les correcteurs humains experts accordant un crédit partiel pour les étapes correctes.

    Pourquoi les IA échouent aux Olympiades de maths malgré leurs performances en calcul

    Google DeepMind annonce que ses modèles AlphaProof et AlphaGeometry 2 ont permis à l'IA d'obtenir la médaille d'argent en résolvant les problèmes des Olympiades internationales de mathématiques. AlphaProof est un nouveau système d'apprentissage par renforcement pour le raisonnement mathématique formel, tandis qu'AlphaGeometry 2 est un système de résolution de géométrie. Les systèmes d'IA ont résolu un problème en quelques minutes et ont mis jusqu'à trois jours pour résoudre les autres.

    Pour comprendre l'importance de cet écart de capacité, vous devez comprendre la différence entre les réponses aux problèmes mathématiques et les preuves mathématiques. Un problème mathématique, c'est comme si on vous demandait : « Quel est le rapport 2+2 ? » ou « Solve for x in this equation » (Résolvez x dans cette équation). Vous avez seulement besoin de la bonne réponse. Mais les preuves mathématiques, c'est comme si on vous demandait : « Expliquez pourquoi 2+2=4 en suivant des étapes logiques » ou « Prouvez que cette formule fonctionne pour tous les nombres possibles ». Les preuves exigent que vous expliquiez votre raisonnement et que vous montriez pourquoi quelque chose doit être vrai, et non que vous donniez simplement une réponse.

    Les Olympiades américaines de mathématiques (USAMO) servent de qualification pour les Olympiades internationales de mathématiques et placent la barre beaucoup plus haut que des tests tels que l'American Invitational Mathematics Examination (AIME). Si les problèmes de l'AIME sont difficiles, ils exigent des réponses entières. L'USAMO exige des candidats qu'ils rédigent des preuves mathématiques complètes, dont l'exactitude, l'exhaustivité et la clarté sont évaluées sur une période de neuf heures et deux jours.

    Les chercheurs ont évalué plusieurs modèles de raisonnement IA sur les six problèmes de l'USAMO 2025 peu de temps après leur publication, minimisant ainsi tout risque que les problèmes fassent partie des données d'entraînement des modèles. Ces modèles comprenaient QwQ-32B de Qwen, DeepSeek R1, Gemini 2.0 Flash Thinking (Experimental) et Gemini 2.5 Pro de Google, o1-pro et o3-mini-high d'OpenAI, Claude 3.7 Sonnet with Extended Thinking d'Anthropic et Grok 3 de xAI.

    Nom : SFT2.PNG
Affichages : 485
Taille : 280,2 Ko
    Capture d'écran du site MathArena des chercheurs montrant les scores de précision des modèles de RS pour chaque problème de l'USAMO


    Bien qu'un modèle, le Gemini 2.5 Pro de Google, ait obtenu un score moyen plus élevé de 10,1 sur 42 points (~24 %), les résultats ont montré une chute massive des performances par rapport aux critères de référence de l'AIME. Les autres modèles évalués ont été nettement moins performants : DeepSeek R1 et Grok 3 ont obtenu en moyenne 2,0 points chacun, Flash-Thinking de Google 1,8, Claude 3.7 d'Anthropic 1,5, QwQ de Qwen et o1-pro d'OpenAI 1,2. La solution o3-mini d'OpenAI a obtenu le score moyen le plus bas avec seulement 0,9 point (~2,1 %). Sur près de 200 solutions générées par l'ensemble des modèles testés, aucune n'a obtenu un score parfait, quel que soit le problème.

    Bien que les nouveaux modèles 03 et o4-mini-high d'OpenAI n'aient pas été examinés dans le cadre de cette étude, les benchmarks du site MathArena des chercheurs montrent que o3-high a obtenu un score global de 21,73 % et o4-mini-high un score global de 19,05 % sur l'USAMO. Cependant, ces résultats sont potentiellement contaminés car ils ont été mesurés après le concours, ce qui signifie que les nouveaux modèles OpenAI auraient pu inclure les solutions dans les données d'entraînement.

    Les LLM face au raisonnement mathématique rigoureux

    L’étude menée par l’ETH Zurich et l’INSAIT confirme une limite fondamentale des LLM : leur incapacité à produire des preuves mathématiques solides, malgré leur aptitude à générer des réponses plausibles. Les erreurs récurrentes (logiques floues, hypothèses non justifiées, surconfiance dans des schémas stéréotypés) révèlent que ces modèles excellent dans la reconnaissance de motifs, mais échouent à maîtriser le raisonnement déductif. Cette distinction est cruciale : un LLM peut imiter une démonstration sans en comprendre la cohérence profonde, comme un étudiant récitant un théorème sans saisir sa signification.

    Cependant, il serait réducteur d’en conclure que ces modèles sont inutiles. Leur force réside dans leur capacité à structurer une réflexion approximative, offrant des pistes exploitables par un humain – une fonction déjà précieuse en recherche ou en pédagogie. Les critiques qui les qualifient de simples « artistes de la connerie » négligent cette complémentarité potentielle. En revanche, l’étude met en lumière un écueil majeur : les LLM ne signalent pas leurs incertitudes, présentant des conjectures erronées avec une assurance trompeuse. Ce défaut, combiné à leur tendance à halluciner, limite leur fiabilité dans des contextes exigeants.

    La piste neuro-symbolique (comme AlphaGeometry) semble prometteuse pour pallier ces lacunes, en intégrant des contraintes formelles au raisonnement statistique. Mais cela ne résout pas le cœur du problème : les LLM actuels manquent de compréhension sémantique. Ils manipulent des concepts sans les ancrer dans une représentation abstraite vérifiable – une limite qui les distingue radicalement de l’intelligence humaine.

    En somme, cette étude rappelle que les LLM sont des outils approximatifs, non des raisonneurs autonomes. Leurs performances en mathématiques reflètent moins une intelligence émergente qu’une optimisation sophistiquée de la prédiction textuelle. Pour progresser, l’IA devra sans doute dépasser le paradigme purement statistique – soit par des architectures hybrides, soit par une refonte radicale de leur approche du raisonnement. En attendant, leur utilité reste conditionnelle : précieux comme assistants, dangereux comme oracles.

    Source : Studies by researchers at ETH Zurich and INSAIT Sofia University

    Et vous ?

    Les conclusions de l'étude sont-elles pertinentes et crédibles ?

    Peut-on vraiment parler d’« échec » quand certains modèles atteignent ~24 % de réussite, alors que la majorité des humains échoueraient aussi ?

    Si les LLM génèrent des réponses plausibles mais fausses, cela signifie-t-il qu’ils « simulent » le raisonnement, ou qu’ils manquent simplement de rigueur formelle ?

    Voir aussi :

    Le nouveau modèle d'IA Qwen2-Math d'Alibaba excelle en mathématiques et surpasse ses concurrents, il a fait preuve de performances supérieures en matière de raisonnement mathématique complexe

    Certains modèles d'IA sont plus précis en mathématiques si on leur demande de répondre comme s'ils étaient un personnage de Star Trek, selon des ingénieurs en apprentissage automatique
    Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

Discussions similaires

  1. Réponses: 1
    Dernier message: 07/07/2022, 12h22
  2. Réponses: 1
    Dernier message: 29/04/2021, 11h12
  3. Réponses: 1
    Dernier message: 11/04/2014, 19h08
  4. nom de domaine, ou va l'argent ?
    Par abignon dans le forum Développement
    Réponses: 5
    Dernier message: 04/10/2004, 01h11

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo