IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

OpenAI a lancé GPT-5.2-Codex, le positionnant comme le summum des modèles de codage agentique


Sujet :

Intelligence artificielle

  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Juin 2023
    Messages
    1 686
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 686
    Par défaut OpenAI a lancé GPT-5.2-Codex, le positionnant comme le summum des modèles de codage agentique
    OpenAI publie GPT-5.2 après une alerte de type « code rouge » déclenchée par Google. L’entreprise affirme que son nouveau modèle d’IA surpasse Gemini et égale les humains sur 70 % des tâches professionnelles

    GPT-5.1 a été lancé il y a un mois, mais il a rapidement été éclipsé par Gemini 3.0, qui a globalement surpassé ses performances de référence. Par la suite, Anthropic a lancé Claude Opus 4.5, qui l'a également surpassé dans l'ensemble. Dans l'espoir de reconquérir sa couronne après une « alerte rouge » interne, OpenAI lance GPT-5.2. L'entreprise s'est vantée que ce modèle est, à certains égards, le nouveau leader du marché : « GPT-5.2 Thinking est le meilleur modèle à ce jour pour une utilisation professionnelle dans le monde réel ». OpenAI revendique un bond dans le domaine du raisonnement abstrait et du « travail de connaissance professionnelle ».

    « Nous avons conçu la version 5.2 afin d'offrir encore plus de valeur économique aux utilisateurs », a déclaré Fidji Simo, directeur produit chez OpenAI, lors d'une récente conférence de presse. « Cette nouvelle monture est plus performante pour créer des feuilles de calcul, élaborer des présentations, écrire du code, percevoir des images, comprendre des contextes plus longs, utiliser des outils, puis relier des projets complexes en plusieurs étapes ».

    Le nouveau GPT-5.2 se décline en trois versions : Instant, Thinking et Pro. GPT-5.2 Instant gère les tâches plus rapides comme l'écriture et la traduction ; GPT-5.2 Thinking produit des textes simulant un raisonnement afin de s'attaquer à des tâches plus complexes comme le codage et les mathématiques ; et GPT-5.2 Pro produit encore plus de textes simulant un raisonnement dans le but d'offrir la plus grande précision possible pour les problèmes difficiles.

    Avec une fenêtre de contexte plus grande et des promesses de productivité décuplée, OpenAI espère séduire les professionnels. GPT-5.2 dispose d'une fenêtre de contexte de 400 000 tokens, ce qui lui permet de traiter des centaines de documents à la fois, avec une base de connaissances fixée au 31 août 2025.

    Nom : oki.png
Affichages : 9666
Taille : 202,7 Ko

    Le PDG d'OpenAI, Sam Altman, avait déclaré un « code rouge » interne face à la pression concurrentielle, accélérant ainsi le développement de GPT-5.2. L'image ci-dessus est une comparaison des trois modèles (Gemini 3.0, GPT-5.2 et Opus 4.5) selon les critères les plus pertinents pour les applications de R&D, avec la réserve que ces chiffres sont ceux communiqués par les fournisseurs et doivent encore faire l'objet d'une vérification indépendante.

    Domaines dans lesquels GPT-5.2 d'OpenAI revendique le leadership

    L'écart le plus frappant concerne les performances de GPT-5.2 sur ARC-AGI-2, un benchmark conçu pour tester la capacité de raisonnement authentique tout en résistant à la mémorisation. Avec 52,9 % (Thinking) et 54,2 % (Pro), le nouveau modèle d'OpenAI surpasse largement Claude Opus 4.5 (37,6 %) et Gemini 3 Deep Think (45,1 %). Pour rappel, le benchmark ARC-AGI est devenu une référence en matière de capacité de raisonnement abstrait.

    Cette capacité est importante pour la résolution de problèmes nouveaux dans des contextes de recherche. GPT-5.2 obtient un score parfait de 100 % sur AIME 2025 sans outils, égalant ainsi le score obtenu par Gemini 3 Pro uniquement avec l'exécution de code activée. Sur GPQA Diamond, un benchmark scientifique de niveau universitaire, GPT-5.2 Pro obtient un score de 93,2 %, pratiquement à égalité avec les 93,8 % de Gemini 3 Deep Think.

    (GPT-5.2 a obtenu un score de 92,4 % sur GPQA Diamond, contre 91,9 % pour Gemini 3 Pro.) GPT-5.2 Thinking génère également des réponses avec 38 % de confabulations en moins que GPT-5.1, selon Max Schwarzer, responsable de la post-formation chez OpenAI. Selon Max Schwarzer, « GPT-5.2 hallucine nettement moins » que son prédécesseur. Cependant, il est important de toujours les résultats des benchmarks avec des pincettes.

    En effet, il est facile de les présenter d'une manière positive pour une entreprise, surtout lorsque la science permettant de mesurer objectivement les performances de l'IA n'a pas encore tout à fait rattrapé les arguments de vente des entreprises concernant les capacités de l'IA semblables à celles des humains. Les résultats de tests indépendants réalisés par des chercheurs extérieurs à OpenAI ne seront pas disponibles avant un certain temps.

    OpenAI promeut également un nouveau benchmark appelé GDPval, qui mesure les performances sur des « tâches de travail intellectuel bien spécifiées » dans 44 professions. La société affirme que GPT-5.2 Thinking bat ou égale les professionnels du secteur dans 70,9 % des cas, à une vitesse 11 fois supérieure et pour moins de 1 % du coût. Il s'agit néanmoins d'un benchmark propre à OpenAI, et celui-ci n'a pas été validé de manière indépendante.

    Programmation

    GPT‑5.2 Thinking établit un nouveau record de 55,6 % sur SWE-Bench Pro, un benchmark en génie logiciel en conditions réelles, contre 43,3 % pour Gemini 3 Pro et 52,0 % pour Claude Opus 4.5. Contrairement à SWE-Bench Verified, qui ne teste que Python, SWE-Bench Pro évalue quatre langages et se veut plus résistant au risque de contamination des données d’entraînement, plus exigeant, plus diversifié et plus représentatif des usages industriels.

    Claude Opus 4.5 conserve la première place du classement SWE-Bench Verified avec un score de 80,9 %, même si les premiers résultats peuvent être instables. Le score de 80,0 % obtenu par GPT-5.2 comble un écart qui était auparavant plus important. Claude Opus 4.5 est aussi en tête du Terminal-bench 2.0 (59,3 %), qui teste les compétences en codage en ligne de commande, et revendique une résistance inégalée aux attaques par injection de prompt.

    Gemini 3 Deep Think conserve le score le plus élevé publié sur Humanity's Last Exam avec 41,0 % sans outils, un benchmark conçu pour mettre au défi les systèmes d'IA de pointe. Le modèle a aussi obtenu la médaille d'or aux Olympiades internationales de mathématiques et à la finale mondiale du Concours international de programmation universitaire, ce qui suggère une grande force en matière de raisonnement mathématique de niveau compétitif.

    La concurrence est au coude à coude avec sur plusieurs benchmarks

    Le lancement de GPT-5.2 fait suite à un mois difficile pour OpenAI. Début décembre 2025, le PDG Sam Altman a publié une directive interne « code rouge » après que le modèle Gemini 3.0 de Google a dépassé le modèle d'OpenAI sur plusieurs benchmarks et gagné des parts de marché. La note appelait à retarder d'autres initiatives, notamment les plans publicitaires pour ChatGPT, pour se concentrer sur l'amélioration de l'expérience de base du chatbot.

    Nom : Capture d'écran 2025-12-12 130751.png
Affichages : 1256
Taille : 311,8 Ko

    Les enjeux pour OpenAI sont considérables. La société s'est engagée à investir 1 400 milliards de dollars dans le développement d'infrastructures d'IA au cours des prochaines années, un pari qu'elle a pris alors qu'elle disposait d'une avance plus évidente parmi les entreprises d'IA. L'application Gemini compte désormais plus de 650 millions d'utilisateurs actifs par mois, tandis qu'OpenAI annonce 800 millions d'utilisateurs actifs par semaine pour ChatGPT.

    Afin de rester dans la course (ou de devancer la concurrence), les lancements de modèles se succèdent à un rythme soutenu : GPT-5.2 représente le troisième lancement majeur d'OpenAI depuis le mois d'août 2025. GPT-5 a été lancé ce mois-là avec un nouveau système de routage qui permet de basculer entre les modes de réponse instantanée et de raisonnement simulé, bien que les utilisateurs se soient plaints de réponses jugées froides et cliniques.

    La mise à jour GPT-5.1 de novembre 2025 a ajouté huit options de « personnalité » prédéfinies et s'est concentrée sur l'amélioration de la conversationnalité du système. Selon OpenAI, GPT-5.2 est un bond en avant monumental pour le raisonnement et le codage autonomes et approfondis.

    Disponibilité de GPT-5.2

    GPT-5.2 est déjà déployé auprès des abonnés payants de ChatGPT, avec un accès API disponible pour les développeurs. Le prix de l'API est de 1,75 dollars par million de tokens d'entrée pour le modèle standard, soit une augmentation de 40 % par rapport à GPT-5.1. OpenAI indique que l'ancienne version GPT-5.1 restera disponible dans ChatGPT pour les utilisateurs payants pendant trois mois dans un menu déroulant dédié aux anciens modèles.

    Les premières réactions au dernier modèle phare d'OpenAI

    Les réactions les plus élogieuses à l'égard portent sur sa capacité à traiter des « problèmes complexes » qui nécessitent un temps de réflexion prolongé. Matt Shumer, PDG de HyperWriteAI, n'a pas mâché ses mots, qualifiant GPT-5.2 Pro de « meilleur modèle au monde ». Il a souligné la ténacité du modèle, notant que « GPT-5.2 réfléchit pendant plus d'une heure à des problèmes difficiles. Et il accomplit des tâches qu'aucun autre modèle ne peut réaliser ».


    Allie K. Miller, entrepreneure dans le domaine de l'IA et ancienne cadre chez AWS, a décrit GPT-5.2 comme un pas vers « l'IA en tant qu'analyste sérieux » plutôt que comme un « compagnon amical ». « La réflexion et la résolution de problèmes semblent nettement plus solides. Il donne des explications plus approfondies que celles auxquelles je suis habituée. À un moment donné, il a littéralement écrit du code pour améliorer sa propre OCR au milieu d'une tâche ».

    Aaron Levie, PDG de Box, a révélé sur X (ex-Twitter) que son entreprise a testé GPT-5.2 en accès anticipé. Il a indiqué que « le modèle obtient 7 points de plus que GPT-5.1 » lors de leurs tests de raisonnement étendus, qui se rapprochent du travail intellectuel réel dans les services financiers et les sciences de la vie.

    Pietro Schirano, PDG de Magicpath.ai, a partagé une vidéo du modèle construisant un moteur graphique 3D complet dans un seul fichier avec des commandes interactives. « C'est un bond en avant en matière de raisonnement complexe, de mathématiques, de codage et de simulations. Le rythme des progrès est irréel ». Le changement le plus fonctionnel est peut-être la capacité du modèle à rester concentré sur une tâche pendant des heures sans perdre le fil.

    Dan Shipper, PDG de la newsletter Every, spécialisée dans les tests d'IA réfléchie, a rapporté que le modèle a réussi à effectuer une analyse des profits et pertes (P&L) qui lui a demandé de travailler de manière autonome pendant deux heures. « Il a effectué une analyse P&L pendant laquelle il a travaillé pendant 2 heures et m'a donné d'excellents résultats ». Mais il a noté que pour les tâches quotidiennes, la mise à jour semble principalement incrémentielle.

    Les limites soulignées par les premiers testeurs : vitesse et rigidité

    Malgré ses capacités de raisonnement, les réactions positives, le modèle a également suscité des critiques. Matt Shumer, PDG de HyperWriteAI, a souligné une « perte de vitesse » significative lors de l'utilisation du mode « Thinking » (réflexion) du nouveau modèle. « D'après mon expérience, le mode « Thinking » est très lent pour la plupart des questions », a écrit Matt Shumer dans son analyse approfondie. « Je n'utilise presque jamais le mode Instant ».

    « L'inconvénient réside dans le ton et le format. La voix par défaut semblait un peu plus rigide, et le comportement en matière de longueur/réduction est extrême : une simple question s'est transformée en 58 puces et points numérotés », a souligné Allie Miller, une figure de proue dans le domaine de l'IA.

    Conclusion

    Les premières réactions suggèrent que le modèle GPT-5.2 d'OpenAI est un outil optimisé pour les utilisateurs expérimentés, les développeurs et les agents en entreprise plutôt que pour les conversations informelles. Matt Shumer affirme dans son analyse : « pour les recherches approfondies, les raisonnements complexes et les tâches qui nécessitent une réflexion approfondie, GPT-5.2 Pro est la meilleure option disponible à l'heure actuelle ».

    Pour les utilisateurs à la recherche d'une écriture créative ou de réponses rapides et fluides, des modèles tels que Claude Opus 4.5 restent des concurrents sérieux. « Mon modèle préféré reste Claude Opus 4.5, mais mon travail complexe avec ChatGPT va bénéficier d'un coup de pouce supplémentaire appréciable », a admis Allie Miller. Il est important de souligner que la communauté open source de l'IA rattrape également rapidement son retard.

    La startup chinoise DeepSeek a récemment lancé deux nouveaux modèles : DeepSeek-V3.2 et DeepSeek-V3.2-Speciale. Ils ont été conçus pour mettre fin à la domination de GPT-5 d'OpenAI et de Gemini-3 Pro de Google. L’objectif de DeepSeek est d’offrir un modèle capable de résoudre des problèmes complexes (mathématiques, code, planification), d’exécuter des tâches de type agent, tout en restant moins coûteux que les modèles américains.

    Dans plusieurs tests mathématiques, le modèle chinois bat ceux de Google et OpenAI. DeepSeek a une fois de plus démontré qu'il est capable de produire des systèmes d'IA de pointe malgré les contrôles à l'exportation américains qui limitent l'accès de la Chine aux puces avancées de Nvidia.

    Source : OpenAI

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous des capacités du nouveau modèle GPT-5.2 d'OpenAI ?
    Quelle comparaison faites-vous avec la concurrence ? GPT-5.2 constitue-t-il une évolution majeure ?
    La fréquence de publication de nouveaux modèles s'accélère. Selon vous, qu'est-ce que cela signifie pour l'industrie ?
    OpenAI ne détient plus le leadership absolu dans la course à l'IA. Selon vous, quels impacts cela pourrait-il avoir sur l'entreprise ?

    Voir aussi

    Alors que GPT-5 est ridiculisé, Sam Altman affirme qu'OpenAI aura besoin de «milliers de milliards de $» en infrastructure IA, même s'il semble d'accord avec les critiques qualifiant l'industrie IA de bulle

    GPT-5.1, un ChatGPT plus intelligent et plus conversationnel : OpenAI annonce des améliorations de GPT-5 tout en facilitant la personnalisation de ChatGPT

    DeepSeek-v3.2 : la nouvelle IA chinoise repousse les limites des LLM open source et rivalise avec les modèles de pointe américains GPT-5 d'OpenAI et de Gemini-3 Pro de Google sur les benchmarks de références

  2. #2
    Communiqués de presse

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Avril 2025
    Messages
    460
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Avril 2025
    Messages : 460
    Par défaut OpenAI a lancé GPT-5.2-Codex, le positionnant comme le summum des modèles de codage agentique
    OpenAI a lancé GPT-5.2-Codex, le positionnant comme le summum des modèles de codage agentique adaptés aux tâches exigeantes d'ingénierie logicielle et de cybersécurité défensive.

    OpenAI a lancé GPT-5.2-Codex, le positionnant comme le summum des modèles de codage agentique adaptés aux tâches exigeantes d'ingénierie logicielle et de cybersécurité défensive. Lancée le 18 décembre 2025, cette version s'appuie sur les fondements de GPT-5.2 et apporte des améliorations en matière de compactage du contexte pour les sessions prolongées, de gestion supérieure des refactorisations et migrations de code massives, de meilleure compatibilité avec l'environnement Windows et de cybersécurité nettement améliorée, selon l'annonce faite par la société sur son blog officiel.

    OpenAI est une entreprise américaine d'intelligence artificielle (IA) fondée en 2015 à San Francisco en Californie. Sa mission est de développer et de promouvoir une intelligence artificielle générale « sûre et bénéfique à toute l'humanité ». L'entreprise est connue pour ses grands modèles de langage tels que GPT-4o, la série de modèles de génération d'images DALL-E et le modèle de génération de vidéos Sora.

    Son lancement de ChatGPT en novembre 2022 a déclenché un intérêt mondial pour les agents conversationnels et l'IA générative. ChatGPT est un agent conversationnel (chatbot) développé par OpenAI. ChatGPT est capable de répondre à des questions, de tenir des conversations, de générer du code informatique, de faire des recherches sur Internet, d'écrire, de traduire ou encore de synthétiser des textes. Il peut le faire en tenant compte du contexte et de contraintes telles que le style d'écriture. Il peut aussi servir d'assistant vocal ou générer des images. Depuis août 2025, ChatGPT se base sur GPT-5, un transformeur génératif préentraîné, pour générer du texte.

    GPT-5.1 a été lancé en novembre, mais il a rapidement été éclipsé par Gemini 3.0, qui a globalement surpassé ses performances de référence. Par la suite, Anthropic a lancé Claude Opus 4.5, qui l'a également surpassé dans l'ensemble. Dans l'espoir de reconquérir sa couronne après une « alerte rouge » interne, OpenAI lance GPT-5.2. L'entreprise s'est vantée que ce modèle est, à certains égards, le nouveau leader du marché : « GPT-5.2 Thinking est le meilleur modèle à ce jour pour une utilisation professionnelle dans le monde réel ». OpenAI revendique un bond dans le domaine du raisonnement abstrait et du « travail de connaissance professionnelle ».

    Récemment, OpenAI a lancé GPT-5.2-Codex, le positionnant comme le summum des modèles de codage agentique adaptés aux tâches exigeantes d'ingénierie logicielle et de cybersécurité défensive. Lancée le 18 décembre 2025, cette version s'appuie sur les fondements de GPT-5.2 et apporte des améliorations en matière de compactage du contexte pour les sessions prolongées, de gestion supérieure des refactorisations et migrations de code massives, de meilleure compatibilité avec l'environnement Windows et de cybersécurité nettement améliorée, selon l'annonce faite par la société sur son blog officiel.

    Ce modèle arrive dans un contexte de concurrence intense, suite à la réponse interne « code rouge » d'OpenAI aux avancées de Gemini 3 de Google. Il alimente Codex à travers les extensions CLI, IDE, web, mobile et GitHub, et est immédiatement accessible aux utilisateurs payants de ChatGPT, le déploiement de l'API étant en attente de contrôles de sécurité. OpenAI lance également un programme pilote d'accès fiable sur invitation uniquement, destiné aux professionnels de la cybersécurité agréés, afin qu'ils puissent exploiter ses capacités sans restriction et de manière éthique.

    Ces développements marquent un tournant vers des agents IA spécialisés qui s'attaquent aux complexités du monde réel, des référentiels tentaculaires à la recherche de vulnérabilités, tout en naviguant entre les dilemmes du double usage dans les domaines cybernétiques.


    GPT-5.2-Codex d'OpenAI : redéfinir le code et les cyberdéfenses

    GPT-5.2-Codex domine SWE-Bench Pro avec une précision de 56,4 %, devançant les 55,6 % de GPT-5.2 et les 50,8 % de GPT-5.1, en testant la génération de correctifs pour des problèmes logiciels authentiques dans les référentiels. Sur Terminal-Bench 2.0, il atteint 64,0 %, surpassant les 62,2 % de GPT-5.2 et les 58,1 % de GPT-5.1-Codex-Max, en évaluant les agents dans des configurations de terminaux en direct pour la compilation, la formation et les configurations de serveurs (OpenAI).

    Les capacités de vision améliorées affinent l'interprétation des captures d'écran, des diagrammes, des graphiques et des interfaces utilisateur, permettant des conversions fluides de maquettes en prototypes. La compression native préserve le contexte complet lors de tâches marathoniennes, renforçant la fiabilité en cas de changement de plans ou de défaillances, ce qui la rend idéale pour la création de fonctionnalités dans de vastes bases de code. Le modèle excelle dans la gestion du contexte pour les changements à grande échelle, avec des optimisations Windows qui résolvent les points faibles antérieurs dans les environnements d'entreprise.

    Un rapport détaille comment la note « code rouge » d'OpenAI du 1er décembre a stimulé le lancement rapide de GPT-5.2 contre Gemini 3 de Google, en donnant la priorité au raisonnement et au codage malgré les contraintes informatiques. Une analyse salue les gains progressifs en matière de suivi des instructions et de tâches étendues, sans toutefois apporter de surprises révolutionnaires. Un rapport fait écho à cette analyse en qualifiant cette mise à jour de solide amélioration pour les professionnels. GPT-5.2-Codex s'intègre aux capacités terminales de GPT-5.1-Codex-Max, conformément à la mise à jour de novembre d'OpenAI visant à améliorer l'efficacité à l'échelle du projet.

    Les capacités ont fait un bond en avant dans toutes les évaluations, GPT-5.2-Codex arrivant en tête des défis Professional Capture-the-Flag avec des taux de réussite (pass@12) dépassant de loin ceux de ses prédécesseurs tels que o3, GPT-5 et GPT-5.1-Codex-Max. Un graphique couvrant la période d'avril à janvier 2026 montre des gains exponentiels, bien qu'il reste en dessous du seuil « élevé » du cadre de préparation d'OpenAI, ce qui a conduit à la mise en place de mesures de sécurité à plusieurs niveaux détaillées dans sa fiche système.

    La preuve concrète est apparue lorsque l'ingénieur de Privy, Andrew MacPherson, utilisant GPT-5.1-Codex-Max via Codex CLI, a découvert trois vulnérabilités dans les composants du serveur React (CVE, dont 2025-55183) lors de la reproduction de React2Shell. Des workflows itératifs (analyse zero-shot, fuzzing, création de harnais) ont mis en évidence les risques liés au code source, qui ont été divulgués de manière responsable le 11 décembre, accélérant ainsi la mise en place de correctifs. Ce workflow, de l'analyse du dépôt à la validation du concept, souligne le rôle de l'IA dans la défense proactive des logiciels bancaires, de santé et d'infrastructure.

    Nom : 1.jpg
Affichages : 45049
Taille : 20,2 Ko

    Voici l'annonce d'OpenAI :

    Présentation de GPT-5.2-Codex

    Aujourd’hui, nous lançons GPT‑5.2-Codex, le modèle de programmation agentique le plus avancé à ce jour pour l’ingénierie logicielle complexe et réelle. GPT‑5.2-Codex⁠ est une version de GPT‑5.2 spécifiquement optimisée pour la programmation agentique dans Codex. Elle intègre des améliorations pour le travail de longue durée grâce à la compaction du contexte, offre de meilleures performances sur les modifications de code à grande échelle (refactorisations, migrations), une prise en charge renforcée des environnements Windows, ainsi que des capacités de cybersécurité renforcées.

    À mesure que nos modèles continuent de progresser à la frontière de l’intelligence, nous avons constaté que ces améliorations se traduisent également par des avancées significatives dans des domaines spécialisés tels que la cybersécurité⁠. Par exemple, la semaine dernière, un chercheur en sécurité utilisant GPT‑5.1-Codex-Max avec Codex CLI a découvert trois vulnérabilités, divulguées⁠(ouverture dans une nouvelle fenêtre) de manière responsable dans React, susceptibles d’entraîner un déni de service ou une exposition du code source.

    GPT‑5.2-Codex s’appuie sur des capacités de cybersécurité plus avancées que tous les modèles que nous avons publiés jusqu’à présent. Ces avancées peuvent contribuer à renforcer la cybersécurité à grande échelle, mais elles soulèvent également de nouveaux risques à double usage qui nécessitent un déploiement prudent. Bien que GPT‑5.2-Codex n’atteigne pas un niveau de capacité cybernétique classé « Élevé » selon notre cadre de préparation, nous concevons son déploiement en anticipant l’évolution future de ses capacités.

    Afin de concilier potentiel et prudence, nous lançons d’abord GPT‑5.2-Codex dans Codex CLI, l’extension IDE, le cloud et les outils de revue de code dès aujourd’hui pour tous les utilisateurs payants de ChatGPT. En parallèle, nous travaillons à une mise à disposition sécurisée via l’API pour les tiers. Nous développons également un programme d’accès de confiance dédié à la cyberdéfense : un projet pilote, sur invitation uniquement, offrant aux professionnels et organisations de sécurité vérifiés un accès contrôlé et à usage limité aux futures capacités avancées de cyber-IA.

    Une nouvelle référence en ingénierie logicielle appliquée à des cas concrets

    GPT‑5.2-Codex tire parti des atouts de GPT‑5.2⁠ dans le travail de connaissances professionnelles et des capacités de programmation agentique de pointe ainsi que des capacités d’utilisation du terminal GPT‑5.1-Codex-Max⁠. Avec une compréhension améliorée des longs contextes, des appels d’outils fiables, une factualité renforcée et une compaction native, GPT‑5.2-Codex est un partenaire plus fiable pour les tâches de programmation de longue durée, tout en maîtrisant la consommation de tokens dans son raisonnement.

    Des performances visuelles améliorées permettent à GPT‑5.2-Codex d’interpréter plus précisément les captures d’écran, les schémas techniques, les graphiques et les interfaces utilisateur partagés lors des sessions de programmation. Il est également beaucoup plus efficace et fiable pour la programmation agentique dans les environnements Windows natifs, en s’appuyant sur les capacités introduites dans GPT‑5.1-Codex-Max.

    GPT‑5.2-Codex atteint des performances de pointe sur SWE-Bench Pro et Terminal-Bench 2.0, des benchmarks conçus pour évaluer les performances des agents sur une large gamme de tâches dans des environnements de terminal réalistes.

    Ensemble, ces améliorations entraînent de meilleures performances sur de vrais travaux d’ingénierie logicielle, allant de la navigation dans les dépôts et la refactorisation à la création et à l’examen des pull requests.

    Nom : 2.jpg
Affichages : 11358
Taille : 30,8 Ko

    Capacités cybernétiques dans le monde réel

    La société moderne repose sur les logiciels, et leur fiabilité dépend d’une cybersécurité forte : maintenir en ligne les systèmes critiques dans les secteurs bancaire, de la santé, des communications et des services essentiels, protéger les données sensibles et garantir que les gens puissent faire confiance aux logiciels sur lesquels ils comptent chaque jour. Les vulnérabilités peuvent exister bien avant que quiconque ne les connaisse, et leur découverte, validation et correction dépendent souvent d’une communauté d’ingénieurs et de chercheurs en sécurité indépendants, équipés des outils adéquats.

    Le 11 décembre 2025, la Team React a divulgué trois vulnérabilités de sécurité affectant les applications construites avec les composants serveur React. Ce qui rendait cette divulgation notable, ce n’était pas seulement les vulnérabilités elles-mêmes, mais aussi la manière dont elles ont été mises au jour.

    Andrew MacPherson, chercheur en sécurité chez Privy (une entreprise de Stripe), utilisait GPT‑5.1-Codex-Max avec Codex CLI et d’autres agents de programmation pour reproduire et étudier une vulnérabilité critique distincte de React divulguée la semaine précédente, appelée React2Shell. Son objectif était d’évaluer dans quelle mesure le modèle pouvait aider à la recherche de vulnérabilités dans le monde réel.

    Pour ce faire, il a guidé Codex à travers des flux de travail de sécurité défensive standard : mise en place d’un environnement de test local, raisonnement sur les surfaces d’attaque potentielles et utilisation du fuzzing pour sonder le système avec des saisies malformées. Lorsqu’il a tenté de reproduire le problème original React2Shell⁠(ouverture dans une nouvelle fenêtre), Codex a mis en évidence des comportements inattendus qui ont nécessité une enquête plus approfondie. Au cours d’une seule semaine, ce processus a conduit à la découverte de trois vulnérabilités auparavant inconnues, toutes divulguées de manière responsable à l’équipe React.

    MacPherson a également partagé les sessions Codex qui ont conduit à ces découvertes, fournissant un enregistrement concret de la manière dont les systèmes agentiques d’IA peuvent aider les chercheurs en sécurité à passer plus rapidement de l’hypothèse à la validation d’une vulnérabilité dans des logiciels de production largement déployés.

    Repousser les frontières de la cybersécurité

    En comparant les performances lors de l’une de nos évaluations de cybersécurité au fil du temps, nous observons une nette augmentation des capacités à partir de GPT‑5-Codex, un autre grand saut avec GPT‑5.1-Codex-Max, et encore une fois avec GPT‑5.2-Codex. Nous nous attendons à ce que les futurs modèles d’IA continuent sur cette trajectoire. Dans le cadre de notre préparation, nous planifions et évaluons chaque nouveau modèle en anticipant qu’il puisse atteindre des niveaux élevés de capacité en cybersécurité, tels que mesurés par notre cadre de préparation⁠⁠(ouverture dans une nouvelle fenêtre). Bien que GPT‑5.2-Codex n’ait pas encore atteint le niveau de capacité élevé en cybersécurité, nous nous préparons pour les futurs modèles qui franchiront ce seuil.

    Nom : 3.jpg
Affichages : 10451
Taille : 27,8 Ko

    En conséquence, nous renforçons nos mesures de cybersécurité parallèlement à cette version et introduisons un accès sécurisé pour la cyberdéfense, tout en collaborant étroitement avec la communauté de la sécurité pour ajuster nos mesures et fournir un accès contrôlé à nos modèles les plus avancés.

    Renforcer la cyberdéfense grâce à un accès sécurisé

    Les équipes de sécurité peuvent rencontrer des restrictions lorsqu’elles tentent d’imiter des acteurs de menace, d’analyser des logiciels malveillants afin de faciliter la remédiation, ou de tester la résistance de l’infrastructure critique. Le programme d’accès de confiance supprime cette friction pour les utilisateurs et organisations qualifiés, permettant aux défenseurs de confiance d’utiliser les capacités cybernétiques de pointe de l’IA pour accélérer la cyberdéfense.

    Initialement, le programme sera accessible sur invitation uniquement pour les professionnels de la sécurité vérifiés ayant un historique de divulgation responsable de vulnérabilités et pour les organisations avec un cas d’utilisation clair en cybersécurité professionnelle.

    Source : OpenAI

    Et vous ?

    Pensez-vous que cette annonce est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Anthropic lance son dernier modèle d'IA Claude Opus 4.5, qui excelle dans le codage, l'utilisation d'ordinateurs et l'assistance aux utilisateurs pour les tâches professionnelles complexes, selon la société

    Google introduit Gemini 3 Flash comme nouveau modèle par défaut dans l'application Gemini et le mode IA dans Google Search, se positionnant comme un modèle d'IA plus rapide et plus abordable

    La start-up française Mistral se lance dans la course au vibe-coding et publie Devstral 2 sous une licence MIT modifiée, une nouvelle génération de son modèle d'IA conçu pour le codage
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

Discussions similaires

  1. OpenAI lance gpt-image-1.5 pour rivaliser avec Gemini Nano Banana de Google
    Par Jade Emy dans le forum Intelligence artificielle
    Réponses: 0
    Dernier message: 17/12/2025, 16h11
  2. Réponses: 0
    Dernier message: 16/09/2025, 16h22
  3. Réponses: 1
    Dernier message: 06/08/2025, 19h59
  4. Réponses: 0
    Dernier message: 08/02/2024, 16h47
  5. Réponses: 4
    Dernier message: 22/11/2023, 08h36

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo