Présentation de GPT-5 pour les développeurs
Aujourd'hui, nous lançons GPT-5 sur notre plateforme API, notre meilleur modèle à ce jour pour les tâches de codage et d'agent.
GPT-5 est à la pointe de la technologie (SOTA) dans les principaux benchmarks de codage, avec un score de 74,9 % sur SWE-bench Verified et de 88 % sur Aider polyglot. Nous avons formé GPT-5 pour qu'il soit un véritable collaborateur en matière de codage. Il excelle dans la production de code de haute qualité et dans la gestion de tâches telles que la correction de bogues, l'édition de code et la réponse à des questions sur des bases de code complexes. Le modèle est orientable et collaboratif : il peut suivre des instructions très détaillées avec une grande précision et fournir des explications préalables sur ses actions avant et entre les appels d'outils. Le modèle excelle également dans le codage front-end, battant OpenAI o3 dans le développement web front-end 70 % du temps lors de tests internes.
Nous avons formé GPT-5 à des tâches de codage réelles en collaboration avec les premiers testeurs de startups et d'entreprises. Cursor affirme que GPT-5 est « le modèle le plus intelligent [qu'ils aient] utilisé » et « remarquablement intelligent, facile à diriger et doté d'une personnalité [qu'ils] n'ont vue dans aucun autre modèle ». Windsurf a déclaré que GPT-5 est le meilleur modèle selon leurs évaluations et « présente un taux d'erreur d'appel d'outils deux fois moins élevé que les autres modèles de pointe ». Vercel affirme qu'il s'agit du « meilleur modèle d'IA front-end, atteignant des performances optimales tant en termes d'esthétique que de qualité du code, ce qui le place dans une catégorie à part ».
GPT-5 excelle également dans les tâches agentives de longue durée, obtenant des résultats SOTA sur τ2-bench telecom (96,7 %), un benchmark d'appel d'outils publié il y a seulement deux mois. L'intelligence améliorée de GPT-5 lui permet d'enchaîner de manière fiable des dizaines d'appels d'outils, à la fois en séquence et en parallèle, sans se perdre, ce qui le rend bien plus performant dans l'exécution de tâches complexes et réelles de bout en bout. Il suit également les instructions des outils avec plus de précision, gère mieux les erreurs des outils et excelle dans la récupération de contenu à long contexte. Manus affirme que GPT-5 « a obtenu les meilleures performances [qu'ils aient] jamais vues pour un seul modèle sur [leurs] benchmarks internes ». Notion affirme que « les réponses rapides [du modèle], en particulier en mode de raisonnement faible, font de GPT-5 un modèle idéal lorsque vous avez besoin de résoudre des tâches complexes en une seule fois ». Inditex a déclaré que « ce qui distingue vraiment [GPT-5], c'est la profondeur de son raisonnement : des réponses nuancées et multicouches qui reflètent une réelle compréhension du sujet ».
Nous introduisons de nouvelles fonctionnalités dans notre API afin de donner aux développeurs plus de contrôle sur les réponses du modèle. GPT-5 prend en charge un nouveau paramètre de verbosité (valeurs : faible, moyenne, élevée) qui permet de contrôler si les réponses sont courtes et concises ou longues et complètes. Le paramètre reasoning_effort de GPT-5 peut désormais prendre une valeur minimale pour obtenir des réponses plus rapidement, sans raisonnement approfondi préalable. Nous avons également ajouté un nouveau type d'outil, les outils personnalisés, pour permettre à GPT-5 d'appeler des outils avec du texte brut au lieu de JSON. Les outils personnalisés prennent en charge les contraintes imposées par les grammaires sans contexte fournies par les développeurs.
Nous lançons GPT-5 en trois tailles dans l'API (gpt-5, gpt-5-mini et gpt-5-nano) afin d'offrir aux développeurs plus de flexibilité pour trouver le bon équilibre entre performances, coût et latence. Alors que GPT-5 dans ChatGPT est un système de modèles de raisonnement, de non-raisonnement et de routage, GPT-5 dans la plateforme API est le modèle de raisonnement qui optimise les performances dans ChatGPT. Il est à noter que GPT-5 avec un raisonnement minimal est un modèle différent du modèle de non-raisonnement dans ChatGPT, et qu'il est mieux adapté aux développeurs. Le modèle non raisonnant utilisé dans ChatGPT est disponible sous le nom gpt-5-chat-latest.
Codage
GPT-5 est le modèle de codage le plus puissant que nous ayons jamais publié. Il surpasse o3 dans les benchmarks de codage et les cas d'utilisation réels, et a été optimisé pour exceller dans les produits de codage agentique tels que Cursor, Windsurf, GitHub Copilot et Codex CLI. GPT-5 a impressionné nos testeurs alpha, établissant des records dans bon nombre de leurs évaluations internes privées.
Sur SWE-bench Verified, une évaluation basée sur des tâches réelles d'ingénierie logicielle, GPT-5 obtient un score de 74,9 %, contre 69,1 % pour o3. Il est à noter que GPT-5 atteint ce score élevé avec une efficacité et une rapidité accrues : par rapport à o3, qui nécessite un effort de raisonnement important, GPT-5 utilise 22 % de tokens de sortie en moins et 45 % d'appels d'outils en moins.
Sur Aider polyglot, une évaluation de l'édition de code, GPT-5 établit un nouveau record de 88 %, soit une réduction d'un tiers du taux d'erreur par rapport à o3.
Nous avons également constaté que GPT-5 excellait dans l'analyse approfondie des bases de code pour répondre à des questions sur le fonctionnement ou l'interopérabilité de divers éléments. Dans une base de code aussi complexe que la pile d'apprentissage par renforcement d'OpenAI, nous constatons que GPT-5 peut nous aider à raisonner et à répondre à des questions sur notre code, ce qui accélère notre travail quotidien.
Ingénierie frontend
Lors de la production de code frontend pour les applications web, GPT-5 est plus esthétique, ambitieux et précis. Dans des comparaisons côte à côte avec o3, GPT-5 a été préféré par nos testeurs dans 70 % des cas.
Collaboration en matière de codage
GPT-5 est un meilleur collaborateur, en particulier dans les produits de codage agentique tels que Cursor, Windsurf, GitHub Copilot et Codex CLI. Tout en fonctionnant, GPT-5 peut produire des plans, des mises à jour et des récapitulatifs entre les appels d'outils. Par rapport à nos modèles précédents, GPT-5 est plus proactif dans la réalisation de tâches ambitieuses sans attendre votre feu vert ni reculer devant une grande complexité.
Tâches agentives
Au-delà du codage agentif, GPT-5 est généralement plus performant dans les tâches agentives. GPT-5 établit de nouveaux records en matière de suivi des instructions (69,6 % sur Scale MultiChallenge, selon la notation de o3-mini) et d'appel d'outils (96,7 % sur τ2-bench telecom). L'amélioration de l'intelligence des outils permet à GPT-5 d'enchaîner de manière plus fiable les actions pour accomplir des tâches concrètes.
Suivi des instructions
GPT-5 suit les instructions de manière plus fiable que tous ses prédécesseurs, obtenant des scores élevés sur COLLIE, Scale MultiChallenge et notre évaluation interne du suivi des instructions.
Appel d'outils
Nous avons travaillé dur pour améliorer l'appel d'outils de manière significative pour les développeurs. GPT-5 est plus performant dans le suivi des instructions des outils, dans la gestion des erreurs des outils et dans l'appel proactif de nombreux outils en séquence ou en parallèle. Lorsqu'on lui en donne l'instruction, GPT-5 peut également générer des messages d'introduction avant et entre les appels d'outils afin d'informer les utilisateurs de la progression des tâches agencées plus longues.
Il y a deux mois, τ2-bench telecom a été publié par Sierra.ai comme un benchmark difficile d'utilisation des outils qui mettait en évidence la baisse significative des performances des modèles linguistiques lorsqu'ils interagissent avec un environnement pouvant être modifié par les utilisateurs. Dans leur publication, aucun modèle n'a obtenu un score supérieur à 49 %. GPT-5 obtient un score de 97 %.
GPT-5 montre également de nettes améliorations en matière de performances dans les contextes longs. Sur OpenAI-MRCR, une mesure de la recherche d'informations dans des contextes longs, GPT-5 surpasse o3 et GPT-4.1, avec une marge qui augmente considérablement lorsque la longueur des entrées est plus importante.
Nous mettons également en open source BrowseComp Long Context, un nouveau benchmark pour évaluer les questions-réponses à contexte long. Dans ce benchmark, le modèle reçoit une requête utilisateur, une longue liste de résultats de recherche pertinents, et doit répondre à la question en se basant sur les résultats de recherche. Nous avons conçu BrowseComp Long Context pour qu'il soit réaliste, difficile et qu'il fournisse des réponses fiables et correctes. Sur des entrées de 128 000 à 256 000 tokens, GPT-5 donne la bonne réponse dans 89 % des cas.
Dans l'API, tous les modèles GPT-5 peuvent accepter un maximum de 272 000 tokens en entrée et émettre un maximum de 128 000 tokens de raisonnement et de sortie, pour une longueur de contexte totale de 400 000 tokens.
Facticité
GPT-5 est plus fiable que nos modèles précédents. Sur les invites des benchmarks LongFact et FactScore, GPT-5 commet environ 80 % d'erreurs factuelles en moins que o3. Cela le rend plus adapté aux cas d'utilisation où l'exactitude est importante, en particulier dans le domaine du code, des données et de la prise de décision.
De manière générale, GPT-5 a été formé pour être plus conscient de ses propres limites et mieux capable de gérer les imprévus. Nous avons également formé GPT-5 pour qu'il soit beaucoup plus précis sur les questions de santé (pour en savoir plus, consultez notre blog de recherche). Comme pour tous les modèles linguistiques, nous vous recommandons de vérifier le travail de GPT-5 lorsque les enjeux sont importants.
Nouvelles fonctionnalités
Effort de raisonnement minimal
Les développeurs peuvent contrôler le temps de réflexion de GPT-5 via le paramètre reasoning_effort dans l'API. En plus des valeurs précédentes (faible, moyen (par défaut) et élevé), GPT-5 prend également en charge la valeur minimal, qui minimise le raisonnement de GPT-5 afin de renvoyer une réponse rapidement.
Des valeurs reasoning_effort plus élevées maximisent la qualité, tandis que des valeurs plus faibles maximisent la vitesse. Toutes les tâches ne bénéficient pas de la même manière d'un raisonnement supplémentaire. Nous vous recommandons donc de faire des essais pour déterminer ce qui fonctionne le mieux pour les cas d'utilisation qui vous intéressent.
Par exemple, un raisonnement supérieur à faible n'apporte pas grand-chose à la récupération de contexte long relativement simple, mais ajoute quelques points de pourcentage à CharXiv Reasoning, une référence en matière de raisonnement visuel.
Verbosité
Afin de mieux contrôler la longueur par défaut des réponses générées par GPT-5, nous avons introduit un nouveau paramètre API appelé « verbosity », qui peut prendre les valeurs « low » (faible), « medium » (moyenne, valeur par défaut) et « high » (élevée). En cas de conflit entre des instructions explicites et les paramètres de verbosité, les instructions explicites prévalent. Par exemple, si vous demandez à GPT-5 de « rédiger un essai de 5 paragraphes », la réponse du modèle doit toujours comporter 5 paragraphes, quel que soit le niveau de verbosité (cependant, les paragraphes eux-mêmes peuvent être plus longs ou plus courts).
Messages d'introduction avant les appels d'outils
Si on lui demande, GPT-5 affichera des messages d'introduction visibles par l'utilisateur avant et entre les appels d'outils. Contrairement aux messages de raisonnement cachés, ces messages visibles permettent à GPT-5 de communiquer ses plans et ses progrès à l'utilisateur, ce qui aide les utilisateurs finaux à comprendre son approche et son intention derrière les appels d'outils.
Outils personnalisés
On introduit un nouveau type d'outil, les outils personnalisés, qui permettent à GPT-5 d'appeler un outil avec du texte brut au lieu de JSON. Pour contraindre GPT-5 à suivre les formats d'outils personnalisés, les développeurs peuvent fournir une expression régulière, ou même une grammaire sans contexte plus complète.
Auparavant, notre interface pour les outils définis par les développeurs exigeait qu'ils soient appelés avec JSON, un format couramment utilisé par les API web et les développeurs en général. Cependant, pour produire un JSON valide, le modèle doit parfaitement échapper tous les guillemets, barres obliques inversées, sauts de ligne et autres caractères de contrôle. Bien que nos modèles soient bien entraînés pour produire du JSON, sur des entrées longues telles que des centaines de lignes de code ou un rapport de 5 pages, les risques d'erreur augmentent. Avec les outils personnalisés, GPT-5 peut écrire les entrées des outils sous forme de texte brut, sans avoir à échapper tous les caractères qui doivent l'être.
Sur SWE-bench Vérifié à l'aide d'outils personnalisés plutôt que d'outils JSON, GPT-5 obtient à peu près les mêmes résultats.
Sécurité
GPT-5 repousse les limites en matière de sécurité et constitue un modèle plus robuste, plus fiable et plus utile. GPT-5 est nettement moins susceptible de produire des hallucinations que nos modèles précédents, communique plus honnêtement ses actions et ses capacités à l'utilisateur et fournit la réponse la plus utile possible tout en restant dans les limites de sécurité. Pour en savoir plus, consultez notre blog de recherche.
Disponibilité et prix
GPT-5 est désormais disponible sur la plateforme API en trois tailles : gpt-5, gpt-5-mini et gpt-5-nano. Il est disponible sur l'API Responses, l'API Chat Completions et est le modèle par défaut dans Codex CLI. GPT-5 est proposé au prix de 1,25 $/1 million de jetons d'entrée et 10 $/1 million de jetons de sortie, GPT-5 mini au prix de 0,25 $/1 million de jetons d'entrée et 2 $/1 million de jetons de sortie, et GPT-5 nano au prix de 0,05 $/1 million de jetons d'entrée et 0,40 $/1 million de jetons de sortie.
Ces modèles prennent en charge les paramètres API reasoning_effort et verbosity, ainsi que des outils personnalisés. Ils prennent également en charge l'appel d'outils en parallèle, les outils intégrés (recherche sur le Web, recherche de fichiers, génération d'images, etc.), les fonctionnalités API de base (streaming, sorties structurées, etc.) et des fonctionnalités économiques telles que la mise en cache des invites et l'API Batch.
La version non raisonnante de GPT-5 utilisée dans ChatGPT est disponible dans l'API sous le nom gpt-5-chat-latest, également au prix de 1,25 $/1 million de jetons d'entrée et 10 $/1 million de jetons de sortie.
GPT-5 est également lancé sur les plateformes Microsoft, notamment Microsoft 365 Copilot, Copilot, GitHub Copilot et Azure AI Foundry.
Partager