OpenAI pourrait avoir de vrais problèmes juridiques après que ChatGPT a imité la voix de Scarlett Johansson

**Jade Emy** · 30/05/2024, 20h25

Les utilisateurs gratuits de ChatGPT peuvent maintenant utiliser les fonctions de navigation, de vision, d'analyse de données, de téléchargement de fichiers et de GPTs, créer les GPTs personnalisés est payant.

Les utilisateurs gratuits de ChatGPT viennent de recevoir une énorme mise à jour : il est maintenant possible d'utiliser les fonctions de navigation, de vision, d'analyse de données, de téléchargement de fichiers et de GPT. L'utilisation des GPT personnalisés est gratuite, mais vous devez payer pour les créer.

ChatGPT a élargi les fonctions disponibles pour les utilisateurs gratuits de ChatGPT, incluant désormais l'accès à des GPT personnalisés, qui étaient auparavant exclusifs aux abonnés payants. Ces nouvelles fonctionnalités englobent l'analyse de données, les fonctions de vision et la possibilité d'utiliser les fonctions de navigation et de mémoire. Initialement introduits avec le GPT-4o au début du mois de mai, ces outils permettent aux utilisateurs d'analyser des graphiques, de poser des questions sur des photos, etc.

All ChatGPT Free users can now use browse, vision, data analysis, file uploads, and GPTs. https://t.co/NTXSalAV6q
— OpenAI (@OpenAI) May 29, 2024

Parmi les GPTs personnalisés disponibles, il existe des centaines de services tiers, allant d'outils d'extraction d'informations et de conversation avec des PDF à d'autres outils utiles d'OpenAI tels que DALL-E 3, ou des plugins de Canva, Adobe Express ou Khan Academy. Vous pouvez découvrir tous les plugins disponibles dans la boutique.

Les créateurs de GPTs personnalisés peuvent participer à un programme de partage des revenus qu'OpenAI teste depuis le mois de mars. Toutefois, les utilisateurs gratuits ne peuvent que découvrir et utiliser les GPTs personnalisés existants, et non créer les leurs.

Malgré ces améliorations, les abonnés payants bénéficient toujours de certains avantages, tels que des limites de messages nettement plus élevées que celles des utilisateurs gratuits. Les utilisateurs gratuits qui atteignent leur limite de messages ou de conversations avec GPT-4o seront ramenés à GPT-3.5 et n'auront pas accès à d'autres fonctions premium telles que les fonctions de vision.

Et vous ?

Quel est votre avis sur cette annonce ?

Voir aussi :

OpenAI annonce des améliorations dans l'analyse des données dans ChatGPT, dont l'interaction avec des tableaux et des graphiques ou l'ajout de fichiers directement depuis Google Drive et Microsoft OneDrive

GPT-4o arrive en tête du classement des modèles d'IA les plus performants de LMSYS Chatbot Arena avec un score Elo de 1 289, surpassant ainsi Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic

GPT-4 est-il un bon analyste de données ? De nombreux analystes de données peuvent craindre que leur emploi soit remplacé par l'intelligence artificielle (IA)

**Jade Emy** · 06/06/2024, 15h15

Une recherche sur les tâches simples montrant la décomposition du raisonnement IA dans les LLM de pointe donne OpenAI GPT-4o largement en tête, suivi d'Anthropic Claude 3

Une nouvelle étude a observé un effondrement frappant de la performance des grands modèles de langage (LLMs) lorsqu'ils sont confronté à des problèmes simples. À l'aide de tâches simples, l'étude visait à montrer le raisonnement de l'IA dans les LLMs. Les résultats classent GTP-4o d'Open AI largement en tête, suivi de Claude 3 d'Anthropic.

Les grands modèles de langage (LLM) comme les modèles à poids fermés GPT-3.5/4, Claude, Gemini ou les modèles à poids ouverts comme LLaMa 2/3, Mistral, Mixtral, et les modèles plus récents Dbrx ou Command R+ sont souvent décrits comme étant des exemples de modèles de fondation.

Les modèles de fondation sont des modèles qui se transfèrent fortement à travers différentes tâches et conditions de manière peu visible ou sans aucun effet, tout en montrant des lois d'échelle qui prédisent l'amélioration de la fonction en augmentant l'échelle de pré-entraînement. Ces affirmations d'excellence dans différentes fonctions et tâches s'appuient sur des mesures effectuées sur divers ensembles de points de référence normalisés qui montrent que ces modèles obtiennent des scores élevés.

Cependant, une nouvelle recherche démontre un effondrement spectaculaire des fonctions et des capacités de raisonnement des modèles de pointe entraînés aux plus grandes échelles disponibles qui prétendent avoir une fonction forte, en utilisant un problème de bon sens simple, court et conventionnel, formulé dans un langage naturel concis, facilement résolvable par les humains. L'effondrement est spectaculaire, car les modèles expriment également une confiance excessive dans leurs solutions erronées, tout en fournissant des explications souvent absurdes, semblables à des confabulations, pour justifier et étayer la validité de leurs réponses clairement erronées, en les faisant paraître plausibles.

Les diverses interventions standard visant à obtenir la bonne solution, telles que divers types d'incitations renforcées ou l'incitation des modèles à reconsidérer les mauvaises solutions par le biais d'une réévaluation en plusieurs étapes, sont vouées à l'échec. Une telle réévaluation nécessite également une action commune pour créer des critères de référence normalisés qui permettraient de détecter correctement les déficits de raisonnement de base qui, de toute évidence, ne sont pas découverts par les procédures d'évaluation et les critères de référence de pointe actuels.

Des tâches simples montrant une décomposition complète du raisonnement dans les grands modèles de langage

En utilisant une formulation de problème AIW très simple, qui peut être facilement résolue par des adultes et sans doute même par des enfants, l'étude a observé un effondrement frappant de la performance des LLMs lorsqu'ils sont confrontés à la tâche. Le problème AIW ou "Alice In Wonderland" consistait à répondre à la question : "Alice a N frères et M sœurs. Combien de sœurs le frère d'Alice a-t-il ?".

Cet effondrement dramatique laisse entrevoir de graves déficits dans les capacités de raisonnement de base des modèles qui sont largement revendiqués comme possédant de fortes capacités de fonctionnement et de raisonnement, souvent en citant leur performance sur un ensemble de repères standardisés ou l'expérience de divers groupes d'utilisateurs ou de leurs créateurs. L'effondrement général et la forte fluctuation des performances observées entre les différentes variantes d'un même problème laissent également entrevoir des problèmes fondamentaux liés à la capacité de généralisation des modèles, ce qui fait écho et confirme les préoccupations exprimées dans un certain nombre de travaux antérieurs.

Cependant, les preuves obtenues dans cette étude indiquent une image plus complexe qu'une histoire simple d'échec de généralisation hors distribution pour les LLMs actuels. Malgré l'effondrement observé du raisonnement et de la performance sur le problème AIW, accompagné d'un mauvais calibrage évident du modèle et d'un excès de confiance, de confabulations à côté de réponses incorrectes et d'une incapacité à réviser les mauvaises solutions, l'étude a observé des modèles à plus grande échelle comme GPT-4 et Claude 3 Opus faire face au problème AIW, en fournissant occasionnellement un raisonnement clairement correct soutenant des réponses correctes. Malgré les fortes fluctuations des variations de l'AIW, de tels raisonnements corrects conduisant à des réponses correctes apparaissent, bien qu'à une fréquence très variable.

C'est également le cas pour AIW+, où GPT-4 et Claude 3 Opus subissent une dégradation supplémentaire, mais fournissent encore à de très rares occasions des réponses correctes fondées sur un raisonnement. Il en va de même pour les modèles beaucoup moins performants qui montrent une capacité médiocre ou très médiocre à faire face à la tâche AIW, par exemple, Mistral/Mixtral, LLama 2/3, Dbrx instruct. Ces modèles parviennent également à générer en de rares occasions des réponses correctes par raisonnement à travers les variations de l'AIW.

Nom : 1.jpg
Affichages : 25317
Taille : 73,1 Ko

Les chercheurs déclarent :

Nous émettons l'hypothèse que les capacités de généralisation et de raisonnement de base sont donc présentes de manière latente dans ces modèles, car sinon ils ne seraient pas en mesure de générer de telles réponses, étant donné qu'il est impossible de deviner une réponse correcte, y compris un raisonnement correct complet, par accident dans de tels cas.

Le fait que les réponses correctes soient rares et que le comportement du modèle ne soit pas robuste face aux variations du problème démontre l'incapacité d'exercer un contrôle adéquat sur ces capacités. L'étude de la question très intéressante des causes de cette déficience fera l'objet de travaux futurs.

Les benchmarks actuels ne permettent pas de refléter et de comparer correctement les capacités de raisonnement de base des LLMs

Ce qui ressort clairement de l'étude, c'est l'incapacité des repères normalisés actuels à refléter les véritables capacités de raisonnement des modèles et à révéler leurs faiblesses. Comme le montrent clairement les résultats, de nombreux modèles revendiquant des scores normalisés élevés obtiennent des résultats très médiocres sur l'AIW.

Dans le même temps, des modèles plus anciens comme le LLama 2 70B avec des scores MMLU, ARC-c et GSM8K inférieurs sur AIW surpassent clairement ceux qui revendiquent des scores beaucoup plus élevés, par exemple le Command R+ qui souffre d'une panne complète sur AIW. Cela indique que la comparaison des modèles à l'aide de critères de référence normalisés pourrait être sérieusement compromise.

L'évaluation des modèles à plus petite échelle, par exemple Mistral-7B ou LLama 2/3 7/8B, est basée dans une large mesure sur de tels critères de référence normalisés qui sont proches des modèles à plus grande échelle, voire les égalent. Les résultats démontrent cependant une grave défaillance des modèles à petite échelle sur l'AIW, avec un écart important par rapport aux modèles plus performants qui se situent tous à des échelles plus grandes.

Nom : 2.jpg
Affichages : 8550
Taille : 60,4 Ko

Les chercheurs ajoutent :

Nous émettons l'hypothèse que les prétendues fonctions fortes des modèles à plus petite échelle pourraient n'être qu'une illusion corroborée par des repères défaillants qui, dans leur état actuel, ne peuvent pas offrir une comparaison correcte des modèles et ne peuvent donc pas non plus être utilisés comme tâches en aval pour mesurer d'importantes lois d'échelle.

Les affirmations publiques sur les capacités de raisonnement de base des LLMs représentent un danger

La défaillance observée des capacités de raisonnement de base, associée à aux affirmations publiques sur les capacités des LLMs (qui sont également basées sur des critères de référence normalisés), pose un problème de sécurité inhérent. Les modèles dont le raisonnement de base est insuffisant sont intrinsèquement dangereux, car ils produiront des décisions erronées dans divers scénarios importants qui requièrent un raisonnement intact.

Les critères de raisonnement normalisés actuels et les affirmations fondées sur ceux-ci créent l'illusion de capacités de raisonnement qui sont en fait absentes. Et ce qui est encore pire, c'est que ces modèles sont trop confiants, insistent sur le fait que leurs mauvaises réponses sont correctes et produisent des explications très persuasives et suggestives pour leurs mauvaises réponses, qui peuvent masquer des erreurs pour les utilisateurs finaux en raison d'un texte à consonance partiellement plausible.

Pour garantir la sécurité, les déclarations publiques ne devraient être fondées que sur les évaluations scientifiques qui mesurent correctement les capacités de raisonnement du modèle, tandis que la recherche fondamentale doit être effectuée à l'aide de ces références pour doter les futurs modèles de capacités de raisonnement de base suffisantes.

Nom : 3.jpg
Affichages : 8550
Taille : 69,4 Ko

Les chercheurs commentent :

Nous pensons que les observations faites dans notre étude devraient servir de rappel fort que les LLM actuels ne sont pas capables d'un raisonnement sain et cohérent, comme le montre ici leur échec même sur une tâche aussi simple que le problème AIW présenté, et que permettre un tel raisonnement est encore un sujet de recherche fondamentale.

Il s'agit également d'une mise en garde contre les prétentions exagérées de ces modèles, qui ne se limitent pas à être des artefacts de recherche fondamentale et qui servent à résoudre des problèmes dans divers contextes réels. Ces prétentions sont souvent formulées par différentes entités commerciales qui tentent de positionner leurs modèles comme un produit solide et mature pour les utilisateurs finaux.

Par exemple, les annonces et les prétentions de Command R+ qui s'effondre entièrement sur le problème AIW, en soulignant sa grande valeur pour les « capacités critiques clés » ou les « cas d'utilisation réels des entreprises », et en mettant l'accent sur les capacités de raisonnement fondamentales supposées présentes. Il en va de même pour de nombreux autres modèles commerciaux qui revendiquent une valeur élevée du produit.

Conclusion : Rendre le processus de formation d'un modèle open-source permettrait d'améliorer ses capacités de raisonnement

Pour effectuer une recherche fondamentale en vue d'améliorer les capacités de raisonnement actuellement insatisfaisantes des LLM, il est donc important que l'ensemble du processus de création du modèle soit entièrement ouvert et reproductible. Le processus comprend notamment : la composition de l'ensemble de données et l'ensemble de données lui-même, le code source pour l'entraînement, le modèle entraîné lui-même, la procédure d'étalonnage normalisée.

Les modèles qui n'ont que des poids ouverts ne permettent pas d'analyser correctement ce qui a pu se passer pendant la formation et qui a pu entraîner une dégradation des capacités de raisonnement. Par exemple, la modification de la composition de l'ensemble de données ou de la procédure de formation elle-même. Les modèles fermés accessibles uniquement via l'API ne permettent souvent même pas une évaluation correcte, car, par exemple, les paramètres par défaut tels que l'invite du système et d'autres hyperparamètres d'inférence peuvent rester invisibles pour les parties indépendantes chargées de l'évaluation.

Les chercheurs pensent que pour progresser dans l'étude de la manière d'évaluer et d'installer des compétences de raisonnement appropriées dans les futurs modèles, il faut nécessairement que l'ensemble du pipeline de formation d'un modèle, en particulier la composition de l'ensemble de données, souvent négligée, soit open-source, faute de quoi les affirmations sur les capacités de raisonnement resteront non fondées et intrasparentes.

Les chercheurs concluent :

Face à ces premiers résultats, nous aimerions appeler la communauté scientifique et technologique du ML à travailler ensemble pour fournir les mises à jour nécessaires des benchmarks LLM actuels qui ne parviennent manifestement pas à découvrir les faiblesses et les différences importantes entre les modèles étudiés. Ces mises à jour pourraient comporter des ensembles de problèmes similaires à l'AIW étudié. Elles devraient être simples, pour sonder un type spécifique de déficience de raisonnement, mais personnalisables, offrant ainsi une variété combinatoire suffisante pour assurer la robustesse contre la contamination potentielle par la mémorisation.

Nous pensons que les tests de référence solides et fiables devraient suivre le principe de falsifiabilité de Karl Popper : ne pas essayer de confirmer et de mettre en évidence les capacités du modèle, ce qui est tentant surtout dans un contexte commercial, mais au contraire tout faire pour briser la fonction du modèle, mettre en évidence ses déficits, et ainsi montrer des voies possibles pour l'amélioration du modèle, ce qui est la façon de procéder de la méthode scientifique.

L'élaboration de tels repères de raisonnement dans un effort commun nous donnera un outil pour nous protéger des affirmations exagérées sur la fonction du modèle et pour naviguer correctement sur la voie de l'amélioration de l'état actuel, qui n'est pas encore satisfaisant.

Source : "Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models"

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

GPT-4o arrive en tête du classement des modèles d'IA les plus performants de LMSYS Chatbot Arena avec un score Elo de 1 289, surpassant ainsi Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic

Les IA classées par QI, l'IA dépasse 100 points de QI pour la première fois, avec la sortie de Claude-3, plus intelligente que l'Américain moyen et les modèles GPT-4 d'OpenAI et Gemini de Google

Les grands modèles de langage (LLM) ne peuvent pas s'autocorriger dans les tâches de raisonnement, selon une étude de DeepMind. L'autocorrection pourrait même nuire aux performances de ces modèles

**Jade Emy** · 19/07/2024, 05h56

OpenAI dévoile un petit modèle d'IA moins cher GPT-4o Mini, un petit modèle d'IA économique et rentable qui remplacera GPT-3.5 Turbo, qui surpasse le modèle GPT-4 et obtient un score de 82 % sur MMLU.

OpenAI annonce GPT-4o mini, un petit modèle économique. GPT-4o mini obtient un score de 82 % sur MMLU et surpasse actuellement GPT-4 sur les préférences de chat dans le classement LMSYS. Son prix est de 15 cents par million de jetons d'entrée et de 60 cents par million de jetons de sortie, soit 60 % moins cher que le GPT-3.5 Turbo.

Fondée en décembre 2015, OpenAI est une organisation américaine de recherche en intelligence artificielle (IA), connu pour son chatbot et assistant virtuel ChatGPT. Sa mission est de développer une intelligence générale artificielle "sûre et bénéfique", qu'elle définit comme "des systèmes hautement autonomes qui surpassent les humains dans la plupart des travaux économiquement utiles".

Basé sur les grands modèles de langage (LLM), ChatGPT permet aux utilisateurs d'affiner et d'orienter une conversation vers une longueur, un format, un style, un niveau de détail et un langage souhaités. Bien que la fonction principale d'un chatbot soit d'imiter un interlocuteur humain, ChatGPT est polyvalent. Il peut écrire et déboguer des programmes informatiques, composer des essais d'étudiants, répondre à des questions de test, générer des idées commerciales, traduire et résumer des textes, etc.

OpenAI vient de lancer GPT-4o mini, un nouveau modèle d'IA visant à améliorer l'accessibilité et l'abordabilité. Au prix de 15 cents par million de jetons d'entrée et de 60 cents par million de jetons de sortie, GPT-4o mini représente une réduction significative des coûts par rapport aux modèles précédents tels que GPT-3.5 Turbo. Le nouveau modèle est plus de 60 % moins cher, ce qui en fait une option économique pour une large gamme d'applications.

GPT-4o mini est conçu avec une fenêtre contextuelle de 128 000 jetons et prend en charge jusqu'à 16 000 jetons de sortie par demande. Actuellement, il est capable de traiter du texte et des tâches de vision. De futures mises à jour permettront d'étendre ses capacités aux entrées et sorties de texte, d'image, de vidéo et d'audio. Le modèle a obtenu un score de 82 % au test de référence MMLU, surpassant GPT-4 et d'autres concurrents dans le raisonnement textuel et les tâches multimodales. Il excelle également en mathématiques et en codage, devançant Gemini Flash et Claude Haiku dans ces domaines.

En termes de sécurité, le GPT-4o mini intègre plusieurs mesures pour faire face aux risques tels que les contenus nuisibles et les vulnérabilités du système. Ces mesures comprennent le filtrage du contenu et des techniques avancées pour atténuer les problèmes tels que les jailbreaks et les injections d'invite. GPT-4o mini est désormais disponible via diverses API et pour les utilisateurs de ChatGPT, ce qui constitue un pas en avant pour rendre l'IA de haute performance plus accessible.

Nom : 1.jpg
Affichages : 5781
Taille : 40,2 Ko

GPT-4o mini : l'intelligence au service de la rentabilité

OpenAI s'est engager à rendre l'intelligence aussi largement accessible que possible. GPT-4o mini permet de réaliser un large éventail de tâches grâce à son faible coût et à sa latence, comme les applications qui enchaînent ou parallélisent plusieurs appels de modèle (par exemple, en appelant plusieurs API), transmettent un grand volume de contexte au modèle (par exemple, la base de code complète ou l'historique des conversations), ou interagissent avec les clients par le biais de réponses textuelles rapides et en temps réel (par exemple, les chatbots d'assistance à la clientèle).

GPT-4o mini prend en charge le texte et la vision dans l'API, avec une prise en charge future des entrées et sorties texte, image, vidéo et audio. Le modèle dispose d'une fenêtre contextuelle de 128 000 jetons, prend en charge jusqu'à 16 000 jetons de sortie par demande et dispose de connaissances jusqu'en octobre 2023. Grâce au tokenizer amélioré partagé avec GPT-4o, le traitement de textes non anglais est désormais encore plus rentable.

Un petit modèle doté d'une intelligence textuelle et d'un raisonnement multimodal supérieurs

GPT-4o mini surpasse GPT-3.5 Turbo et d'autres petits modèles sur des benchmarks académiques en termes d'intelligence textuelle et de raisonnement multimodal, et prend en charge la même gamme de langues que GPT-4o. Il affiche également de bonnes performances en matière d'appel de fonctions, ce qui permet aux développeurs de créer des applications qui récupèrent des données ou entreprennent des actions avec des systèmes externes, ainsi que des performances améliorées en matière de contexte long par rapport à GPT-3.5 Turbo.

GPT-4o mini a été évalué sur plusieurs points de référence clés.

Tâches de raisonnement : GPT-4o mini est meilleur que d'autres petits modèles pour les tâches de raisonnement impliquant à la fois du texte et de la vision, obtenant un score de 82,0 % sur MMLU, une référence en matière d'intelligence textuelle et de raisonnement, contre 77,9 % pour Gemini Flash et 73,8 % pour Claude Haiku.
Compétence en mathématiques et en codage :GPT-4o mini excelle dans les tâches de raisonnement mathématique et de codage, surpassant les petits modèles précédents sur le marché. Au MGSM, qui mesure le raisonnement mathématique, GPT-4o mini a obtenu un score de 87,0 %, contre 75,5 % pour Gemini Flash et 71,7 % pour Claude Haiku. Le GPT-4o mini a obtenu un score de 87,2 % à HumanEval, qui mesure les performances de codage, contre 71,5 % pour le Gemini Flash et 75,9 % pour le Claude Haiku.
Raisonnement multimodal : GPT-4o mini montre également de bonnes performances sur MMMU, un test de raisonnement multimodal, avec un score de 59,4% comparé à 56,1% pour Gemini Flash et 50,2% pour Claude Haiku.

Nom : 2.jpg
Affichages : 667
Taille : 71,8 Ko

OpenAI déclare :

Dans le cadre du processus de développement de notre modèle, nous avons travaillé avec une poignée de partenaires de confiance pour mieux comprendre les cas d'utilisation et les limites de GPT-4o mini. Nous nous sommes associés à des entreprises telles que Ramp et Superhuman qui ont constaté que GPT-4o mini était nettement plus performant que GPT-3.5 Turbo pour des tâches telles que l'extraction de données structurées à partir de fichiers de réception ou la génération de réponses de haute qualité à des courriels lorsqu'ils disposent de l'historique des discussions.

Mesures de sécurité intégrées

Selon OpenAI, la sécurité est intégrée aux modèles dès le départ et renforcée à chaque étape du processus de développement. Lors du pré-entraînement, ils filtrent les informations indésirables dont les modèles tirent des enseignements ou produisent des résultats, comme les discours haineux, les contenus pour adultes, les sites qui regroupent principalement des informations personnelles et le spam. En post-formation, ils ont aligné le comportement du modèle en utilisant des techniques telles que l'apprentissage par renforcement avec retour d'information humain (RLHF) afin d'améliorer la précision et la fiabilité des réponses du modèle.

OpenAI commente ainsi :

GPT-4o mini intègre les mêmes mesures d'atténuation de la sécurité que GPT-4o, que nous avons soigneusement évaluées à l'aide d'évaluations automatisées et humaines, conformément à notre cadre de préparation et à nos engagements volontaires. Plus de 70 experts externes dans des domaines tels que la psychologie sociale et la désinformation ont testé GPT-4o afin d'identifier les risques potentiels, que nous avons traités et dont nous prévoyons de partager les détails dans la prochaine carte du système GPT-4o et le tableau de bord de la préparation. Les enseignements tirés de ces évaluations d'experts ont permis d'améliorer la sécurité du GPT-4o et du GPT-4o mini.

Sur la base de ces enseignements, nos équipes ont également travaillé à l'amélioration de la sécurité du GPT-4o mini en utilisant de nouvelles techniques issues de nos recherches. GPT-4o mini dans l'API est le premier modèle à appliquer notre méthode de hiérarchie des instructions, qui permet d'améliorer la capacité du modèle à résister aux jailbreaks, aux injections d'invites et aux extractions d'invites système. Les réponses du modèle sont ainsi plus fiables et son utilisation dans des applications à grande échelle est plus sûre.

Nous continuerons à surveiller l'utilisation du GPT-4o mini et à améliorer la sécurité du modèle au fur et à mesure que nous identifierons de nouveaux risques.

Disponibilité et prix

GPT-4o mini est désormais disponible en tant que modèle de texte et de vision dans l'API Assistants, l'API Chat Completions et l'API Batch. Les développeurs paient 15 cents pour 1M de jetons d'entrée et 60 cents pour 1M de jetons de sortie (à peu près l'équivalent de 2500 pages dans un livre standard). Il y aura des ajustements pour GPT-4o mini dans les prochains jours.

Dans ChatGPT, les utilisateurs Free, Plus et Team pourront accéder à GPT-4o mini, à la place de GPT-3.5. Les utilisateurs de l'entreprise y auront également accès à partir de la semaine prochaine.

Prochaines étapes

Au cours des dernières années, on a assisté à des avancées remarquables en matière d'intelligence artificielle, associées à des réductions substantielles des coûts. Par exemple, le coût par jeton de GPT-4o mini a chuté de 99 % depuis text-davinci-003, un modèle moins performant introduit en 2022. OpenAI s'engage à poursuivre cette trajectoire de réduction des coûts tout en améliorant les capacités des modèles.

OpenAI conclue :

Nous envisageons un avenir où les modèles seront intégrés de manière transparente dans toutes les applications et sur tous les sites web. GPT-4o mini ouvre la voie aux développeurs pour qu'ils puissent créer et mettre à l'échelle de puissantes applications d'IA de manière plus efficace et plus abordable. L'avenir de l'IA devient plus accessible, plus fiable et plus intégré dans nos expériences numériques quotidiennes, et nous sommes ravis de continuer à ouvrir la voie.

Source : OpenAI

Et vous ?

Avez-vous utilisé cet outil, et si oui qu'en pensez-vous ?

Pensez-vous que cette initiative d'OpenAI rendra l'avenir de l'IA plus accessible ?

Voir aussi :

OpenAI lance GPT-4o, un modèle plus rapide et gratuit pour tous les utilisateurs de ChatGPT. L'entreprise fait une démo de son modèle qui « représente l'avenir de l'interaction entre nous et les machines »

Les revenus nets de l'application mobile ChatGPT sont passés d'une moyenne quotidienne de 491 000 $ à 900 000 $ après le lancement de GPT-4o, soit la plus forte hausse depuis le lancement de l'application

Qualité vs prix : Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût, tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité