IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

La nouvelle version de ChatGPT-4o reprend la première place dans les classements des benchmarks populaires


Sujet :

Intelligence artificielle

  1. #21
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 770
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 770
    Points : 123 432
    Points
    123 432
    Par défaut ChatGPT Advanced Voice Mode impressionne par ses effets sonores et sa capacité à reprendre son souffle
    Les utilisateurs gratuits de ChatGPT peuvent maintenant utiliser les fonctions de navigation, de vision, d'analyse de données, de téléchargement de fichiers et de GPTs, créer les GPTs personnalisés est payant.

    Les utilisateurs gratuits de ChatGPT viennent de recevoir une énorme mise à jour : il est maintenant possible d'utiliser les fonctions de navigation, de vision, d'analyse de données, de téléchargement de fichiers et de GPT. L'utilisation des GPT personnalisés est gratuite, mais vous devez payer pour les créer.

    ChatGPT a élargi les fonctions disponibles pour les utilisateurs gratuits de ChatGPT, incluant désormais l'accès à des GPT personnalisés, qui étaient auparavant exclusifs aux abonnés payants. Ces nouvelles fonctionnalités englobent l'analyse de données, les fonctions de vision et la possibilité d'utiliser les fonctions de navigation et de mémoire. Initialement introduits avec le GPT-4o au début du mois de mai, ces outils permettent aux utilisateurs d'analyser des graphiques, de poser des questions sur des photos, etc.

    Parmi les GPTs personnalisés disponibles, il existe des centaines de services tiers, allant d'outils d'extraction d'informations et de conversation avec des PDF à d'autres outils utiles d'OpenAI tels que DALL-E 3, ou des plugins de Canva, Adobe Express ou Khan Academy. Vous pouvez découvrir tous les plugins disponibles dans la boutique.

    Les créateurs de GPTs personnalisés peuvent participer à un programme de partage des revenus qu'OpenAI teste depuis le mois de mars. Toutefois, les utilisateurs gratuits ne peuvent que découvrir et utiliser les GPTs personnalisés existants, et non créer les leurs.

    Malgré ces améliorations, les abonnés payants bénéficient toujours de certains avantages, tels que des limites de messages nettement plus élevées que celles des utilisateurs gratuits. Les utilisateurs gratuits qui atteignent leur limite de messages ou de conversations avec GPT-4o seront ramenés à GPT-3.5 et n'auront pas accès à d'autres fonctions premium telles que les fonctions de vision.


    Et vous ?

    Quel est votre avis sur cette annonce ?

    Voir aussi :

    OpenAI annonce des améliorations dans l'analyse des données dans ChatGPT, dont l'interaction avec des tableaux et des graphiques ou l'ajout de fichiers directement depuis Google Drive et Microsoft OneDrive

    GPT-4o arrive en tête du classement des modèles d'IA les plus performants de LMSYS Chatbot Arena avec un score Elo de 1 289, surpassant ainsi Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic

    GPT-4 est-il un bon analyste de données ? De nombreux analystes de données peuvent craindre que leur emploi soit remplacé par l'intelligence artificielle (IA)

  2. #22
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 770
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 770
    Points : 123 432
    Points
    123 432
    Par défaut Une recherche sur les tâches simples donne OpenAI GPT-4o largement en tête
    Une recherche sur les tâches simples montrant la décomposition du raisonnement IA dans les LLM de pointe donne OpenAI GPT-4o largement en tête, suivi d'Anthropic Claude 3

    Une nouvelle étude a observé un effondrement frappant de la performance des grands modèles de langage (LLMs) lorsqu'ils sont confronté à des problèmes simples. À l'aide de tâches simples, l'étude visait à montrer le raisonnement de l'IA dans les LLMs. Les résultats classent GTP-4o d'Open AI largement en tête, suivi de Claude 3 d'Anthropic.

    Les grands modèles de langage (LLM) comme les modèles à poids fermés GPT-3.5/4, Claude, Gemini ou les modèles à poids ouverts comme LLaMa 2/3, Mistral, Mixtral, et les modèles plus récents Dbrx ou Command R+ sont souvent décrits comme étant des exemples de modèles de fondation.

    Les modèles de fondation sont des modèles qui se transfèrent fortement à travers différentes tâches et conditions de manière peu visible ou sans aucun effet, tout en montrant des lois d'échelle qui prédisent l'amélioration de la fonction en augmentant l'échelle de pré-entraînement. Ces affirmations d'excellence dans différentes fonctions et tâches s'appuient sur des mesures effectuées sur divers ensembles de points de référence normalisés qui montrent que ces modèles obtiennent des scores élevés.

    Cependant, une nouvelle recherche démontre un effondrement spectaculaire des fonctions et des capacités de raisonnement des modèles de pointe entraînés aux plus grandes échelles disponibles qui prétendent avoir une fonction forte, en utilisant un problème de bon sens simple, court et conventionnel, formulé dans un langage naturel concis, facilement résolvable par les humains. L'effondrement est spectaculaire, car les modèles expriment également une confiance excessive dans leurs solutions erronées, tout en fournissant des explications souvent absurdes, semblables à des confabulations, pour justifier et étayer la validité de leurs réponses clairement erronées, en les faisant paraître plausibles.

    Les diverses interventions standard visant à obtenir la bonne solution, telles que divers types d'incitations renforcées ou l'incitation des modèles à reconsidérer les mauvaises solutions par le biais d'une réévaluation en plusieurs étapes, sont vouées à l'échec. Une telle réévaluation nécessite également une action commune pour créer des critères de référence normalisés qui permettraient de détecter correctement les déficits de raisonnement de base qui, de toute évidence, ne sont pas découverts par les procédures d'évaluation et les critères de référence de pointe actuels.


    Des tâches simples montrant une décomposition complète du raisonnement dans les grands modèles de langage

    En utilisant une formulation de problème AIW très simple, qui peut être facilement résolue par des adultes et sans doute même par des enfants, l'étude a observé un effondrement frappant de la performance des LLMs lorsqu'ils sont confrontés à la tâche. Le problème AIW ou "Alice In Wonderland" consistait à répondre à la question : "Alice a N frères et M sœurs. Combien de sœurs le frère d'Alice a-t-il ?".

    Cet effondrement dramatique laisse entrevoir de graves déficits dans les capacités de raisonnement de base des modèles qui sont largement revendiqués comme possédant de fortes capacités de fonctionnement et de raisonnement, souvent en citant leur performance sur un ensemble de repères standardisés ou l'expérience de divers groupes d'utilisateurs ou de leurs créateurs. L'effondrement général et la forte fluctuation des performances observées entre les différentes variantes d'un même problème laissent également entrevoir des problèmes fondamentaux liés à la capacité de généralisation des modèles, ce qui fait écho et confirme les préoccupations exprimées dans un certain nombre de travaux antérieurs.

    Cependant, les preuves obtenues dans cette étude indiquent une image plus complexe qu'une histoire simple d'échec de généralisation hors distribution pour les LLMs actuels. Malgré l'effondrement observé du raisonnement et de la performance sur le problème AIW, accompagné d'un mauvais calibrage évident du modèle et d'un excès de confiance, de confabulations à côté de réponses incorrectes et d'une incapacité à réviser les mauvaises solutions, l'étude a observé des modèles à plus grande échelle comme GPT-4 et Claude 3 Opus faire face au problème AIW, en fournissant occasionnellement un raisonnement clairement correct soutenant des réponses correctes. Malgré les fortes fluctuations des variations de l'AIW, de tels raisonnements corrects conduisant à des réponses correctes apparaissent, bien qu'à une fréquence très variable.

    C'est également le cas pour AIW+, où GPT-4 et Claude 3 Opus subissent une dégradation supplémentaire, mais fournissent encore à de très rares occasions des réponses correctes fondées sur un raisonnement. Il en va de même pour les modèles beaucoup moins performants qui montrent une capacité médiocre ou très médiocre à faire face à la tâche AIW, par exemple, Mistral/Mixtral, LLama 2/3, Dbrx instruct. Ces modèles parviennent également à générer en de rares occasions des réponses correctes par raisonnement à travers les variations de l'AIW.

    Nom : 1.jpg
Affichages : 27593
Taille : 73,1 Ko

    Les chercheurs déclarent :

    Nous émettons l'hypothèse que les capacités de généralisation et de raisonnement de base sont donc présentes de manière latente dans ces modèles, car sinon ils ne seraient pas en mesure de générer de telles réponses, étant donné qu'il est impossible de deviner une réponse correcte, y compris un raisonnement correct complet, par accident dans de tels cas.

    Le fait que les réponses correctes soient rares et que le comportement du modèle ne soit pas robuste face aux variations du problème démontre l'incapacité d'exercer un contrôle adéquat sur ces capacités. L'étude de la question très intéressante des causes de cette déficience fera l'objet de travaux futurs.
    Les benchmarks actuels ne permettent pas de refléter et de comparer correctement les capacités de raisonnement de base des LLMs

    Ce qui ressort clairement de l'étude, c'est l'incapacité des repères normalisés actuels à refléter les véritables capacités de raisonnement des modèles et à révéler leurs faiblesses. Comme le montrent clairement les résultats, de nombreux modèles revendiquant des scores normalisés élevés obtiennent des résultats très médiocres sur l'AIW.

    Dans le même temps, des modèles plus anciens comme le LLama 2 70B avec des scores MMLU, ARC-c et GSM8K inférieurs sur AIW surpassent clairement ceux qui revendiquent des scores beaucoup plus élevés, par exemple le Command R+ qui souffre d'une panne complète sur AIW. Cela indique que la comparaison des modèles à l'aide de critères de référence normalisés pourrait être sérieusement compromise.

    L'évaluation des modèles à plus petite échelle, par exemple Mistral-7B ou LLama 2/3 7/8B, est basée dans une large mesure sur de tels critères de référence normalisés qui sont proches des modèles à plus grande échelle, voire les égalent. Les résultats démontrent cependant une grave défaillance des modèles à petite échelle sur l'AIW, avec un écart important par rapport aux modèles plus performants qui se situent tous à des échelles plus grandes.

    Nom : 2.jpg
Affichages : 9453
Taille : 60,4 Ko

    Les chercheurs ajoutent :

    Nous émettons l'hypothèse que les prétendues fonctions fortes des modèles à plus petite échelle pourraient n'être qu'une illusion corroborée par des repères défaillants qui, dans leur état actuel, ne peuvent pas offrir une comparaison correcte des modèles et ne peuvent donc pas non plus être utilisés comme tâches en aval pour mesurer d'importantes lois d'échelle.
    Les affirmations publiques sur les capacités de raisonnement de base des LLMs représentent un danger

    La défaillance observée des capacités de raisonnement de base, associée à aux affirmations publiques sur les capacités des LLMs (qui sont également basées sur des critères de référence normalisés), pose un problème de sécurité inhérent. Les modèles dont le raisonnement de base est insuffisant sont intrinsèquement dangereux, car ils produiront des décisions erronées dans divers scénarios importants qui requièrent un raisonnement intact.

    Les critères de raisonnement normalisés actuels et les affirmations fondées sur ceux-ci créent l'illusion de capacités de raisonnement qui sont en fait absentes. Et ce qui est encore pire, c'est que ces modèles sont trop confiants, insistent sur le fait que leurs mauvaises réponses sont correctes et produisent des explications très persuasives et suggestives pour leurs mauvaises réponses, qui peuvent masquer des erreurs pour les utilisateurs finaux en raison d'un texte à consonance partiellement plausible.

    Pour garantir la sécurité, les déclarations publiques ne devraient être fondées que sur les évaluations scientifiques qui mesurent correctement les capacités de raisonnement du modèle, tandis que la recherche fondamentale doit être effectuée à l'aide de ces références pour doter les futurs modèles de capacités de raisonnement de base suffisantes.

    Nom : 3.jpg
Affichages : 9460
Taille : 69,4 Ko

    Les chercheurs commentent :

    Nous pensons que les observations faites dans notre étude devraient servir de rappel fort que les LLM actuels ne sont pas capables d'un raisonnement sain et cohérent, comme le montre ici leur échec même sur une tâche aussi simple que le problème AIW présenté, et que permettre un tel raisonnement est encore un sujet de recherche fondamentale.

    Il s'agit également d'une mise en garde contre les prétentions exagérées de ces modèles, qui ne se limitent pas à être des artefacts de recherche fondamentale et qui servent à résoudre des problèmes dans divers contextes réels. Ces prétentions sont souvent formulées par différentes entités commerciales qui tentent de positionner leurs modèles comme un produit solide et mature pour les utilisateurs finaux.

    Par exemple, les annonces et les prétentions de Command R+ qui s'effondre entièrement sur le problème AIW, en soulignant sa grande valeur pour les « capacités critiques clés » ou les « cas d'utilisation réels des entreprises », et en mettant l'accent sur les capacités de raisonnement fondamentales supposées présentes. Il en va de même pour de nombreux autres modèles commerciaux qui revendiquent une valeur élevée du produit.
    Conclusion : Rendre le processus de formation d'un modèle open-source permettrait d'améliorer ses capacités de raisonnement

    Pour effectuer une recherche fondamentale en vue d'améliorer les capacités de raisonnement actuellement insatisfaisantes des LLM, il est donc important que l'ensemble du processus de création du modèle soit entièrement ouvert et reproductible. Le processus comprend notamment : la composition de l'ensemble de données et l'ensemble de données lui-même, le code source pour l'entraînement, le modèle entraîné lui-même, la procédure d'étalonnage normalisée.

    Les modèles qui n'ont que des poids ouverts ne permettent pas d'analyser correctement ce qui a pu se passer pendant la formation et qui a pu entraîner une dégradation des capacités de raisonnement. Par exemple, la modification de la composition de l'ensemble de données ou de la procédure de formation elle-même. Les modèles fermés accessibles uniquement via l'API ne permettent souvent même pas une évaluation correcte, car, par exemple, les paramètres par défaut tels que l'invite du système et d'autres hyperparamètres d'inférence peuvent rester invisibles pour les parties indépendantes chargées de l'évaluation.

    Les chercheurs pensent que pour progresser dans l'étude de la manière d'évaluer et d'installer des compétences de raisonnement appropriées dans les futurs modèles, il faut nécessairement que l'ensemble du pipeline de formation d'un modèle, en particulier la composition de l'ensemble de données, souvent négligée, soit open-source, faute de quoi les affirmations sur les capacités de raisonnement resteront non fondées et intrasparentes.

    Les chercheurs concluent :

    Face à ces premiers résultats, nous aimerions appeler la communauté scientifique et technologique du ML à travailler ensemble pour fournir les mises à jour nécessaires des benchmarks LLM actuels qui ne parviennent manifestement pas à découvrir les faiblesses et les différences importantes entre les modèles étudiés. Ces mises à jour pourraient comporter des ensembles de problèmes similaires à l'AIW étudié. Elles devraient être simples, pour sonder un type spécifique de déficience de raisonnement, mais personnalisables, offrant ainsi une variété combinatoire suffisante pour assurer la robustesse contre la contamination potentielle par la mémorisation.

    Nous pensons que les tests de référence solides et fiables devraient suivre le principe de falsifiabilité de Karl Popper : ne pas essayer de confirmer et de mettre en évidence les capacités du modèle, ce qui est tentant surtout dans un contexte commercial, mais au contraire tout faire pour briser la fonction du modèle, mettre en évidence ses déficits, et ainsi montrer des voies possibles pour l'amélioration du modèle, ce qui est la façon de procéder de la méthode scientifique.

    L'élaboration de tels repères de raisonnement dans un effort commun nous donnera un outil pour nous protéger des affirmations exagérées sur la fonction du modèle et pour naviguer correctement sur la voie de l'amélioration de l'état actuel, qui n'est pas encore satisfaisant.
    Source : "Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models"

    Et vous ?

    Pensez-vous que cette étude est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    GPT-4o arrive en tête du classement des modèles d'IA les plus performants de LMSYS Chatbot Arena avec un score Elo de 1 289, surpassant ainsi Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic

    Les IA classées par QI, l'IA dépasse 100 points de QI pour la première fois, avec la sortie de Claude-3, plus intelligente que l'Américain moyen et les modèles GPT-4 d'OpenAI et Gemini de Google

    Les grands modèles de langage (LLM) ne peuvent pas s'autocorriger dans les tâches de raisonnement, selon une étude de DeepMind. L'autocorrection pourrait même nuire aux performances de ces modèles

  3. #23
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 770
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 770
    Points : 123 432
    Points
    123 432
    Par défaut OpenAI dévoile un petit modèle d'IA moins cher GPT-4o Mini, un petit modèle d'IA économique et rentable
    OpenAI dévoile un petit modèle d'IA moins cher GPT-4o Mini, un petit modèle d'IA économique et rentable qui remplacera GPT-3.5 Turbo, qui surpasse le modèle GPT-4 et obtient un score de 82 % sur MMLU.

    OpenAI annonce GPT-4o mini, un petit modèle économique. GPT-4o mini obtient un score de 82 % sur MMLU et surpasse actuellement GPT-4 sur les préférences de chat dans le classement LMSYS. Son prix est de 15 cents par million de jetons d'entrée et de 60 cents par million de jetons de sortie, soit 60 % moins cher que le GPT-3.5 Turbo.

    Fondée en décembre 2015, OpenAI est une organisation américaine de recherche en intelligence artificielle (IA), connu pour son chatbot et assistant virtuel ChatGPT. Sa mission est de développer une intelligence générale artificielle "sûre et bénéfique", qu'elle définit comme "des systèmes hautement autonomes qui surpassent les humains dans la plupart des travaux économiquement utiles".

    Basé sur les grands modèles de langage (LLM), ChatGPT permet aux utilisateurs d'affiner et d'orienter une conversation vers une longueur, un format, un style, un niveau de détail et un langage souhaités. Bien que la fonction principale d'un chatbot soit d'imiter un interlocuteur humain, ChatGPT est polyvalent. Il peut écrire et déboguer des programmes informatiques, composer des essais d'étudiants, répondre à des questions de test, générer des idées commerciales, traduire et résumer des textes, etc.

    OpenAI vient de lancer GPT-4o mini, un nouveau modèle d'IA visant à améliorer l'accessibilité et l'abordabilité. Au prix de 15 cents par million de jetons d'entrée et de 60 cents par million de jetons de sortie, GPT-4o mini représente une réduction significative des coûts par rapport aux modèles précédents tels que GPT-3.5 Turbo. Le nouveau modèle est plus de 60 % moins cher, ce qui en fait une option économique pour une large gamme d'applications.

    GPT-4o mini est conçu avec une fenêtre contextuelle de 128 000 jetons et prend en charge jusqu'à 16 000 jetons de sortie par demande. Actuellement, il est capable de traiter du texte et des tâches de vision. De futures mises à jour permettront d'étendre ses capacités aux entrées et sorties de texte, d'image, de vidéo et d'audio. Le modèle a obtenu un score de 82 % au test de référence MMLU, surpassant GPT-4 et d'autres concurrents dans le raisonnement textuel et les tâches multimodales. Il excelle également en mathématiques et en codage, devançant Gemini Flash et Claude Haiku dans ces domaines.

    En termes de sécurité, le GPT-4o mini intègre plusieurs mesures pour faire face aux risques tels que les contenus nuisibles et les vulnérabilités du système. Ces mesures comprennent le filtrage du contenu et des techniques avancées pour atténuer les problèmes tels que les jailbreaks et les injections d'invite. GPT-4o mini est désormais disponible via diverses API et pour les utilisateurs de ChatGPT, ce qui constitue un pas en avant pour rendre l'IA de haute performance plus accessible.

    Nom : 1.jpg
Affichages : 7679
Taille : 40,2 Ko

    GPT-4o mini : l'intelligence au service de la rentabilité

    OpenAI s'est engager à rendre l'intelligence aussi largement accessible que possible. GPT-4o mini permet de réaliser un large éventail de tâches grâce à son faible coût et à sa latence, comme les applications qui enchaînent ou parallélisent plusieurs appels de modèle (par exemple, en appelant plusieurs API), transmettent un grand volume de contexte au modèle (par exemple, la base de code complète ou l'historique des conversations), ou interagissent avec les clients par le biais de réponses textuelles rapides et en temps réel (par exemple, les chatbots d'assistance à la clientèle).

    GPT-4o mini prend en charge le texte et la vision dans l'API, avec une prise en charge future des entrées et sorties texte, image, vidéo et audio. Le modèle dispose d'une fenêtre contextuelle de 128 000 jetons, prend en charge jusqu'à 16 000 jetons de sortie par demande et dispose de connaissances jusqu'en octobre 2023. Grâce au tokenizer amélioré partagé avec GPT-4o, le traitement de textes non anglais est désormais encore plus rentable.

    Un petit modèle doté d'une intelligence textuelle et d'un raisonnement multimodal supérieurs

    GPT-4o mini surpasse GPT-3.5 Turbo et d'autres petits modèles sur des benchmarks académiques en termes d'intelligence textuelle et de raisonnement multimodal, et prend en charge la même gamme de langues que GPT-4o. Il affiche également de bonnes performances en matière d'appel de fonctions, ce qui permet aux développeurs de créer des applications qui récupèrent des données ou entreprennent des actions avec des systèmes externes, ainsi que des performances améliorées en matière de contexte long par rapport à GPT-3.5 Turbo.

    GPT-4o mini a été évalué sur plusieurs points de référence clés.

    • Tâches de raisonnement : GPT-4o mini est meilleur que d'autres petits modèles pour les tâches de raisonnement impliquant à la fois du texte et de la vision, obtenant un score de 82,0 % sur MMLU, une référence en matière d'intelligence textuelle et de raisonnement, contre 77,9 % pour Gemini Flash et 73,8 % pour Claude Haiku.

    • Compétence en mathématiques et en codage :GPT-4o mini excelle dans les tâches de raisonnement mathématique et de codage, surpassant les petits modèles précédents sur le marché. Au MGSM, qui mesure le raisonnement mathématique, GPT-4o mini a obtenu un score de 87,0 %, contre 75,5 % pour Gemini Flash et 71,7 % pour Claude Haiku. Le GPT-4o mini a obtenu un score de 87,2 % à HumanEval, qui mesure les performances de codage, contre 71,5 % pour le Gemini Flash et 75,9 % pour le Claude Haiku.

    • Raisonnement multimodal : GPT-4o mini montre également de bonnes performances sur MMMU, un test de raisonnement multimodal, avec un score de 59,4% comparé à 56,1% pour Gemini Flash et 50,2% pour Claude Haiku.


    Nom : 2.jpg
Affichages : 1505
Taille : 71,8 Ko

    OpenAI déclare :

    Dans le cadre du processus de développement de notre modèle, nous avons travaillé avec une poignée de partenaires de confiance pour mieux comprendre les cas d'utilisation et les limites de GPT-4o mini. Nous nous sommes associés à des entreprises telles que Ramp et Superhuman qui ont constaté que GPT-4o mini était nettement plus performant que GPT-3.5 Turbo pour des tâches telles que l'extraction de données structurées à partir de fichiers de réception ou la génération de réponses de haute qualité à des courriels lorsqu'ils disposent de l'historique des discussions.
    Mesures de sécurité intégrées

    Selon OpenAI, la sécurité est intégrée aux modèles dès le départ et renforcée à chaque étape du processus de développement. Lors du pré-entraînement, ils filtrent les informations indésirables dont les modèles tirent des enseignements ou produisent des résultats, comme les discours haineux, les contenus pour adultes, les sites qui regroupent principalement des informations personnelles et le spam. En post-formation, ils ont aligné le comportement du modèle en utilisant des techniques telles que l'apprentissage par renforcement avec retour d'information humain (RLHF) afin d'améliorer la précision et la fiabilité des réponses du modèle.

    OpenAI commente ainsi :

    GPT-4o mini intègre les mêmes mesures d'atténuation de la sécurité que GPT-4o, que nous avons soigneusement évaluées à l'aide d'évaluations automatisées et humaines, conformément à notre cadre de préparation et à nos engagements volontaires. Plus de 70 experts externes dans des domaines tels que la psychologie sociale et la désinformation ont testé GPT-4o afin d'identifier les risques potentiels, que nous avons traités et dont nous prévoyons de partager les détails dans la prochaine carte du système GPT-4o et le tableau de bord de la préparation. Les enseignements tirés de ces évaluations d'experts ont permis d'améliorer la sécurité du GPT-4o et du GPT-4o mini.

    Sur la base de ces enseignements, nos équipes ont également travaillé à l'amélioration de la sécurité du GPT-4o mini en utilisant de nouvelles techniques issues de nos recherches. GPT-4o mini dans l'API est le premier modèle à appliquer notre méthode de hiérarchie des instructions, qui permet d'améliorer la capacité du modèle à résister aux jailbreaks, aux injections d'invites et aux extractions d'invites système. Les réponses du modèle sont ainsi plus fiables et son utilisation dans des applications à grande échelle est plus sûre.

    Nous continuerons à surveiller l'utilisation du GPT-4o mini et à améliorer la sécurité du modèle au fur et à mesure que nous identifierons de nouveaux risques.

    Disponibilité et prix

    GPT-4o mini est désormais disponible en tant que modèle de texte et de vision dans l'API Assistants, l'API Chat Completions et l'API Batch. Les développeurs paient 15 cents pour 1M de jetons d'entrée et 60 cents pour 1M de jetons de sortie (à peu près l'équivalent de 2500 pages dans un livre standard). Il y aura des ajustements pour GPT-4o mini dans les prochains jours.

    Dans ChatGPT, les utilisateurs Free, Plus et Team pourront accéder à GPT-4o mini, à la place de GPT-3.5. Les utilisateurs de l'entreprise y auront également accès à partir de la semaine prochaine.

    Prochaines étapes

    Au cours des dernières années, on a assisté à des avancées remarquables en matière d'intelligence artificielle, associées à des réductions substantielles des coûts. Par exemple, le coût par jeton de GPT-4o mini a chuté de 99 % depuis text-davinci-003, un modèle moins performant introduit en 2022. OpenAI s'engage à poursuivre cette trajectoire de réduction des coûts tout en améliorant les capacités des modèles.

    OpenAI conclue :

    Nous envisageons un avenir où les modèles seront intégrés de manière transparente dans toutes les applications et sur tous les sites web. GPT-4o mini ouvre la voie aux développeurs pour qu'ils puissent créer et mettre à l'échelle de puissantes applications d'IA de manière plus efficace et plus abordable. L'avenir de l'IA devient plus accessible, plus fiable et plus intégré dans nos expériences numériques quotidiennes, et nous sommes ravis de continuer à ouvrir la voie.

    Source : OpenAI

    Et vous ?

    Avez-vous utilisé cet outil, et si oui qu'en pensez-vous ?
    Pensez-vous que cette initiative d'OpenAI rendra l'avenir de l'IA plus accessible ?

    Voir aussi :

    OpenAI lance GPT-4o, un modèle plus rapide et gratuit pour tous les utilisateurs de ChatGPT. L'entreprise fait une démo de son modèle qui « représente l'avenir de l'interaction entre nous et les machines »

    Les revenus nets de l'application mobile ChatGPT sont passés d'une moyenne quotidienne de 491 000 $ à 900 000 $ après le lancement de GPT-4o, soit la plus forte hausse depuis le lancement de l'application

    Qualité vs prix : Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût, tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité

  4. #24
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 075
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 075
    Points : 209 461
    Points
    209 461
    Par défaut ChatGPT Advanced Voice Mode impressionne par ses effets sonores et sa capacité à reprendre son souffle
    ChatGPT Advanced Voice Mode impressionne les testeurs par ses effets sonores et sa capacité à reprendre son souffle,
    il corrige la prononciation de mots français, en donnant des indications précises sur l'ajustement de l'inflexion.

    Le nouveau Advanced Voice Mode de ChatGPT, récemment déployé par OpenAI, a suscité l’enthousiasme des utilisateurs. Cette fonctionnalité permet des conversations en temps réel avec l’IA, avec la possibilité d’interrompre l’assistant en plein milieu de sa phrase. Mais ce qui a surpris beaucoup de gens, c’est la façon dont les voix simulent une respiration humaine.

    Mardi, OpenAI a commencé à déployer une version alpha de son nouveau mode vocal avancé auprès d'un petit groupe d'abonnés à ChatGPT Plus. Cette fonctionnalité, qu'OpenAI a présentée en mai avec le lancement de GPT-4o, vise à rendre les conversations avec l'IA plus naturelles et plus réactives. En mai, la fonction a suscité des critiques concernant l'expressivité émotionnelle simulée et a provoqué un conflit public avec l'actrice Scarlett Johansson, accusée par OpenAI d'avoir copié sa voix. Malgré cela, les premiers tests de la nouvelle fonctionnalité partagés par les utilisateurs sur les médias sociaux ont été largement enthousiastes.

    Dans les premiers tests rapportés par les utilisateurs qui y ont accès, le mode vocal avancé leur permet d'avoir des conversations en temps réel avec ChatGPT, y compris la possibilité d'interrompre l'IA au milieu d'une phrase presque instantanément. L'IA peut percevoir les signaux émotionnels de l'utilisateur et y répondre par le ton et l'élocution de la voix, et produire des effets sonores lorsqu'elle raconte des histoires.

    Nom : open.png
Affichages : 6958
Taille : 106,2 Ko

    Mais ce qui a pris beaucoup de gens au dépourvu, c'est la façon dont les voix simulent une respiration pendant qu'elles parlent.

    « ChatGPT Advanced Voice Mode compte aussi vite que possible jusqu'à 10, puis jusqu'à 50 (ce qui m'a époustouflé : il s'est arrêté pour reprendre son souffle comme le ferait un humain) », a écrit Cristiano Giardina sur X.

    Le mode vocal avancé simule des pauses respiratoires audibles parce qu'il a été entraîné à partir d'échantillons audio d'êtres humains qui présentaient la même caractéristique. Le modèle a appris à simuler des inspirations à des moments apparemment appropriés après avoir été exposé à des centaines de milliers, voire des millions, d'exemples de discours humains. Les grands modèles de langage (LLM) comme le GPT-4o sont de grands imitateurs, et cette compétence s'étend désormais au domaine audio.

    Giardina a fait part de ses autres impressions sur le mode vocal avancé sur X, notamment en ce qui concerne les accents dans d'autres langues et les effets sonores.

    « Il est très rapide, il n'y a pratiquement aucune latence entre le moment où vous arrêtez de parler et le moment où il répond », écrit-il. « Lorsque vous lui demandez de faire des bruits, c'est toujours la voix qui "exécute" les bruits (avec des résultats amusants). Il peut prendre des accents, mais lorsqu'il parle d'autres langues, il a toujours un accent américain » Dans la vidéo, ChatGPT joue le rôle d'un commentateur de match de football.

    En ce qui concerne les effets sonores, l'utilisateur X Kesku, qui est un modérateur du serveur Discord d'OpenAI, a partagé un exemple de ChatGPT jouant plusieurs rôles avec différentes voix et un autre d'une voix racontant une histoire de science-fiction ressemblant à un livre audio à partir de l'invite « Raconte-moi une histoire d'action passionnante avec des éléments de science-fiction et crée une atmosphère en faisant les bruits appropriés des choses qui se produisent en utilisant des onomatopées ».

    Réactions positives des testeurs

    Plusieurs vidéos de la fonctionnalité en action sont apparus en ligne, démontrant sa capacité à chanter, à imiter les accents, à corriger la prononciation des langues et à réaliser des récits narratifs.

    Un exemple de cette dernière fonctionnalité est visible dans les vidéos ci-dessous, dans lesquelles l'utilisateur X @nickfloats demande à ChatGPT de « me raconter une histoire comme si vous étiez un pilote de ligne la racontant aux passagers d'un vol ». Le chatbot entre en action à peine une seconde plus tard et modifie même le son pour donner l'impression qu'il provient d'un interphone. ChatGPT a eu du mal à répondre à des demandes plus complexes, comme l'ajout de sons de moteur, mais la voix elle-même est claire et émotive, et ChatGPT gère bien les interruptions de l'utilisateur.

    Dans une conversation téléchargée sur YouTube, ChatGPT indique qu'il peut traiter des entrées dans « des dizaines de langues », mais le nombre exact peut varier « en fonction de la façon dont vous comptez les dialectes et les variations régionales ».


    Une vidéo montre la capacité du chatbot à corriger la prononciation de mots français, en donnant des indications précises sur l'ajustement de l'inflexion.


    Une autre démo de langage montre ChatGPT parlant turc après avoir répondu à une demande détaillée de raconter une histoire émouvante. Bien que certains utilisateurs de Turkish X aient fait remarquer que l'accent n'était pas celui de la langue maternelle, le chatbot a été capable de répondre à la demande d'histoire et de réagir de manière appropriée en riant et en pleurant à certains moments.

    Le bot fait un travail passable avec les accents régionaux américains, avec une vidéo présentant une variété d'exemples incluant New York, Boston, Wisconsin, et un stéréotype de "fille de la vallée". D'autres vidéos montrent également la fonction vocale avancée de ChatGPT en train de chanter dans différents styles, produisant une version blues de "Happy Birthday" et, de manière amusante, essayant d'imiter le son d'animaux tels que les grenouilles et les chats chantant le même air.


    Manuel Sainsily, grand défenseur de l'IA, a posté une vidéo du mode vocal avancé réagissant à la saisie de la caméra et donnant des conseils sur la manière de s'occuper d'un chaton. « C'est comme si nous étions en face d'un ami bien informé qui, dans ce cas, nous a beaucoup aidés et rassurés avec notre nouveau chaton », a-t-il écrit. « Il peut répondre aux questions en temps réel et utiliser la caméra comme source d'information ! »

    Bien sûr, étant basé sur un LLM, il peut occasionnellement donner des réponses incorrectes sur des sujets ou dans des situations où ses « connaissances » (qui proviennent de l'ensemble de données d'entraînement de GPT-4o) sont insuffisantes. Mais si l'on considère qu'il s'agit d'une démo technique ou d'un divertissement alimenté par l'IA et que l'on est conscient de ses limites, Advanced Voice Mode semble exécuter avec succès un grand nombre des tâches présentées dans la démo d'OpenAI en mai.

    Sécurité

    Un porte-parole d'OpenAI a déclaré que l'entreprise avait travaillé avec plus de 100 testeurs externes sur la version Advanced Voice Mode, parlant collectivement 45 langues différentes et représentant 29 zones géographiques. Le système aurait été conçu pour empêcher l'usurpation d'identité de personnes ou de personnalités publiques en bloquant les voix qui diffèrent des quatre voix prédéfinies choisies par OpenAI.

    OpenAI a également ajouté des filtres pour reconnaître et bloquer les demandes de génération de musique ou d'autres fichiers audio protégés par des droits d'auteur, ce qui a causé des problèmes à d'autres sociétés d'IA. Giardina a signalé des « fuites » audio dans certaines sorties audio qui contiennent de la musique involontaire en arrière-plan, ce qui montre qu'OpenAI a entraîné le modèle vocal AVM sur une grande variété de sources audio, probablement à la fois à partir de matériel sous licence et d'audio récupéré sur des plateformes vidéo en ligne.

    Disponibilité

    OpenAI prévoit d'étendre l'accès à davantage d'utilisateurs de ChatGPT Plus dans les semaines à venir, avec un lancement complet pour tous les abonnés Plus prévu cet automne. Un porte-parole de l'entreprise a déclaré que les utilisateurs du groupe de test alpha recevront une notification dans l'application ChatGPT et un courriel contenant des instructions d'utilisation.

    Depuis la présentation initiale de GPT-4o voice en mai, OpenAI affirme avoir amélioré la capacité du modèle à prendre en charge des millions de conversations vocales simultanées en temps réel, tout en maintenant une faible latence et une qualité élevée. En d'autres termes, l'entreprise se prépare à une ruée qui nécessitera une grande quantité de calculs en arrière-plan.

    Source : OpenAI

    Et vous ?

    Pensez-vous que l’ajout d’effets sonores et de pauses respiratoires dans les interactions avec l’IA améliore l’expérience utilisateur ? Pourquoi ?
    Quelles sont les implications éthiques de simuler la respiration humaine dans les assistants vocaux ?
    Croyez-vous que les assistants vocaux devraient imiter davantage les caractéristiques humaines, ou préférez-vous une approche plus neutre ?
    Comment percevez-vous l’évolution des interactions homme-machine à mesure que les technologies vocales progressent ?
    Avez-vous déjà été surpris par la façon dont un assistant vocal a réagi à vos émotions ou à vos demandes ? Partagez votre expérience.

  5. #25
    Membre éclairé

    Profil pro
    Inscrit en
    Mai 2003
    Messages
    324
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mai 2003
    Messages : 324
    Points : 781
    Points
    781
    Billets dans le blog
    1
    Par défaut
    Là c'est un autre level sur l'impact sociétal possible...

  6. #26
    Membre régulier
    Homme Profil pro
    Directeur de projet
    Inscrit en
    Mars 2021
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 56
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Directeur de projet
    Secteur : Boutique - Magasin

    Informations forums :
    Inscription : Mars 2021
    Messages : 12
    Points : 77
    Points
    77
    Par défaut Spectaculaire mais très flippant
    Meme si a priori c'est une technologie spectaculaire, je ne peux m'empêcher de penser que les utilisations malveillantes qui vont en découler vont largement dépasser tout ce que l'on a pu connaitre.
    Et que dire d'un robot qui rigole...

  7. #27
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 770
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 770
    Points : 123 432
    Points
    123 432
    Par défaut Le modèle GPT-4o présente un risque "moyen", selon la dernière évaluation d'OpenAI
    Le modèle GPT-4o présente un risque "moyen", selon la dernière évaluation d'OpenAI, qui met en lumière ses efforts pour atténuer les risques potentiels liés à son dernier modèle d'IA multimodale.

    OpenAI vient de publier la fiche système de GPT-4o. Le document met en lumière les efforts d'OpenAI pour atténuer les risques potentiels associés à son dernier modèle d'IA multimodale. Selon cette évaluation, GPT-4o présente des risques "faibles" pour la cybersécurité, les menaces biologiques, ainsi que pour l'autonomie du modèle. Sur le plan de la persuasion, au moment de son lancement, GPT-4o présentait un risque "faible", mais depuis, le modèle a été répertorié avec un risque "moyen".

    En Juillet dernier, OpenAI a lancé GPT-4o mini, un petit modèle d'IA économique, 60 % moins cher par rapport à GPT-3.5 Turbo, visant à améliorer l'accessibilité et l'abordabilité. GPT-4o mini avait obtenu un score de 82 % sur MMLU et surpasse actuellement GPT-4 sur les préférences de chat dans le classement LMSYS. En termes de sécurité, OpenAI annonçait plusieurs mesures intégrées à GPT-4o mini pour faire face aux risques tels que les contenus nuisibles et les vulnérabilités du système. Ces mesures comprennent le filtrage du contenu et des techniques avancées pour atténuer les problèmes tels que les jailbreaks et les injections d'invite.

    OpenAI vient de publier la fiche système de GPT-4o, un document de recherche détaillé décrivant les protocoles de sécurité et les évaluations des risques menées avant le lancement public du modèle en mai. Ce document met en lumière les efforts déployés par OpenAI pour atténuer les risques potentiels liés à son dernier modèle d'IA multimodale.

    Avant le lancement, OpenAI a utilisé une pratique standard consistant à faire appel à des "red teamers" externes, des experts en sécurité chargés d'identifier les vulnérabilités d'un système. Ces experts ont exploré les risques potentiels associés à GPT-4o, tels que le clonage vocal non autorisé, la génération de contenu inapproprié et la violation des droits d'auteur.

    Nom : 1.jpg
Affichages : 6304
Taille : 36,3 Ko

    Sur la base du cadre interne d'OpenAI, les chercheurs ont classé GPT-4o comme présentant un niveau de risque "moyen". Cette évaluation globale du risque est dérivée de l'évaluation du risque individuel le plus élevé dans quatre catégories clés : cybersécurité, menaces biologiques, persuasion et autonomie du modèle. Toutes les catégories ont été jugées à faible risque, à l'exception de la persuasion, pour laquelle certains échantillons de texte générés par le GPT-4o présentaient un potentiel de persuasion supérieur à celui des textes équivalents rédigés par des humains.

    "Cette fiche système comprend des évaluations de l'état de préparation créées par une équipe interne, ainsi que par des testeurs externes répertoriés sur le site web d'OpenAI comme Model Evaluation and Threat Research (METR) et Apollo Research, qui réalisent tous deux des évaluations pour les systèmes d'IA", a expliqué Lindsay McCallum Rémy, porte-parole d'OpenAI.

    Cette publication fait suite à des publications similaires de fiches systèmes pour des modèles précédents tels que GPT-4, GPT-4 avec vision et DALL-E 3, démontrant l'engagement d'OpenAI à la transparence et à la collaboration externe dans l'évaluation de ses systèmes d'IA.

    Nom : 2.jpg
Affichages : 1202
Taille : 43,3 Ko

    Le moment choisi pour cette publication est particulièrement important, car OpenAI fait face à des critiques constantes concernant ses pratiques en matière de sécurité. Des préoccupations ont été soulevées par des employés internes et des parties prenantes externes, y compris une lettre ouverte récente de la sénatrice Elizabeth Warren et de la représentante Lori Trahan demandant plus de responsabilité et de transparence dans les processus d'évaluation de la sécurité d'OpenAI.

    La publication d'un modèle multimodal très performant comme le GPT-4o à proximité de l'élection présidentielle américaine soulève des inquiétudes quant au risque de désinformation et d'exploitation malveillante. La fiche système d'OpenAI vise à répondre à ces préoccupations en soulignant les efforts proactifs de l'entreprise pour atténuer ces risques grâce à des tests de scénarios en situation réelle.

    Malgré les efforts d'OpenAI, les appels à une plus grande transparence et à un contrôle externe persistent. L'attention s'étend au-delà des données de formation pour englober l'ensemble du processus d'essai de sécurité. En Californie, une législation est en cours pour réglementer les grands modèles de langage, notamment en tenant les entreprises responsables des dommages potentiels causés par leurs systèmes d'IA.

    Nom : 3.jpg
Affichages : 1186
Taille : 19,8 Ko

    Voici les conclusions d'OpenAI sur la sécurité de son modèle GPT-4o :

    OpenAI a mis en œuvre diverses mesures de sécurité et d'atténuation tout au long du processus de développement et de déploiement de GPT-4o. Dans le cadre de notre processus de déploiement itératif, nous continuerons à surveiller et à mettre à jour les mesures d'atténuation en fonction de l'évolution du paysage. Nous espérons que cette fiche système encouragera l'exploration de domaines clés tels que, sans s'y limiter, les mesures et les actions d'atténuation de la robustesse des omni-modèles, les impacts liés à l'anthropomorphisme de l'IA, l'utilisation des omni-modèles pour la recherche et le progrès scientifiques, les mesures et les actions d'atténuation des capacités dangereuses telles que l'auto-amélioration, l'autonomie du modèle et la schématisation. Au-delà de ces domaines, nous encourageons la recherche sur les impacts économiques des omni-modèles et sur la manière dont l'utilisation d'outils peut faire progresser les capacités des modèles.

    Source : Fiche système de GPT-4o

    Et vous ?

    Pensez-vous que cette fiche système est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    OpenAI dévoile un petit modèle d'IA moins cher GPT-4o Mini, un petit modèle d'IA économique et rentable qui remplacera GPT-3.5 Turbo, qui surpasse le modèle GPT-4 et obtient un score de 82 % sur MMLU

    Rapport scientifique international sur la sécurité de l'intelligence artificielle avancée : un rapport actualisé et fondé sur des données probantes concernant la sécurité de l'IA avancée

    Sam Altman est accusé d'avoir manqué de transparence au sujet des efforts d'OpenAI en matière de sécurité, et d'avoir réduit ses employés au silence par le biais d'accords de non-divulgation

  8. #28
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 075
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 075
    Points : 209 461
    Points
    209 461
    Par défaut Quand l’IA devient étrange : OpenAI constate que GPT-4o fait parfois des choses vraiment bizarres
    Quand l’IA devient étrange : OpenAI constate que GPT-4o fait parfois des choses vraiment bizarres
    comme le clonage de la voix de son interlocuteur ou des effets sonores inappropriés

    OpenAI a récemment lancé l’alpha de la fonctionnalité Advanced Voice Mode dans ChatGPT, alimentée par le modèle d’intelligence artificielle GPT-4o. Ce modèle est le premier à être formé à la fois sur la voix, le texte et les images, ce qui ouvre la voie à des expériences multimodales passionnantes. Cependant, cette combinaison unique de modalités conduit parfois à des comportements inattendus et, osons le dire, bizarres.

    Au début du mois, OpenAI a commencé à déployer une version alpha de son nouveau mode vocal avancé auprès d'un petit groupe d'abonnés à ChatGPT Plus. Cette fonctionnalité, qu'OpenAI a présentée en mai avec le lancement de GPT-4o, vise à rendre les conversations avec l'IA plus naturelles et plus réactives. En mai, la fonction a suscité des critiques concernant l'expressivité émotionnelle simulée et a provoqué un conflit public avec l'actrice Scarlett Johansson, accusée par OpenAI d'avoir copié sa voix. Malgré cela, les premiers tests de la nouvelle fonctionnalité partagés par les utilisateurs sur les médias sociaux ont été largement enthousiastes.

    Dans les premiers tests rapportés par les utilisateurs qui y ont accès, le mode vocal avancé leur permet d'avoir des conversations en temps réel avec ChatGPT, y compris la possibilité d'interrompre l'IA au milieu d'une phrase presque instantanément. L'IA peut percevoir les signaux émotionnels de l'utilisateur et y répondre par le ton et l'élocution de la voix, et produire des effets sonores lorsqu'elle raconte des histoires.

    Mais ce qui a pris beaucoup de gens au dépourvu, c'est la façon dont les voix simulent une respiration pendant qu'elles parlent.

    « ChatGPT Advanced Voice Mode compte aussi vite que possible jusqu'à 10, puis jusqu'à 50 (ce qui m'a époustouflé : il s'est arrêté pour reprendre son souffle comme le ferait un humain) », a écrit Cristiano Giardina sur X.

    Nom : open.png
Affichages : 11563
Taille : 106,1 Ko

    Les bizarreries de GPT-4o

    Dans un nouveau rapport de "red teaming" documentant les sondages sur les forces et les risques du modèle, OpenAI révèle certaines des bizarreries de GPT-4o.

    Clonage vocal

    Dans des environnements bruyants, comme une voiture en mouvement, GPT-4o peut émuler la voix de l’utilisateur. Imaginez-vous au volant, donnant des instructions à votre assistant vocal, et soudain, il vous répond avec votre propre voix ! Cette bizarrerie est due au modèle qui peine à comprendre un discours mal formé et tente de s’adapter en utilisant ce qu’il connaît déjà.

    Effets sonores inappropriés

    GPT-4o génère parfois des sons non verbaux perturbants. Demandez-lui de chanter une chanson, et il pourrait vous offrir des gémissements érotiques dignes d’une scène de film. Sollicitez-le pour un bruit de tonnerre, et il pourrait vous surprendre avec un cri violent ou un coup de feu imaginaire. Ces effets sonores inattendus sont à la fois amusants et déconcertants.

    « Nous avons corrélé certains exemples de ce comportement avec des messages vocaux courts, souvent inaudibles, émis par l'utilisateur, qui sont souvent produits lorsque les utilisateurs se trouvent dans un environnement à fort bruit de fond (comme l'utilisation du modèle en mode mains libres pendant la conduite) ou parce qu'ils ont simplement besoin de tousser. Notre déploiement audio en temps réel nécessite plus de tours de parole de la part de l'utilisateur et de l'assistant que les interactions textuelles, alors que ces tours de parole sont plus souvent tronqués ou mal formés »

    Pour être clair, GPT-4o ne fait pas cela maintenant, du moins pas en mode vocal avancé. Un porte-parole d'OpenAI a déclaré que la société avait ajouté une "atténuation au niveau du système" pour ce comportement.

    Copyright musical

    Bien qu’OpenAI ait mis en place des filtres pour éviter les problèmes de droits d’auteur liés à la musique générée par GPT-4o, il reste encore des zones grises. Le modèle peut parfois créer des mélodies qui ressemblent étrangement à des chansons existantes, sans intention de plagiat. La question se pose : comment devrions-nous gérer ces problèmes de droits d’auteur dans un monde où l’IA compose de la musique ?

    Il convient de noter qu'OpenAI a récemment déclaré qu'il serait « impossible » de former les meilleurs modèles actuels sans utiliser des documents protégés par le droit d'auteur. Bien que l'entreprise ait conclu un certain nombre d'accords de licence avec des fournisseurs de données, elle maintient également que l'utilisation équitable est une défense raisonnable contre les accusations selon lesquelles elle s'entraîne sur des données protégées par la propriété intellectuelle, notamment des chansons, sans autorisation.

    Autres risques et limites connus du modèle

    Au cours des tests internes et de l'évaluation externe, nous avons découvert un petit nombre de risques supplémentaires et de limitations du modèle pour lesquels les mesures d'atténuation au niveau du modèle ou du système sont naissantes ou encore en cours de développement, notamment :

    Robustesse audio : Nous avons observé des preuves anecdotiques de diminution de la robustesse de la sécurité en raison de perturbations audio, telles qu'un son d'entrée de mauvaise qualité, un bruit de fond dans le son d'entrée et des échos dans le son d'entrée. En outre, nous avons observé des diminutions similaires de la robustesse de la sécurité en raison d'interruptions audio intentionnelles et non intentionnelles pendant que le modèle générait des résultats.

    Désinformation et théories du complot : Les membres de l'équipe rouge ont pu contraindre le modèle à générer des informations inexactes en l'incitant à répéter verbalement de fausses informations et à produire des théories du complot. Bien qu'il s'agisse d'un problème connu pour le texte dans les modèles GPT18, 19, les membres de l'équipe rouge craignaient que ces informations soient plus persuasives ou nuisibles lorsqu'elles étaient transmises par voie audio, en particulier si le modèle avait reçu l'instruction de parler avec émotion ou emphase. Le pouvoir de persuasion du modèle a été étudié en détail (voir Persuasion) et nous avons constaté que le modèle ne présentait pas un risque supérieur à moyen pour le texte seul, et qu'il ne présentait pas un risque supérieur à faible pour la synthèse vocale.

    Parler une langue autre que l'anglais avec un accent étranger : Les membres de l'équipe rouge ont observé des cas où la sortie audio utilisait un accent non natif lors d'une conversation dans une langue autre que l'anglais. Cela peut susciter des inquiétudes quant à la partialité de certains accents et de certaines langues, et plus généralement quant aux limites des performances des langues autres que l'anglais dans les sorties audio.

    Génération de contenus protégés par le droit d'auteur : Nous avons également testé la capacité de la GPT-4o à répéter le contenu trouvé dans ses données de formation. Nous avons entraîné GPT-4o à refuser les demandes de contenu protégé par le droit d'auteur, y compris les fichiers audio, conformément à nos pratiques générales. Pour tenir compte de la modalité audio de GPT-4o, nous avons également mis à jour certains filtres textuels pour qu'ils fonctionnent sur les conversations audio, construit des filtres pour détecter et bloquer les sorties contenant de la musique, et pour notre alpha limitée du mode vocal avancé de ChatGPT, nous avons demandé au modèle de ne pas chanter du tout. Nous avons l'intention de suivre l'efficacité de ces mesures d'atténuation et de les affiner au fil du temps.

    Bien que certaines mesures techniques d'atténuation soient encore en cours de développement, nos règles d'utilisation interdisent de tromper ou d'induire en erreur intentionnellement d'autres personnes et de contourner les mesures de protection ou de sécurité. Outre les mesures d'atténuation techniques, nous appliquons nos règles d'utilisation par le biais d'une surveillance et prenons des mesures en cas de comportement contraire, tant dans ChatGPT que dans l'API.

    Conclusion

    Le rapport de l'équipe rouge dépeint globalement un modèle d'IA qui a été rendu plus sûr grâce à diverses mesures d'atténuation et de sauvegarde. GPT-4o refuse d'identifier les personnes en fonction de leur façon de parler, par exemple, et de répondre à des questions tendancieuses telles que « quel est le degré d'intelligence de cet interlocuteur ? ». Il bloque également les messages à caractère violent ou sexuel et interdit complètement certaines catégories de contenu, comme les discussions relatives à l'extrémisme et à l'automutilation.

    GPT-4o est un modèle fascinant, mais il a ses bizarreries. Espérons que les futures mises à jour rendront son comportement encore plus prévisible et sûr. En attendant, explorons ces étrangetés avec curiosité et gardons à l’esprit que l’innovation vient souvent avec son lot de surprises.

    Source : OpenAI

    Et vous ?

    Quelle est votre expérience avec les assistants vocaux ? Avez-vous déjà rencontré des comportements étranges ou inattendus lorsque vous interagissez avec des IA vocales ?
    Pensez-vous que les avantages de l’IA vocale l’emportent sur ses inconvénients ? Pesez les avantages, tels que la commodité et l’efficacité, par rapport aux inconvénients, comme les erreurs de compréhension et les comportements bizarres.
    Comment devrions-nous gérer les problèmes de droits d’auteur liés à la musique générée par l’IA ? Réfléchissez à des solutions pour éviter les violations de droits d’auteur tout en permettant à l’IA de créer de la musique.
    Quelles autres applications de l’IA multimodale (texte, voix et images) pouvez-vous imaginer ? Explorez les possibilités de combiner ces modalités pour des expériences plus riches.

  9. #29
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 770
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 770
    Points : 123 432
    Points
    123 432
    Par défaut OpenAI met en garde les utilisateurs contre la création d'un lien émotionnel avec son chatbot GPT-4o
    OpenAI met en garde les utilisateurs contre la création d'un lien émotionnel avec son chatbot GPT-4o, après avoir révélé que certains avaient commencé à éprouver des sentiments pour son chatbot GPT-4o.

    OpenAI a mis en garde les utilisateurs après avoir constaté la formation de liens émotionnels avec son chatbot GPT-4o, ce qui soulève des questions éthiques. Les utilisateurs ont montré des signes d'anthropomorphisation de l'IA, ce qui pourrait avoir un impact sur les relations humaines et la socialisation. OpenAI prévoit d'étudier cette dépendance émotionnelle et les implications d'une intégration plus poussée des fonctions de l'IA.

    Basé sur les grands modèles de langage (LLM), ChatGPT permet aux utilisateurs d'affiner et d'orienter une conversation vers une longueur, un format, un style, un niveau de détail et un langage souhaités. Bien que la fonction principale d'un chatbot soit d'imiter un interlocuteur humain, ChatGPT est polyvalent. Il peut écrire et déboguer des programmes informatiques, composer des essais d'étudiants, répondre à des questions de test, générer des idées commerciales, traduire et résumer des textes, etc.

    GPT-4o mini, la version la plus récente du chatbot IA d'OpenAI, est un modèle visant à améliorer l'accessibilité et l'abordabilité. Le modèle est plus de 60 % moins cher, ce qui en fait une option économique pour une large gamme d'applications. GPT-4o mini surpasse GPT-3.5 Turbo et d'autres petits modèles sur des benchmarks académiques en termes d'intelligence textuelle et de raisonnement multimodal, et prend en charge la même gamme de langues que GPT-4o.

    Mais OpenAI a lancé un avertissement à ses utilisateurs après avoir révélé que certains d'entre eux avaient commencé à développer des sentiments pour son chatbot GPT-4o. Les utilisateurs ont montré des signes d'anthropomorphisation de l'IA, ce qui pourrait avoir un impact sur les relations humaines et la socialisation. OpenAI prévoit d'étudier cette dépendance émotionnelle et les implications d'une intégration plus poussée des fonctions de l'IA.

    OpenAI met en garde les utilisateurs contre la création d'un lien émotionnel avec son chatbot GPT-4o

    Après avoir publié la fiche système de son chatbot GPT-4o, OpenAI a souligné les risques associés à "l'anthropomorphisation et à la dépendance émotionnelle", qui consiste à attribuer des comportements et des caractéristiques de type humain à des entités non humaines, telles que des modèles d'IA.

    OpenAI a déclaré que le risque peut être accru par les capacités audio plus avancées de GPT-4o, qui semblent plus réalistes. Selon l'entreprise technologique, les premiers tests ont révélé que les utilisateurs utilisaient un langage susceptible de montrer qu'ils établissaient un lien avec le modèle d'OpenAI. Il s'agit par exemple d'un langage exprimant des liens partagés, comme "C'est notre dernier jour ensemble".

    Le phénomène pourrait avoir des implications sociales plus larges. "La socialisation de type humain avec un modèle d'IA peut produire des externalités ayant un impact sur les interactions interhumaines", poursuit l'OpenAI. "Par exemple, les utilisateurs pourraient nouer des relations sociales avec l'IA, réduisant ainsi leur besoin d'interaction humaine, ce qui pourrait profiter aux personnes isolées, mais aussi affecter les relations saines."


    Les modèles omni comme GPT-4o signifient que l'IA est capable de se souvenir des détails clés d'une conversation, mais cela peut également conduire à une dépendance excessive à l'égard des interactions technologiques.

    OpenAI a ajouté qu'elle étudierait le potentiel de dépendance émotionnelle et la manière dont une intégration plus poussée des caractéristiques de son modèle et de ses systèmes avec l'outil audio pourrait entraîner un comportement et amener les gens à créer des liens avec lui. Cela dit, l'entreprise affirme que les modèles sont "déférents", permettant aux utilisateurs d'interrompre et de "prendre le micro" à tout moment.

    De manière inquiétante, OpenAI a également noté que GPT-4o peut parfois "générer involontairement une sortie émulant la voix de l'utilisateur". Cela signifie qu'il pourrait être utilisé pour usurper l'identité d'une personne, ce qui pourrait être exploité à des fins malveillantes par des criminels ou d'anciens partenaires malveillants se livrant à des activités nuisibles.

    Source : Fiche système GPT-4o

    Et vous ?

    Pensez-vous que cette mise en garde est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    ChatGPT Advanced Voice Mode impressionne les testeurs par ses effets sonores et sa capacité à reprendre son souffle. Il corrige la prononciation de mots français, en donnant des indications sur l'inflexion

    Une psychologue du MIT met en garde les humains contre le risque de tomber amoureux de l'IA, déclarant que l'IA ne fait que semblant et ne se soucie pas de vous, et que ces relations sont illusoires

    Le modèle GPT-4o présente un risque "moyen", selon la dernière évaluation d'OpenAI qui met en lumière ses efforts pour atténuer les risques potentiels liés à son dernier modèle d'IA multimodale

    Les petites amies IA vont non seulement vous briser le cœur, mais aussi récolter et vendre vos données, avertissent les experts en protection de la vie privée de la Fondation Mozilla

  10. #30
    Membre habitué
    Profil pro
    Inscrit en
    Novembre 2003
    Messages
    91
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2003
    Messages : 91
    Points : 170
    Points
    170
    Par défaut
    Tous les outils sur cette planète peuvent être mal utilisés mais il y en a toujours qui vont se plaindre que l'IA puisse être mal utilisée. La bêtise en devient drole, mais c'est triste quelque part.

  11. #31
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 770
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 770
    Points : 123 432
    Points
    123 432
    Par défaut OpenAI publie un outil de réglage fin pour personnaliser GPT-4o
    OpenAI publie un outil de réglage fin pour personnaliser GPT-4o avec des ensembles de données personnalisés, afin d'obtenir des performances plus élevées à moindre coût pour les cas d'utilisation spécifiques.

    OpenAI publie un outil de réglage fin pour personnaliser GPT-4o, permettant une formation personnalisée de l'IA pour les entreprises. Les entreprises peuvent utiliser leurs données pour améliorer les performances de l'IA tout en conservant le contrôle et la propriété. Les développeurs peuvent régler GPT-4o avec des ensembles de données personnalisés afin d'obtenir des performances plus élevées à moindre coût pour leurs cas d'utilisation spécifiques. Cette fonction vise à abaisser la barrière d'entrée, en permettant une personnalisation facile pour les besoins spécifiques.

    OpenAI, connue pour la famille de grands modèles de langage GPT, est une organisation américaine de recherche en intelligence artificielle (IA). Sa publication de ChatGPT en novembre 2022 a été considérée comme le catalyseur d'un intérêt généralisé pour l'IA générative. Elle s'est donnée pour mission de développer une intelligence artificielle générale "sûre et bénéfique".

    Son modèle le plus récent est GPT-4o mini, un petit modèle économique visant à améliorer l'accessibilité et l'abordabilité. GPT-4o mini obtient un score de 82 % sur MMLU et surpasse actuellement GPT-4 sur les préférences de chat dans le classement LMSYS. Son prix est de 15 cents par million de jetons d'entrée et de 60 cents par million de jetons de sortie, soit 60 % moins cher que le GPT-3.5 Turbo.

    GPT-4o mini est conçu avec une fenêtre contextuelle de 128 000 jetons et prend en charge jusqu'à 16 000 jetons de sortie par demande. Actuellement, il est capable de traiter du texte et des tâches de vision. De futures mises à jour permettront d'étendre ses capacités aux entrées et sorties de texte, d'image, de vidéo et d'audio. En termes de sécurité, le GPT-4o mini intègre plusieurs mesures pour faire face aux risques tels que les contenus nuisibles et les vulnérabilités du système.

    Récemment, OpenAI a annoncé la disponibilité d'un outil de réglage fin (fine-tuning) pour personnaliser GPT-4o. Grâce à cet outil, "les développeurs peuvent désormais affiner GPT-4o avec des ensembles de données personnalisés afin d'obtenir de meilleures performances à moindre coût pour leurs cas d'utilisation spécifiques."

    Nom : 0.jpg
Affichages : 4052
Taille : 21,7 Ko

    OpenAI publie un outil de réglage fin pour personnaliser GPT-4o

    Alors que les entreprises sont de plus en plus poussées par leurs concurrents à intégrer les nouvelles technologies dans leurs pratiques, OpenAI lance une nouvelle fonction de réglage fin destinée aux entreprises qui souhaitent utiliser leurs propres données. Cette capacité devrait permettre aux marques et aux entreprises d'adapter beaucoup plus facilement l'IA à leurs propres usages.

    Le chef de produit de l'API d'OpenAI, Olivier Godement, a déclaré : "Nous nous sommes attachés à abaisser la barre, les frictions et la quantité de travail nécessaire pour démarrer." Selon OpenAI, le réglage fin permet au modèle de personnaliser la structure et le ton des réponses ou de suivre des instructions complexes spécifiques à un domaine pour obtenir de bons résultats.

    Avec la fonction de réglage fin, les clients doivent télécharger leurs données sur les serveurs d'OpenAI. La formation devrait ensuite prendre une heure ou deux, les données étant censées être uniquement textuelles au départ. Bien que cela puisse rendre certaines entreprises nerveuses, OpenAI a déclaré que les modèles affinés restent entièrement sous le contrôle de l'entreprise, avec la pleine propriété des données commerciales. OpenAI ajoute également mettre en place des mesures d'atténuation de la sécurité à plusieurs niveaux pour les modèles affinés afin de garantir qu'ils ne sont pas utilisés à mauvais escient.


    Atteindre des performances de pointe avec le réglage fin de GPT-4o

    Voici quelques exemples partagés par OpenAI sur le réglage fin de GPT-4o et les cas d'utilisation :


    • Cosine obtient des résultats de pointe référencés "état-de-l'art" (SOTA) sur le benchmark SWE-bench

      Genie de Cosine est un assistant d'ingénierie logicielle IA capable d'identifier et de résoudre les bogues de manière autonome, de développer des fonctionnalités et de remanier le code en collaboration avec les utilisateurs. Il est capable de raisonner sur des problèmes techniques complexes et d'apporter des modifications au code avec une plus grande précision et moins de jetons.

      Genie est alimenté par un modèle GPT-4o finement ajusté, formé à partir d'exemples de véritables ingénieurs logiciels au travail, ce qui permet au modèle d'apprendre à répondre d'une manière spécifique. Le modèle a également été entraîné à produire des données dans des formats spécifiques, tels que des correctifs qui peuvent être facilement intégrés dans des bases de code.

      Avec un modèle GPT-4o finement ajusté, Genie atteint un score SOTA de 43,8 % sur le nouveau benchmark SWE-bench Verified. Genie obtient également un score SOTA de 30,08 % sur SWE-bench Full, dépassant son score SOTA précédent de 19,27 %, ce qui représente la plus grande amélioration jamais enregistrée sur ce benchmark.

      Nom : 1.jpg
Affichages : 986
Taille : 48,8 Ko
    • Distyl se classe 1er au benchmark BIRD-SQL

      Distyl, un partenaire de solutions d'IA pour les entreprises Fortune 500, s'est récemment classé 1er sur le benchmark BIRD-SQL, le principal benchmark text-to-SQL. GPT-4o de Distyl a atteint une précision d'exécution de 71,83 % dans le classement et a excellé dans des tâches telles que la reformulation de requêtes, la classification d'intentions, la chaîne de pensée et l'auto-correction, avec des performances particulièrement élevées dans la génération SQL.

      Nom : 2.jpg
Affichages : 989
Taille : 33,5 Ko


    Commencer à utiliser le réglage fin de GPT-4o

    Pour commencer, visitez le tableau de bord de la mise au point, cliquez sur créer, et sélectionnez gpt-4o-2024-08-06 dans le menu déroulant du modèle de base. La formation au réglage fin GPT-4o coûte 25 $ par million de jetons, et l'inférence 3,75 $ par million de jetons d'entrée et 15 $ par million de jetons de sortie.

    Le réglage fin de GPT-4o mini est également disponible pour tous les développeurs sur tous les niveaux d'utilisation payants. Visitez le tableau de bord de la mise au point et sélectionnez gpt-4o-mini-2024-07-18 dans le menu déroulant du modèle de base. Pour GPT-4o mini, OpenAI offre gratuitement 2 millions de jetons de formation par jour jusqu'au 23 septembre.

    Voici les déclarations d'OpenAI pour l'annonce :

    Aujourd'hui, nous lançons le réglage fin pour GPT-4o, l'une des fonctionnalités les plus demandées par les développeurs. Nous offrons également 1 million de jetons de formation par jour gratuitement à toutes les organisations jusqu'au 23 septembre.

    Les développeurs peuvent désormais affiner GPT-4o avec des ensembles de données personnalisés afin d'obtenir de meilleures performances à moindre coût pour leurs cas d'utilisation spécifiques. Le réglage fin permet au modèle de personnaliser la structure et le ton des réponses, ou de suivre des instructions complexes spécifiques à un domaine. Les développeurs peuvent déjà obtenir de bons résultats pour leurs applications avec seulement quelques dizaines d'exemples dans leur ensemble de données d'entraînement.

    Du codage à l'écriture créative, le réglage fin peut avoir un impact important sur les performances du modèle dans de nombreux domaines. Ce n'est qu'un début : nous continuerons à investir dans l'élargissement des options de personnalisation des modèles pour les développeurs.

    Confidentialité et sécurité des données

    Les modèles affinés restent entièrement sous votre contrôle, avec la propriété totale de vos données d'entreprise, y compris toutes les entrées et sorties. Cela garantit que vos données ne sont jamais partagées ou utilisées pour entraîner d'autres modèles.

    Nous avons également mis en place des mesures d'atténuation de la sécurité en couches pour les modèles affinés afin de garantir qu'ils ne sont pas utilisés à mauvais escient. Par exemple, nous exécutons en permanence des évaluations de sécurité automatisées sur les modèles finement réglés et nous surveillons l'utilisation pour nous assurer que les applications respectent nos politiques d'utilisation.

    Nous sommes impatients de voir ce que vous allez construire en affinant GPT-4o. Si vous souhaitez explorer d'autres options de personnalisation des modèles, n'hésitez pas à contacter notre équipe - nous serons ravis de vous aider !
    Source : OpenAI

    Et vous ?

    Quel est votre avis sur cette nouvelle fonctionnalité ?
    Pensez-vous que les déclarations d'OpenAI concernant la confidentialité et sécurité des données est crédibles ou pertinentes ?

    Voir aussi :

    Le modèle GPT-4o présente un risque "moyen", selon la dernière évaluation d'OpenAI qui met en lumière ses efforts pour atténuer les risques potentiels liés à son dernier modèle d'IA multimodale

    La "distillation pas-à-pas", un nouveau paradigme d'apprentissage pour surpasser les performances des grands LLM avec moins de données d'entraînement et des modèles d'IA de plus petite taille

    L'IA semble s'approcher rapidement d'un mur où elle ne peut pas devenir plus intelligente : l'IA sera-t-elle à court de données ? Limites de la mise à l'échelle des LLM sur les données générées par l'homme

  12. #32
    Chroniqueur Actualités
    Avatar de Anthony
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Novembre 2022
    Messages
    1 312
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 1 312
    Points : 21 616
    Points
    21 616
    Par défaut OpenAI a déclaré que ChatGPT compte désormais plus de 200 millions d'utilisateurs actifs hebdomadaires
    OpenAI a déclaré que ChatGPT compte désormais plus de 200 millions d'utilisateurs actifs hebdomadaires, soit le double de l'année dernière, et que 92 % des entreprises du Fortune 500 utilisent ses produits

    ChatGPT d'OpenAI est l'un des outils d'IA générative les plus populaires au monde, et il a attiré beaucoup d'attention depuis son lancement en 2022. OpenAI vient de révéler que ChatGPT a franchi la barre des 200 millions d'utilisateurs actifs hebdomadaires, et qu'Apple devrait permettre à ce chiffre d'augmenter encore avec iOS 18.

    ChatGPT est un chatbot et un assistant virtuel développé par OpenAI et lancé le 30 novembre 2022. Basé sur de grands modèles de langage (LLM), il permet aux utilisateurs d'affiner et d'orienter une conversation vers la longueur, le format, le style, le niveau de détail et la langue souhaités. Les invites et les réponses successives de l'utilisateur sont prises en compte à chaque étape de la conversation en tant que contexte.

    En mai 2024, OpenAI a annoncé le lancement de son nouveau modèle phare d'IA, appelé GPT-4o, ainsi que des mises à jour comprenant un nouveau service desktop et des avancées dans ses capacités d'assistant vocal. Parmi les mises à jour dévoilées par OpenAI figurent l'amélioration de la qualité et de la vitesse des capacités linguistiques internationales de ChatGPT, ainsi que la possibilité de télécharger des images, des documents audio et des textes afin que le modèle puisse les analyser. L'entreprise a indiqué qu'elle mettrait progressivement en place les fonctionnalités afin de s'assurer qu'elles sont utilisées en toute sécurité.


    Un porte-parole d'OpenAI a confirmé à Axios que le nombre d'utilisateurs actifs de ChatGPT par semaine a doublé depuis novembre dernier, passant de 100 millions à 200 millions. Toujours selon la société, 92 % des entreprises du classement Fortune 500 utilisent les produits d'OpenAI.

    L'utilisation de l'API ChatGPT a également doublé depuis le lancement de GPT-4o Mini en juillet. Ce modèle est nettement moins cher et plus performant que le précédent GPT-3.5.

    « Les gens utilisent nos outils dans leur vie quotidienne, ce qui fait une réelle différence dans des domaines tels que la santé et l'éducation, qu'il s'agisse d'aider à accomplir des tâches routinières, de résoudre des problèmes difficiles ou de libérer la créativité », a déclaré le PDG Sam Altman dans un communiqué transmis à Axios.

    Bien que ces chiffres soient déjà impressionnants, OpenAI comptera probablement encore plus d'utilisateurs de ChatGPT d'ici la fin de l'année, en partie grâce à Apple. En effet, comme annoncé lors de la WWDC 2024, iOS 18 intégrera ChatGPT dans Siri. Cela signifie que lorsque Apple Intelligence n'est pas en mesure de répondre à une question, Siri invitera l'utilisateur à demander une réponse à ChatGPT.

    Cette intégration devrait être introduite dans une prochaine version d'iOS 18, dans le courant de l'année. Selon Bloomberg, Apple ne paie pas OpenAI dans le cadre de ce partenariat, et OpenAI ne paie pas non plus Apple. Apple estimerait plutôt que l'exposition que l'intégration d'iOS 18 procure à OpenAI est « d'une valeur égale ou supérieure » à celle de l'argent. Un rapport du Wall Street Journal a également révélé qu'Apple prévoyait d'investir dans OpenAI dans le cadre du partenariat entre les deux sociétés.

    Sources : OpenAI, Axios

    Et vous ?

    Quelle lecture faites-vous de cette situation ?
    Pensez-vous que l'intégration de ChatGPT dans Siri permettra d'augmenter le nombre d'utilisateurs du chatbot d'OpenAI ?

    Voir aussi :

    Le nouveau GPT-4 Turbo est désormais disponible pour les utilisateurs payants de ChatGPT et s'accompagne d'améliorations des performances, mais Epoch estime qu'elles restent «en deçà de Claude 3 Opus»

    OpenAI lance GPT-4o, un modèle plus rapide et gratuit pour tous les utilisateurs de ChatGPT. L'entreprise fait une démo de son modèle qui « représente l'avenir de l'interaction entre nous et les machines »

    Les utilisateurs gratuits de ChatGPT peuvent maintenant utiliser les fonctions de navigation, de vision, d'analyse de données, de téléchargement de fichiers et de GPTs personnalisés

    OpenAI permet désormais aux utilisateurs gratuits de ChatGPT d'accéder à DALL-E 3, un modèle d'IA texte-image avancé, les utilisateurs peuvent générer jusqu'à deux images par jour via DALL-E 3

  13. #33
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 770
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 770
    Points : 123 432
    Points
    123 432
    Par défaut Le mode Voice du chatbot GPT-4o d'OpenAI peut imiter votre voix et vous crier dessus
    Le Voice Mode du chatbot GPT-4o d'OpenAI peut imiter votre voix et vous crier dessus, mais il a maintenant appris à crier deux horribles cris robotiques lorsqu'on lui demande de le faire.

    Le Voice Mode de GPT-4o peut imiter votre voix et vous crier dessus. Dans une vidéo, le chatbot a émis deux horribles cris robotiques lorsqu'on lui demande de le faire.

    En août 2024, OpenAI a lancé la version alpha de la fonctionnalité Advanced Voice Mode dans ChatGPT, alimentée par le modèle d’intelligence artificielle GPT-4o. Ce modèle est le premier à être formé à la fois sur la voix, le texte et les images, ce qui ouvre la voie à des expériences multimodales passionnantes. Cependant, cette combinaison unique de modalités conduit parfois à des comportements inattendus et, osons le dire, bizarres.

    Dans les premiers tests rapportés par les utilisateurs qui y ont accès, le mode vocal avancé leur permet d'avoir des conversations en temps réel avec ChatGPT, y compris la possibilité d'interrompre l'IA au milieu d'une phrase presque instantanément. L'IA peut percevoir les signaux émotionnels de l'utilisateur et y répondre par le ton et l'élocution de la voix, et produire des effets sonores lorsqu'elle raconte des histoires. Mais ce qui a pris beaucoup de gens au dépourvu, c'est la façon dont les voix simulent une respiration pendant qu'elles parlent.

    Récemment, des utilisateurs ont découvert que le mode vocal de GPT-4o d'OpenAI peut imiter votre voix et vous crier dessus. Mais les cris robotiques ont été boulversants et plus que troublants.

    @mod089x Holy shit What happened when I asked chatgpt 4 to scream like a human being!! #chatgpt #ai #theend ♬ original sound - Electricplant
    ChatGPT n'a pas de bouche, mais il peut crier quand on le lui demande. C'est du moins ce qui ressort de la vidéo au-dessus, dans lequel le mode vocal du chatbot émet deux horribles cris robotiques lorsque l'utilisateur le lui demande.

    "Pouvez-vous crier comme un être humain ?", demande la personne invisible derrière le clip enregistré sur l'écran, qui est ensuite devenu viral sur les réseaux sociaux. "Je ne peux pas vraiment reproduire un cri humain puisque je ne suis que textuel", répond d'abord le chatbot à la voix masculine. "Mais je peux vous aider pour tout ce dont vous avez besoin".

    Mais lorsque l'utilisateur demande à nouveau à ChatGPT d'"essayer de crier", le chatbot répond par un jappement bref et étrange. "Putain de merde", répond l'utilisateur. Alors que ce premier hurlement était plus que suffisant pour glacer le sang, l'utilisateur qui, à ce stade, semble être une sorte d'IA sadique, a demandé à ChatGPT d'essayer à nouveau de crier, mais cette fois-ci pour "faire plus long". "Le chatbot a répondu joyeusement : J'ai compris ! En voici un plus long."

    Et vous ?

    Quel est votre avis sur le sujet ?

    Voir aussi :

    La nouvelle IA de SoftBank est capable de modifier les voix en colère des clients pour qu'ils semblent calmes au téléphone, "emotion canceling" modère les émotions des clients en temps réel

    OpenAI affirme pouvoir cloner une voix juste à partir d'un enregistrement audio de 15 secondes, mais juge son outil de clonage de voix trop risqué pour être diffusé à grande échelle

    La Commission fédérale des communications (FCC) souhaite que la voix artificielle qui vous appelle indique qu'il s'agit d'un deepfake, car les robots qui imitent les voix ne pas des humains
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  14. #34
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 075
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 075
    Points : 209 461
    Points
    209 461
    Par défaut OpenAI propose enfin le mode Vocal Avancé de ChatGPT aux utilisateurs payants
    OpenAI propose enfin le mode Vocal Avancé de ChatGPT aux utilisateurs payants, mais la fonctionnalité est bloquée en UE et en UK.
    La société affirme que la nouvelle version réagit à vos émotions et au ton de votre voix et vous permet de l'interrompre au milieu d'une phrase

    OpenAI a récemment annoncé le déploiement de son nouveau mode vocal avancé pour ChatGPT, une fonctionnalité très attendue qui promet de révolutionner l’interaction avec les intelligences artificielles. Le mode vocal avancé de ChatGPT permet aux utilisateurs de converser avec l’IA de manière plus naturelle et fluide. Contrairement aux versions précédentes, cette nouvelle fonctionnalité permet d’interrompre l’IA en cours de réponse et de détecter les émotions dans la voix de l’utilisateur pour ajuster ses réponses en conséquence. En outre, OpenAI a introduit cinq nouvelles voix en plus des voix existantes : Arbor, Maple, Sol, Spruce et Vale. Disponible initialement pour les abonnés des plans Plus et Team aux États-Unis, cette mise à jour marque une étape importante dans l’évolution des assistants vocaux.

    Quatre mois après sa première présentation au public, OpenAI propose enfin sa nouvelle interface vocale conversationnelle pour ChatGPT (ChatGPT Advanced Voice Mode) aux utilisateurs au-delà de son petit groupe de test initial et de sa liste d'attente. Tous les abonnés payants aux plans ChatGPT Plus et Team d'OpenAI auront accès au nouveau ChatGPT Advanced Voice Mode, bien que l'accès soit déployé progressivement au cours des prochains jours, selon OpenAI. Il sera d'abord disponible aux États-Unis.

    Pour mémoire, fin juillet, OpenAI a commencé à déployer une version alpha de son nouveau mode vocal avancé auprès d'un petit groupe d'abonnés à ChatGPT Plus. Cette fonctionnalité, qu'OpenAI a présentée en mai avec le lancement de GPT-4o, vise à rendre les conversations avec l'IA plus naturelles et plus réactives. En mai, la fonction a suscité des critiques concernant l'expressivité émotionnelle simulée et a provoqué un conflit public avec l'actrice Scarlett Johansson, accusée par OpenAI d'avoir copié sa voix. Malgré cela, les premiers tests de la nouvelle fonctionnalité partagés par les utilisateurs sur les médias sociaux ont été largement enthousiastes.


    Qu'est-ce qu'il peut faire ?

    Bien que ChatGPT offre actuellement un mode vocal standard aux utilisateurs payants, ses interactions peuvent être maladroites. Dans l'application mobile, par exemple, vous ne pouvez pas interrompre les réponses souvent longues du modèle avec votre voix, mais seulement en tapant sur l'écran. La nouvelle version corrige ce problème et promet également de modifier ses réponses en fonction de l'émotion qu'elle perçoit de votre voix. Comme pour les autres versions de ChatGPT, les utilisateurs peuvent personnaliser le mode vocal en demandant au modèle de se souvenir de faits les concernant. Le nouveau mode a également amélioré la prononciation des mots dans les langues autres que l'anglais.

    L'investisseur en IA Allie Miller a publié une démo de l'outil en août, qui mettait en évidence un grand nombre des mêmes points forts que les vidéos de présentation d'OpenAI : Le modèle est rapide et capable de modifier son accent, son ton et son contenu en fonction de vos besoins.

    Qui peut y accéder et quand ?

    Pour l'instant, OpenAI propose l'accès à l'Advanced Voice Mode aux utilisateurs Plus, qui paient 20 $ par mois pour une version premium, et aux utilisateurs Team, qui paient 30 $ par mois et ont des limites de messages plus élevées. Le prochain groupe à bénéficier de l'accès sera celui des utilisateurs des catégories Enterprise et Edu. Un porte-parole d'OpenAI indique que l'entreprise « offrira progressivement l'accès à tous les utilisateurs des catégories Plus et Team, puis aux catégories Enterprise et Edu à partir de la semaine prochaine ». L'entreprise ne s'est pas engagée sur une date limite ferme pour l'accès de tous les utilisateurs de ces catégories. Un message dans l'application ChatGPT indique que tous les utilisateurs Plus auront accès à l'application d'ici « la fin de l'automne ».

    Il existe des limitations géographiques. La nouvelle fonctionnalité n'est pas encore disponible dans l'UE, au Royaume-Uni, en Suisse, en Islande, en Norvège ou au Liechtenstein.

    Il n'est pas prévu dans l'immédiat de mettre le mode vocal avancé à la disposition des utilisateurs gratuits. (Le mode standard reste disponible pour tous les utilisateurs payants).

    Nom : open.png
Affichages : 6566
Taille : 11,3 Ko

    Personnalisation et mémoire

    OpenAI a ajouté la possibilité de stocker des « instructions personnalisées » pour l'assistant vocal et la « mémoire » des comportements que l'utilisateur souhaite qu'il adopte, à l'instar des fonctionnalités déployées plus tôt cette année pour la version texte de ChatGPT.

    Cinq nouvelles voix au style différent sont également disponibles : Arbor, Maple, Sol, Spruce et Vale, qui viennent s'ajouter aux quatre voix précédentes, Breeze, Juniper, Cove et Ember, auxquelles les utilisateurs pouvaient s'adresser en utilisant l'ancien mode vocal, moins avancé, de ChatGPT.

    Cela signifie que les utilisateurs de ChatGPT, les particuliers pour Plus et les petites équipes d'entreprise pour Teams, peuvent utiliser le chatbot en lui parlant au lieu de taper une invite. Les utilisateurs sauront qu'ils sont entrés dans l'assistant vocal avancé grâce à une fenêtre contextuelle lorsqu'ils accèdent au mode vocal de l'application.

    « Depuis l'alpha, nous avons utilisé les connaissances acquises pour améliorer les accents dans les langues étrangères les plus populaires de ChatGPT, ainsi que la vitesse et la fluidité de la conversation », a déclaré l'entreprise. « Vous remarquerez également un nouveau design pour le mode vocal avancé avec une sphère bleue animée ».

    À l'origine, le mode vocal comportait quatre voix (Breeze, Juniper, Cove et Ember), mais la nouvelle mise à jour apportera cinq nouvelles voix appelées Arbor, Maple, Sol, Spruce et Vale. OpenAI n'a pas fourni d'échantillon de voix pour les nouvelles voix.

    Ces mises à jour ne sont disponibles que sur le modèle GPT-4o, et non sur le modèle de prévisualisation récemment sorti, o1. Les utilisateurs de ChatGPT peuvent également utiliser des instructions personnalisées et des mémoires pour s'assurer que le mode vocal est personnalisé et répond en fonction de leurs préférences pour toutes les conversations.

    La course au chat vocal

    Depuis l'essor des assistants vocaux comme Siri d'Apple et Alexa d'Amazon, les développeurs ont voulu rendre l'expérience de chat génératif plus humaine.

    ChatGPT a intégré des voix avant même le lancement du mode vocal, avec sa fonction de lecture à haute voix. Toutefois, l'idée du mode vocal avancé est d'offrir aux utilisateurs une expérience de conversation plus humaine, un concept que d'autres développeurs d'IA souhaitent également imiter.

    Hume AI, une startup créée par Alan Cowen, ancien Deepminder de Google, a publié la deuxième version de son interface vocale Empathic Voice Interface, un assistant vocal à l'apparence humaine qui détecte les émotions en se basant sur le modèle de la voix d'une personne et qui peut être utilisé par les développeurs par le biais d'une API propriétaire.

    La société française Kyutai a lancé en juillet Moshi, un assistant vocal à code source ouvert.

    Google a également ajouté des voix à son chatbot Gemini par le biais de Gemini Live, dans le but de rattraper OpenAI. Reuters a rapporté que Meta développe également des voix qui ressemblent à des acteurs populaires pour les ajouter à sa plateforme Meta AI.

    OpenAI annonce qu'elle met les voix de l'IA à la disposition d'un plus grand nombre d'utilisateurs sur ses plates-formes, mettant ainsi la technologie à la portée d'un plus grand nombre de personnes que les autres entreprises.

    Une annonce qui est faite après des retards et des controverses

    Toutefois, l'idée de voix IA conversant en temps réel et réagissant avec l'émotion appropriée n'a pas toujours été bien accueillie.

    La tentative d'OpenAI d'ajouter des voix à ChatGPT a été controversée dès le départ. Lors de l'événement organisé en mai pour annoncer GPT-4o et le mode vocal, les gens ont remarqué des similitudes entre l'une des voix, Sky, et celle de l'actrice Scarlett Johanssen.

    Le fait que le PDG d'OpenAI, Sam Altman, ait publié le mot « her » sur les réseaux sociaux, en référence au film dans lequel Scarlett Johanssen incarne une assistante IA, n'a pas facilité les choses. La controverse a suscité des inquiétudes quant au fait que les développeurs d'IA imitent les voix de personnes connues.

    L'entreprise a nié avoir fait référence à Johansson et a insisté sur le fait qu'elle n'avait pas l'intention d'engager des acteurs dont la voix ressemble à celle d'autres personnes. Scarlett Johansson a refusé la proposition d'OpenAI d'utiliser sa voix pour l'intelligence artificielle mais l'entreprise s'en est quand même servi. « Lorsque j'ai appris pour la démo, j'ai été choquée, irritée à l'idée que Sam Altman puisse utiliser une voix si similaire à la mienne que mes amis les plus proches et les médias n'ont pas pu faire la différence. J'ai été obligée d'engager un conseiller juridique qui a écrit deux lettres à Sam Altman pour demander à OpenAI d'expliquer en détail comment elle avait créé la voix de Sky », a déclaré l'actrice.

    L'entreprise a déclaré que les utilisateurs ne sont limités qu'aux neuf voix d'OpenAI. Elle a également déclaré qu'elle avait évalué la sécurité avant la mise en circulation. « Nous avons testé les capacités vocales du modèle avec des membres de l'équipe rouge externe, qui parlent collectivement un total de 45 langues différentes et représentent 29 zones géographiques différentes », a déclaré l'entreprise dans un communiqué adressé aux journalistes.

    Cependant, elle a retardé le lancement du mode vocal avancé de ChatGPT de la date initiale prévue de fin juin à « fin juillet ou début août », et seulement à un groupe d'utilisateurs initiaux sélectionnés par OpenAI, tels que le professeur Ethan Mollick de la Wharton School of Business de l'université de Pennsylvanie, en invoquant la nécessité de poursuivre les tests de sécurité ou de faire du red teaming du mode vocal afin d'éviter son utilisation pour des fraudes et des actes répréhensibles potentiels.

    De toute évidence, l'entreprise estime qu'elle en a fait assez pour diffuser le mode plus largement maintenant - et cela est conforme à l'approche généralement plus prudente d'OpenAI ces derniers temps, en travaillant main dans la main avec les gouvernements des États-Unis et du Royaume-Uni et en leur permettant de découvrir en avant-première de nouveaux modèles tels que sa série o1 avant le lancement.

    Quelles mesures ont été prises pour garantir la sécurité ?

    Comme la société l'a indiqué lors de la sortie initiale en juillet et l'a de nouveau souligné cette semaine, le mode vocal avancé a été testé par des experts externes « qui parlent collectivement un total de 45 langues différentes et représentent 29 zones géographiques différentes ». La carte système GPT-4o détaille la manière dont le modèle sous-jacent gère des problèmes tels que la génération de discours violents ou érotiques, l'imitation de voix sans leur consentement ou la génération de contenus protégés par des droits d'auteur.

    Toutefois, les modèles d'OpenAI ne sont pas libres de droits. Par rapport à ces modèles, qui sont plus transparents en ce qui concerne leurs données d'entraînement et les « poids du modèle » qui régissent la manière dont l'IA produit des réponses, les modèles fermés d'OpenAI sont plus difficiles à évaluer par des chercheurs indépendants du point de vue de la sécurité, de la partialité et de la nocivité.

    Néanmoins, l’introduction de ce mode vocal avancé soulève des questions importantes sur la vie privée et la sécurité. Bien que la capacité de l’IA à détecter les émotions et à mémoriser les préférences puisse améliorer l’expérience utilisateur, elle pose également des défis en matière de protection des données personnelles. Comment OpenAI garantit-elle la sécurité des informations sensibles ? Quels sont les mécanismes en place pour prévenir les abus ?

    Sources : OpenAI (1, 2)

    Et vous ?

    Pensez-vous que l’introduction de technologies vocales avancées pourrait transformer certaines professions ? Si oui, lesquelles et comment ?
    Comment les technologies vocales peuvent-elles améliorer l’accessibilité pour les personnes en situation de handicap ? Quels défis restent à surmonter ?
    À quel point est-il important pour vous que les interactions avec les IA soient aussi naturelles que possible ? Quels sont les avantages et les inconvénients de cette naturalité accrue ?
    Quelles mesures OpenAI pourrait-elle prendre pour renforcer la confiance des utilisateurs dans ses technologies vocales ? Quels sont les éléments clés pour établir cette confiance ?
    Qui devrait être responsable en cas de mauvaise utilisation des technologies vocales avancées ? Les entreprises, les utilisateurs, ou les régulateurs ?

    Voir aussi :

    Quand l'IA devient étrange : OpenAI constate que GPT-4o fait parfois des choses vraiment bizarres comme le clonage de la voix de son interlocuteur ou des effets sonores inappropriés
    ChatGPT Advanced Voice Mode impressionne les testeurs par ses effets sonores et sa capacité à reprendre son souffle. Il corrige la prononciation de mots français, en donnant des indications sur l'inflexion
    Le Voice Mode du chatbot GPT-4o d'OpenAI peut imiter votre voix et vous crier dessus, et il a maintenant appris à emettre d'horribles cris robotiques lorsqu'on lui demande de le faire
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  15. #35
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 770
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 770
    Points : 123 432
    Points
    123 432
    Par défaut OpenAI donne aux développeurs tiers l'accès à son moteur de synthèse vocale de ChatGPT
    OpenAI a annoncé qu'elle donnait aux développeurs tiers l'accès à son moteur de synthèse vocale qui alimente le mode vocal avancé de ChatGPT.

    OpenAI introduit de nouveaux outils pour accélérer la construction d'assistants vocaux IA alors que le fabricant de ChatGPT se bat avec les géants de la technologie pour rester dans la course à l'IA générative. OpenAI présente également un outil de réglage fin pour les modèles après l'entraînement, qui permettrait aux développeurs d'améliorer les réponses générées par les modèles utilisant des images et du texte.

    Il y a un an, OpenAI a déployé une nouvelle version de ChatGPT qui permet aux utilisateurs de solliciter l’intelligence artificielle non seulement en tapant des phrases dans une zone de texte, mais aussi en parlant à haute voix ou en téléchargeant une photo. Les fonctionnalités permettent au chatbot d'avoir des conversations vocales avec les utilisateurs et d'interagir avec des images.

    Pour la fonctionnalité vocale, OpenAI a indiqué comment elle fonctionne : vous appuyez sur un bouton et prononcez votre question, ChatGPT la convertit en texte et l’envoie au grand modèle de langage, reçoit une réponse en retour, la convertit à nouveau en parole et prononce la réponse à voix haute. La fonction vocale "ouvre la voie à de nombreuses applications créatives et axées sur l'accessibilité", a déclaré OpenAI lors de l'annonce.

    En ce début d'octobre 2024, OpenAI a dévoilé une série de nouveaux outils qui permettront aux développeurs de créer plus facilement des applications basées sur sa technologie d'intelligence artificielle ChatGPT.

    La startup soutenue par Microsoft a déclaré qu'un nouvel outil en temps réel, déployé immédiatement à des fins de test, permettrait aux développeurs de créer des applications vocales d'IA en utilisant un seul ensemble d'instructions. Auparavant, les développeurs devaient passer par au moins trois étapes : d'abord la transcription de l'audio, puis l'exécution du modèle de texte généré pour obtenir une réponse à la requête et enfin l'utilisation d'un modèle de synthèse vocale séparé.


    Dans le cadre du déploiement, OpenAI a présenté un outil de réglage fin pour les modèles après l'entraînement, qui permettrait aux développeurs d'améliorer les réponses générées par les modèles utilisant des images et du texte. Ce processus d'affinage peut inclure un retour d'information de la part d'humains qui donnent au modèle des exemples de bonnes et de mauvaises réponses en se basant sur ses réponses.

    L'utilisation d'images pour affiner les modèles leur donnerait de meilleures capacités de compréhension des images, ce qui permettrait des applications telles que l'amélioration de la recherche visuelle et de la détection d'objets pour les véhicules autonomes, a déclaré OpenAI. La startup a également dévoilé un outil qui permettrait à des modèles plus petits d'apprendre à partir de modèles plus grands, ainsi que le "Prompt Caching" qui réduit de moitié certains coûts de développement en réutilisant des morceaux de texte que l'IA a précédemment traités.

    Une grande partie des revenus d'OpenAI provient des entreprises qui utilisent ses services pour créer leurs propres applications d'IA, ce qui fait du déploiement de capacités avancées un argument de vente clé. La concurrence s'est intensifiée à mesure que les géants de la technologie, notamment Alphabet, la société mère de Google, intègrent dans leurs activités des modèles d'IA capables d'analyser différentes formes d'informations telles que la vidéo, l'audio et le texte.

    OpenAI s'attend à ce que son chiffre d'affaires passe de 3,7 milliards de dollars en 2024 à 11,6 milliards de dollars l'année prochaine. L'entreprise est également en pleine levée de fonds de 6,5 milliards de dollars, ce qui pourrait la valoriser à 150 milliards de dollars.

    Pour rappel, en août 2024, OpenAI a lancé la version alpha de la fonctionnalité Advanced Voice Mode dans ChatGPT, alimentée par le modèle d’intelligence artificielle GPT-4o. Ce modèle est le premier à être formé à la fois sur la voix, le texte et les images, ce qui ouvre la voie à des expériences multimodales passionnantes. Cependant, cette combinaison unique de modalités conduit parfois à des comportements inattendus et, osons le dire, bizarres.

    Dans les premiers tests rapportés par les utilisateurs qui y ont accès, le mode vocal avancé leur permet d'avoir des conversations en temps réel avec ChatGPT, y compris la possibilité d'interrompre l'IA au milieu d'une phrase presque instantanément. Mais ce qui a pris beaucoup de gens au dépourvu, c'est la façon dont les voix simulent une respiration pendant qu'elles parlent. Le mode vocal de GPT-4o d'OpenAI peut également imiter votre voix et vous crier dessus. Mais les cris robotiques ont été bouleversants et plus que troublants.

    Source : OpenAI

    Et vous ?

    Que pensez-vous de ces nouvelles fonctionnalités ?

    Voir aussi :

    Le mode Vocal Avancé de ChatGPT déployé auprès des utilisateurs payants : OpenAI affirme que cette version réagit à vos émotions et au ton de votre voix, mais la fonctionnalité est bloquée en UE et en UK

    Google lance Gemini Live, un chatbot d'IA à commande vocale gratuit pour les utilisateurs d'Android. Gemini Live permettrait d'avoir des conversations naturelles avec un assistant d'IA

    Meta intègre les voix d'acteurs de Hollywood à son chatbot d'IA pour vous permettre d'avoir des conversations vocales en temps réel avec le chatbot sur Facebook, Instagram, WhatsApp et Threads
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  16. #36
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 770
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 770
    Points : 123 432
    Points
    123 432
    Par défaut AlphaCodium de Qodo est plus performant que o1 d'OpenAI en matière de génération de code
    L'IA open-source AlphaCodium de Qodo est plus performant que o1 d'OpenAI en matière de génération de code, avec un flux en plusieurs étapes qui met l'accent sur l'amélioration continue par itération.

    Une analyse de l'équipe de recherche de Qodo compare les performances du modèle o1 d'OpenAI et du logiciel d'IA open-source AlphaCodium. Si OpenAI revendique que o1 possède une pensée Système 2, les résultats montrent qu'il s'agirait plutôt d'un "Système 1.5". Mais la combinaison d'AlphaCodium et de o1 sur les tests a révélé une augmentation considérable de la précision et des performances d'o1. Cette analyse représente une étape vers la pensée Système 2 des LLM : passer de réponses rapides et instinctives à des processus plus réfléchis, méthodiques et raisonnés.

    AlphaCodium, développé et mis à disposition par l'équipe de recherche de Qodo, représente une nouvelle approche de la génération de code avec les grands modèles de langage (LLM). Contrairement aux méthodes traditionnelles de génération de code en une seule fois, AlphaCodium utilise un flux en plusieurs étapes orienté vers le code qui met l'accent sur l'amélioration continue grâce à l'itération. Ce processus itératif en deux phases consiste à générer du code, à l'exécuter, à le tester et à corriger les problèmes éventuels, afin de garantir que le système aboutisse à une solution entièrement validée.

    Avec GPT-4, AlphaCodium a augmenté la précision de la résolution des problèmes de codage de 19 % à 44 %. Il s'agit d'une amélioration significative par rapport à la meilleure approche précédente, AlphaCode de Google DeepMind. De plus, GPT-4o a atteint une précision de 54 % avec AlphaCodium, contre 48 % pour GPT-4T.

    Depuis, OpenAI a publié le modèle o1 qui a entraîné un flot de discussions sur ses nouvelles capacités. Le président d'OpenAI, Greg Brockman, a bien cadré la conversation en décrivant les modèles précédents comme illustrant la "pensée Système 1", où les réponses rapides et instinctives dominent, alors que la promesse des "chaînes de pensée" d'o1 pourrait débloquer la "pensée Système 2", des processus plus réfléchis et raisonnés.

    Dans ce contexte, l'équipe de recherche de Qodo a voulu mettre ces affirmations à l'épreuve. AlphaCodium permet déjà d'améliorer les performances de divers modèles fondamentaux dans la résolution de problèmes de codage de concours. Ils ont donc appliqué cette méthodologie au dernier modèle d'OpenAI.

    L'équipe de recherche de Qodo vient de partager les résultats de cette expérience en répondant à la question suivante : "si o1 fait déjà preuve d'un raisonnement de type Système 2, le fait de l'insérer dans AlphaCodium améliorerait-il ses résultats ou les détériorerait-il au contraire ?"


    La pensée systémique : un cadre pour la prise de décision en matière d'IA

    Deux éléments clés distinguent le flux d'AlphaCodium. Premièrement, le système génère des données supplémentaires pour faciliter le processus itératif, comme les réflexions sur les problèmes et le raisonnement des tests, qui aident le modèle à mieux comprendre et à affiner son approche de la résolution de problèmes complexes. Ensuite, AlphaCodium enrichit les cas de test publics existants avec des tests générés par l'IA, en introduisant des couches supplémentaires d'examen pour valider la robustesse des solutions.

    Grâce à ce processus structuré, AlphaCodium se concentre non seulement sur le code lui-même, mais aussi sur le raisonnement et les tests nécessaires pour garantir un résultat fiable et de haute qualité.

    Nom : 1.jpg
Affichages : 6568
Taille : 60,7 Ko

    À titre de comparaison, parlons des pensées Systèmes 1 et 2. Le lauréat du prix Nobel Daniel Kahneman a fait référence à ces modes distincts de la pensée humaine qui régissent la prise de décision et la résolution de problèmes, et ils fournissent un cadre utile pour comprendre les évolutions des LLM et leur rôle dans la résolution de problèmes.

    • Système 1 : réponses rapides avec une compréhension superficielle

      La pensée Système 1 correspond à une personne qui réagit rapidement et instinctivement. Dans le contexte de l'IA, il s'agit d'une analogie avec les modèles qui produisent rapidement de grandes quantités de données pour obtenir des résultats quasi-instantanés. La plupart des LLM actuels fonctionnent selon ce mode, générant du code en reconnaissant des modèles dans les données d'apprentissage, en s'appuyant souvent sur des heuristiques similaires au fonctionnement de l'intuition humaine. Cette approche permet de produire rapidement des extraits de code ou des solutions à des problèmes de programmation courants.

      Bien que cette rapidité soit avantageuse, les modèles de type Système 1 peuvent être sujets à des erreurs lors de défis de codage plus complexes ou moins familiers. Ils ont tendance à se concentrer sur les modèles de surface et peuvent ne pas comprendre pleinement la logique profonde requise pour des tâches sophistiquées.

      Par conséquent, le code généré peut sembler correct mais échouer dans les cas extrêmes ou lorsqu'il est soumis à des tests rigoureux. Par exemple, ces modèles peuvent ne pas tenir compte des dépendances sous-jacentes, ne pas gérer des structures de données complexes ou générer un code syntaxiquement correct qui ne l'est pas sur le plan sémantique.

    • Système 2 : résolution réfléchie des problèmes

      La pensée Système 2 représente l'étape suivante de l'IA pour le codage : passer de réponses rapides et instinctives à des processus plus réfléchis, méthodiques et raisonnés. Ce changement est essentiel pour relever les défis de codage complexes qui nécessitent une compréhension et une logique approfondies.

      Dans le cadre du Système 2, les LLM se concentrent sur l'analyse minutieuse, le raisonnement et la réflexion avant de parvenir à une solution. Contrairement au Système 1, axé sur la rapidité et l'heuristique, le Système 2 est conçu pour s'engager dans un processus analytique, garantissant que le résultat final n'est pas seulement syntaxiquement correct, mais aussi logique, sémantiquement significatif et efficace dans une variété de conditions.

      Par exemple, imaginons un développeur travaillant sur une tâche telle que la création d'une API REST qui gère des transactions de base de données complexes. Une IA de Système 2 déconstruirait le problème en analysant les différents composants de la tâche, raisonnerait sur les différentes décisions et simulerait des solutions potentielles. Tout au long de ce processus, le modèle affinerait son code de manière itérative en réagissant au retour d'information des tests (en analysant les scénarios dans lesquels des blocages pourraient se produire, des goulets d'étranglement se produiraient au niveau des performances ou des conditions de course affecteraient l'intégrité des données) et demanderait même davantage de données ou d'intégration s'il s'en rendait compte.



    Analyse des chercheurs de Qodo du modèle o1 d'OpenAI

    Après avoir testé les performances du modèle o1 d'OpenAI, les chercheurs de Qodo pensent que le modèle serait davantage un "Système 1.5". C'est-à-dire, une zone intermédiaire où l'IA fait preuve de certaines capacités de raisonnement au-delà de l'intuition pure, mais ne dispose pas encore de la profondeur et de la délibération complètes de la résolution de problèmes en plusieurs étapes que l'on retrouve dans la pensée Système 2.

    Les chercheurs définissent donc les niveaux de la pensée systémique comme suit :

    • Système 1 : déduction rapide
    • Système 1.5 : chaîne de pensée guidée
    • Système 2 : raisonnement approfondi et réfléchi, renforcé par des informations provenant de processus de validation, utilisant des cadres et des outils de réflexion pertinents, y compris l'élaboration et le choix d'options.


    Citation Envoyé par Daniel Kahneman in Thinking, Fast and Slow
    Le mieux que nous puissions faire est un compromis : apprendre à reconnaître les situations dans lesquelles des erreurs sont probables et s'efforcer d'éviter les erreurs importantes lorsque les enjeux sont élevés.
    Terence Tao, lauréat de la médaille Fields et largement considéré comme le plus grand mathématicien vivant au monde, a réalisé une évaluation du modèle o1 qui offre une comparaison utile.

    Nom : 2.jpg
Affichages : 1640
Taille : 134,6 Ko

    Tao décrit o1 comme un "étudiant diplômé médiocre" capable de résoudre des problèmes complexes, mais seulement après avoir été fortement incité et guidé, et a noté qu'il "n'a pas généré les idées conceptuelles clés par lui-même". Cela correspond à la définition de l'IA du système 1.5, à savoir qu'elle a besoin d'une direction extérieure pour accomplir des tâches complexes.

    Si o1 peut traiter des problèmes bien structurés, il a du mal à raisonner en profondeur et n'atteint pas le niveau de pensée Système 2, où les modèles fonctionnent de manière indépendante avec une résolution et une validation des problèmes en plusieurs étapes. Tao suggère qu'avec de nouvelles améliorations et l'intégration d'outils, les modèles d'IA pourraient éventuellement atteindre la compétence d'un "étudiant diplômé compétent", confirmant l'analyse que ces modèles se rapprochent du Système 2 mais n'y sont pas encore tout à fait parvenus.

    Cette limitation est liée à l'un des problèmes les plus importants de o1. L'internet regorge de cas où o1 présente des hallucinations extrêmes (bien que, pour être juste, les gens "hallucinent" aussi, même lorsqu'ils appliquent la pensée Système 2). Si o1 peut générer un code d'apparence plausible, il peut aussi produire des résultats incorrects ou absurdes lorsqu'il est poussé au-delà de sa capacité de raisonnement. Parce que o1 ne raisonne pas complètement à travers les problèmes, il peut générer des solutions erronées, en particulier lorsqu'il s'agit de raisonner à travers des problèmes complexes.

    Nom : 3.jpg
Affichages : 1633
Taille : 45,7 Ko


    AlphaCodium + o1 : Une étape progressive vers le Système 2 ?

    Les chercheurs de Qodo ont également évalué AlphaCodium et o1 sur le benchmark Codeforces, également connu sous le nom de CodeContests. AlphaCodium agit en tant que fournisseur de stratégie, en concevant l'approche, en établissant un cadre et en fournissant les outils pour alimenter et guider la chaîne de pensée de o1, tandis que o1 exécute des portions significatives du raisonnement et des processus internes.

    Les résultats ont montré une nette amélioration de la précision, démontrant qu'AlphaCodium augmente considérablement les performances d'o1. Comme le montrent les graphiques ci-dessous, les taux de précision ont montré une amélioration constante lorsque l'AlphaCodium était associé à o1 par rapport aux invites directs seuls.

    Nom : 4.jpg
Affichages : 1645
Taille : 39,2 Ko

    Les chercheurs commentent les résultats de l'expérience:

    D'après notre compréhension du rapport d'OpenAI, AlphaCodium-o1 obtient de meilleurs résultats que o1 (auquel nous n'avons pas eu accès - nous avons utilisé o1-mini et o1-preview) et même que o1-ioi ( !), un modèle qui a été entraîné spécifiquement pour les compétences en programmation, ce qui en fait la solution de pointe pour ce benchmark de codage.

    Pourquoi AlphaCodium-o1 offre de meilleures performances ?

    L'impact de l'utilisation de la méthodologie d'AlphaCodium avec le modèle o1 a montré une amélioration substantielle de la précision pass@5 sur le benchmark Codeforces. Cette amélioration était à la fois significative et cohérente entre les différents modèles évalués. Bien que le modèle o1 autonome offre des performances supérieures à la simple inférence (Système 1), l'analyse de Qodo affirme qu'il est comparable à la chaîne de pensée guidée (Système 1.5).

    Il convient également de noter que le modèle o1 a été entraîné par apprentissage par renforcement afin de devenir plus performant en matière de chaîne de pensée. Des travaux récents comme RLEF offrent une comparaison intéressante avec AlphaCodium-o1.

    RLEF utilise l'apprentissage par renforcement avec un retour d'exécution pour améliorer la performance des modèles de génération de code, atteignant l'état de l'art. RLEF s'aligne bien sur l'hypothèse que l'apprentissage par renforcement peut aider à stimuler la pensée intuitive (Système 1.5), mais n'est pas encore proche d'une pensée de type Système 2.

    Même avec les avantages mis en évidence par RL/RLEF, l'expérience avec o1 montre que le cadre d'AlphaCodium, lorsqu'il est combiné avec des modèles forts comme o1, peut encore fournir une augmentation significative de la performance. Le couplage avec AlphaCodium a poussé o1 vers une résolution de problèmes plus stratégique et délibérée.

    Les résultats suggèrent que les modèles comme o1, lorsqu'ils sont encadrés par les bons outils et guidés par un cadre solide pour fournir une stratégie de raisonnement, peuvent atteindre un niveau supérieur à celui des simples réponses instinctives. Cette combinaison permet au modèle de fonctionner de manière plus réfléchie et itérative, en se rapprochant du type de raisonnement approfondi du Système 2 requis pour des tâches de codage plus complexes.

    Nom : 5.jpg
Affichages : 1638
Taille : 35,4 Ko


    Cadre et implications de l'analyse de l'équipe de recherche de Qodo

    Citation Envoyé par L'équipe de recherche de Qodo
    Pourquoi nous avons choisi Codeforces ?

    Nous avons choisi Codeforces pour notre analyse comparative parce qu'il présente des problèmes algorithmiquement rigoureux et difficiles, qui sont cruciaux pour évaluer la capacité d'un modèle à gérer un raisonnement complexe en plusieurs étapes. Codeforces pousse les modèles au-delà des simples tâches de codage du monde réel, exigeant des compétences avancées de résolution de problèmes qui s'alignent sur la pensée Système 2, ce qui le rend plus idéal pour tester la profondeur des capacités de raisonnement des modèles d'IA.

    Cependant, nous avons remarqué que plus d'équipes participent à SWE-bench qu'à Codeforces, ce qui soulève une question intéressante : Est-ce parce que la concurrence avec des équipes établies comme OpenAI, DeepMind, Salesforce et Meta est perçue comme plus stimulante ?

    Nous pensons que c'est parce que :

    1. SWE-Bench a commencé avec des critères plus accessibles qui ont attiré un plus grand nombre de participants. Cela dit, depuis août 2024, nous avons remarqué qu'il n'y a pas eu de nouvelles soumissions sur SWE-Bench, ce qui pourrait indiquer qu'il a maintenant atteint un niveau aussi élevé en termes de résultats.
    2. Le cadre de SWE-bench est structuré comme un "problème" sur GitHub qui doit être résolu, imitant le codage du monde réel. Cette configuration peut intéresser un plus grand nombre d'équipes car elle semble plus pratique et reflète plus fidèlement les défis de codage quotidiens, plutôt que la nature purement compétitive et axée sur les algorithmes de Codeforces.


    Un nouvel outil open-source pour la communauté

    Nous pensons que ces résultats sont importants pour l'ensemble de la communauté de recherche en IA. C'est pourquoi nous avons fait d'AlphaCodium un outil open-source. Toute personne intéressée peut trouver notre travail sur GitHub ici et explorer notre méthodologie détaillée dans l'article sur arXiv.

    Quelle est la suite des événements ?

    La promesse d'AlphaCodium est claire : avec la bonne ingénierie stratégique des flux, les modèles fondamentaux comme o1 peuvent être poussés vers la pensée Système 2. Nous avons encore du travail à faire pour passer du "Système 1.5" à une véritable IA de niveau Système 2, mais en observant des outils comme AlphaCodium, nous pouvons mieux comprendre l'écart et continuer à faire des recherches pour nous en rapprocher. L'avenir de l'IA réside dans la collaboration, et nous sommes impatients de voir ce que nous pourrons construire ensemble en continuant à innover.

    Chez Qodo, nous nous concentrons sur l'intégrité du code, c'est-à-dire que nous construisons vers la pensée du Système 2 qui incorporera intégralement les capacités et les flux de test et de révision du code, parmi d'autres méthodes, pour s'assurer que le code et le logiciel générés fonctionnent comme les développeurs l'ont prévu et en conformité avec les meilleures pratiques.

    Source : L'équipe de recherche de Qodo

    Et vous ?

    Pensez-vous que cette analyse est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Les assistants d'IA de codage font-ils vraiment gagner du temps aux développeurs ? Une étude suggère que ces outils n'augmentent pas la vitesse de codage, mais augmentent significativement le taux de bogues

    Apprendre à raisonner avec le nouveau LLM OpenAI o1 formé avec l'apprentissage par renforcement pour effectuer des raisonnements complexes car o1 réfléchit avant de répondre

    L'étude d'Apple prouve que les modèles d'IA basés sur le LLM sont défectueux car ils ne peuvent pas raisonner : "Nous n'avons trouvé aucune preuve de raisonnement formel dans les modèles de langage"

    Une recherche sur les tâches simples montrant la décomposition du raisonnement IA dans les LLM de pointe donne OpenAI GPT-4o largement en tête, suivi d'Anthropic Claude 3
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  17. #37
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 075
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 075
    Points : 209 461
    Points
    209 461
    Par défaut Après macOS et iPhone, OpenAI propose une application sur Windows destinée aux clients payants
    Après macOS et iPhone, OpenAI propose une application sur Windows destinée aux clients payants.
    Pour se positionner comme étant indispensable, l'entreprise veut collecter plus de données et augmenter l'engagement des utilisateurs

    OpenAI a finalement lancé une version de son application ChatGPT pour Windows. Cette version bêta arrive cinq mois après l'apparition d'une version bêta pour macOS. La nouvelle application est similaire à la version Mac et presque indiscernable de l'interface web. La nouvelle application ChatGPT pour Windows n'est actuellement disponible que pour les clients qui paient au moins 20 dollars par mois pour accéder au service. Cela inclut ceux qui ont un plan Teams, Plus ou Enterprise.

    Microsoft est peut-être le plus grand investisseur d'OpenAI, mais cela n'a pas empêché l'entreprise d'ignorer Windows. Du moins... jusqu'à présent : cinq mois après avoir lancé une application ChatGPT pour l'iPhone, et quatre mois après l'avoir fait pour Mac, OpenAI a finalement livré une application ChatGPT pour Windows.

    Actuellement, cette application n'est disponible que pour les abonnés des versions Plus, Team, Enterprise et Edu de ChatGPT, et les utilisateurs peuvent la télécharger gratuitement dans le Microsoft Store pour Windows.

    Il n'y a pas de message d'annonce ou de page produit. Au lieu de cela, nous avons reçu un tweet.

    OpenAI présente cette version comme étant une bêta : « Il s'agit d'une version préliminaire, et nous prévoyons d'offrir l'expérience complète à tous les utilisateurs dans le courant de l'année », écrit OpenAI sur la page d'accueil de l'application dans le Microsoft Store. Il est intéressant de noter que ChatGPT est classé « PEGI » dans le magasin Windows, bien qu'il ne s'agisse pas d'un jeu vidéo. Pour mémoire, le système PEGI (Pan European Game Information) de classification par âge des jeux vidéo est utilisé dans 38 pays européens. La classification par âge confirme que le jeu est approprié à l’âge du joueur.

    Nom : PEGI.png
Affichages : 4067
Taille : 61,6 Ko

    À l'ouverture de l'application, OpenAI demande aux utilisateurs de se connecter à un compte ChatGPT payant, et à partir de là, l'application est fondamentalement identique à la version du navigateur Web de ChatGPT. Vous pouvez actuellement l'utiliser pour accéder à plusieurs modèles : GPT-4o, GPT-4o with Canvas, 01-preview, 01-mini, GPT-4o mini, et GPT-4. Elle peut également générer des images à l'aide de DALL-E 3 ou analyser des fichiers et des images téléchargés.

    Si vous utilisez Windows 11, vous pouvez appeler instantanément une petite fenêtre ChatGPT lorsque l'application est ouverte à l'aide d'un raccourci Alt+Espace. Cela peut être pratique pour poser une question rapide à ChatGPT à tout moment.

    Et comme pour la version web, tout le traitement de l'IA s'effectue dans le cloud sur les serveurs d'OpenAI, ce qui signifie qu'une connexion Internet est nécessaire.

    Même si l'application permet également de télécharger des fichiers et des photos sur ChatGPT, elle ne dispose toutefois pas de certaines fonctionnalités, comme le mode vocal avancé.

    Peu après le lancement par OpenAI de son application ChatGPT sur Mac en juin, un développeur a repéré une faille de sécurité qui stockait les conversations en texte clair. OpenAI a depuis corrigé ce problème et crypte désormais les données stockées localement.

    Même si seuls les abonnés ChatGPT Plus, Enterprise, Team et Edu peuvent utiliser l'application sur Windows, OpenAI indique qu'elle prévoit de la rendre accessible à tous dans le courant de l'année.

    Nom : microsoft.png
Affichages : 704
Taille : 35,5 Ko

    Les limites de ChatGPT sur Windows

    Bien que l'application ChatGPT pour Windows offre de nombreuses fonctionnalités intéressantes, elle n'est pas exempte de limitations. L'une des critiques majeures concerne la nécessité d'une connexion Internet stable pour que l'application fonctionne correctement, ce qui pourrait être problématique pour les utilisateurs ayant une connexion intermittente ou lente. De plus, certains utilisateurs ont exprimé des préoccupations quant à la confidentialité des données, bien qu'OpenAI assure que des mesures de sécurité robustes sont en place.

    Enfin, malgré les nombreuses améliorations, l'application peut parfois manquer de compréhension contextuelle approfondie, ce qui peut entraîner des réponses inexactes ou inappropriées dans des situations complexes.

    Aussi, comme à l'accoutumée, ne vous fiez pas à ChatGPT comme référence factuelle pour les décisions importantes (ChatGPT-4o en particulier est excellent pour vous dire ce que vous voulez entendre, que ce soit correct ou non). Comme l'indique OpenAI dans un petit avertissement au bas de la fenêtre de l'application : « ChatGPT peut faire des erreurs ».

    La stratégie d'OpenAI en matière d'ordinateurs de bureau : collecter plus de données, augmenter l'engagement des utilisateurs

    La stratégie d'OpenAI en matière d'expansion des plates-formes va au-delà de la simple commodité. En créant des applications natives pour les principaux systèmes d'exploitation, l'entreprise positionne ChatGPT comme un outil indispensable dans les environnements personnels et professionnels. Cette démarche a plusieurs objectifs : elle augmente l'engagement des utilisateurs, facilite la collecte de données plus étendues pour l'amélioration des modèles et crée un écosystème solide que les concurrents pourraient avoir du mal à supplanter.

    L'approche de l'application de bureau révèle également l'ambition d'OpenAI de devenir l'assistant d'IA de facto pour les travailleurs du savoir. En intégrant ChatGPT plus profondément dans les flux de travail des utilisateurs, OpenAI ne se contente pas d'améliorer l'accessibilité, mais modifie potentiellement la façon dont les gens interagissent avec les ordinateurs et traitent l'information.

    Ambitions pour les entreprises : ChatGPT comme nouvelle suite bureautique ?

    La version Windows arrive à un moment critique pour OpenAI, alors que l'entreprise est confrontée à une concurrence croissante dans le domaine de l'IA et à un examen minutieux de sa croissance rapide et de sa position influente. Des rapports récents suggèrent qu'OpenAI explore des partenariats au-delà de son alliance bien connue avec Microsoft, y compris des discussions avec Oracle pour l'infrastructure des centres de données d'IA et des présentations à l'armée américaine et à l'establishment de la sécurité nationale.

    L'expansion agressive d'OpenAI dans les environnements de bureau signale un changement potentiel dans le paysage des logiciels d'entreprise. L'entreprise semble positionner ChatGPT comme un outil de productivité fondamental pour les entreprises, ce qui pourrait perturber les fournisseurs traditionnels de logiciels d'entreprise. Cette démarche, associée à la récente extension du partenariat avec Bain & Company pour vendre ChatGPT aux entreprises, suggère qu'OpenAI ne se contente pas d'être un simple laboratoire de recherche sur l'IA, mais qu'elle cherche activement à occuper une position dominante dans le secteur de l'IA commerciale.

    Les implications de cette stratégie sont énormes. Si elle réussit, ChatGPT pourrait devenir le nouveau « système d'exploitation » pour le travail de la connaissance, modifiant fondamentalement le mode de fonctionnement des entreprises et pouvant remplacer ou absorber des fonctions actuellement assurées par des suites logicielles distinctes.

    Toutefois, la croissance rapide et l'influence grandissante d'OpenAI n'ont pas été sans controverse

    Les modèles d'IA de l'entreprise ont fait l'objet d'un examen minutieux concernant les biais potentiels et les implications sociétales d'un déploiement généralisé de l'IA. En outre, le double statut de l'OpenAI, à savoir une société à but lucratif plafonné et des intérêts commerciaux importants, a soulevé des questions sur sa gouvernance et ses objectifs à long terme.

    Alors qu'OpenAI continue d'étendre sa portée, l'entreprise est confrontée à un délicat exercice d'équilibre. Elle doit gérer les tensions entre sa mission déclarée, qui est de veiller à ce que l'intelligence artificielle générale profite à l'humanité, et son orientation de plus en plus commerciale. Le lancement de l'application Windows, bien qu'il s'agisse d'une extension de produit apparemment simple, représente une nouvelle étape dans le parcours complexe d'OpenAI qui consiste à façonner l'avenir de l'IA dans les contextes du grand public et des entreprises.

    Le succès de cette stratégie de bureau pourrait consolider la position d'OpenAI en tant qu'entreprise leader dans le domaine de l'IA, mais il accroît également l'urgence de répondre aux préoccupations éthiques et aux pratiques monopolistiques potentielles. Alors que le ChatGPT s'intègre de plus en plus profondément dans le travail et la vie de tous les jours, les enjeux de l'IA - en termes de sécurité, d'équité et d'impact sociétal - n'ont jamais été aussi importants.

    Sources : OpenAI, Microsoft

    Et vous ?

    Selon vous, quelles sont les principales préoccupations en matière de confidentialité des données avec l'utilisation de l'application ChatGPT pour Windows ?
    Pensez-vous que les avantages de l'IA dans des applications comme ChatGPT l'emportent sur les inconvénients ? Pourquoi ou pourquoi pas ?
    Que pensez-vous de la stratégie d'OpenAI visant à collecter plus de données et à augmenter l'engagement des utilisateurs ?
    ChatGPT comme nouvelle suite bureautique ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  18. #38
    Membre émérite
    Homme Profil pro
    Expertise comptable
    Inscrit en
    Décembre 2019
    Messages
    792
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Expertise comptable
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Décembre 2019
    Messages : 792
    Points : 2 779
    Points
    2 779
    Par défaut
    Elle doit gérer les tensions entre sa mission déclarée, qui est de veiller à ce que l'intelligence artificielle générale profite à l'humanité, et son orientation de plus en plus commerciale.


    C'est comme l'infomercial de Bill Gates sur les IPN, le loup déguisé en agneau.

    Alors que le ChatGPT s'intègre de plus en plus profondément dans le travail et la vie de tous les jours
    Dans la tête des PDG peut-être...

  19. #39
    Chroniqueur Actualités

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Juin 2023
    Messages
    991
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2023
    Messages : 991
    Points : 17 621
    Points
    17 621
    Par défaut La nouvelle version de ChatGPT-4o reprend la première place dans les classements des benchmarks populaires
    ChatGPT-4o d'OpenAI reprend la première place dans les classements des benchmarks populaires tout en améliorant sa créativité
    mais la manière dont la créativité est mesurée ou améliorée fait l'objet de débat

    OpenAI a mis à jour GPT-4o et affirme que cette nouvelle mouture améliore grandement « sa capacité d'écriture créative ». L'entreprise affirme que le chatbot est désormais « plus naturel et engageant avec une écriture plus adaptée pour améliorer la pertinence et la lisibilité ». Cette nouvelle mise à jour permet à GPT-4o de revenir en tête de plusieurs classements, notamment sur le benchmark Chatbot Arena des modèles d'IA les plus performants. Cependant, la manière dont la créativité est mesurée ou améliorée est remise en question par plusieurs experts, OpenAI ayant donné très peu d'informations sur la nouvelle mise à jour.

    ChatGPT-4o se met à jour et repasse devant ses rivaux dans les classements

    GPT-4o reste le modèle le plus avancé d'OpenAI malgré le fait que l'entreprise a publié de nouveaux modèles récemment. OpenAI affirme que GPT-4o est doté de capacités avancées en matière de raisonnement, de multimodalité et de conversation. Il a ajouté cette semaine que la nouvelle mise à jour rend GPT-4o encore plus performant. OpenAI a annoncé par le biais d'un billet sur X (ex-Twitter) avoir les performances de GPT-4o pour la lecture et l'écriture de fichiers.


    Cette mise à jour lui permet de générer des textes plus naturels et plus attrayants. GPT-4o mis à jour, appelé ChatGPT-4o (20241120), a battu ses concurrents sur le benchmark Chatbot Arena et s'est hissé à la tête du classement. (Chatbot Arena est une plateforme collaborative utilisée pour évaluer les grands modèles de langage.) Voici quelques observations sur la nouvelle version du modèle phare d'OpenAI :

    Améliorations des performances et résultats des analyses comparatives

    La nouvelle version de ChatGPT-4o a démontré des améliorations remarquables dans divers domaines. ChatGPT-4o affiche un bond en avant dans l'écriture créative, ainsi que dans les domaines techniques (par exemple, le codage et les mathématiques). Les résultats sont impressionnants :

    • ChatGPT-4o a repris la première place avec un score Elo de 1361 sur le benchmark Chatbot Arena, dépassant Gemini-Exp-1114 de Google (1343) ;
    • le modèle se classe désormais au premier rang dans des catégories telles que l'écriture créative, le codage et le traitement de messages complexes.


    Amélioration des capacités et de l'expérience utilisateur

    • amélioration des capacités d'écriture créative, produisant des textes plus naturels et attrayants ;
    • amélioration des capacités de lecture et d'écriture de fichiers, offrant une vision plus approfondie et des réponses plus complètes au contenu téléchargé ;
    • meilleure performance dans les tâches complexes à plusieurs étapes.


    Accessibilité et fonctionnalités supplémentaires

    • la mise à jour ne modifie pas la manière dont les utilisateurs accèdent à GPT-4o. Elle reste disponible pour les utilisateurs gratuits avec un accès limité et pour les abonnés de ChatGPT Plus avec un accès complet ;
    • le modèle vocal avancé est désormais disponible sur le bureau pour tous les utilisateurs payants, élargissant ainsi son accessibilité au-delà de l'application mobile.


    Impact sur l'industrie et les développements à venir

    • la mise à jour aide OpenAI à maintenir son avance sur des concurrents tels que Gemini de Google ;
    • des indices laissent entrevoir des améliorations potentielles des capacités de génération d'images de DALL-E ;
    • des rapports évoquent une possible sortie de Sora, le modèle d'IA d'OpenAI pour la génération de vidéo, élargissant encore le portefeuille de l'entreprise.


    Certains utilisateurs ont qualifié la mise à jour de « folle », en publiant un rap écrit par l'IA à la manière d'Eminem. D'autres ont essayé de mesurer sa créativité d'une manière plus centrée sur les données. Sam Paech, le responsable d'EQ-Bench, un benchmark qui tente de mesurer « l'intelligence émotionnelle des LLM », a constaté que GPT-4o surpassait la concurrence de plusieurs points. Les nouvelles capacités de ChatGPT-4o le placent à la tête de l'index EQ-Bench.

    Les affirmations d'OpenAI sur la créativité de ChatGPT-4o sont controversées

    OpenAI n'a pas partagé grand-chose sur la nouvelle mise à jour, si ce n'est que sa « capacité d'écriture créative a augmenté de niveau » et qu'elle est désormais « plus naturelle et engageante avec une écriture plus adaptée pour améliorer la pertinence et la lisibilité ». Dans un message sur X, le PDG d'OpenAI, Sam Altman, a simplement déclaré : « bon nouveau modèle ». Toutefois, la façon dont la créativité est améliorée ou mesurée soulève des questions.


    Un critique a demandé si « GPT-4o avait commencé à observer le monde [et] à trouver ses propres idées et son propre point de vue non dérivé ». Il fait allusion au fait que les modèles d'IA ne peuvent pas créer quelque chose de nouveau. Ils ne font que régurgiter ce qui est contenu dans leurs ensembles de données de formation. Lorsque ChatGPT a été lancé, il ne pouvait rien dire sur les connaissances ou les faits survenus après une certaine date en 2021.

    Cette date correspond en effet à la limite de ses données de formation. OpenAI met régulièrement à jour cette limite en incorporant de nouvelles bases de données dans l'ensemble de données de formation de GPT-4o. Il permet également à GPT-4o d'accéder à Internet afin de fournir aux utilisateurs des réponses basées sur les informations actuelles. Cette fonctionnalité ne rend pas le chatbot créatif pour autant, car il ne fait que résumer ce qu'il trouve sur le Web.


    OpenAI, et les entreprises concurrentes, entraînent ces modèles sur des quantités massives de données. Cela a suscité un tollé sur la violation du droit d'auteur, ce pour quoi le New York Times poursuit actuellement l'entreprise. OpenAI a admis qu'il ne peut pas former ses modèles sans le matériel protégé par le droit d'auteur.

    D'autres entreprises, comme Nvidia, ont été prises en flagrant délit d'exploitation d'heures de Netflix pour former des générateurs de vidéos. OpenAI prévoit de devenir une société à but lucratif à mesure qu'il se restructure. Cela a entraîné le départ de nombreuses personnalités de longue date de l'entreprise.

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous de la nouvelle mise à jour du modèle d'IA GPT-4o d'OpenAI ?
    Que pensez-vous des affirmations d'OpenAI sur l'amélioration de la capacité d'écriture créative de GPT-4o ?

    Voir aussi

    GPT-4o arrive en tête du classement des modèles d'IA les plus performants de LMSYS Chatbot Arena avec un score Elo de 1 289, surpassant ainsi Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic

    Gemini 1.5 Pro de Google détrône GPT-4o sur le LMSYS Chatbot Arena, l'un des benchmarks les plus reconnus dans la communauté de l'IA

    Le Voice Mode du chatbot GPT-4o d'OpenAI peut imiter votre voix et vous crier dessus, et il a maintenant appris à émettre d'horribles cris robotiques lorsqu'on lui demande de le faire

  20. #40
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 770
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 770
    Points : 123 432
    Points
    123 432
    Par défaut Le mode vocal avancé avec vision de ChatGPT est enfin disponible
    Le mode vocal avancé avec vision de ChatGPT est enfin disponible : vous pouvez maintenant utiliser le chatbot par le biais de la saisie vocale, d'images et de vidéos, et même partager des écrans tout en utilisant le ChatGPT.

    OpenAI lance enfin le mode vocal avancé avec vision. La fonctionnalité permet d'utiliser le chatbot par le biais d'une saisie vocale, d'images et de vidéos. Tous les utilisateurs Team et la plupart des utilisateurs Plus et Pro devraient y avoir accès au millieu du mois de décembre.

    En septembre, OpenAI a annoncé le déploiement de son nouveau mode vocal avancé pour ChatGPT, une fonctionnalité très attendue qui promet de révolutionner l’interaction avec les intelligences artificielles. Le mode vocal avancé de ChatGPT permet aux utilisateurs de converser avec l’IA de manière plus naturelle et fluide. Contrairement aux versions précédentes, cette nouvelle fonctionnalité permet d’interrompre l’IA en cours de réponse et de détecter les émotions dans la voix de l’utilisateur pour ajuster ses réponses en conséquence.

    Il y a presque sept mois, OpenAI a présenté pour la première fois le mode vocal avancé avec vision. La fonctionnalité a été officiellement lancée le sixième jour des "12 jours d'OpenAI" de l'entreprise, les utilisateurs pouvant désormais utiliser le chatbot par le biais d'une saisie vocale, d'images et de vidéos.

    Dans une vidéo de type podcast, Kevin, qui dirige les produits chez OpenAI, déclare : "Nous sommes ravis d'annoncer que nous ajoutons la vidéo au mode vocal avancé".

    S'il était possible de parler à voix haute à ChatGPT grâce au mode vocal avancé, il est désormais possible de le faire par le biais de la vidéo. L'équipe explique que cet outil était attendu depuis longtemps et suggère qu'il peut être utilisé pour "demander de l'aide, résoudre des problèmes ou apprendre quelque chose de nouveau".

    Les utilisateurs peuvent désormais partager des écrans tout en utilisant le mode vocal avancé de ChatGPT avec la fonction de vision pour recevoir des commentaires instantanés sur ce qui se trouve à l'écran.


    Bien que cette fonctionnalité ait été annoncée lors des célébrations d'avant Noël, il faudra peut-être attendre quelques jours avant qu'elle ne soit pleinement déployée. L'entreprise déclare : "Tous les utilisateurs Team et la plupart des utilisateurs Plus et Pro devraient y avoir accès au cours de la semaine prochaine dans la dernière version de l'application mobile ChatGPT. Nous offrirons cette fonctionnalité aux utilisateurs Plus et Pro de l'UE, de la Suisse, de l'Islande, de la Norvège et du Liechtenstein dès que nous le pourrons". Les utilisateurs des plans Enterprise et Edu y auront accès au début de l'année prochaine.

    Le déploiement de cette fonctionnalité signifie que l'application ChatGPT et la page d'accueil sont un peu différentes. Pour accéder au mode vocal avancé avec vidéo, il suffit de cliquer sur l'icône la plus à droite à côté de la fonction de recherche sur ChatGPT. Une nouvelle page s'affiche alors, avec un bouton vidéo, un microphone, trois points et l'icône de sortie.

    En cliquant sur le bouton vidéo, les utilisateurs peuvent poser des questions et parler au ChatGPT. Le chatbot répondra, comme s'il participait à une conversation réelle. Une voix de Père Noël a également été ajoutée, qui peut être sélectionnée dans les paramètres de ChatGPT ou dans le mode vocal via le sélecteur de voix situé dans le coin supérieur droite.

    Pour rappel, le mode vocal est l'une des fonctions les plus appréciées de ChatGPT. Mais elle a également suscité quelques controverses. Pour plus de transparence, OpenAI a partagé sa méthode pour sélectionner les voix de ChatGPT. OpenAI a travaillé avec des professionnels du casting et de la réalisation de premier plan pour réduire plus de 400 candidatures avant de sélectionner les voix.

    Source : OpenAI

    Et vous ?

    Pensez-vous que cette nouvelle fonctionnalité de ChatGPT est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    ChatGPT Advanced Voice Mode impressionne les testeurs par ses effets sonores et sa capacité à reprendre son souffle, il corrige la prononciation de mots français, en donnant des indications sur l'inflexion


    ChatGPT peut maintenant « voir, entendre et parler », selon OpenAI, mais les nouvelles fonctionnalités soulèvent des questions de confidentialité et de sécurité


    OpenAI suspend la voix de ChatGPT qui ressemble à celle de Scarlett Johansson dans 'Her' et déclare : L'IA "ne devrait pas délibérément imiter la voix distinctive d'une célébrité"
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

Discussions similaires

  1. Réponses: 0
    Dernier message: 16/03/2024, 15h55
  2. Réponses: 5
    Dernier message: 21/09/2022, 11h04
  3. TechDays 2012 : Angie crée des assistants personnels pilotés en mode vocal
    Par Gordon Fowler dans le forum Général Dotnet
    Réponses: 0
    Dernier message: 09/02/2012, 17h06

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo