IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

OpenAI pourrait avoir de vrais problèmes juridiques après que ChatGPT a imité la voix de Scarlett Johansson


Sujet :

Intelligence artificielle

  1. #21
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 152
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 152
    Points : 80 530
    Points
    80 530
    Par défaut Les utilisateurs gratuits de ChatGPT ont désormais accès à des GPTs personnalisés et à des analyses de données
    Les utilisateurs gratuits de ChatGPT peuvent maintenant utiliser les fonctions de navigation, de vision, d'analyse de données, de téléchargement de fichiers et de GPTs, créer les GPTs personnalisés est payant.

    Les utilisateurs gratuits de ChatGPT viennent de recevoir une énorme mise à jour : il est maintenant possible d'utiliser les fonctions de navigation, de vision, d'analyse de données, de téléchargement de fichiers et de GPT. L'utilisation des GPT personnalisés est gratuite, mais vous devez payer pour les créer.

    ChatGPT a élargi les fonctions disponibles pour les utilisateurs gratuits de ChatGPT, incluant désormais l'accès à des GPT personnalisés, qui étaient auparavant exclusifs aux abonnés payants. Ces nouvelles fonctionnalités englobent l'analyse de données, les fonctions de vision et la possibilité d'utiliser les fonctions de navigation et de mémoire. Initialement introduits avec le GPT-4o au début du mois de mai, ces outils permettent aux utilisateurs d'analyser des graphiques, de poser des questions sur des photos, etc.

    Parmi les GPTs personnalisés disponibles, il existe des centaines de services tiers, allant d'outils d'extraction d'informations et de conversation avec des PDF à d'autres outils utiles d'OpenAI tels que DALL-E 3, ou des plugins de Canva, Adobe Express ou Khan Academy. Vous pouvez découvrir tous les plugins disponibles dans la boutique.

    Les créateurs de GPTs personnalisés peuvent participer à un programme de partage des revenus qu'OpenAI teste depuis le mois de mars. Toutefois, les utilisateurs gratuits ne peuvent que découvrir et utiliser les GPTs personnalisés existants, et non créer les leurs.

    Malgré ces améliorations, les abonnés payants bénéficient toujours de certains avantages, tels que des limites de messages nettement plus élevées que celles des utilisateurs gratuits. Les utilisateurs gratuits qui atteignent leur limite de messages ou de conversations avec GPT-4o seront ramenés à GPT-3.5 et n'auront pas accès à d'autres fonctions premium telles que les fonctions de vision.


    Et vous ?

    Quel est votre avis sur cette annonce ?

    Voir aussi :

    OpenAI annonce des améliorations dans l'analyse des données dans ChatGPT, dont l'interaction avec des tableaux et des graphiques ou l'ajout de fichiers directement depuis Google Drive et Microsoft OneDrive

    GPT-4o arrive en tête du classement des modèles d'IA les plus performants de LMSYS Chatbot Arena avec un score Elo de 1 289, surpassant ainsi Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic

    GPT-4 est-il un bon analyste de données ? De nombreux analystes de données peuvent craindre que leur emploi soit remplacé par l'intelligence artificielle (IA)
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  2. #22
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 152
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 152
    Points : 80 530
    Points
    80 530
    Par défaut Une recherche sur les tâches simples donne OpenAI GPT-4o largement en tête
    Une recherche sur les tâches simples montrant la décomposition du raisonnement IA dans les LLM de pointe donne OpenAI GPT-4o largement en tête, suivi d'Anthropic Claude 3

    Une nouvelle étude a observé un effondrement frappant de la performance des grands modèles de langage (LLMs) lorsqu'ils sont confronté à des problèmes simples. À l'aide de tâches simples, l'étude visait à montrer le raisonnement de l'IA dans les LLMs. Les résultats classent GTP-4o d'Open AI largement en tête, suivi de Claude 3 d'Anthropic.

    Les grands modèles de langage (LLM) comme les modèles à poids fermés GPT-3.5/4, Claude, Gemini ou les modèles à poids ouverts comme LLaMa 2/3, Mistral, Mixtral, et les modèles plus récents Dbrx ou Command R+ sont souvent décrits comme étant des exemples de modèles de fondation.

    Les modèles de fondation sont des modèles qui se transfèrent fortement à travers différentes tâches et conditions de manière peu visible ou sans aucun effet, tout en montrant des lois d'échelle qui prédisent l'amélioration de la fonction en augmentant l'échelle de pré-entraînement. Ces affirmations d'excellence dans différentes fonctions et tâches s'appuient sur des mesures effectuées sur divers ensembles de points de référence normalisés qui montrent que ces modèles obtiennent des scores élevés.

    Cependant, une nouvelle recherche démontre un effondrement spectaculaire des fonctions et des capacités de raisonnement des modèles de pointe entraînés aux plus grandes échelles disponibles qui prétendent avoir une fonction forte, en utilisant un problème de bon sens simple, court et conventionnel, formulé dans un langage naturel concis, facilement résolvable par les humains. L'effondrement est spectaculaire, car les modèles expriment également une confiance excessive dans leurs solutions erronées, tout en fournissant des explications souvent absurdes, semblables à des confabulations, pour justifier et étayer la validité de leurs réponses clairement erronées, en les faisant paraître plausibles.

    Les diverses interventions standard visant à obtenir la bonne solution, telles que divers types d'incitations renforcées ou l'incitation des modèles à reconsidérer les mauvaises solutions par le biais d'une réévaluation en plusieurs étapes, sont vouées à l'échec. Une telle réévaluation nécessite également une action commune pour créer des critères de référence normalisés qui permettraient de détecter correctement les déficits de raisonnement de base qui, de toute évidence, ne sont pas découverts par les procédures d'évaluation et les critères de référence de pointe actuels.


    Des tâches simples montrant une décomposition complète du raisonnement dans les grands modèles de langage

    En utilisant une formulation de problème AIW très simple, qui peut être facilement résolue par des adultes et sans doute même par des enfants, l'étude a observé un effondrement frappant de la performance des LLMs lorsqu'ils sont confrontés à la tâche. Le problème AIW ou "Alice In Wonderland" consistait à répondre à la question : "Alice a N frères et M sœurs. Combien de sœurs le frère d'Alice a-t-il ?".

    Cet effondrement dramatique laisse entrevoir de graves déficits dans les capacités de raisonnement de base des modèles qui sont largement revendiqués comme possédant de fortes capacités de fonctionnement et de raisonnement, souvent en citant leur performance sur un ensemble de repères standardisés ou l'expérience de divers groupes d'utilisateurs ou de leurs créateurs. L'effondrement général et la forte fluctuation des performances observées entre les différentes variantes d'un même problème laissent également entrevoir des problèmes fondamentaux liés à la capacité de généralisation des modèles, ce qui fait écho et confirme les préoccupations exprimées dans un certain nombre de travaux antérieurs.

    Cependant, les preuves obtenues dans cette étude indiquent une image plus complexe qu'une histoire simple d'échec de généralisation hors distribution pour les LLMs actuels. Malgré l'effondrement observé du raisonnement et de la performance sur le problème AIW, accompagné d'un mauvais calibrage évident du modèle et d'un excès de confiance, de confabulations à côté de réponses incorrectes et d'une incapacité à réviser les mauvaises solutions, l'étude a observé des modèles à plus grande échelle comme GPT-4 et Claude 3 Opus faire face au problème AIW, en fournissant occasionnellement un raisonnement clairement correct soutenant des réponses correctes. Malgré les fortes fluctuations des variations de l'AIW, de tels raisonnements corrects conduisant à des réponses correctes apparaissent, bien qu'à une fréquence très variable.

    C'est également le cas pour AIW+, où GPT-4 et Claude 3 Opus subissent une dégradation supplémentaire, mais fournissent encore à de très rares occasions des réponses correctes fondées sur un raisonnement. Il en va de même pour les modèles beaucoup moins performants qui montrent une capacité médiocre ou très médiocre à faire face à la tâche AIW, par exemple, Mistral/Mixtral, LLama 2/3, Dbrx instruct. Ces modèles parviennent également à générer en de rares occasions des réponses correctes par raisonnement à travers les variations de l'AIW.

    Nom : 1.jpg
Affichages : 24490
Taille : 73,1 Ko

    Les chercheurs déclarent :

    Nous émettons l'hypothèse que les capacités de généralisation et de raisonnement de base sont donc présentes de manière latente dans ces modèles, car sinon ils ne seraient pas en mesure de générer de telles réponses, étant donné qu'il est impossible de deviner une réponse correcte, y compris un raisonnement correct complet, par accident dans de tels cas.

    Le fait que les réponses correctes soient rares et que le comportement du modèle ne soit pas robuste face aux variations du problème démontre l'incapacité d'exercer un contrôle adéquat sur ces capacités. L'étude de la question très intéressante des causes de cette déficience fera l'objet de travaux futurs.
    Les benchmarks actuels ne permettent pas de refléter et de comparer correctement les capacités de raisonnement de base des LLMs

    Ce qui ressort clairement de l'étude, c'est l'incapacité des repères normalisés actuels à refléter les véritables capacités de raisonnement des modèles et à révéler leurs faiblesses. Comme le montrent clairement les résultats, de nombreux modèles revendiquant des scores normalisés élevés obtiennent des résultats très médiocres sur l'AIW.

    Dans le même temps, des modèles plus anciens comme le LLama 2 70B avec des scores MMLU, ARC-c et GSM8K inférieurs sur AIW surpassent clairement ceux qui revendiquent des scores beaucoup plus élevés, par exemple le Command R+ qui souffre d'une panne complète sur AIW. Cela indique que la comparaison des modèles à l'aide de critères de référence normalisés pourrait être sérieusement compromise.

    L'évaluation des modèles à plus petite échelle, par exemple Mistral-7B ou LLama 2/3 7/8B, est basée dans une large mesure sur de tels critères de référence normalisés qui sont proches des modèles à plus grande échelle, voire les égalent. Les résultats démontrent cependant une grave défaillance des modèles à petite échelle sur l'AIW, avec un écart important par rapport aux modèles plus performants qui se situent tous à des échelles plus grandes.

    Nom : 2.jpg
Affichages : 8286
Taille : 60,4 Ko

    Les chercheurs ajoutent :

    Nous émettons l'hypothèse que les prétendues fonctions fortes des modèles à plus petite échelle pourraient n'être qu'une illusion corroborée par des repères défaillants qui, dans leur état actuel, ne peuvent pas offrir une comparaison correcte des modèles et ne peuvent donc pas non plus être utilisés comme tâches en aval pour mesurer d'importantes lois d'échelle.
    Les affirmations publiques sur les capacités de raisonnement de base des LLMs représentent un danger

    La défaillance observée des capacités de raisonnement de base, associée à aux affirmations publiques sur les capacités des LLMs (qui sont également basées sur des critères de référence normalisés), pose un problème de sécurité inhérent. Les modèles dont le raisonnement de base est insuffisant sont intrinsèquement dangereux, car ils produiront des décisions erronées dans divers scénarios importants qui requièrent un raisonnement intact.

    Les critères de raisonnement normalisés actuels et les affirmations fondées sur ceux-ci créent l'illusion de capacités de raisonnement qui sont en fait absentes. Et ce qui est encore pire, c'est que ces modèles sont trop confiants, insistent sur le fait que leurs mauvaises réponses sont correctes et produisent des explications très persuasives et suggestives pour leurs mauvaises réponses, qui peuvent masquer des erreurs pour les utilisateurs finaux en raison d'un texte à consonance partiellement plausible.

    Pour garantir la sécurité, les déclarations publiques ne devraient être fondées que sur les évaluations scientifiques qui mesurent correctement les capacités de raisonnement du modèle, tandis que la recherche fondamentale doit être effectuée à l'aide de ces références pour doter les futurs modèles de capacités de raisonnement de base suffisantes.

    Nom : 3.jpg
Affichages : 8282
Taille : 69,4 Ko

    Les chercheurs commentent :

    Nous pensons que les observations faites dans notre étude devraient servir de rappel fort que les LLM actuels ne sont pas capables d'un raisonnement sain et cohérent, comme le montre ici leur échec même sur une tâche aussi simple que le problème AIW présenté, et que permettre un tel raisonnement est encore un sujet de recherche fondamentale.

    Il s'agit également d'une mise en garde contre les prétentions exagérées de ces modèles, qui ne se limitent pas à être des artefacts de recherche fondamentale et qui servent à résoudre des problèmes dans divers contextes réels. Ces prétentions sont souvent formulées par différentes entités commerciales qui tentent de positionner leurs modèles comme un produit solide et mature pour les utilisateurs finaux.

    Par exemple, les annonces et les prétentions de Command R+ qui s'effondre entièrement sur le problème AIW, en soulignant sa grande valeur pour les « capacités critiques clés » ou les « cas d'utilisation réels des entreprises », et en mettant l'accent sur les capacités de raisonnement fondamentales supposées présentes. Il en va de même pour de nombreux autres modèles commerciaux qui revendiquent une valeur élevée du produit.
    Conclusion : Rendre le processus de formation d'un modèle open-source permettrait d'améliorer ses capacités de raisonnement

    Pour effectuer une recherche fondamentale en vue d'améliorer les capacités de raisonnement actuellement insatisfaisantes des LLM, il est donc important que l'ensemble du processus de création du modèle soit entièrement ouvert et reproductible. Le processus comprend notamment : la composition de l'ensemble de données et l'ensemble de données lui-même, le code source pour l'entraînement, le modèle entraîné lui-même, la procédure d'étalonnage normalisée.

    Les modèles qui n'ont que des poids ouverts ne permettent pas d'analyser correctement ce qui a pu se passer pendant la formation et qui a pu entraîner une dégradation des capacités de raisonnement. Par exemple, la modification de la composition de l'ensemble de données ou de la procédure de formation elle-même. Les modèles fermés accessibles uniquement via l'API ne permettent souvent même pas une évaluation correcte, car, par exemple, les paramètres par défaut tels que l'invite du système et d'autres hyperparamètres d'inférence peuvent rester invisibles pour les parties indépendantes chargées de l'évaluation.

    Les chercheurs pensent que pour progresser dans l'étude de la manière d'évaluer et d'installer des compétences de raisonnement appropriées dans les futurs modèles, il faut nécessairement que l'ensemble du pipeline de formation d'un modèle, en particulier la composition de l'ensemble de données, souvent négligée, soit open-source, faute de quoi les affirmations sur les capacités de raisonnement resteront non fondées et intrasparentes.

    Les chercheurs concluent :

    Face à ces premiers résultats, nous aimerions appeler la communauté scientifique et technologique du ML à travailler ensemble pour fournir les mises à jour nécessaires des benchmarks LLM actuels qui ne parviennent manifestement pas à découvrir les faiblesses et les différences importantes entre les modèles étudiés. Ces mises à jour pourraient comporter des ensembles de problèmes similaires à l'AIW étudié. Elles devraient être simples, pour sonder un type spécifique de déficience de raisonnement, mais personnalisables, offrant ainsi une variété combinatoire suffisante pour assurer la robustesse contre la contamination potentielle par la mémorisation.

    Nous pensons que les tests de référence solides et fiables devraient suivre le principe de falsifiabilité de Karl Popper : ne pas essayer de confirmer et de mettre en évidence les capacités du modèle, ce qui est tentant surtout dans un contexte commercial, mais au contraire tout faire pour briser la fonction du modèle, mettre en évidence ses déficits, et ainsi montrer des voies possibles pour l'amélioration du modèle, ce qui est la façon de procéder de la méthode scientifique.

    L'élaboration de tels repères de raisonnement dans un effort commun nous donnera un outil pour nous protéger des affirmations exagérées sur la fonction du modèle et pour naviguer correctement sur la voie de l'amélioration de l'état actuel, qui n'est pas encore satisfaisant.
    Source : "Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models"

    Et vous ?

    Pensez-vous que cette étude est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    GPT-4o arrive en tête du classement des modèles d'IA les plus performants de LMSYS Chatbot Arena avec un score Elo de 1 289, surpassant ainsi Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic

    Les IA classées par QI, l'IA dépasse 100 points de QI pour la première fois, avec la sortie de Claude-3, plus intelligente que l'Américain moyen et les modèles GPT-4 d'OpenAI et Gemini de Google

    Les grands modèles de langage (LLM) ne peuvent pas s'autocorriger dans les tâches de raisonnement, selon une étude de DeepMind. L'autocorrection pourrait même nuire aux performances de ces modèles
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

Discussions similaires

  1. [AC-2003] Voir un seul formulaire selon l'utilisateur qui ouvre la base
    Par alu1308 dans le forum Sécurité
    Réponses: 0
    Dernier message: 18/07/2013, 10h17
  2. Peut-on agrandir/rétrécir une image selon un Slider ?
    Par zouuc dans le forum Windows Presentation Foundation
    Réponses: 5
    Dernier message: 15/10/2010, 10h52
  3. Réponses: 14
    Dernier message: 10/02/2010, 11h45
  4. Vista Premium 32 bit peut il voir 4GB de ram ?
    Par arnolem dans le forum Windows Vista
    Réponses: 23
    Dernier message: 30/01/2008, 13h35
  5. [Dev-CPP] Peut-on voir la command line du projet?
    Par vdumont dans le forum Dev-C++
    Réponses: 2
    Dernier message: 04/04/2006, 21h28

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo