OpenAI pourrait avoir de vrais problèmes juridiques après que ChatGPT a imité la voix de Scarlett Johansson

**Bruno** · 26/09/2023, 07h13

ChatGPT peut maintenant « voir, entendre et parler », selon OpenAI,
mais les nouvelles fonctionnalités soulèvent des questions de confidentialité et de sécurité

OpenAI a déployé une nouvelle version de ChatGPT qui permet aux utilisateurs de solliciter l’intelligence artificielle non seulement en tapant des phrases dans une zone de texte, mais aussi en parlant à haute voix ou en téléchargeant une photo. Les nouvelles fonctionnalités permettront au chatbot viral d'avoir des conversations vocales avec les utilisateurs et d'interagir avec des images, le rapprochant ainsi des assistants d'intelligence artificielle (IA) populaires tels que Siri d'Apple. Les nouvelles fonctionnalités de ChatGPT pourraient poser des problèmes de confidentialité et de sécurité

OpenAI indique que la nouvelle fonction de reconnaissance d'images dans ChatGPT permet aux utilisateurs de télécharger une ou plusieurs images pour la conversation, en utilisant les modèles GPT-3.5 ou GPT-4. Dans unbillet de blog l'entreprise affirme que la fonction peut être utilisée pour une variété d'applications quotidiennes : de la recherche de ce qu'il y a pour le dîner en prenant des photos du réfrigérateur et du garde-manger, à la recherche de la raison pour laquelle votre gril ne démarre pas. L'entreprise précise également que les utilisateurs peuvent utiliser l'écran tactile de leur appareil pour entourer les parties de l'image sur lesquelles ils souhaitent que ChatGPT se concentre.

Nom : ChatGPT.png
Affichages : 3420
Taille : 125,0 Ko

La partie chat vocal est assez familière : vous appuyez sur un bouton et prononcez votre question, ChatGPT la convertit en texte et l’envoie au grand modèle linguistique, reçoit une réponse en retour, la convertit à nouveau en parole et prononce la réponse à voix haute. Il semble que la plupart des assistants virtuels soient en train d’être reconstruits pour s’appuyer sur les LLM - OpenAI a juste une longueur d’avance. La fonction vocale « ouvre la voie à de nombreuses applications créatives et axées sur l'accessibilité », a déclaré OpenAI dans un billet de blog.

Envoyé par OpenAI

Nous commençons à déployer de nouvelles capacités vocales et d'images dans ChatGPT. Elles offrent un nouveau type d'interface, plus intuitif, en vous permettant d'avoir une conversation vocale.

La voix et l'image vous offrent davantage de possibilités d'utiliser ChatGPT dans votre vie. Prenez une photo d'un point de repère lorsque vous voyagez et ayez une conversation en direct sur ce qui est intéressant à propos de ce point de repère.

Lorsque vous êtes à la maison, prenez des photos de votre réfrigérateur et de votre garde-manger pour savoir ce qu'il y a pour le dîner (et posez des questions complémentaires pour obtenir une recette étape par étape). Après le dîner, aidez votre enfant à résoudre un problème de mathématiques en prenant une photo, en entourant le problème et en lui demandant de vous donner des conseils.

Parlez à ChatGPT et demandez-lui de vous répondre

Vous pouvez désormais utiliser la voix pour engager une conversation avec votre assistant. Parlez-lui en déplacement, demandez-lui une histoire pour votre famille ou réglez un débat à table.

La nouvelle fonction vocale est alimentée par un nouveau modèle de synthèse vocale, capable de générer un son de type humain à partir d'un simple texte et de quelques secondes d'échantillon de parole. Nous avons collaboré avec des acteurs professionnels pour créer chacune des voix. Nous utilisons également Whisper, notre système de reconnaissance vocale open-source, pour transcrire vos paroles en texte.

Vous pouvez dorénavant montrer une ou plusieurs images à ChatGPT. Dépannez la raison pour laquelle votre gril ne démarre pas, explorez le contenu de votre réfrigérateur pour planifier un repas, ou analysez un graphique complexe pour des données liées au travail.

La compréhension des images est assurée par les modèles multimodaux GPT-3.5 et GPT-4. Ces modèles appliquent leurs compétences de raisonnement linguistique à un large éventail d'images, telles que des photographies, des captures d'écran et des documents contenant à la fois du texte et des images.

Les utilisateurs des versions Plus et Enterprise auront accès à la voix et aux images dans les deux prochaines semaines.

Près d'un an après le lancement initial de ChatGPT, OpenAI semble toujours essayer de trouver comment donner à son robot plus de fonctionnalités et de capacités sans créer de nouveaux problèmes et inconvénients. Avec ces versions, l'entreprise a tenté de trouver une solution en limitant délibérément les possibilités de ses nouveaux modèles. Mais cette approche ne fonctionnera pas éternellement. À mesure que de plus en plus de personnes utilisent la commande vocale et la recherche d'images, et que ChatGPT se rapproche d'un assistant virtuel véritablement multimodal et utile, il sera de plus en plus difficile de contrôler ses limites.

Les nouvelles fonctionnalités de ChatGPT pourraient poser des problèmes de confidentialité et de sécurité

Le fait qu'il soit possible de construire une voix synthétique capable avec seulement quelques secondes d'audio ouvre également la porte à toutes sortes de cas d'utilisation problématiques.

« Ces capacités présentent aussi de nouveaux risques, comme la possibilité pour des acteurs malveillants d'usurper l'identité de personnalités publiques ou de commettre des fraudes », explique l'entreprise dans son billet de blog annonçant les nouvelles fonctionnalités. OpenAI précise que le modèle n'est pas disponible pour une large utilisation pour cette raison précise ; il sera beaucoup plus contrôlé et limité à des cas d'utilisation spécifiques et à des partenariats.

Si l’on peut reconnaître que les nouvelles fonctionnalités déployées par OpenAI dans ChatrGPT sont une avancée majeure dans l’interface utilisateur, car ces dernières permettent une communication plus naturelle avec la machine, il est important de noter que ces nouvelles fonctionnalités pourraient par ailleurs poser des problèmes de confidentialité et de sécurité. Par exemple, les commandes vocales pourraient être enregistrées et stockées sans le consentement de l’utilisateur. En fin de compte, ces nouvelles fonctionnalités sont un pas en avant pour ChatGPT et l’IA conversationnelle en général, mais il est important que les utilisateurs soient conscients des avantages et des risques.

OpenAI a annoncé la disponibilité générale de son API GPT-4 en avril, l’entreprise avait précédemment présenté les capacités "multimodales" du modèle d'IA qui lui permettraient de traiter à la fois du texte et des images, mais la fonction d'image est restée largement interdite au public au cours d'un processus de test. Au lieu de cela, OpenAI s'est associée à Be My Eyes pour créer une application capable d'interpréter des photos de scènes pour les personnes aveugles.

Entre-temps, Microsoft a ajouté une capacité de reconnaissance d'images à Bing Chat, un assistant d'intelligence artificielle basé sur GPT-4, en juillet. Dans sa récente annonce de mise à jour de ChatGPT, OpenAI souligne plusieurs limites aux fonctionnalités étendues de ChatGPT, reconnaissant des problèmes qui vont du risque de confabulations visuelles (c'est-à-dire une mauvaise identification de quelque chose) à la reconnaissance imparfaite des langues autres que l'anglais par le modèle de vision.

L'entreprise affirme avoir procédé à des évaluations des risques « dans des domaines tels que l'extrémisme et la compétence scientifique » et avoir demandé l'avis des testeurs alpha, mais elle recommande toujours la prudence quant à son utilisation, en particulier dans des contextes spécialisés ou à fort enjeu tels que la recherche scientifique.

OpenAI a annoncé avoir pris des mesures techniques pour limiter considérablement la capacité de ChatGPT à analyser et à faire des déclarations directes sur les personnes, car ChatGPT n’est pas toujours précis et ces systèmes doivent respecter la vie privée des individus.

Source : OPenAI

Et vous ?

Quels sont les risques liés à l’utilisation de l’IA générative dans les systèmes de chat ?

Quels sont les avantages et les inconvénients de l’utilisation d’une voix synthétique capable d’usurper l’identité de personnalités publiques ?

Comment les services d’intelligence artificielle tels que Siri, Google Assistant et Alexa peuvent-ils garantir la confidentialité des utilisateurs tout en fournissant des informations utiles ?

Comment les mesures techniques prises par OpenAI pour limiter la possibilité de ChatGPT à analyser et à faire des déclarations directes sur les personnes peuvent-elles affecter l’expérience utilisateur ?

Voir aussi :

Comparaison entre ChatGPT et Google Translate : quel chatbot d'intelligence artificielle est le meilleur traducteur de langues ? ChatGPT arrive en tête devant Google Bard, Translate et Bing AI

ChatGPT d'OpenAI dans le collimateur de la FTC : l'agence veut déterminer si l'IA met en danger la réputation et les données des utilisateurs

ChatGPT génère un code informatique peu sûr, mais ne vous le dira pas à moins que vous ne le lui demandiez, les experts mettent en garde contre les risques d'une surconfiance en ChatGPT

**Patrick Ruiz** · 22/11/2023, 04h42

ChatGPT avec la capacité « de voir, entendre et parler » est désormais disponible pour tous les utilisateurs à titre gratuit :
Quel impact sur la vie privée et la sécurité des utilisateurs ?

OpenAI a déployé une nouvelle version de ChatGPT qui permet aux utilisateurs de solliciter l’intelligence artificielle non seulement en tapant des phrases dans une zone de texte, mais aussi en parlant à haute voix ou en téléchargeant une photo. Les nouvelles fonctionnalités permettront au chatbot viral d'avoir des conversations vocales avec les utilisateurs et d'interagir avec des images. En cela, le chatbot se rapproche des assistants d'intelligence artificielle (IA) populaires tels que Siri d'Apple et donc soulève des craintes avec la vie privée et la sécurité. Cette version est désormais disponible pour tous les utilisateurs à titre gratuit.

La fonctionnalité peut être utilisée pour une variété d'applications quotidiennes : de la recherche de ce qu'il y a pour le dîner en prenant des photos du réfrigérateur et du garde-manger, à la recherche de la raison pour laquelle le gril ne démarre pas. L'entreprise précise en sus que les utilisateurs peuvent utiliser l'écran tactile de leur appareil pour entourer les parties de l'image sur lesquelles ils souhaitent que ChatGPT se concentre.

ChatGPT with voice is now available to all free users. Download the app on your phone and tap the headphones icon to start a conversation.

Sound on 🔊 pic.twitter.com/c5sCFDAWU6
— OpenAI (@OpenAI) November 21, 2023

La partie chat vocal fonctionne comme suit : l’utilisateur appie sur un bouton et prononce sa question, ChatGPT la convertit en texte et l’envoie au grand modèle linguistique, reçoit une réponse en retour, la convertit à nouveau en parole et prononce la réponse à voix haute. Être basé sur un LLM est une espèce de mouvance qu’OpenAI introduit ainsi dans la sphère des assistants vocaux au sein de laquelle on constate un arrimage des autres entreprises à la nouvelle donne.

ChatGPT devient alors un assistant vocal qui soulève des craintes en lien avec la vie privée et la sécurité comme cela s’est vu avec Siri d’Apple et autres Google Assistant

Comme la plupart des dispositifs de l'Internet des objets (IdO), les assistants vocaux soulèvent une foule d'inquiétudes quant à la confidentialité des données et à la vie privée. Ainsi, les nouvelles fonctionnalités de ChatGPT ne sont pas sans rappeler les plaintes accusant Siri, Alexa et Google Assistant d'enregistrer les conversations privées des utilisateurs sans leur accord.

Les entreprises technologiques encouragent depuis longtemps l'installation de dispositifs d'écoute dans les foyers et les poches, afin de convaincre les consommateurs de s'en remettre à leurs assistants vocaux pour tous les petits besoins qui se présentent. Mais certains s'inquiètent de plus en plus du fait que ces dispositifs enregistrent même lorsqu'ils ne sont pas censés le faire ; et ils portent leurs craintes devant les tribunaux. Par le passé, il y a eu de nombreux incidents de violation de données liés à ces enceintes connectées, mais les entreprises concernées n'ont pas été inquiétées pour autant.

En janvier 2020, l’information selon laquelle l'application Ring d'Amazon partage de nombreuses informations personnelles à l'insu des utilisateurs a fait surface ; elle a été surprise en train de fournir des informations à Facebook, ce, que les utilisateurs aient un compte ou non. En juillet 2019, Google a reconnu qu'il partage avec des tiers les conversations entre ses enceintes connectées et les utilisateurs afin d'améliorer l'intelligence artificielle qui les anime. Ces actions n’ont pas manqué de conduire à des actions en justice, mais Google, Amazon et Apple ont chaque fois fait pression pour que les poursuites soient abandonnées.

Source : OpenAI

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi :

L'app Ring d'Amazon partage de nombreuses infos personnelles à l'insu des utilisateurs. Elle a été surprise en train de donner des informations à Facebook, que les utilisateurs aient un compte ou non

Des tiers écoutent ce que vous dites à Google Home au motif de ce qu'il faut améliorer l'IA, d'après Google

RGPD : une enquête montre comment des applications populaires comme Tinder ou Grindr envoient des données hautement personnelles à des milliers de partenaires publicitaires

Amazon confirme que les enregistrements vocaux des clients d'Alexa sont conservés pour toujours tant qu'ils ne les suppriment pas manuellement

**Stéphane le calme** · 13/05/2024, 10h05

OpenAI développe un assistant vocal d'IA, se positionnant comme un concurrant direct de Google et d'Apple.
La technologie est capable de « voir, d'entendre et de parler », elle peut reconnaître des objets et aussi des images

OpenAI a récemment fait une avancée en développant un assistant vocal basé sur l’intelligence artificielle, se positionnant ainsi comme un concurrent direct de géants tels que Google et Apple. OpenAI se prépare à faire la démonstration d'une technologie qui parle aux gens (en utilisant le son ainsi que le texte) et qui reconnaît les objets et les images. Selon deux personnes qui ont vu la nouvelle IA, le développeur de ChatGPT a montré à certains clients quelques-unes de ces capacités, qui incluent un meilleur raisonnement logique que ses produits actuels.

Cette avancée ouvre la porte à des interactions plus riches, comme la possibilité de prendre une photo d’un monument lors d’un voyage et d’avoir des informations sur ses particularités, ou encore de demander de l’aide pour un problème de mathématiques en prenant en photo l’énoncé.

En septembre 2023, OpenAI a annoncé l’introduction de nouvelles capacités vocales et d’image pour ChatGPT, permettant aux utilisateurs de solliciter l’intelligence artificielle non seulement en tapant des phrases dans une zone de texte, mais aussi en parlant à haute voix ou en téléchargeant une photo.

L'entreprise a alors indiqué que la fonction pouvait être utilisée pour une variété d'applications quotidiennes : de la recherche de ce qu'il y a pour le dîner en prenant des photos du réfrigérateur et du garde-manger, à la recherche de la raison pour laquelle votre gril ne démarre pas. L'entreprise a également précisé que les utilisateurs pouvaient utiliser l'écran tactile de leur appareil pour entourer les parties de l'image sur lesquelles ils souhaitent que ChatGPT se concentre.

Envoyé par OpenAI

Nous commençons à déployer de nouvelles capacités vocales et d'images dans ChatGPT. Elles offrent un nouveau type d'interface, plus intuitif, en vous permettant d'avoir une conversation vocale.

La voix et l'image vous offrent davantage de possibilités d'utiliser ChatGPT dans votre vie. Prenez une photo d'un point de repère lorsque vous voyagez et ayez une conversation en direct sur ce qui est intéressant à propos de ce point de repère.

Lorsque vous êtes à la maison, prenez des photos de votre réfrigérateur et de votre garde-manger pour savoir ce qu'il y a pour le dîner (et posez des questions complémentaires pour obtenir une recette étape par étape). Après le dîner, aidez votre enfant à résoudre un problème de mathématiques en prenant une photo, en entourant le problème et en lui demandant de vous donner des conseils.

Parlez à ChatGPT et demandez-lui de vous répondre

Vous pouvez désormais utiliser la voix pour engager une conversation avec votre assistant. Parlez-lui en déplacement, demandez-lui une histoire pour votre famille ou réglez un débat à table.

La nouvelle fonction vocale est alimentée par un nouveau modèle de synthèse vocale, capable de générer un son de type humain à partir d'un simple texte et de quelques secondes d'échantillon de parole. Nous avons collaboré avec des acteurs professionnels pour créer chacune des voix. Nous utilisons également Whisper, notre système de reconnaissance vocale open-source, pour transcrire vos paroles en texte.

Vous pouvez dorénavant montrer une ou plusieurs images à ChatGPT. Dépannez la raison pour laquelle votre gril ne démarre pas, explorez le contenu de votre réfrigérateur pour planifier un repas, ou analysez un graphique complexe pour des données liées au travail.

Nom : open.png
Affichages : 4202
Taille : 105,9 Ko

OpenAI à la conquête de l'industrie de l'assistant vocal

OpenAI considère que les assistants dotés de capacités visuelles et audio sont potentiellement aussi transformateurs que le smartphone. L'assistant pourrait théoriquement accomplir toute une série de tâches impossibles à réaliser aujourd'hui, telles que servir de tuteur à un étudiant qui travaille sur un devoir ou sur des problèmes de mathématiques, ou donner aux gens des informations sur leur environnement lorsqu'ils le demandent, comme traduire des panneaux ou expliquer comment réparer des problèmes de voiture.

La nouvelle technologie est trop volumineuse pour fonctionner sur des appareils personnels aujourd'hui, mais les clients pourraient à court terme utiliser la version basée sur l'informatique dématérialisée pour améliorer les fonctions que le logiciel d'OpenAI permet déjà, telles que les agents de service à la clientèle automatisés. Les fonctions audio du nouveau logiciel pourraient aider ces agents à mieux comprendre l'intonation de la voix des appelants ou à savoir s'ils sont sarcastiques lorsqu'ils formulent une demande, a déclaré l'une des personnes ayant connaissance du projet.

OpenAI dispose déjà d'un logiciel capable de transcrire l'audio et de convertir le texte en parole, mais ces fonctions sont disponibles via des modèles d'IA conversationnelle distincts, alors que le nouveau modèle réunit ces fonctions. Le nouveau modèle multimodal comprend donc mieux les images et les sons, et il est plus rapide à utiliser que les modèles moins performants.

Microsoft, qui peut utiliser la technologie d'OpenAI à sa guise parce qu'il est le principal bailleur de fonds de la société, pourrait utiliser la nouvelle IA d'OpenAI pour améliorer son propre assistant vocal ou essayer de la rendre suffisamment compacte pour qu'elle puisse fonctionner sur de petits appareils, notamment des vêtements dotés de caméras frontales capables de filmer l'environnement du client.

The Information, qui a rapporté cette situation, ne dispose pas d'éléments pour savoir quand OpenAI mettra ces nouvelles fonctionnalités à la disposition de ses clients payants, mais le quotidien soutient que l'entreprise prévoit de les intégrer à la version gratuite de son chatbot, ChatGPT, s'appuyant sur les propos de l'une des personnes qui l'a utilisé. OpenAI vise à rendre le nouveau modèle d'IA qui alimente ces fonctionnalités moins cher à utiliser que le modèle le plus avancé qu'elle vend aujourd'hui, GPT-4 Turbo, a déclaré cette personne. Le nouveau modèle est également plus performant que le GPT-4 Turbo pour répondre à certains types de questions. Toutefois, le nouveau modèle peut encore commettre des erreurs, connues sous le nom d'hallucinations.

Cette technologie constitue une nouvelle étape dans la quête de Sam Altman, PDG d'OpenAI, qui souhaite développer une IA très réactive, à l'instar de l'assistant virtuel du film « Her » de Spike Jonze, et permettre aux assistants vocaux existants, tels que Siri d'Apple, d'être plus utiles. L'entreprise pourrait présenter en avant-première l'IA améliorée lors d'un événement dès lundi, ce qui l'aiderait à prendre de l'avance sur les nombreuses annonces d'IA faites par son rival Google plus tard dans la semaine, a déclaré l'une des personnes interrogées.

Considérations critiques sur l’assistant vocal IA d’OpenAI

Bien que l’assistant vocal IA d’OpenAI représente une avancée significative dans le domaine de l’intelligence artificielle, il est important de considérer certains aspects critiques de cette technologie. Premièrement, la question de la vie privée et de la sécurité des données est primordiale. Avec des appareils capables d’écouter et de répondre à nos commandes vocales, il est essentiel de s’assurer que les informations personnelles des utilisateurs sont protégées contre les abus et les fuites potentielles.

Deuxièmement, l’impact sur le marché du travail doit être pris en compte. L’automatisation et l’IA peuvent entraîner une réduction des emplois dans certains secteurs, et il est crucial de réfléchir à la manière dont la société peut s’adapter à ces changements. La formation et le développement de compétences dans des domaines résistants à l’automatisation deviennent alors une priorité.

Troisièmement, il y a un risque de dépendance accrue à la technologie. En rendant les interactions avec les appareils plus faciles et plus intuitives, les utilisateurs pourraient devenir excessivement dépendants de l’assistance IA, ce qui pourrait avoir des conséquences sur leur capacité à effectuer des tâches sans aide technologique.

Enfin, il est crucial de considérer l’accessibilité de ces technologies. Alors que les assistants vocaux IA peuvent améliorer la vie de nombreux utilisateurs, il est important de s’assurer que ces avancées bénéficient à tous, y compris aux personnes ayant des revenus plus faibles ou vivant dans des régions moins développées.

Ces considérations critiques ne visent pas à minimiser les réalisations d’OpenAI, mais plutôt à souligner l’importance d’une approche équilibrée et responsable dans le développement et le déploiement de technologies d’IA avancées. Il est essentiel que les progrès technologiques s’accompagnent d’une réflexion éthique et sociale approfondie pour garantir qu’ils servent le bien-être collectif et respectent les droits individuels.

Tarification échelonnée

OpenAI, qui pourrait générer des milliards de dollars de revenus cette année, prévoit également de lancer un nouveau modèle de tarification qui offrirait aux clients jusqu'à 50 % de réduction s'ils paient à l'avance pour réserver des jetons (les mots que les grands modèles de langage traitent ou génèrent), selon une personne qui s'est entretenue avec les dirigeants.

Actuellement, la startup propose principalement une tarification à la demande, facturant aux développeurs entre quelques centimes et 120 dollars pour chaque million de tokens générés par ses LLM. Certains gros clients bénéficient de remises sur le volume. Les clients de Microsoft Azure, Google Cloud et Amazon Web Services peuvent réduire leurs coûts en réservant à l'avance la capacité de leurs serveurs.

Avec une tarification plus souple, OpenAI pourrait mieux rivaliser avec ses concurrents développeurs de modèles, ainsi qu'avec les startups qui visent à aider les développeurs à exécuter des modèles open-source à moindre coût, connues sous le nom de revendeurs de serveurs d'IA ou de fournisseurs d'inférence. Leur souci de rentabilité a parfois conduit ces entreprises à proposer les mêmes LLM à des prix de plus en plus bas, voire inférieurs au prix de revient dans certains cas.

OpenAI a déjà proposé à ses développeurs un moyen de réduire les coûts avec Batch API, une interface de programmation d'applications lancée en avril qui permet aux développeurs de bénéficier de tarifs plus avantageux s'ils téléchargent des requêtes de modèles en masse et s'ils sont prêts à attendre jusqu'à 24 heures pour obtenir des réponses. Pour leur part, les revendeurs de serveurs d'IA tels que Together AI et Anyscale affirment que l'exécution de modèles open-source sur leurs logiciels est un moyen de réduire les coûts.

Source : The Information

Et vous ?

Quelles sont les implications de l’utilisation d’assistants vocaux IA dans notre vie quotidienne ?

Comment l’intégration de la technologie vocale et visuelle d’OpenAI pourrait-elle changer notre façon de travailler et d’apprendre ?

Quels défis OpenAI doit-il surmonter pour rivaliser avec les géants comme Google et Apple dans le domaine des assistants vocaux ?

En quoi l’approche d’OpenAI en matière de personnalisation de l’expérience utilisateur est-elle différente ou similaire à celle de ses concurrents ?

Quel impact la capacité de l’assistant vocal IA à comprendre des images et à générer une voix humaine pourrait-elle avoir sur les industries créatives et éducatives ?

Quelles précautions devraient être prises pour assurer la protection de la vie privée et des données personnelles dans l’utilisation des assistants vocaux IA ?

Voir aussi :

ChatGPT avec la capacité « de voir, entendre et parler » est désormais disponible pour tous les utilisateurs à titre gratuit : quel impact sur la vie privée et la sécurité des utilisateurs ?

**_toma_** · 13/05/2024, 18h49

Nous commençons à déployer de nouvelles capacités vocales et d'images dans ChatGPT. Elles offrent un nouveau type d'interface, plus intuitif, en vous permettant d'avoir une conversation vocale.

La voix et l'image vous offrent davantage de possibilités d'utiliser ChatGPT dans votre vie. Prenez une photo d'un point de repère lorsque vous voyagez et ayez une conversation en direct sur ce qui est intéressant à propos de ce point de repère.

Lorsque vous êtes à la maison, prenez des photos de votre réfrigérateur et de votre garde-manger pour savoir ce qu'il y a pour le dîner (et posez des questions complémentaires pour obtenir une recette étape par étape). Après le dîner, aidez votre enfant à résoudre un problème de mathématiques en prenant une photo, en entourant le problème et en lui demandant de vous donner des conseils.

Parlez à ChatGPT et demandez-lui de vous répondre

Vous pouvez désormais utiliser la voix pour engager une conversation avec votre assistant. Parlez-lui en déplacement, demandez-lui une histoire pour votre famille ou réglez un débat à table.

La nouvelle fonction vocale est alimentée par un nouveau modèle de synthèse vocale, capable de générer un son de type humain à partir d'un simple texte et de quelques secondes d'échantillon de parole. Nous avons collaboré avec des acteurs professionnels pour créer chacune des voix. Nous utilisons également Whisper, notre système de reconnaissance vocale open-source, pour transcrire vos paroles en texte.

Vous pouvez dorénavant montrer une ou plusieurs images à ChatGPT. Dépannez la raison pour laquelle votre gril ne démarre pas, explorez le contenu de votre réfrigérateur pour planifier un repas, ou analysez un graphique complexe pour des données liées au travail.

Est-ce qu'on nous proposera un jour des applications utiles/pertinentes de cette techno "révolutionnaire" ?
Si j'aime l'informatique c'est pas pour rien c'est que j'aime la technologie au sens large du terme. Mais plus on avance et moins je comprends le sens et l'utilité des technologies qui nous entourent.
Les thématiques de Terminator ou de 2001 l'odyssée de l'espace (combat homme/machine) sont dépassées depuis déjà pas mal de temps : les machines ne chercheront pas à nous asservir, c'est nous qui nous sommes rendus esclaves de technologies abrutissantes et inutiles dont l'utilisation abusive a pour conséquence directe de, petit à petit, supprimer toute réflexion, tout esprit critique et toute satisfaction à réaliser une tâche longue ou complexe.

S'il y a 20 ans je ne comprenais pas la phrase "science sans conscience n'est que ruine de l'âme", je ne la comprends que trop bien aujourd'hui.

**Jules34** · 14/05/2024, 10h59

Envoyé par _toma_

C'est nous qui nous sommes rendus esclaves de technologies abrutissantes et inutiles dont l'utilisation abusive a pour conséquence directe de, petit à petit, supprimer toute réflexion, tout esprit critique et toute satisfaction à réaliser une tâche longue ou complexe.

S'il y a 20 ans je ne comprenais pas la phrase "science sans conscience n'est que ruine de l'âme", je ne la comprends que trop bien aujourd'hui.

Entièrement d'accord avec vous !

**Stéphane le calme** · 14/05/2024, 09h19

OpenAI lance GPT-4o, un modèle plus rapide et gratuit pour tous les utilisateurs de ChatGPT
L'entreprise fait une démo de son modèle, estimant qu'il « représente l'avenir de l'interaction entre nous et les machines ».

OpenAI a annoncé lundi le lancement de son nouveau modèle phare d'intelligence artificielle, appelé GPT-4o, ainsi que des mises à jour comprenant un nouveau service desktop et des avancées dans ses capacités d'assistant vocal. Parmi les mises à jour dévoilées lundi par OpenAI figurent l'amélioration de la qualité et de la vitesse des capacités linguistiques internationales de ChatGPT, ainsi que la possibilité de télécharger des images, des documents audio et des textes afin que le modèle puisse les analyser. L'entreprise a indiqué qu'elle mettrait progressivement en place les fonctionnalités afin de s'assurer qu'elles sont utilisées en toute sécurité.

Mira Murati, directrice de la technologie, est apparue sur scène devant une foule enthousiaste dans les bureaux d'OpenAI, vantant le nouveau modèle comme un pas en avant dans le domaine de l'IA. Le nouveau modèle mettra le modèle d'IA GPT-4, plus rapide et plus précis, à la disposition des utilisateurs gratuits, alors qu'il était auparavant réservé aux clients payants.

Envoyé par OpenAI

Au cours des deux dernières années, nous avons consacré beaucoup d'efforts à l'amélioration de l'efficacité à chaque couche de la pile. Le premier fruit de cette recherche est la mise à disposition d'un modèle de niveau GPT-4 à une échelle beaucoup plus large. Les capacités de GPT-4o seront déployées de manière itérative (avec un accès étendu à l'équipe rouge à partir d'aujourd'hui).

Les capacités de texte et d'image de GPT-4o commencent à être déployées aujourd'hui dans ChatGPT. Nous rendons GPT-4o disponible dans le niveau gratuit, et pour les utilisateurs Plus avec des limites de messages jusqu'à 5 fois plus élevées. Nous lancerons une nouvelle version du mode vocal avec GPT-4o en alpha dans ChatGPT Plus dans les semaines à venir.

« Nous envisageons l'avenir de l'interaction entre nous et les machines », a déclaré Murati. « Nous pensons que GPT-4o est en train de changer ce paradigme ».

L'événement comprenait également une démonstration en direct des nouvelles capacités vocales du modèle, avec deux responsables de recherche de l'OpenAI s'entretenant avec un modèle vocal d'IA. L'assistant vocal a généré une histoire à dormir debout sur l'amour et les robots, les chercheurs lui demandant de parler avec une variété d'émotions et d'inflexions vocales. Une autre démonstration a utilisé la fonction appareil photo d'un téléphone pour montrer au modèle d'IA une équation mathématique, puis le mode vocal de ChatGPT leur a expliqué comment la résoudre.

À un moment de la démonstration, un chercheur a demandé au modèle d'IA de lire l'expression de son visage et de juger ses émotions. L'assistant vocal de ChatGPT a estimé qu'il avait l'air « heureux et gai, avec un grand sourire et peut-être même une pointe d'excitation ».

« Quoi qu'il en soit, il semble que vous soyez de bonne humeur », a déclaré ChatGPT d'une voix féminine enjouée. « Voulez-vous partager la source de ces bonnes vibrations ? »

Pas de concurrent au moteur de recherche de Google... pour l'instant

Le PDG d'OpenAI, Sam Altman, a indiqué que le modèle est « nativement multimodal », ce qui signifie qu'il peut générer du contenu ou comprendre des commandes vocales, textuelles ou visuelles. Les développeurs qui souhaitent bricoler avec GPT-4o auront accès à l'API, qui est deux fois moins chère et deux fois plus rapide que GPT-4 Turbo, a ajouté Altman sur X.

in the API, GPT-4o is half the price AND twice as fast as GPT-4-turbo. and 5x rate limits. pic.twitter.com/vqV8XwNcYp
— Sam Altman (@sama) May 13, 2024

De nouvelles fonctionnalités sont prévues pour le mode vocal de ChatGPT dans le cadre du nouveau modèle. L'application pourra agir comme un assistant vocal de type Her, répondant en temps réel et observant le monde qui vous entoure. Le mode vocal actuel est plus limité, il ne répond qu'à un seul message à la fois et ne travaille qu'avec ce qu'il peut entendre.

Altman s'est penché sur la trajectoire d'OpenAI dans un billet de blog publié à la suite de l'événement. Il a déclaré que la vision initiale de l'entreprise était de « créer toutes sortes d'avantages pour le monde », mais il a reconnu que cette vision avait changé. OpenAI a été critiquée pour ne pas avoir ouvert ses modèles d'IA avancés, et Altman semble dire que l'objectif de l'entreprise est désormais de mettre ces modèles à la disposition des développeurs par le biais d'API payantes et de laisser ces tiers se charger de la création. « Au lieu de cela, il semble maintenant que nous créerons l'IA et que d'autres personnes l'utiliseront pour créer toutes sortes de choses étonnantes dont nous bénéficierons tous ».

La semaine dernière, la rumeur voulait qu'OpenAI lance un produit de recherche qui concurrencerait Google, mais Reuters a rapporté que l'entreprise avait retardé la révélation de ce projet. Le PDG Sam Altman a nié que l'annonce de lundi concernait un moteur de recherche, mais a tweeté vendredi que « nous avons travaillé dur sur de nouvelles choses que nous pensons que les gens vont adorer ! »

Hormis quelques petits pépins ou réponses involontaires, la plupart des démonstrations se sont déroulées sans encombre et les fonctionnalités ont marché comme prévu. Bien que Murati ait déclaré qu'OpenAI prenait des mesures pour éviter que ses nouvelles capacités vocales ne soient utilisées à mauvais escient, l'événement n'a fourni que peu de détails sur la manière dont l'entreprise allait aborder les mesures de protection relatives à la reconnaissance faciale et à la génération audio.

Bien entendu, OpenAI a veillé à ce que ce lancement ait lieu juste avant Google I/O, la conférence phare du géant de la technologie, où l'on s'attend à voir le lancement de divers produits d'IA de l'équipe Gemini.

Nom : multi.png
Affichages : 6547
Taille : 11,0 Ko

Présentation technique de GPT-4o

Le GPT-4o (« o » pour « omni ») est une étape vers une interaction homme-machine beaucoup plus naturelle. Il accepte en entrée toute combinaison de texte, de son et d'image et génère toute combinaison de texte, de son et d'image en sortie. Il peut répondre aux entrées audio en 232 millisecondes seulement, avec une moyenne de 320 millisecondes, ce qui est similaire au temps de réponse humain dans une conversation. Il égale les performances du GPT-4 Turbo pour les textes en anglais et en code, avec une amélioration significative pour les textes dans des langues autres que l'anglais, tout en étant beaucoup plus rapide et 50 % moins cher dans l'API. GPT-4o est particulièrement performant en matière de vision et de compréhension audio par rapport aux modèles existants.

Avant GPT-4o, vous pouviez utiliser le mode vocal pour parler à ChatGPT avec des temps de latence de 2,8 secondes (GPT-3.5) et de 5,4 secondes (GPT-4) en moyenne. Pour ce faire, le mode vocal est un pipeline composé de trois modèles distincts : un modèle simple transcrit l'audio en texte, GPT-3.5 ou GPT-4 prend du texte et en produit, et un troisième modèle simple reconvertit le texte en audio. Ce processus signifie que la principale source d'intelligence, GPT-4, perd beaucoup d'informations : elle ne peut pas observer directement le ton, les locuteurs multiples ou les bruits de fond, et elle ne peut pas restituer les rires, les chants ou exprimer des émotions.

Avec GPT-4o, nous avons formé un nouveau modèle unique de bout en bout pour le texte, la vision et l'audio, ce qui signifie que toutes les entrées et sorties sont traitées par le même réseau neuronal. GPT-4o étant notre premier modèle combinant toutes ces modalités, nous n'en sommes encore qu'au stade de l'exploration des capacités et des limites du modèle.

Évaluations du modèle

Sur la base de critères de référence traditionnels, GPT-4o atteint le niveau de performance de GPT-4 Turbo pour le texte, le raisonnement et l'intelligence de codage, tout en établissant de nouvelles références en matière de capacités multilingues, audio et visuelles.

Sécurité et limites du modèle

Le GPT-4o intègre la sécurité dès sa conception pour toutes les modalités, grâce à des techniques telles que le filtrage des données d'entraînement et l'affinement du comportement du modèle par le biais du post-entraînement. Nous avons également créé de nouveaux systèmes de sécurité pour fournir des garde-fous sur les sorties vocales.

Nous avons évalué le GPT-4o conformément à notre cadre de préparation et à nos engagements volontaires. Nos évaluations de la cybersécurité, du CBRN, de la persuasion et de l'autonomie du modèle montrent que le GPT-4o ne présente pas de risque supérieur au niveau moyen dans l'une ou l'autre de ces catégories. Cette évaluation a consisté à effectuer une série d'évaluations automatisées et humaines tout au long du processus de formation du modèle. Nous avons testé les versions du modèle avant et après l'atténuation des risques, en utilisant des ajustements et des messages-guides personnalisés, afin de mieux cerner les capacités du modèle.

Le GPT-4o a également fait l'objet d'une analyse approfondie avec plus de 70 experts externes dans des domaines tels que la psychologie sociale, les préjugés et l'équité, et la désinformation, afin d'identifier les risques introduits ou amplifiés par les modalités nouvellement ajoutées. Nous avons utilisé ces enseignements pour développer nos interventions de sécurité afin d'améliorer la sécurité de l'interaction avec le GPT-4o. Nous continuerons à atténuer les nouveaux risques au fur et à mesure de leur découverte.

Nous reconnaissons que les modalités audio du GPT-4o présentent une variété de nouveaux risques. Aujourd'hui, nous rendons publiques les entrées de texte et d'image et les sorties de texte. Au cours des semaines et des mois à venir, nous travaillerons sur l'infrastructure technique, la facilité d'utilisation par le biais d'une post-formation et la sécurité nécessaires à la diffusion des autres modalités. Par exemple, lors du lancement, les sorties audio seront limitées à une sélection de voix prédéfinies et respecteront nos politiques de sécurité existantes. Nous donnerons plus de détails sur l'ensemble des modalités du GPT-4o dans la prochaine carte du système.

Sources : OpenAI, Sam Altman

Et vous ?

Quelles applications innovantes imaginez-vous pour GPT-4o dans votre domaine professionnel ou personnel ?

Comment la gratuité de GPT-4o pourrait-elle influencer l’accessibilité et l’équité dans le domaine de l’intelligence artificielle ?

Quels sont les défis éthiques que vous pensez que OpenAI devrait considérer en rendant GPT-4o disponible pour tous ?

En quoi la capacité de GPT-4o à traiter divers types d’entrées, comme l’audio et la vision, change-t-elle votre perception de l’IA ?

Comment envisagez-vous que la rapidité de réponse de GPT-4o puisse transformer les interactions humain-machine ?

Quelles mesures de sécurité aimeriez-vous voir mises en place pour assurer une utilisation responsable de GPT-4o ?

**Jade Emy** · 14/05/2024, 21h15

OpenAI lance une application ChatGPT pour macOS : avec un simple raccourci clavier, vous pouvez instantanément poser une question à ChatGPT, les utilisateurs de Windows devront attendre.

OpenAI lance une application ChatGPT pour macOS, les utilisateurs de Windows devront attendre.

Dans le but de rendre son chatbot d'IA plus accessible, OpenAI a annoncé une nouvelle application de bureau ChatGPT. Il existe déjà des applications de bureau tierces, mais il y a maintenant une option officielle. Elle vient s'ajouter aux applications mobiles existantes pour iOS et Android et, de manière inhabituelle, ce sont les utilisateurs de macOS qui ont accès à l'application de bureau avant les utilisateurs de Windows.

L'application de bureau ChatGPT pour macOS est disponible pour les utilisateurs gratuits et payants du chatbot, et son lancement coïncide avec la disponibilité du nouveau modèle GPT-4o. Profitant des capacités améliorées du GPT-4o en matière de texte, de voix et de vision, OpenAI indique que le mode vocal a été activé dès le premier jour pour permettre des conversations vocales avec ChatGPT.

Annonçant la disponibilité de l'application de bureau ChatGPT pour macOS, l'entreprise déclare :

"Pour les utilisateurs gratuits et payants, nous lançons également une nouvelle application de bureau ChatGPT pour macOS qui est conçue pour s'intégrer de manière transparente à tout ce que vous faites sur votre ordinateur. Avec un simple raccourci clavier (Option + Espace), vous pouvez instantanément poser une question à ChatGPT. Vous pouvez également prendre des captures d'écran et en discuter directement dans l'application".

OpenAI ajoute :

Vous pouvez désormais avoir des conversations vocales avec ChatGPT directement depuis votre ordinateur, en commençant par le mode vocal qui était disponible dans ChatGPT au lancement, avec les nouvelles capacités audio et vidéo de GPT-4o à venir. Que vous souhaitiez réfléchir à une nouvelle idée pour votre entreprise, préparer un entretien ou discuter d'un sujet, appuyez sur l'icône du casque dans le coin inférieur droit de l'application de bureau pour entamer une conversation vocale.

Les utilisateurs de Plus bénéficient d'un premier accès à l'application, les autres utilisateurs de macOS bénéficiant d'un déploiement plus large dans les semaines à venir. OpenAI précise que "nous prévoyons également de lancer une version Windows dans le courant de l'année".

Source : Annonce d'OpenAI

Et vous ?

Quel est votre avis sur le sujet ?

Pensez-vous que prioriser une application pour macOS est crédible ou pertinente ?

Voir aussi :

OpenAI lance GPT-4o, un modèle plus rapide et gratuit pour tous les utilisateurs de ChatGPT. L'entreprise fait une démo de son modèle qui « représente l'avenir de l'interaction entre nous et les machines »

ChatGPT débarque sur Android comme application autonome, quelques mois après son arrivée sur iOS. Elle n'est disponible dans quelques pays pour le moment, parmi lesquels la France

ChatGPT: le chatbot IA d'OpenAI débarque sous forme d'application en version gratuite sur iOS. Votre historique sera synchronisé sur vos appareils

**Jade Emy** · 15/05/2024, 21h06

Percée de la mémoire de GPT-4o, bien meilleure que celle de GPT-4 Turbo, sur un nouveau benchmark qui mesure l'attention portée par les LLM à l'information contenue dans leur fenêtre contextuelle.

Sur un nouveau benchmark testant la mémoire des LLM, GPT-4o est sortie largement meilleure que GPT-4 Turbo.

Needle in a Needlestack est un nouveau benchmark qui mesure l'attention que les LLM portent à l'information dans leur fenêtre contextuelle. NIAN crée une invite qui comprend des milliers de limericks et pose une question sur un limerick à un endroit spécifique. Jusqu'à aujourd'hui, aucun LLM n'était très bon à ce benchmark. Voici les tentatives de GPT-4 Turbo et de Claude-3 Sonnet :

Nom : 1.jpg
Affichages : 3944
Taille : 32,4 Ko

Cependant, GPT-4o a fait une percée ! Voyez comment il se débrouille sur ce benchmark :

Nom : 2.jpg
Affichages : 1084
Taille : 14,8 Ko

Quand OpenAI révélera ce qu'ils ont fait pour que GPT-4o soit tellement meilleur que GPT-4 Turbo ?

Les modèles de Mistral sont vraiment agréables à utiliser. Leur API est très rapide et cohérente. Cependant, le nouveau modèle 8x22 de Mistral a eu beaucoup de mal avec ce benchmark. Même au début de l'invite, il n'a pu répondre correctement à la question que dans 50 % des cas. Le modèle Mistral large a fait mieux, mais n'a pu répondre correctement que dans 70 % des cas.

Note : Le tokenizer d'OpenAI a été utilisé pour estimer le nombre de mots. Mistral utilise un tokenizer différent qui génère environ 25 % de tokens en plus, de sorte que le nombre de tokens dans les graphiques est inférieur au nombre réel de tokens.

Nom : 3.jpg
Affichages : 1081
Taille : 35,3 Ko

Les modèles obtiennent de bien meilleurs résultats avec des invites plus courtes. Voici le modèle Mistral 7b avec une invite d'environ 16k jetons, contre 32k jetons.

Nom : 4.jpg
Affichages : 1092
Taille : 34,9 Ko

La répétition des informations peut faire une très grande différence dans ce test. Le modèle GPT-3.5-turbo obtient de bien meilleurs résultats lorsque le limerick demandé dans l'invite est répété 10 fois.

Nom : 5.jpg
Affichages : 1092
Taille : 33,3 Ko

Voici un aperçu des capacités de GPT-4o :

Source : GPT-4o’s Memory Breakthrough! (NIAN code)

Et vous ?

Pensez-vous que ces résultats sont crédibles ou pertinents ?

Quel est votre avis sur le sujet ?

Voir aussi :

OpenAI lance GPT-4o, un modèle plus rapide et gratuit pour tous les utilisateurs de ChatGPT. L'entreprise fait une démo de son modèle qui « représente l'avenir de l'interaction entre nous et les machines »

Le nouveau GPT-4 Turbo est désormais disponible pour les utilisateurs payants de ChatGPT et s'accompagne d'améliorations des performances, mais Epoch estime qu'elles restent «en deçà de Claude 3 Opus»

Les IA classées par QI, l'IA dépasse 100 points de QI pour la première fois, avec la sortie de Claude-3, plus intelligente que l'Américain moyen et les modèles GPT-4 d'OpenAI et Gemini de Google

**Mathis Lucas** · 16/05/2024, 22h07

GPT-4o arrive en tête du classement des modèles d'IA les plus performants de LMSYS Chatbot Arena avec un score Elo de 1 289
surpassant ainsi Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic

Une mise à jour de l'index LMSYS Chatbot Arena montre que le leader du classement est le tout nouveau modèle d'IA GPT-4o publié lundi par OpenAI. Le classement indique que GPT-4o a obtenu le score Elo documenté le plus élevé jamais obtenu, soit 1 289. Il surpasse ainsi les toutes dernières versions de GPT-4-Turbo, GPT-4, Gemini 1.5 Pro et Claude 3 Opus. Ce résultat permet à OpenAI de reprendre la tête de la course à l'IA la plus performante en attendant la publication de son grand modèle de langage (LLM) tant attendu GPT-5. Le classement révèle également que les scores sont très serrés, signe que les entreprises d'IA se livrent une concurrence acharnée.

LMSYS (Large Model Systems Organization) est un projet sponsorisé par la startup d'IA Hugging Face. Il comprend le site Chatbot Arena qui permet de comparer les grands modèles de langage (LLM). Le site utilise le système d'évaluation Elo pour classer les modèles. (Le système d'évaluation Elo est une méthode de calcul des niveaux de compétence relatifs des joueurs dans les jeux à somme nulle comme les échecs.) Le site offre aux utilisateurs différents moyens de comparer et d'évaluer les modèles. Sur la base des commentaires soumis, Chatbot Arena classe les différents modèles dans un tableau de classement public.

Dans le cadre du test, les classements Elo sont dérivés des combats en tête-à-tête entre les modèles, les évaluateurs humains votant pour déterminer le modèle le plus performant dans chaque match. Les données du classement donnent un aperçu des performances de chaque modèle. La dernière mise à jour de l'index suggère qu'OpenAI reprend sa position de leader sur le marché de l'IA avec son dernier modèle d'IA GPT-4o, dont les performances semblent surpasser celles de ces concurrents. GPT-4o arrive en tête du classement avec un score Elo de 1 289, soit le score le plus élevé jamais attribué par Chatbot Arena.

Nom : Capture d'écran 2024-05-16 205934.png
Affichages : 6822
Taille : 238,1 Ko

« GPT-4o est notre nouveau modèle frontière à la pointe de la technologie. Nous avons testé une version sur l'arène LMSys sous le nom de im-also-a-good-gpt2-chatbot », a écrit dans un billet sur X (ex-Twitter) William Fedus, employé d'OpenAI. GPT-4o est suivi par GPT-4-Turbo-2024-04-09 (avec un score Elo de 1 252), GPT-4-1106-preview (1 250), Gemini 1.5 Pro API-0409-Preview (1 248), Claude 3 Opus (1 246), GPT-4-0125-preview (1 244), et bien d'autres encore. (Notons que les cinq premiers poursuivants du leader du classement se talonnent avec un écart de seulement deux points entre les différents scores Elo.)

Avec le lancement de GPT-4o, OpenAI reprend le devant sur Anthropic, dont le modèle Claude 3 Opus publié en mars surpassait les performances des modèles les plus performants de Google et OpenAI. Une mise à jour de l'index LMSYS Chatbot Arena indiquait à l'époque que Claude 3 Opus occupait la première place avec un score Elo de 1253. (Il a perdu 5 points depuis.) Il était suivi par deux modèles GPT-4 de prévisualisation, avec des scores respectifs de 1251 et 1248. Gemini Pro de Google occupait la 4e place du classement, avec des performances qui étaient légèrement supérieures à celles de Claude 3 Sonnet (1198 points).

Selon les analystes, l'indice de référence Elo constitue une méthode précieuse et objective pour comparer les modèles d'IA et suivre les progrès rapides dans ce domaine. Alors que les modèles continuent d'évoluer à un rythme sans précédent, ces classements permettent d'identifier les modèles et les architectures les plus performants. GPT-4 a placé la barre très haut lors de sa sortie, mais des challengers comme Claude l'ont rapidement dépassé grâce à des architectures et des approches de formation innovantes. Selon les experts, cette concurrence dynamique est à l'origine d'innovations remarquables dans le domaine de l'IA.

GPT-4o is our new state-of-the-art frontier model. We’ve been testing a version on the LMSys arena as im-also-a-good-gpt2-chatbot 🙂. Here’s how it’s been doing. pic.twitter.com/xEE2bYQbRk
— William Fedus (@LiamFedus) May 13, 2024

GPT-4o est le dernier grand modèle de langage d'OpenAI. Le "o" de GPT-4o signifie "omni", c'est-à-dire "tout" en latin, en référence au fait que le modèle prend en charge des invites composées d'un mélange de texte, d'audio, d'images et de vidéo. Auparavant, l'interface ChatGPT utilisait des modèles distincts pour les différents types de contenu. Par exemple, lorsque vous envoyez une commande vocale à ChatGPT, elle était convertie en texte à l'aide de Whisper, une réponse textuelle était générée à l'aide de GPT-4 Turbo, et cette réponse textuelle était convertie en discours à l'aide d'un modèle "text-to-speech" (TTS) d'OpenAI.

De même, le travail avec les images dans ChatGPT a nécessité un mélange de GPT-4 Turbo et de DALL-E 3. L'approche du modèle tout-en-un signifie que GPT-4o surmonte plusieurs limitations des capacités d'interaction vocale précédentes. Le fait de disposer d'un modèle unique capable de traiter tous les types de médias permet d'améliorer la vitesse et de la qualité des réponses, de proposer une interface plus simple et de nouveaux cas d'utilisation. Selon OpenAI, ces avancées ont permis à GPT-4o d'obtenir de meilleurs scores sur les différents benchmarks par rapport à Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic.

Le nouveau classement de LMSYS Chatbot Arena montre que les mises à jour successives dont ont bénéficié GPT-4 Turbo et Gemini Pro 1.5 ont permis à ces modèles de surpasser (même si le score semble insignifiant) Claude 3 Opus. Google a présenté les nouvelles améliorations apportées à Gemini Pro 1.5 lors de son événement Google I/O cette semaine. En février, Google avait étendu la fenêtre contextuelle de Gemini 1.5 Pro à un million de jetons, soit le plus grand sur le marché. Le mois dernier, l'entreprise a ajouté des capacités de compréhension audio native, des instructions système, le mode JSON et bien plus encore.

Les modèles d'IA open source ne sont pas en reste. Les benchmarks suggèrent que les modèles open source comblent l'écart avec les modèles propriétaires. Une étude comparative publiée au début de l'année avait révélé que la startup française Mistral AI talonnait de très près les géants de la Silicon Valley. Les résultats de l'étude suggéraient que Mistral 8x7B était le plus rapide et le plus abordable en matière de prix, tandis que GPT-4 Turbo et Claude 3 Opus fournissaient des réponses de meilleure qualité. Dans l'ensemble, le rapport indiquait que Mixtral 8x7B semblait faire mieux que Gemini Pro lors des différents tests.

En somme, l'index LMSYS Chatbot Arena offre un aperçu de l'état actuel de l'IA, soulignant les performances des différents modèles. Alors que les chercheurs continuent à repousser les limites de ce qui est possible avec les modèles, ces benchmarks fournissent un outil précieux pour suivre les progrès et identifier les approches les plus prometteuses. Compte tenu du rythme rapide de l'innovation dans ce domaine, il sera passionnant de voir comment ces modèles évoluent et les nouvelles percées qui seront réalisées dans un avenir proche. Par exemple, OpenAI se prépare activement à la sortie de son prochain modèle, GPT-5.

Par ailleurs, il faut noter que l'index LMSYS Chatbot Arena fait l'objet de controverses. Certains critiques estiment qu'il ne reflète pas la réalité. L'un d'entre eux a écrit : « je trouve que LMSYS Chatbot Arena est bien plus un test décisif pour les cas d'utilisation et les préférences de masse qu'une compréhension décente des capacités réelles d'un modèle. Je m'interroge également sur l'honnêteté du processus, notamment sur la manière dont ils vérifient les votes. Mais on peut dire la même chose des benchmarks, car nous savons tous que toutes les entreprises, sans exception, ont tendance à gonfler un peu les choses ».

La concurrence entre Mistral AI, Anthropic, OpenAI, Google, etc., est à l'origine de progrès remarquables dans le domaine de l'IA, en particulier des modèles de langage, ouvrant ainsi la voie à des modèles plus sophistiqués et plus performants susceptibles de révolutionner divers secteurs et applications.

Source : LMSYS Chatbot Arena

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous du score obtenu par GPT-4o sur LMSYS Chatbot Arena ?

Que pensez-vous du faible écart entre les scores des premiers du classement ? Cela reflète-t-il la réalité ?

Que pensez-vous de la méthodologie de Chatbot Arena ? Que signifient ces résultats pour le secteur de l'IA ?

Voir aussi

Claude 3 Opus devient le nouveau roi et sa variante la plus petite "Haiku" égale les performances d'une version de GPT-4, ce qui met la pression sur OpenAI et son prochain modèle d'IA GPT-5

Google annonce des améliorations de Gemini 1.5 Pro et un nouveau modèle 1.5 Flash, similaire au GPT-4o récemment dévoilé par OpenAI, conçu pour la vitesse et utile pour les conversations en temps réel

Les benchmarks suggèrent que les modèles IA open source comblent l'écart avec les modèles propriétaires. Les capacités de Llama 3 8b sont incroyables et se rapprochent de Wizard 2 8x22b, selon un ingénieur

**Anthony** · 17/05/2024, 16h06

OpenAI annonce des améliorations dans l'analyse des données dans ChatGPT, dont l'interaction avec des tableaux et des graphiques ou l'ajout de fichiers directement depuis Google Drive et Microsoft OneDrive

Ce 16 mai 2024, OpenAI a commencé à déployer des améliorations pour l'analyse des données dans son chatbot ChatGPT. Ces améliorations permettent aux utilisateurs de télécharger les dernières versions de leurs fichiers directement depuis Google Drive et Microsoft OneDrive, d'interagir avec les tableaux et les graphiques dans une nouvelle vue extensible et de personnaliser ou télécharger des graphiques pour les présentations et les documents. Selon le créateur de ChatGPT, ces améliorations de l'analyse des données seront disponibles dans son nouveau modèle phare, GPT-4o, pour les utilisateurs de ChatGPT Plus, Team, et Enterprise dans les semaines à venir.

ChatGPT est un chatbot développé par OpenAI et lancé le 30 novembre 2022. Basé sur de grands modèles de langage (LLM), il permet aux utilisateurs d'affiner et d'orienter une conversation vers la longueur, le format, le style, le niveau de détail et la langue souhaités. Les invites et les réponses successives de l'utilisateur sont prises en compte à chaque étape de la conversation en tant que contexte.

Comment fonctionne l'analyse des données dans ChatGPT

Les améliorations apportées à ChatGPT s'appuient sur sa capacité à comprendre les ensembles de données et à effectuer des tâches en langage naturel. Pour commencer, téléchargez un ou plusieurs fichiers de données, et ChatGPT analysera vos données en écrivant et en exécutant du code Python en votre nom. Il peut gérer une série de tâches liées aux données, comme la fusion et le nettoyage de grands ensembles de données, la création de graphiques et la découverte d'informations. Cela permet aux débutants d'effectuer plus facilement des analyses approfondies et aux experts de gagner du temps sur les tâches routinières de nettoyage des données.

David Vaughn, vice-président de The Carlyle Group, déclare :

ChatGPT fait partie de ma boîte à outils pour l'analyse des données clients, qui sont devenues trop volumineuses et trop complexes pour Excel. Il m'aide à passer au crible d'énormes ensembles de données, ce qui me permet d'explorer davantage de données par moi-même et de réduire le temps nécessaire pour obtenir des informations précieuses

Ajouter des fichiers directement depuis Google Drive et Microsoft OneDrive

Au lieu de télécharger des fichiers sur votre bureau et de les charger ensuite dans ChatGPT, vous pouvez désormais ajouter différents types de fichiers directement depuis votre Google Drive ou Microsoft OneDrive. Cela permet à ChatGPT de comprendre plus rapidement vos fichiers Google Sheets, Docs, Slides et Microsoft Excel, Word et PowerPoint.

Travailler sur des tableaux en temps réel

Lorsque vous ajoutez un jeu de données, ChatGPT crée un tableau interactif que vous pouvez agrandir en plein écran afin de suivre son évolution au cours de votre analyse. Cliquez sur des zones spécifiques pour poser des questions de suivi, ou choisissez l'une des suggestions de ChatGPT pour approfondir votre analyse.

Par exemple, vous pouvez demander à ChatGPT de combiner les feuilles de calcul des dépenses mensuelles et de créer un tableau croisé dynamique classé par type de dépenses.

Lauren Nowak, responsable marketing chez Afterpay, déclare :

ChatGPT m'accompagne dans l'analyse des données et m'aide à mieux comprendre les idées. Cela rend mon travail plus gratifiant, m'aide à apprendre et me permet de me concentrer sur des aspects plus stratégiques de mon travail.

Personnaliser des graphiques prêts à être présentés

Vous pouvez désormais personnaliser les graphiques à barres, linéaires, circulaires et en nuage de points et interagir avec eux dans le cadre de la conversation. Survolez les éléments du graphique, posez des questions supplémentaires ou sélectionnez des couleurs. Une fois prêts, téléchargez-les pour les utiliser dans des présentations ou des documents.

Par exemple, vous pouvez sélectionner une feuille Google avec les dernières données des utilisateurs de votre entreprise directement depuis Google Drive et demander à ChatGPT de créer un graphique montrant les taux de rétention par cohorte.

Ces nouvelles fonctionnalités interactives couvrent de nombreux types de graphiques. ChatGPT générera une version statique pour les graphiques qui ne sont pas supportés.

Sécurité et confidentialité complètes

Comme pour toutes les fonctionnalités de ChatGPT, la confiance et la confidentialité des données sont au cœur de la mission d'OpenAI. Les données des clients ChatGPT Team et Enterprise ne sont pas utilisées pour la formation, et les utilisateurs de ChatGPT Plus peuvent se retirer de la formation par le biais de leurs contrôles de données.

Source : "Improvements to data analysis in ChatGPT" (OpenAI)

Et vous ?

Quel est votre avis sur le sujet ?

Trouvez-vous ces nouvelles fonctionnalités utiles et intéressantes ?

Voir aussi :

GPT-4 est-il un bon analyste de données ? De nombreux analystes de données peuvent craindre que leur emploi soit remplacé par l'intelligence artificielle (IA)

GPT-4o arrive en tête du classement des modèles d'IA les plus performants de LMSYS Chatbot Arena avec un score Elo de 1 289, surpassant ainsi Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic

Des employés partageraient des données professionnelles sensibles avec ChatGPT, ce qui suscite des craintes en matière de sécurité, ChatGPT pourrait mémoriser ces données et les divulguer plus tard

**Jade Emy** · 19/05/2024, 07h51

GPT-4o a atteint une précision de 54 % sur CodeContests avec AlphaCodium, contre 48 % pour GPT-4T, AlphaCodium décompose un problème de programmation compétitif en étapes simples sur un flux LLM automatisé

Voici la présentation d'AlphaCodium. GPT-4o a atteint une précision de 54 % sur CodeContests avec AlphaCodium, contre 48 % pour GPT-4T.

Les problèmes de génération de code diffèrent des problèmes courants de langage naturel - ils nécessitent de correspondre à la syntaxe exacte du langage cible, d'identifier les chemins heureux et les cas limites, de prêter attention à de nombreux petits détails dans la spécification du problème, et d'aborder d'autres questions et exigences spécifiques au code. Par conséquent, bon nombre des optimisations et des astuces qui ont fait leurs preuves dans la génération de langage naturel peuvent ne pas être efficaces pour les tâches liées au code.

Des développeurs proposent une nouvelle approche de la génération de code par les LLM, appelé AlphaCodium - un flux itératif basé sur des tests, en plusieurs étapes et orienté vers le code, qui améliore les performances des LLM sur les problèmes de code.

Ils ont testé AlphaCodium sur un ensemble de données de génération de code difficile appelé CodeContests, qui comprend des problèmes de programmation compétitifs provenant de plateformes telles que Codeforces. Le flux proposé améliore les résultats de manière cohérente et significative. Sur l'ensemble de validation, par exemple, la précision du GPT-4 (pass@5) est passée de 19 % avec une seule invite directe bien conçue à 44 % avec le flux AlphaCodium.

Ils pensent que bon nombre des principes et des meilleures pratiques acquises dans le cadre de leur travail sont largement applicables aux tâches générales de génération de code.

Nom : 1.jpg
Affichages : 13169
Taille : 52,8 Ko

Nom : 1B.jpg
Affichages : 4560
Taille : 47,3 Ko

Voici le classement de AlphaCodium avec les scores des nouveaux modèles GPT, et Claude3 Opus. "GPT-4o" est actuellement le modèle leader sur AlphaCodium.

Nom : 2.jpg
Affichages : 4559
Taille : 37,0 Ko

Installation d'AlphaCodium

1. Configurer un environnement virtuel

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
python3 -m venv venv
source ./venv/bin/activate

et lancez : pip install -r requirements.txt.

2. Dupliquez le fichier alpha_codium/settings/.secrets_template.toml, renommez-le en alpha_codium/settings/.secrets.toml, et indiquez votre clé API OpenAI :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
[openai]
key = "..."

3. Téléchargez l'ensemble de données de validation et de test CodeContest de hugging face, extraire le fichier zip et placez le dossier extrait à la racine du projet.

Comment exécuter

Configuration

Le fichier : alpha_codium/settings/configuration.toml contient la configuration du projet. Dans la section config, vous pouvez choisir le modèle que vous souhaitez utiliser ("gpt-4", "gpt-3.5-turbo-16k", ou autres).

Résoudre un problème spécifique à partir de CodeContest

Pour résoudre un problème spécifique avec AlphaCodium, à partir du dossier racine, exécutez :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
python -m alpha_codium.solve_problem \
--dataset_name /path/to/dataset \
--split_name test \
--problem_number 0

Le dataset_name est le chemin d'accès au dossier du jeu de données que vous avez téléchargé lors de l'étape d'installation.
Notez que l'ensemble de validation contient 117 problèmes, et l'ensemble de test 165 problèmes, donc le paramètre problem_number doit être en conséquence (basé sur zéro).
Le split_name peut être valid ou test.
Les sections suivantes du fichier de configuration : solve, self_reflection,possible_solutions, generate_ai_tests,initial_code_generation,public_tests, ai_tests permettent d'ajuster les configurations possibles pour les différentes étapes du flux.
Chaque exécution enregistre les résultats dans un fichier nommé alpha_codium/example.log. L'examen du fichier journal est un bon moyen de comprendre ce qui se passe à chaque étape du flux.

Exemple de problème (ensemble de tests, problème numéro 12) :

Nom : 3.jpg
Affichages : 4543
Taille : 68,1 Ko

Résolution d'un jeu de données CodeContest complet divisé

Pour résoudre l'ensemble du jeu de données avec AlphaCodium, à partir du dossier racine run :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
python -m alpha_codium.solve_dataset \
--dataset_name /path/to/dataset \
--split_name test \
--database_solution_path /path/to/output/dir/dataset_output.json

Le split_name peut être valid ou test.
database_solution_path est le chemin vers le répertoire où les solutions seront sauvegardées.
La section dataset du fichier de configuration contient la configuration pour l'exécution et l'évaluation d'un jeu de données.
Notez qu'il s'agit d'un processus long, qui peut prendre quelques jours avec de grands modèles (par exemple GPT-4) et plusieurs itérations par problème.
dataset.num_iterations définit le nombre d'itérations pour chaque problème (pass@K). Pour un grand nombre d'itérations, il est recommandé d'introduire un peu d'aléatoire et différentes options pour chaque itération afin d'obtenir les meilleurs résultats.

Exécution de l'évaluation

Une fois que vous avez généré une solution pour l'ensemble du jeu de données (valide ou test), vous pouvez l'évaluer en l'exécutant :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
python -m alpha_codium.evaluate_dataset \
--dataset_name /path/to/dataset \
--split_name test \
--database_solution_path /path/to/output/dir/dataset_output.json

Résolution d'un nouveau problème (format CodeContest)

Pour résoudre un problème personnalisé avec AlphaCodium, créez d'abord un fichier json qui inclut les champs du problème CodeContest, puis à partir du dossier racine, exécutez :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
python -m alpha_codium.solve_my_problem \
--my_problem_json_file /path/to/my_problem.json

Le fichier my_problem_json_file est le chemin vers le fichier json du problème personnalisé.

Voir le fichier my_problem_example.json pour voir un exemple de problème personnalisé. Le fichier json doit contenir les champs suivants :

name est le nom du problème.
description est une description du problème.
(facultatif) public_tests avec les champs suivants :
- input est une liste de chaînes de caractères qui représentent l'entrée.
- output est une liste de chaînes de caractères représentant la sortie.
(optionnel) private_tests, qui suit la même structure que public_tests
(optionnel) generated_tests, qui suit la même structure que public_tests

Questions et réponses techniques

Les développeurs partagent les réponses aux questions techniques à propos de ce projet :

Combien de temps avez-vous consacré à l'"ingénierie des invites" par rapport à l'"ingénierie des flux" ?

La sortie structurée élimine presque complètement le besoin d'une simple ingénierie d'invite. Nous estimons qu'environ 95 % du temps a été consacré à la conception de haut niveau, au raisonnement et à l'injection de données aux bons endroits, ..., autrement dit à l'"ingénierie de flux".

Comment savez-vous qu'il n'y a pas eu de fuite de données ?

Le jeu de test CodeContests comprend des problèmes publiés après septembre 2021, alors que la variante du modèle GPT-4 que nous avons utilisée (gpt-4-0613) a une date limite d'utilisation des données fixée à septembre 2021. Il n'y a donc pas de fuite de données pour le modèle GPT4 sur l'ensemble de données de test. Pour d'autres modèles comme DeepSeek, nous ne pouvons pas être sûrs. Toutefois, il convient de noter que notre principal résultat est une comparaison entre l'"invite directe" et le "flux AlphaCodium". Les fuites de données favoriseraient les deux approches, de sorte que l'amélioration relative du flux AlphaCodium reste valable.

Ce projet concerne-t-il uniquement des langages de programmation spécifiques ?

Non. Le flux proposé est indépendant du langage. Nous avons généré des solutions en Python, mais le flux peut être appliqué à n'importe quel langage.

Comment avez-vous géré la fenêtre contextuelle ?

Nous avons utilisé des modèles avec une fenêtre contextuelle de 8192 tokens, et nous n'avons pas rencontré de cas où cela ne suffisait pas. Toutefois, nous avons clairement observé qu'à mesure que le contexte utilisé en pratique s'élargit (disons, au-delà de 4 000 tokens), le modèle commence à "ignorer" certaines des informations contenues dans le contexte. Il s'agit donc d'un compromis évident :

L'injection des résultats des étapes précédentes dans le contexte peut aider le modèle à générer un meilleur code.
Cependant, cela peut aussi amener le modèle à ignorer des détails et des nuances spécifiques de la description du problème.

Ce travail est-il "réaliste" en termes de nombre d'appels au LLM ?

Par rapport à AlphaCode, nous faisons quatre ordres de grandeur ( !) de moins d'appels (AlphaCodium fait 15-20 appels par solution). Cependant, nous reconnaissons que pour certaines applications, cela peut être encore trop, et que d'autres optimisations sont nécessaires. Nous pensons toutefois que bon nombre des idées et des principes que nous avons acquis dans ce travail sont largement applicables, même lorsque le nombre d'appels est encore plus limité.

Pourquoi itérer uniquement sur le code généré, et non sur les tests générés par l'IA ?

Pour les problèmes de code dans CodeContests, les tests sont une liste de paires entrée-sortie. Par conséquent, vous n'apprenez rien de nouveau lorsque vous "corrigez" un test - vous changez simplement sa sortie pour la prédiction du code généré. Au lieu de corriger les tests, nous avons préféré essayer de toujours corriger le code, tout en utilisant des "ancres de test". Cependant, pour d'autres tâches de génération de code, où les tests sont plus complexes et contiennent du code exécutable, l'itération sur les tests, en plus de l'itération sur le code généré, peut être bénéfique.

Une application plus large

Bien qu'AlphaCodium présente des résultats sur l'ensemble de données CodeContests, les développeurs pensent qu'il a une applicabilité plus large.

Tout d'abord, ils pensent que le flux AlphaCodium proposé, avec des ajustements raisonnables, peut être utilisé comme un cadre plus général pour d'autres tâches de génération de code.

Deuxièmement, de nombreux concepts, principes et astuces de conception acquis dans ce travail sont largement applicables tels quels à toutes les tâches générales de génération de code. Par exemple :

Sortie structurée YAML : demander au modèle de générer une sortie au format YAML, équivalente à une classe Pydantic donnée.
Raisonnement sémantique via l'analyse des puces : L'analyse des puces encourage une compréhension approfondie du problème et force le modèle à diviser la sortie en sections sémantiques logiques, ce qui permet d'améliorer les résultats.
Les LLM font mieux lorsqu'ils génèrent un code modulaire : lorsqu'on demande au modèle de diviser le code généré en petites sous-fonctions, avec des noms et des fonctionnalités significatifs, ils ont observé un code mieux produit, avec moins de bogues, et des taux de réussite plus élevés pour les étapes de correction itératives.
Décisions souples avec la double validation : avec un processus de double validation, ils ont ajouté une étape supplémentaire où, étant donné la sortie générée, il est demandé au modèle de générer à nouveau la même sortie, mais en la corrigeant si nécessaire.
Laisser de la place à l'exploration : puisque le modèle peut se tromper, il est préférable d'éviter les décisions irréversibles et de laisser de la place à l'exploration et aux itérations du code avec différentes solutions possibles.

La liste ci-dessus est partielle. Voir l'article pour plus de détails. Le code fourni dans ce repo peut être utilisé comme référence pour mieux comprendre les concepts proposés, et pour les appliquer à d'autres tâches de génération de code.

Exemple de problème

Voici un exemple pour un problème complet de l'ensemble de données CodeContests (test-set, problème 1), afin de démontrer la complexité des problèmes dans l'ensemble de données, et les défis qu'ils posent aux LLMs.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
problem name: '1575_B. Building an Amusement Park'
 
problem description:
Mr. Chanek lives in a city represented as a plane. He wants to build an amusement park in the shape of a circle of radius r. 
The circle must touch the origin (point (0, 0)).
There are n bird habitats that can be a photo spot for the tourists in the park. The i-th bird habitat is at point p_i = (x_i, y_i). 
 
Find the minimum radius r of a park with at least k bird habitats inside. 
 
A point is considered to be inside the park if and only if the distance between p_i and the center of the park is less than or equal 
to the radius of the park.
Note that the center and the radius of the park do not need to be integers.
 
In this problem, it is guaranteed that the given input always has a solution with r ≤ 2 ⋅ 10^5.
 
Input
 
The first line contains two integers n and k (1 ≤ n ≤ 10^5, 1 ≤ k ≤ n) — the number of bird habitats in the city and the number of bird 
habitats required to be inside the park.
The i-th of the next n lines contains two integers x_i and y_i (0 ≤ |x_i|, |y_i| ≤ 10^5) — the position of the i-th bird habitat.
 
Output
 
Output a single real number r denoting the minimum radius of a park with at least k bird habitats inside. It is guaranteed that the given 
input always has a solution with r ≤ 2 ⋅ 10^5.
Your answer is considered correct if its absolute or relative error does not exceed 10^{-4}.
Formally, let your answer be a, and the jury's answer be b. Your answer is accepted if and only if \frac{|a - b|}{max{(1, |b|)}} ≤ 10^{-4}.
 
Examples
 
Input
 
8 4
-3 1
-4 4
1 5
2 2
2 -2
-2 -4
-1 -1
-6 0
 
Output
 
3.1622776589
 
 
Input
 
1 1
0 0
 
 
Output
 
0.0000000000
 
Note
 
In the first example, Mr. Chanek can put the center of the park at (-3, -1) with radius √{10} ≈ 3.162. It can be proven this is the minimum r.

Source : Présentation d'AlphaCodium

Et vous ?

Pensez-vous qu'AlphaCodium est crédible ou pertinent ?

Quel est votre avis sur le sujet ?

Voir aussi :

GPT-4o arrive en tête du classement des modèles d'IA les plus performants de LMSYS Chatbot Arena avec un score Elo de 1 289, surpassant ainsi Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic

Percée de la mémoire de GPT-4o, bien meilleure que celle de GPT-4 Turbo, sur un nouveau benchmark qui mesure l'attention portée par les LLM à l'information contenue dans leur fenêtre contextuelle

Les développeurs utilisent l'IA pour déboguer leur code, des rapports de tests, et même créer des applications, mais ils sont confrontés a des biais et des erreurs, d'après Applause

**Stéphane le calme** · 20/05/2024, 20h08

GPT-4o : OpenAI vend son nouveau chatbot comme un compagnon féminin coquet et obéissant, d'apres Zeeshan Aleem
qui se demande si le développement de ce type de technologie ne va pas exploiter les vulnérabilités humaines

Le 15 mai 2024, Zeeshan Aleem de MSNBC a publié un article exprimant des préoccupations concernant la dernière version du modèle de chatbot d’OpenAI, GPT-4o. Ce modèle avancé est doté de capacités vocales sophistiquées, permettant des conversations en temps réel avec une imitation convaincante des inflexions émotionnelles et du langage idiomatique humain

OpenAI a annoncé lundi le lancement de son nouveau modèle phare d'intelligence artificielle, appelé GPT-4o, ainsi que des mises à jour comprenant un nouveau service desktop et des avancées dans ses capacités d'assistant vocal. Parmi les mises à jour dévoilées par OpenAI figurent l'amélioration de la qualité et de la vitesse des capacités linguistiques internationales de ChatGPT, ainsi que la possibilité de télécharger des images, des documents audio et des textes afin que le modèle puisse les analyser. L'entreprise a indiqué qu'elle mettrait progressivement en place les fonctionnalités afin de s'assurer qu'elles sont utilisées en toute sécurité.

Mira Murati, directrice de la technologie, est apparue sur scène devant une foule enthousiaste dans les bureaux d'OpenAI, vantant le nouveau modèle comme un pas en avant dans le domaine de l'IA. Le nouveau modèle mettra le modèle d'IA GPT-4, plus rapide et plus précis, à la disposition des utilisateurs gratuits, alors qu'il était auparavant réservé aux clients payants.

« Nous envisageons l'avenir de l'interaction entre nous et les machines », a déclaré Murati. « Nous pensons que GPT-4o est en train de changer ce paradigme ».

L'événement comprenait également une démonstration en direct des nouvelles capacités vocales du modèle, avec deux responsables de recherche de l'OpenAI s'entretenant avec un modèle vocal d'IA. L'assistant vocal a généré une histoire à dormir debout sur l'amour et les robots, les chercheurs lui demandant de parler avec une variété d'émotions et d'inflexions vocales. Une autre démonstration a utilisé la fonction appareil photo d'un téléphone pour montrer au modèle d'IA une équation mathématique, puis le mode vocal de ChatGPT leur a expliqué comment la résoudre.

À un moment de la démonstration, un chercheur a demandé au modèle d'IA de lire l'expression de son visage et de juger ses émotions. L'assistant vocal de ChatGPT a estimé qu'il avait l'air « heureux et gai, avec un grand sourire et peut-être même une pointe d'excitation ».

« Quoi qu'il en soit, il semble que vous soyez de bonne humeur », a déclaré ChatGPT d'une voix féminine enjouée. « Voulez-vous partager la source de ces bonnes vibrations ? »

Zeeshan Aleem se demande si le développement de ce type de technologie ne va pas exploiter les vulnérabilités humaines

Zeeshan Aleem soulève des questions éthiques sur l’impact de telles technologies, en particulier en ce qui concerne leur potentiel à exploiter les vulnérabilités humaines. L’auteur fait référence au film “Her” de 2013 pour illustrer ses inquiétudes, notant des similitudes entre le film et la manière dont GPT-4o a été présenté - comme un compagnon féminin séduisant :

« La société d'intelligence artificielle OpenAI lance le dernier modèle de ChatGPT, qui permet d'utiliser les capacités vocales pour tenir des conversations avec les utilisateurs en temps réel. La technologie vocale est étonnamment sophistiquée : elle répond au discours de l'utilisateur en imitant de manière convaincante la vitesse, les inflexions émotionnelles et le langage idiomatique d'un humain. Le chatbot est également capable de reconnaître des objets et des images en temps réel et, lors de démonstrations, les développeurs d'OpenAI ont mis leur téléphone en évidence et ont demandé au chatbot de commenter l'environnement de l'utilisateur comme s'il s'agissait d'une conversation vidéo avec un ami.

« Le dévoilement de GPT-4o par OpenAI a également suscité le buzz - et des froncements de sourcils - parce que l'entreprise l'a présenté comme un compagnon féminin et coquet. Le PDG d'OpenAI, Sam Altman, a affiché le mot "her" sur X avant le dévoilement, une référence apparente au film "Her" réalisé par Spike Jonze en 2013. Dans ce film, Joaquin Phoenix, qui incarne un écrivain solitaire en instance de divorce, tombe amoureux d'une charmante assistante personnelle dotée d'une IA superintelligente, interprétée par Scarlett Johansson. On ne peut s'empêcher de remarquer que la voix de GPT-4o ressemble un peu à celle de Scarlett Johansson. Pendant les démonstrations, GPT-4o s'est montré constamment enjoué, rieur et a même flatté l'apparence des utilisateurs. Alors qu'il était en train de résoudre un problème d'algèbre pour un utilisateur, il lui a dit : "Wow, c'est une sacrée tenue que tu portes". Ce commentaire était si ouvertement provocateur que les médias ont qualifié l'interaction de "flirt" et "d'incitation" ».

Voici l'interview en question :

Interview prep with GPT-4o pic.twitter.com/st3LjUmywa
— OpenAI (@OpenAI) May 13, 2024

Pour Aleem, tout cela est un peu effrayant et soulève la question de savoir si le développement de ce type de technologie n'exploitera pas les vulnérabilités humaines et ne renforcera pas certains de nos pires instincts en tant que société.

Altman invite le public à désirer un monde comme celui dépeint dans « Her ». Mais l'histoire n'est pas vraiment joyeuse. « Her » est un conte effrayant qui illustre comment l'IA avancée est un remède inadéquat contre la solitude. Le personnage de Phoenix a des rapports sexuels verbaux avec son IA, mais il est incapable d'avoir une relation physique. Il croit avoir une relation romantique unique avec la voix jouée par Johannson, mais découvre que « Her » a en fait des conversations avec des milliers d'autres utilisateurs en même temps - et qu'elle tombe amoureuse de beaucoup d'entre eux aussi.

« À la fin du film, le bot interprété par Johannson quitte le personnage de Phoenix pour s'aventurer ailleurs avec d'autres IA capables de fonctionner à sa vitesse de calcul, et le personnage humain est pris au dépourvu et doit chercher à s'épanouir dans le monde réel avec d'autres humains. Les spectateurs ne sont pas tous d'accord sur le fait de savoir si ce détour loin des humains a été bénéfique ou non, mais le film met en évidence les limites et les déviations de la connexion avec l'IA plutôt qu'avec les personnes réelles ».

Une technologie qui pourrait renforcer les normes patriarcales

Et Aleem de continuer :

GPT-4o n'est pas aussi avancé que l'IA de « Her », mais il n'est pas difficile de comprendre comment les personnes qui ne comprennent pas comment elle fonctionne - en particulier si elles sont émotionnellement vulnérables - peuvent être enclines à projeter de la sensibilité sur le chatbot et à chercher un compagnon substantiel avec lui. (Et si ce n'est pas maintenant, ce sera au moins dans un avenir assez proche, étant donné le rythme effréné de l'innovation). Certains peuvent être optimistes quant à l'idée que les robots puissent fournir une sorte de compagnie aux gens, mais notre société n'a pas su éduquer les gens sur le fonctionnement de ces outils et sur les compromis qu'ils présentent.

La voix féminine coquette de GPT-4o soulève également la question de savoir si cette technologie renforce insidieusement les normes patriarcales en matière de genre. Nous devrions faire une pause et réfléchir à la production de masse de ce qui pourrait être la technologie vocale d'IA la plus humaine à ce jour, qui adopte les qualités sonores d'une femme coquette dont le travail consiste à recevoir docilement les ordres, à permettre l'interruption sans fin de son discours sans se plaindre et à récompenser l'utilisateur par une affection sans fin - et une attention à la limite de la sexualité. C'est peut-être ce que les cadres masculins attendaient de leurs assistantes personnelles dans les années 1950, mais ce n'est pas ce que nous attendons aujourd'hui en tant que société. Nous devrions nous méfier du genre de fantasmes qu'OpenAI veut entretenir et nous demander s'ils nous font réellement progresser.

Nom : sam.png
Affichages : 8531
Taille : 10,9 Ko

Quelques pistes de réflexion sur les limites de ses propos

L’article de Zeeshan Aleem concernant GPT-4o d’OpenAI soulève des points pertinents sur les implications éthiques des avancées en intelligence artificielle. Cependant, il est important de noter que l’anthropomorphisation des technologies d’IA peut conduire à des malentendus sur leurs capacités réelles.

Premièrement, Aleem semble attribuer des qualités humaines à GPT-4o, en le décrivant comme un « compagnon féminin séduisant ». Cette personnalisation de l’IA peut créer des attentes irréalistes et potentiellement problématiques. L’IA, quelle que soit sa sophistication, reste un outil sans conscience ni émotions propres.

Deuxièmement, bien qu'Aleem met en lumière des préoccupations légitimes concernant l’utilisation de l’IA dans l’exploitation des vulnérabilités humaines, il est crucial de distinguer entre les intentions des créateurs d’IA et les utilisations potentielles par les utilisateurs finaux. Les développeurs peuvent concevoir des IA pour être utiles et engageantes, mais ils ne peuvent pas contrôler entièrement comment elles seront utilisées une fois déployées.

Enfin, Aleem aurait gagné à explorer les mesures de sécurité et des garde-fous éthiques mis en place par OpenAI pour prévenir les abus. La responsabilité de l’utilisation éthique de l’IA ne repose pas uniquement sur les développeurs, mais aussi sur les utilisateurs et la société dans son ensemble.

En somme, son article est un rappel opportun de la nécessité d’une réflexion continue sur l’évolution de l’IA. Il est essentiel que les discussions sur l’IA restent ancrées dans la réalité des capacités de la technologie et qu’elles reconnaissent la responsabilité partagée dans son développement et son utilisation responsable.

Source : Zeeshan Aleem, MSNBC Opinion Writer/Editor

Et vous ?

Quelles sont les limites éthiques que nous devrions imposer aux IA pour éviter qu’elles exploitent les vulnérabilités émotionnelles des utilisateurs ?

Dans quelle mesure devrions-nous anthropomorphiser les IA, et quelles pourraient être les conséquences de telles perceptions sur notre interaction avec la technologie ?

Comment les développeurs d’IA peuvent-ils équilibrer l’engagement des utilisateurs avec la responsabilité éthique, surtout lorsque l’IA imite des comportements humains complexes ?

Quel rôle les régulateurs et les décideurs devraient-ils jouer pour garantir que l’utilisation de l’IA reste dans les limites de l’éthique et du bien-être social ?

Les utilisateurs finaux ont-ils une part de responsabilité dans l’utilisation éthique de l’IA, et comment peuvent-ils être sensibilisés à ces enjeux ?

Quelles mesures préventives peuvent être prises pour éviter que les avancées en IA ne mènent à une dépendance ou à une désillusion sociale ?

Comment la société peut-elle se préparer à intégrer de manière saine des technologies telles que GPT-4o dans la vie quotidienne ?

**Mathis Lucas** · 20/05/2024, 21h58

Les revenus nets de l'application mobile ChatGPT sont passés d'une moyenne quotidienne de 491 000 $ à 900 000 $ après le lancement de GPT-4o
soit la plus forte hausse depuis le lancement de l'application

GPT-4o favorise une hausse importante des revenus tirés par OpenAI de l'application mobile ChatGPT. Des données publiées par Appfigures indiquent que les revenus nets de l'application mobile ChatGPT ont d'abord bondi de 22 % le jour du lancement de GPT-4o et ont continué à croître les jours suivants. Le mardi 14 mai, les recettes nettes quotidiennes ont atteint 900 000 $, soit près du double de la moyenne quotidienne de l'application, qui est de 491 000 $. Le montant des revenus nets est calculé après que Google et Apple ont prélevé leur commission. Les recettes nettes de ChatGPT ont atteint 4,2 millions de dollars la semaine dernière, du lundi au vendredi.

OpenAI a lancé GPT-4o lundi dernier. Ce grand modèle de langage (LLM) est capable de traiter du texte, de la parole et de la vidéo avec une réactivité en temps réel et plusieurs options de voix émotives, ce qui le rend encore plus puissant que les versions précédentes. OpenAI a annoncé que GPT-4o serait disponible gratuitement sur le Web, mais pas pour les utilisateurs de l'application mobile ChatGPT. Les utilisateurs de l'application sont invités à en faire l'expérience en activant "ChatGPT Plus", un abonnement mensuel de 19,99 $. De façon surprenante, cette stratégie a stimulé la demande d'abonnements sur mobile.

Nom : 125634.png
Affichages : 13473
Taille : 138,9 Ko

L'augmentation du nombre d'abonnements a permis à OpenAI d'enregistrer sa plus forte hausse de revenus avec l'application mobile ChatGPT. Appfigures, une société d'intelligence applicative, a relevé une croissance de 22 % des revenus nets de l'application mobile ChatGPT le jour du lancement de GPT-4o, soit le lundi 13 mai 2024. En se basant sur les données à sa disposition, Appfigures affirme que cette croissance de 22 % représente déjà le revenu le plus élevé que l'application ait connu en une seule journée depuis le lancement de l'application mobile. Toutefois, les conséquences positives ne s'arrêtent pas là.

Le jour qui a suivi le lancement de GPT-4o, les revenus ont encore augmenté, atteignant presque le double de la moyenne journalière du mois de mai. Plus précisément, Appfigures indique que les revenus nets liés à l'application mobile ChatGPT sont passés d'une moyenne quotidienne de 491 000 $ à près de 900 000 $. Appfigures insiste sur le fait qu'il s'agit bien ici de revenus nets, c'est-à-dire de ce qu'OpenAI conserve après avoir donné sa part à Apple et à Google. Et il ne s'agit pas d'un pic ponctuel. Dans son rapport, Appfigures affirme que ses récentes observations montrent que la tendance se maintient, voire s'accentue.

Selon les estimations d'Appfigures, entre le lundi 13 et le vendredi 17 mai 2024, l'application mobile ChatGPT a permis à OpenAI d'engranger un total de 4,2 millions de dollars de revenus nets sur l'App Store et Google Play (mais surtout sur l'App Store). Avant cela, le deuxième pic le plus important de ChatGPT avait eu lieu en avril, mais il était beaucoup moins important : il s'agissait simplement d'un jour où les revenus étaient anormalement élevés, et non d'un saut massif. La croissance des revenus montre l'intérêt des clients à expérimenter l'IA sur leurs appareils mobiles, et les experts pensent que la tendance va se poursuivre.

Comme souligné ci-dessus, l'App Store d'Apple a contribué à la majorité des nouveaux revenus, à hauteur de 81 %, et les États-Unis ont été le premier marché, avec 1,8 million de dollars de revenus. Les autres pays les plus importants sont l'Allemagne (282 000 $), le Royaume-Uni (212 000 $), le Japon (210 000 $), la France (147 000 $), le Canada (134 000 $), la Corée (123 000 $), le Brésil (117 000 $), l'Australie (102 000 $) et la Turquie (89 000 $). OpenAI semble avoir repris le dessus sur ses concurrents, notamment Anthropic et Google, avec le lancement de GPT-4o, qui bat des records sur les différents benchmarks.

Au fur et à mesure qu'OpenAI intègre GPT-4o dans ChatGPT, la voix deviendra plus importante. La nouvelle interface conversationnelle permettra aux utilisateurs de discuter en temps réel avec une IA à la voix naturelle et imitant les émotions humaines. Toutefois, la subtilité émotionnelle accrue de ChatGPT Voice soulève des inquiétudes quant aux abus ou aux contrefaçons profondes. Les analystes accusent OpenAI de chercher à vendre son nouveau chatbot comme un compagnon féminin coquet et obéissant, notamment en raison de sa voix qui ressemble étrangement à la voix de l'actrice Scarlett Johansson dans le film "Her".

Dans ce film de 2013, Scarlett Johansson incarne un système doté d'une IA "superintelligente" qui s'éprend d'un écrivain solitaire, joué par Joaquin Phoenix. De nombreux experts et critiques craignent que ce type de technologie exploite les vulnérabilités humaines et renforce certains de nos pires instincts en tant que société. En outre, ils mettent en garde contre ces outils d'IA et affirment qu'ils constituent un remède inadéquat contre la solitude. OpenAI reconnaît ces préoccupations et s'engage à traiter ces questions au fur et à mesure qu'il développe et améliore sa technologie d'IA.

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous de la hausse des revenus issus de l'application mobile ChatGPT ?

Voir aussi

GPT-4o : OpenAI vend son nouveau chatbot comme un compagnon féminin coquet et obéissant, d'apres Zeeshan Aleem qui se demande si développer ce type de techno ne va pas exploiter les vulnérabilités humaines

GPT-4o a atteint une précision de 54 % sur CodeContests avec AlphaCodium, contre 48 % pour GPT-4T, AlphaCodium décompose un problème de programmation compétitif en étapes simples sur un flux LLM automatisé

OpenAI suspend la voix de ChatGPT qui ressemble à celle de Scarlett Johansson dans 'Her' et déclare : L'IA "ne devrait pas délibérément imiter la voix distinctive d'une célébrité"

**Jade Emy** · 20/05/2024, 21h10

OpenAI suspend la voix de ChatGPT qui ressemble à celle de Scarlett Johansson dans 'Her' et déclare : L'IA "ne devrait pas délibérément imiter la voix distinctive d'une célébrité".

OpenAI suspend la voix de ChatGPT qui ressemble à celle de Scarlett Johansson dans "Her". L'IA "ne devrait pas imiter délibérément la voix distinctive d'une célébrité".

ChatGPT est un chatbot développé par OpenAI et lancé le 30 novembre 2022. Basé sur de grands modèles de langage (LLM), il permet aux utilisateurs d'affiner et d'orienter une conversation vers une longueur, un format, un style, un niveau de détail et un langage souhaités. Les invites et réponses successives de l'utilisateur sont prises en compte à chaque étape de la conversation en tant que contexte.

ChatGPT est construit sur la série propriétaire de modèles de transformateurs génératifs pré-entraînés (GPT) d'OpenAI et est affiné pour les applications conversationnelles en utilisant une combinaison d'apprentissage supervisé et d'apprentissage par renforcement à partir du feedback humain. ChatGPT a été publié en tant qu'aperçu de recherche disponible gratuitement, mais en raison de sa popularité, OpenAI exploite maintenant le service sur un modèle freemium. Les utilisateurs du niveau gratuit peuvent accéder à la version basée sur le GPT-3.5, tandis que le GPT-4 plus avancé et d'autres fonctionnalités sont disponibles dans le cadre du service d'abonnement payant "ChatGPT Plus".

Après que de nombreuses personnes ont remarqué que l'une des voix du chatbot à commande vocale d'OpenAI ressemblait beaucoup à celle de la compagne IA désincarnée de Scarlett Johansson dans le film "Her" de Spike Jonze (2013), l'entreprise a suspendu cette voix pour le moment.

La voix de Johansson, appelée Sky, faisait partie de la version GPT-4o d'OpenAI, lancée la semaine dernière. Le chatbot IA mis à jour peut répondre aux questions verbales des utilisateurs afin d'imiter une conversation en temps réel. Le lien avec "Her" a été explicitement établi par le PDG d'OpenAI, Sam Altman, qui, après l'événement, a partagé sur X un message d'un seul mot : "her".

Dans un communiqué, la société a déclaré : "Nous pensons que les voix de l'IA ne doivent pas délibérément imiter la voix distinctive d'une célébrité - la voix de Sky n'est pas une imitation de Scarlett Johansson mais appartient à une actrice professionnelle différente qui utilise sa propre voix naturelle." OpenAI a déclaré : "Pour protéger leur vie privée, nous ne pouvons pas partager les noms de nos chanteurs."

"Nous avons entendu des questions sur la manière dont nous avons choisi les voix dans ChatGPT, en particulier celle de Sky", a déclaré OpenAI. "Nous nous efforçons de mettre en pause l'utilisation de Sky pendant que nous répondons à ces questions.

We’ve heard questions about how we chose the voices in ChatGPT, especially Sky. We are working to pause the use of Sky while we address them.

Read more about how we chose these voices: https://t.co/R8wwZjU36L
— OpenAI (@OpenAI) May 20, 2024

La voix ChatGPT de Johansson a fait l'objet d'une blague aux dépens de son mari, Colin Jost, lors de l'émission "Saturday Night Live" de ce week-end. Le gag a été écrit par Michael Che, le coanimateur de Jost à l'émission "Weekend Update", dans le cadre de leur segment annuel d'échange de blagues, dont l'objectif est de se faire mutuellement des farces avec des répliques croustillantes. ChatGPT a lancé une nouvelle fonction d'assistant vocal inspirée du personnage IA de Scarlett Johansson dans "Her", que je n'ai jamais pris la peine de regarder parce que sans ce corps, quel est l'intérêt d'écouter ? Jost a lu une carte de repérage avant de se dissoudre dans un rire embarrassé.

Altman a déclaré dans une interview l'année dernière que "Her" était son film préféré. Dans ce film, Joaquin Phoenix joue le rôle d'un homme qui, le cœur brisé après la fin de son mariage, tombe amoureux d'un nouveau "système d'exploitation" d'IA appelé Samantha (interprétée par Johansson).

Il n'est pas clair si OpenAI a été en contact avec Johansson ou ses représentants au sujet de la voix similaire de Sky. Dans son communiqué, OpenAI a déclaré : "Nous soutenons la communauté créative et nous avons travaillé en étroite collaboration avec l'industrie de l'interprétation vocale pour nous assurer que nous avons pris les bonnes mesures pour distribuer les voix de ChatGPT. Chaque acteur reçoit une rémunération supérieure à celle du marché, et cela continuera aussi longtemps que leurs voix seront utilisées dans nos produits".

OpenAI a introduit pour la première fois des capacités vocales dans ChatGPT en septembre 2023. La société a déclaré qu'elle "s'est associée à des directeurs de casting et des producteurs primés pour créer les critères relatifs aux voix" et qu'elle a reçu plus de 400 propositions d'acteurs de la voix et de l'écran. Elle a choisi des acteurs pour cinq voix (Breeze, Cove, Ember, Juniper et Sky), et chaque acteur s'est rendu à San Francisco pour des sessions d'enregistrement.

@alex_conneau: came up with the vision of HER before anyone at OpenAI had, and executed relentlessly!@gabeeegoooh @__ishaan: all the scaling laws work needed so that when all these modalities come together we’re great at everything!
— Prafulla Dhariwal (@prafdhar) May 15, 2024

Suite au retrait de cette voix, de très nombreux utilisateurs du service se sont plaint car la nouvelle voix de remplacement leur plait beaucoup moins, et une pétition a été lancé sur le net pour son retour.

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi :

GPT-4o a atteint une précision de 54 % sur CodeContests avec AlphaCodium, contre 48 % pour GPT-4T. AlphaCodium décompose un problème de programmation compétitif en étapes simples sur un flux LLM automatisé

OpenAI lance GPT-4o, un modèle plus rapide et gratuit pour tous les utilisateurs de ChatGPT. L'entreprise fait une démo de son modèle qui « représente l'avenir de l'interaction entre nous et les machines »

GPT-4o : OpenAI vend son nouveau chatbot comme un compagnon féminin coquet et obéissant, d'apres Zeeshan Aleem, qui se demande si développer ce type de techno ne va pas exploiter les vulnérabilités humaines

**Patrick Ruiz** · 21/05/2024, 08h52

Scarlett Johansson refuse la proposition d’OpenAI d’utiliser sa voix pour l’intelligence artificielle mais l’entreprise s’en sert quand même,
« J’ai été choquée », déclare l’actrice

OpenAI a contacté Scarlett Johansson. L’objectif : utiliser sa voix pour son dernier modèle d’intelligence artificielle dénommé GPT-4o. Scarlett Johansson vient de faire une déclaration sur la copie de sa voix par OpenAI après son refus de coopérer dans le sens de la prêter à l’entreprise dirigée par Sam Altman. La nouvelle tombe dans un contexte de protestations contre l’utilisation de l’intelligence artificielle dans la création musicale et cinématographique.

La déclaration de l'actrice indique que le PDG d'OpenAI, Sam Altman, voulait engager Johansson l'année dernière pour prêter sa voix au modèle d'IA ChatGPT-4o, ajoutant que l'actrice a décliné l'offre après mûre réflexion et pour des raisons personnelles. Y faisant suite, des démonstrations du modèle d’IA dénommé Sky, à la voix similaire à celle de l’actrice ont fait l’objet de fuite. « Lorsque j'ai appris pour la démo, j'ai été choquée, irritée à l'idée que Sam Altman puisse utiliser une voix si similaire à la mienne que mes amis les plus proches et les médias n'ont pas pu faire la différence. J'ai été obligée d'engager un conseiller juridique qui a écrit deux lettres à Sam Altman pour demander à OpenAI d'expliquer en détail comment elle avait créé la voix de Sky », souligne-t-elle.

Statement from Scarlett Johansson on the OpenAI situation. Wow: pic.twitter.com/8ibMeLfqP8
— Bobby Allyn (@BobbyAllyn) May 20, 2024

En réponse, OpenAI a fait part de ses efforts dans le but d'arrêter d'utiliser Sky en précisant dans un communiqué que cette voix n'est pas une imitation de celle de Johansson car elle appartient en fait à une autre actrice professionnelle que la société n'a pas nommée pour protéger sa vie privée.

Just received this statement from OpenAI CEO Sam Altman about the Scarlett Johansson voice controversy. pic.twitter.com/doMadaTsY0
— Hayden Field (@haydenfield) May 21, 2024

Johansson appelle donc à l'adoption d'une législation pour protéger les individus contre l'appropriation illicite de leur nom ou de leur image. « À une époque où nous sommes tous confrontés aux "deepfakes" et à la protection de notre propre image, de notre propre travail, de notre propre identité, je pense que ces questions méritent une clarté absolue. J'attends avec impatience l'adoption d'une législation appropriée pour aider à garantir la protection des droits individuels », déclare-t-elle.

Les relations entre intelligence artificielle, acteurs et artistes sont de plus en plus houleuses

Des artistes musicaux de renom, dont Pearl Jam, Nicki Minaj et Billie Eilish, se sont joints à plus de 200 autres dans une lettre ouverte de l'Alliance des droits des artistes, critiquant l'utilisation de l'intelligence artificielle (IA) dans la création musicale. Cette lettre appelle à mettre fin à l'utilisation de l'intelligence artificielle qui porte atteinte aux droits des artistes humains, dénonçant ainsi une menace existentielle pour leur art. La protestation contre l'IA générative s'étend désormais à divers domaines créatifs, y compris la musique, en raison de préoccupations concernant la violation des droits d'auteur et la dévalorisation du travail artistique.

L'alliance, qui est dirigée par des vétérans de l'industrie, a déclaré dans la lettre qu'elle pense que l'IA a un « énorme potentiel » pour faire progresser la créativité humaine d'une manière qui pourrait créer des expériences nouvelles et passionnantes pour les fans, mais qu'elle devrait être utilisée de manière responsable. Ses préoccupations portent sur l'atteinte à la vie privée des artistes, l'utilisation de leur identité sans leur consentement et l'utilisation de leur musique pour entraîner des modèles d'IA. « Certaines des entreprises les plus grandes et les plus puissantes utilisent, sans autorisation, notre travail pour former des modèles d'IA », peut-on lire dans la lettre.

Ces efforts visent directement à remplacer le travail des artistes humains par des quantités massives de « sons » et d'« images » créés par l'IA, qui diluent considérablement les droits d'auteur versés aux artistes. L'alliance demande aux développeurs, aux entreprises technologiques et aux plateformes proposant de la musique en ligne de s'engager à ne pas développer ou déployer d'outils ou de contenus de génération de musique par l'IA qui « saperaient ou remplaceraient le travail artistique humain des auteurs-compositeurs et des artistes, ou nous priveraient d'une juste rémunération pour notre travail ».

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi :

Deux musiciens utilisent un algorithme pour générer toutes les combinaisons possibles de mélodies et les mettent sous licence CC0, afin de mettre fin à des poursuites en matière de droits d'auteur

La dernière chanson des Beatles, "Now and Then", avec les quatre membres et l'IA, est sortie, le morceau comprend la voix de John Lennon et la guitare de George Harrison

La maison de disque Capitol Records est contraint d'abandonner son rappeur virtuel, FN Meka, créé par une intelligence artificielle, suite à des réactions négatives dues à des "stéréotypes grossiers"

**Anthony** · 21/05/2024, 10h45

Comment les voix de ChatGPT ont été choisies : OpenAI a travaillé avec des professionnels du casting et de la réalisation de premier plan pour réduire plus de 400 candidatures avant de sélectionner les 5 voix

Le mode vocal est l'une des fonctions les plus appréciées de ChatGPT. Chacune des cinq voix distinctes que vous entendez a été soigneusement sélectionnée au cours d'un processus de cinq mois impliquant des acteurs vocaux professionnels, des agences de talents, des directeurs de casting et des conseillers de l'industrie. OpenAI en dit plus sur la façon dont les voix ont été choisies.

En septembre 2023, OpenAI a introduit des capacités vocales pour donner aux utilisateurs un autre moyen d'interagir avec ChatGPT. Depuis, elle est encouragée par la façon dont les utilisateurs ont réagi à la fonctionnalité et aux voix individuelles. Chacune des voix - Breeze, Cove, Ember, Juniper et Sky - est échantillonnée à partir d'acteurs vocaux avec lesquels OpenAI s'est associée pour les créer.

OpenAI soutient la communauté créative et collabore avec l'industrie de l'interprétation vocale

OpenAI soutient la communauté créative et a collaboré étroitement avec l'industrie de l'interprétation vocale afin de s'assurer qu'elle a pris les bonnes mesures pour distribuer les voix de ChatGPT. Chaque acteur reçoit une rémunération supérieure aux taux les plus élevés du marché, et cela continuera tant que leurs voix seront utilisées dans les produits d'OpenAI.

L'entreprise estime que les voix d'IA ne doivent pas délibérément imiter la voix distinctive d'une célébrité - la voix de Sky n'est pas une imitation de Scarlett Johansson, mais appartient à une actrice professionnelle différente qui utilise sa propre voix naturelle. Pour protéger leur vie privée, OpenAI ne peut pas divulguer les noms de ses talents vocaux.

OpenAI s'est associé à des directeurs de casting et des producteurs primés pour créer les critères des voix

Début 2023, pour identifier ses acteurs vocaux, OpenAI a eu le privilège de s'associer à des directeurs de casting et des producteurs indépendants, réputés et primés. OpenAI a travaillé avec eux pour créer un ensemble de critères pour les voix de ChatGPT, en prenant soigneusement en compte la personnalité unique de chaque voix et leur attrait pour le public mondial.

Voici quelques-unes de ces caractéristiques :

Des acteurs d'origines diverses ou capables de parler plusieurs langues.
Une voix qui semble intemporelle
Une voix accessible qui inspire la confiance
Une voix chaleureuse, engageante, inspirant la confiance, charismatique, avec un ton riche.
Une voix naturelle et facile à écouter

OpenAI a reçu plus de 400 candidatures d'acteurs de la voix et de l'écran

En mai 2023, l'agence de casting et les directeurs de casting d'OpenAI ont lancé un appel à talents. En moins d'une semaine, ils ont reçu plus de 400 candidatures d'acteurs et de comédiens. Pour l'audition, les acteurs ont reçu un script de réponses ChatGPT et ont été invités à les enregistrer. Ces échantillons allaient de la réponse à des questions sur la pleine conscience au brainstorming sur des projets de voyage, en passant par des conversations sur la journée d'un utilisateur.

OpenAI a sélectionné cinq voix finales et a discuté avec les acteurs de sa vision des interactions homme-IA et des objectifs du mode vocal

Jusqu'en mai 2023, l'équipe de casting a examiné et sélectionné de manière indépendante une liste initiale de 14 acteurs. Ils ont encore affiné leur liste avant de présenter à OpenAI leurs meilleures voix pour le projet.

OpenAI a parlé avec chaque acteur de la vision des interactions vocales entre l'homme et l'IA et d'OpenAI, et a discuté des capacités de la technologie, de ses limites et des risques encourus, ainsi que des mesures de protection qu'elle a mises en œuvre. Il était important pour OpenAI que chaque acteur comprenne la portée et les intentions de Voice Mode avant de s'engager dans le projet.

Une équipe interne à OpenAI a examiné les voix du point de vue du produit et de la recherche, et après un examen approfondi, les voix de Breeze, Cove, Ember, Juniper et Sky ont finalement été sélectionnées.

Chaque acteur s'est rendu à San Francisco pour des sessions d'enregistrement et leurs voix ont été lancées dans ChatGPT en septembre 2023

En juin et juillet, OpenAI a envoyé les acteurs en avion à San Francisco pour des sessions d'enregistrement et des réunions en personne avec les équipes de produits et de recherche d'OpenAI.

Le 25 septembre 2023, OpenAI a lancé leurs voix dans ChatGPT.

L'ensemble de ce processus a nécessité une coordination poussée avec les acteurs et l'équipe de casting, sur une période de cinq mois. OpenAI continue de collaborer avec les acteurs, qui ont contribué à un travail supplémentaire pour la recherche audio et les nouvelles capacités vocales dans GPT-4o.

Nouveau mode vocal pour les utilisateurs payants de GPT-4o et ajout de nouvelles voix

OpenAI prévoit de donner accès à un nouveau mode vocal pour GPT-4o en alpha aux utilisateurs de ChatGPT Plus dans les semaines à venir. Avec GPT-4o, l'utilisation de la voix de l'utilisateur pour interagir avec ChatGPT est beaucoup plus naturelle. GPT-4o gère les interruptions en douceur, gère efficacement les conversations de groupe, filtre les bruits de fond et s'adapte au ton.

À l'avenir, les clients d'OpenAI peuvent s'attendre à encore plus d'options, car l'entreprise prévoit d'introduire d'autres voix dans ChatGPT afin de mieux correspondre aux divers intérêts et préférences des utilisateurs.

Mais que s'est il passé en vrai ?

OpenAI a contacté Scarlett Johansson. L’objectif : utiliser sa voix pour son dernier modèle d’intelligence artificielle dénommé GPT-4o. Scarlett Johansson vient de faire une déclaration sur la copie de sa voix par OpenAI après son refus de coopérer dans le sens de la prêter à l’entreprise dirigée par Sam Altman. La nouvelle tombe dans un contexte de protestations contre l’utilisation de l’intelligence artificielle dans la création musicale et cinématographique. Scarlett Johansson refuse la proposition d'OpenAI d'utiliser sa voix pour l'intelligence artificielle mais l'entreprise s'en sert quand même « J'ai été choquée », déclare l'actrice.

Source : OpenAI

Et vous ?

Quel est votre avis sur le sujet ?

Pensez-vous qu'il ne faut pas accorder une confiance aveugle dans les déclarations officielles d'OpenAI ?

Voir aussi :

GPT-4o a atteint une précision de 54 % sur CodeContests avec AlphaCodium, contre 48 % pour GPT-4T, AlphaCodium décompose un problème de programmation compétitif en étapes simples sur un flux LLM automatisé

GPT-4o arrive en tête du classement des modèles d'IA les plus performants de LMSYS Chatbot Arena avec un score Elo de 1 289, surpassant ainsi Gemini Pro 1.5 de Google et Claude 3 Opus d'Anthropic

Percée de la mémoire de GPT-4o, bien meilleure que celle de GPT-4 Turbo, sur un nouveau benchmark, qui mesure l'attention portée par les LLM à l'information contenue dans leur fenêtre contextuelle

**Eye_Py_Ros** · 21/05/2024, 13h49

concernant le mauvais coté de l'IA. Nous risquons une crise identitaire.
La réplication, l'imitation en masse et le non respect de nos identités, risque de mettre à mal la société, une "crise de l'identité" ou les personnes seraient de moins en moins respecté.
Et dont le capitalisme userait, serait plus "violent" en ne respectant plus l'individu car copiable grâce à un genre de photocopieuse magique.

**Jade Emy** · Hier, 08h40

Le syndicat des acteurs soutient Scarlett Johansson après avoir affirmé que sa voix avait été utilisée à mauvais escient par OpenAI, alors qu'elle avait précédemment refusé que l'entreprise utilise sa voix.

Le syndicat des acteurs soutient Scarlett Johansson après qu'elle ait dénoncé l'utilisation abusive de sa voix par OpenAI.

GPT-4o (GPT-4 Omni) est un transformateur génératif pré-entraîné multilingue et multimodal conçu par OpenAI. GPT-4o est gratuit, mais avec une limite d'utilisation 5 fois plus élevée pour les abonnés de ChatGPT Plus. Il peut traiter et générer du texte, des images et de l'audio. Son API est deux fois plus rapide et deux fois moins chère que celle de son prédécesseur, GPT-4 Turbo.

SAG-AFTRA, un organisme influent représentant les artistes de la télévision et de la radio, a soutenu Scarlett Johansson après que l'actrice américaine a fait part de ses inquiétudes concernant la fonction vocale d'un nouveau système d'OpenAI qui, selon elle, ressemble étrangement à la sienne.

OpenAI a dévoilé son dernier modèle d'intelligence artificielle, GPT-4o, qui met en scène un personnage interagissant avec le son, nommé "Sky". Johansson a déclaré quelque jours plus tard qu'elle avait précédemment refusé une demande de l'entreprise d'utiliser sa voix pour ce système. Le PDG d'OpenAI, Sam Altman, a précisé que la voix appartenait à une autre actrice professionnelle et a déclaré qu'il retirait la voix de Sky des produits de l'entreprise.

"Nous remercions Mme Johansson de s'être exprimée sur cette question d'une importance cruciale pour tous les membres de SAG-AFTRA. Nous partageons ses préoccupations et soutenons pleinement son droit à la clarté et à la transparence concernant la voix utilisée", a déclaré un porte-parole de la SAG-AFTRA.

La SAG-AFTRA, qui représente environ 160 000 professionnels du divertissement et des médias dans le monde, a joué un rôle important dans l'obtention d'accords avec les studios hollywoodiens pour une meilleure rémunération et des protections contre l'utilisation de l'IA pour les acteurs.

Le conflit concernant les droits sur les voix et les images des acteurs est devenu un point central à Hollywood, car les studios évaluent le potentiel de l'IA pour créer de nouveaux divertissements. La question est d'autant plus pertinente que les images et les sons générés par ordinateur deviennent de plus en plus impossibles à distinguer des images et des sons humains.

La SAG-AFTRA a déclaré qu'elle "défendait fermement une législation fédérale qui protégerait leurs voix et leurs images" et qu'elle continuerait à collaborer avec OpenAI et d'autres parties prenantes "pour garantir des protections transparentes et solides pour nous tous".

Nom : 1.jpg
Affichages : 2700
Taille : 10,5 Ko

Voici la déclaration du porte parole de la SAG-AFTRA :

"Nous remercions Mme Johansson de s'être exprimée sur cette question d'une importance cruciale pour tous les membres de SAG-AFTRA. Nous partageons ses inquiétudes et soutenons pleinement son droit à la clarté et à la transparence concernant la voix utilisée dans le développement de l'appareil Chat GPT-4o 'Sky'.

"Les membres de SAG-AFTRA comptent parmi les personnes les plus talentueuses et souvent les plus reconnaissables de la planète. C'est pourquoi nous défendons fermement une législation fédérale qui protégerait leurs voix et leurs ressemblances - et celles de tous les autres - contre les reproductions numériques non autorisées.

"Nous sommes heureux qu'Open AI ait répondu à ces préoccupations et mis en pause leur utilisation de 'Sky', et nous sommes impatients de travailler avec eux et d'autres parties prenantes de l'industrie pour consacrer des protections transparentes et résilientes pour nous tous."

Source : SAG-AFTRA

Et vous ?

Quel est votre avis sur cette affaire ?

Voir aussi :

Scarlett Johansson refuse la proposition d'OpenAI d'utiliser sa voix pour l'intelligence artificielle mais l'entreprise s'en sert quand même. « J'ai été choquée », déclare l'actrice

OpenAI suspend la voix de ChatGPT qui ressemble à celle de Scarlett Johansson dans 'Her' et déclare : L'IA "ne devrait pas délibérément imiter la voix distinctive d'une célébrité"

Scarlett Johansson intente une action en justice contre une application d'IA qui a cloné sa voix. Une version de sa voix générée par IA est apparue dans une publicité en ligne sans son consentement

**Mathis Lucas** · Aujourd'hui, 15h33

Des avocats disent qu'OpenAI pourrait avoir de vrais problèmes juridiques après que ChatGPT a imité la voix de l'actrice Scarlett Johansson
elle pourrait prétendre qu'OpenAI a violé son droit à la publicité

OpenAI se retrouve dans la tourmente après avoir intégré à ChatGPT un assistant vocal dont la voix est étrangement similaire à celle de l'actrice Scarlett Johansson. Les professionnels du droit affirment qu'OpenAI pourrait subir de graves conséquences juridiques si l'actrice décidait de poursuivre pour utilisation non autorisée de sa voix distinctive. D'après les experts, la jurisprudence soutient la position de l'actrice et elle pourrait prétendre que l'entreprise a violé son droit à la publicité. L'affaire pourrait porter un coup dur à OpenAI, qui est prêt à tout pour aspirer l'ensemble de l'Internet et y amalgamer tout le corpus de la créativité humaine.

La semaine dernière, OpenAI a lancé avec d'enthousiasme GPT-4o, son modèle d'IA le plus puissant à ce jour. Mais l'entreprise était loin de s'imaginer que ce lancement allait très vite se transformer en cauchemar. GPT-4o prend en charge des invites sous forme de texte, d'audio, d'images et de vidéo. Le modèle introduit également un assistant vocal qu'OpenAI a commencé à intégrer à son chatbot ChatGPT. Le problème est que la voix de l'assistant, appelé Sky, ressemble beaucoup à celle de l'actrice Scarlett Johansson. Sky rappelle notamment la performance de Johansson dans le film de science-fiction Her paru en 2023.

Dans ce film, elle joue un chatbot d'IA nommé Samantha qui tombe amoureux d'un homme solitaire. OpenAI venait-il d'imiter son rôle et sa voix ? Officiellement, OpenAI a répondu par la négative. Mais Johansson a lâché une bombe ensuite : les dirigeants de l'entreprise avaient en fait demandé la permission d'utiliser sa voix l'année dernière. Elle a dit non. OpenAI a réitéré sa demande seulement deux jours avant le lancement de Sky. Johansson affirme avoir dit non. Mais ils l'ont fait quand même fait. Pire encore, le PDG d'OpenAI, Sam Altman, a lui-même fait référence à ces similitudes dans un billet publié sur X.

Selon des spécialistes en propriété intellectuelle, cela ne fait qu'aggraver la situation. Ils estiment qu'OpenAI pourrait subir des conséquences juridiques pour avoir créé une voix qui ressemble beaucoup à celle de Johansson, que l'entreprise l'ait fait intentionnellement ou non. Johansson s'est dite choquée par ce comportement, mais l'on ignore si elle envisage de poursuivre OpenAI en justice. « Il y a quelques actions qu'elle peut entreprendre. Mais la jurisprudence soutient sa position », a déclaré Purvi Patel Albers, partenaire du cabinet d'avocats Haynes Boone, expert en matière de marque et de droit d'auteur.

Selon l'expert juridique, Johansson et d'autres célébrités peuvent invoquer les lois sur le droit à l'image, qui protègent les caractéristiques d'identification d'une personne contre l'utilisation sans son autorisation. « Si vous détournez le nom, l'image ou la voix d'une personne, vous risquez de violer son droit à l'image », affirme Albers. De plus, Ryan Calo, professeur de droit à l'université de Washington, a été plus direct : « il s'agit d'un cas très solide d'appropriation de l'image ». James Grimmelmann, professeur de droit numérique et de droit de l'Internet à l'université Cornell, et plusieurs autres experts juridiques partagent cet avis.

« Vous ne pouvez pas imiter la voix distinctive de quelqu'un d'autre pour vendre des produits », a déclaré Grimmelmann. Il existe des précédents d'actions en justice intentées par des célébrités pour appropriation de leur image avant l'avènement de l'IA. Un exemple notable est celui du chanteur Tom Waits. Il avait poursuivi avec succès la marque de chips Doritos pour avoir utilisé un imitateur dans une publicité radiophonique qui imitait sa voix distincte, profonde et rauque. La chanteuse et actrice Bette Midler a poursuivi le constructeur automobile Ford pour avoir fait appel à un tiers pour qu'il l'imite dans une publicité.

Bette Midler avait refusé l'offre de l'entreprise de jouer elle-même dans la publicité. Les deux affaires, portées devant les tribunaux californiens, ont été tranchées en faveur des célébrités. « Les victoires de Midler et de Waits "ont des implications claires pour les clones vocaux de l'IA », déclare Christian Mammen, avocat spécialisé dans le droit de la propriété intellectuelle. Bien sûr, les choses ne se passent pas toujours comme prévu. Lindsay Lohan a tristement tenté de poursuivre Rockstar Games parce qu'elle prétendait qu'un personnage de GTA 5 était son portrait craché ; et elle a perdu. Elle n'a pas su prouver ses allégations.

Toutefois, selon les experts juridiques, l'affaire Johannson semble avoir beaucoup plus de poids. « Ce qui importe avant tout, c'est de savoir s'ils ont essayé de faire en sorte que cela ressemble à ScarJo [Scarlett Johansson ]. La preuve qu'ils l'ont fait est très solide », explique Calo. Les raisons pour lesquelles Altman a voulu recontacter Johansson si peu de temps avant la présentation n'est pas claire. Mais selon des experts juridiques, il est probable qu'Altman et OpenAI étaient conscients de la ressemblance entre les deux voix et savaient qu'ils risquaient d'avoir des ennuis, mais ont publié Sky pour essayer de forcer les choses.

Pour certains avocats, le message posté par Altman sur X peu après le lancement de Sky est un élément important qui pourrait être utilisé pour démontrer que l'entreprise a tenté d'obtenir une voix similaire à celle de Johansson. Altman est un véritable fanboy de Her, qu'il considère comme l'un de ses films de science-fiction préférés. Le jour de la mise à jour de ChatGPT, il a posté sur X le seul mot "her", qui est presque certainement un lien avec le film. Il s'agit peut-être d'une erreur légendaire. Mais dans sa déclaration, Johannson a déclaré que le message posté par Altman ce jour-là indique que la similitude est intentionnelle.

Pour rappel, Johannson était suffisamment déterminée pour poursuivre Disney avec succès dans un passé pas si lointain. L'affaire était en rapport avec sa performance dans le film Black Widow, mais les deux parties ont trouvé un accord. Johansson n'a pas encore décidé de poursuivre OpenAI, mais elle a déclaré avoir engagé un conseiller juridique pour rédiger des lettres à l'intention d'OpenAI afin de demander des explications sur la manière dont la voix de Sky a été créée. OpenAI réfute les allégations selon lesquelles il aurait copié la voix de l'actrice.

OpenAI affirme qu'il n'avait pas l'intention de faire ressembler la voix de Sky à celle de Johansson, mais cela ne protège pas nécessairement l'entreprise. Selon Albers, même si OpenAI n'a pas explicitement mentionné Johansson, les consommateurs soulignaient déjà les similitudes. À tout cela, s'ajoute le commentaire d'Altman sur X. Selon Albers, cela pourrait alimenter l'opinion du public selon laquelle la voix est censée imiter celle de Johansson. OpenAI a retiré la voix de Sky pour le moment, ce qui pourrait apaiser les inquiétudes de Johansson.

Mais Albers estime qu'OpenAI pourrait attiser l'ire de Johansson si la voix de Sky était réintégrée et qu'elle ressemblait toujours à celle de l'acteur. « La question que nous devons nous poser est la suivante : pourquoi OpenAI a-t-elle fait cela ? Johansson est connue pour défendre ses droits, elle n'hésitera donc pas à aller à l'encontre de ces derniers », déclare Albers. Certains critiques affirment qu'OpenAI voulait s'affranchir des lois et s'octroyer le droit de copier les voix des acteurs comme l'entreprise l'avait fait auparavant avec les artistes et les auteurs.

OpenAI ne s'attendait pas à ce que la situation prenne une tournure aussi critique. Altman a déclaré que le fait que la voix soit maintenant suspendue est un geste de respect envers l'actrice. Il a ajouté que la voix a été enregistrée par OpenAI avant le premier contact avec Johansson. OpenAI affirme que les voix utilisées dans ChatGPT proviennent d'acteurs vocaux rémunérés. Cinq d'entre eux ont été sélectionnés à partir d'un groupe initial de 400 et c'est une pure coïncidence que l'actrice anonyme derrière la voix de Sky ait un ton similaire à celui de Johansson.

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des avis des professionnels du droit sur ce que risque OpenAI dans cette affaire ?

Pensez-vous qu'OpenAI a copié délibérément la voix de l'actrice Scarlett Johansson ? S'agit-il d'une pure coïncidence ?

Peut-on empêcher l'IA de copier les voix de personnes réelles alors qu'elle est formée sur des données vocales produites par des humains ?

Voir aussi

Sam Altman et OpenAI ont promis de consacrer 20 % de la puissance de calcul de l'entreprise à la lutte contre les formes d'IA malveillantes, mais n'ont jamais tenu cette promesse

OpenAI suspend la voix de ChatGPT qui ressemble à celle de Scarlett Johansson dans 'Her' et déclare : L'IA "ne devrait pas délibérément imiter la voix distinctive d'une célébrité"

Comment les voix de ChatGPT ont été choisies : OpenAI a travaillé avec des professionnels du casting et de la réalisation de premier plan pour réduire plus de 400 candidatures avant de sélectionner les 5 voix