IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Les nouveaux outils de clonage de voix par l'IA ajoutent "de l'huile sur le feu" de la désinformation


Sujet :

Intelligence artificielle

  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Dirigeant
    Inscrit en
    Juin 2016
    Messages
    3 160
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Dirigeant
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Juin 2016
    Messages : 3 160
    Points : 66 277
    Points
    66 277
    Par défaut Les nouveaux outils de clonage de voix par l'IA ajoutent "de l'huile sur le feu" de la désinformation
    Des membres de 4chan utilisent une IA de clonage vocal pour simuler des voix de célébrités débitant des propos racistes et homophobes
    obligeant le créateur à revoir les conditions d'accès à son IA

    La technologie gratuite de clonage de voix à l'aide de l'IA de la startup ElevenLabs a été utilisée par des trolls pour imiter la voix de célébrités. Le contenu des audios générés va des mèmes et de l'érotisme aux discours de haine virulents. L'IA d'ElevenLabs a été utilisée pour imiter les voix de célébrités comme Joe Rogan et Justin Roiland afin de prononcer des propos racistes et homophobes. Quelques heures après avoir ouvert l'accès à sa plateforme de clonage vocal, ElevenLabs déclare qu'elle devra peut-être repenser cette ouverture au vu du "nombre croissant de cas d'utilisation abusive du clonage vocal". Elle a déclaré qu'elle pourrait faire marche arrière.

    ElevenLabs, basée au Royaume-Uni, est une startup d'IA fondée en 2022 par Piotr Dabkowski, ancien ingénieur en apprentissage automatique (ML) chez Google, et Mati Staniszewski, ancien spécialiste en déploiement chez Palantir. L'entreprise propose un système d'IA permettant de cloner une voix humaine et lui faire dire ce que l'on veut. ElevenLabs a lancé son IA, baptisée Prime Voice, au début du mois, mais ce n'était qu'une question de temps avant qu'elle ne devienne un jouet pour les trolls sur Internet, notamment pour les membres du célèbre site 4chan, connu pour son manque de modération en ce qui concerne les discours de haine et racistes.

    Les membres de 4chan ont afflué vers la plateforme gratuite de synthèse vocale d'ElevenLabs, utilisant la technologie de l'entreprise pour cloner la voix de célébrités et lire des documents audio allant des mèmes et de l'érotisme aux discours de haine et à la désinformation. Ces imitations de voix par l'IA se sont rapidement améliorées au cours des dernières années, mais le logiciel d'ElevenLabs, qui semble avoir été ouvert à l'accès général au cours du week-end, offre une combinaison puissante de vitesse, de qualité et de disponibilité, ainsi qu'une absence totale de garanties. L'abus de l'IA d'ElevenLabs a été signalé pour la première fois par Motherboard.


    Les clips vocaux générés à l'aide de l'IA d'ElevenLabs et partagés sur 4chan semblaient imiter les voix de célébrités telles que Ben Sharpio, Emma Watson et Joe Rogan. Dans un exemple, une voix générée qui ressemble à celle d'Emma Watson lit une section de "Mein Kampf". Dans un autre, une voix très similaire à celle de Ben Sharpio fait des remarques racistes sur Alexandria Ocasio-Cortez. Dans un troisième, un autre utilisateur a pris une voix qui ressemble à "Rick Sanchez" de Justin Roiland dans Rick & Morty, disant qu'il allait battre sa femme, une référence évidente aux allégations actuelles de violence domestique contre le co-créateur de la série.

    Dans un autre exemple, une personne disant "les droits des personnes transgenres sont des droits de l'homme" se fait étrangler. Sur un fil de discussion 4chan, les utilisateurs ont posté des clips vocaux générés par l'IA pour répandre une misogynie ou une transphobie intense en utilisant les voix de personnages ou de narrateurs de divers dessins animés ou jeux vidéo. Tout cela pour dire que c'est exactement ce que l'on peut attendre de la part de certains internautes une fois qu'ils mettent la main sur une technologie d'imitation profonde facile à utiliser. Sur son site Web, ElevenLabs propose à la fois un logiciel de "synthèse vocale" et une IA de "clonage de voix".

    La plateforme d'ElevenLabs permet de cloner les voix des cibles en quelques secondes et générer des échantillons audio contenant tout, des menaces de violence aux expressions de racisme et de transphobie. ElevenLabs commercialise son logiciel comme un moyen de générer rapidement des doublages audio pour des médias tels que le cinéma, la télévision et YouTube. ElevenLabs est en effet l'une des nombreuses startups dans ce domaine, mais elle affirme que la qualité de ses voix nécessite peu d'édition, ce qui permet des applications telles que les doublages en temps réel dans des langues étrangères et la génération instantanée de livres audio.

    Les messages sur 4chan comprennent des guides sur la façon d'utiliser la technologie d'ElevenLabs, de trouver l'échantillon audio nécessaire pour entraîner un modèle et de contourner les limites de "crédit" de la société pour générer des échantillons audio. Typique de 4chan, le contenu créé par ses utilisateurs varie considérablement en matière de ton et d'intention, allant des discours de haine aux propos racistes. Dans un fil de discussion publié lundi sur Twitter, ElevenLabs a reconnu cet abus et a déclaré qu'elle explorait des moyens d'atténuer ces problèmes. « Un week-end de folie ! Merci à tous d'avoir essayé notre plateforme bêta », a écrit ElevenLabs.


    « Si nous constatons que notre technologie est très majoritairement appliquée à des fins positives, nous constatons également un nombre croissant de cas d'utilisation abusive du clonage vocal », note l'entreprise dans son message sur Twitter. Elle a ajouté que, bien qu'elle soit en mesure de remonter jusqu'à un utilisateur spécifique pour tout fichier audio généré, elle étudie d'autres mesures de protection, notamment la vérification de l'identité des utilisateurs et la vérification manuelle de chaque demande de clonage vocal. ElevenLabs demande également l'avis de la communauté sur d'éventuelles mesures qu'elle pourrait prendre pour éviter les abus.

    Les clips téléchargés sur 4chan ce week-end se concentrent sur des célébrités. Mais compte tenu de la grande qualité des voix générées et de la facilité apparente avec laquelle les gens les ont créées, ils soulignent le risque imminent des clips audio "deepfake". De la même manière que la vidéo deepfake a commencé comme une méthode permettant aux gens de créer de la pornographie non consensuelle de personnes spécifiques avant de se tourner vers d'autres cas d'utilisation, la trajectoire de l'audio deepfake ne fait que commencer. Les vidéos deepfake ont été utilisées pour harceler et intimider de nombreuses célébrités, mais aussi des particuliers.

    Dans le même temps, les deepfakes sont peu à peu adoptés par des entités commerciales et utilisés parallèlement aux techniques traditionnelles d'effet visuel au cinéma et à la télévision. Toutefois, il est difficile de prévoir la façon dont le clonage vocal par l'intermédiaire de l'IA sera utilisé à l'avenir. De nombreuses autres entreprises proposent leur propre outil de conversion texte-voix, mais si le système similaire VALL-E de Microsoft n'est toujours pas commercialisé, d'autres entreprises plus petites ont beaucoup moins hésité à rendre publics leurs outils de clonage vocal - parfois sans une analyse éthique profonde - ouvrant ainsi la voie à toute forme d'abus.

    Source : ElevenLabs

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous de la mésaventure de la startup d'ElevenLabs ?
    Que pensez-vous des systèmes d'IA permettant de cloner des voix cibles ?
    Selon vous, existe-t-il un besoin réel pour ces outils ? Si oui, lesquelles ?
    À votre avis, quelles mesures pourraient permettre de limiter les abus de ces logiciels ?
    Selon vous, quels impacts ces outils pourraient avoir sur la société ?

    Voir aussi

    VALL-E : l'IA de synthèse vocale de Microsoft peut imiter n'importe quelle voix avec seulement un échantillon de trois secondes, y compris les émotions et le ton d'un orateur

    OpenAI le créateur de ChatGPT entraîne son IA pour remplacer les programmeurs humains, d'après un rapport, qui ravive le débat sur la future disparition du métier de développeur

    La procureure générale de New York ouvre une enquête sur Twitch, 4chan et Discord après la fusillade de Buffalo, pour déterminer le rôle de chacun de ces réseaux sociaux dans l'incident

  2. #2
    Chroniqueur Actualités

    Homme Profil pro
    Dirigeant
    Inscrit en
    Juin 2016
    Messages
    3 160
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Dirigeant
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Juin 2016
    Messages : 3 160
    Points : 66 277
    Points
    66 277
    Par défaut Les nouveaux outils de clonage de voix par l'IA ajoutent "de l'huile sur le feu" de la désinformation
    Les nouveaux outils de clonage de voix par l'IA ajoutent "de l'huile sur le feu" de la désinformation
    une voix de Joe Biden générée par l'IA prononce un discours "hilarant" sur l'état de l'Union

    L'avènement rapide et soudain de l'IA générative fait craindre une escalade de la désinformation en ligne, notamment une nouvelle ère de deepfakes audio et vidéo "très convaincants". Un nouvel outil de clonage de voix a été utilisé récemment pour cloner la voix du président américain Joe Biden pour faire un discours "humoristique" sur l'état de l'Union. Une autre vidéo dans laquelle Joe Biden parle de chars a été trafiquée à l'aide du même outil pour donner l'impression qu'il a prononcé un discours attaquant les personnes transgenres. Les deux vidéos ont accumulé des centaines de milliers de vues, mais elles ne sont que deux exemples parmi des centaines.

    Alors que la lutte contre la désinformation a été présentée comme acharnée ces dernières années, elle pourrait s'avérer une partie de plaisir comparativement à ce à quoi la communauté pourrait faire face à l'avenir. L'IA générative, une catégorie de nouveaux outils d'IA dans laquelle on peut classer les IA de synthèse vocale et les IA de clonage de voix, semble avoir introduit une nouvelle forme de menace qui inquiète sérieusement les experts. L'utilisation de ces outils est très facile et presque gratuite, et n'importe quel individu peut les utiliser pour synthétiser ou cloner une voix en l'espace de quelques secondes. Le résultat obtenu est extrêmement convaincant.

    Dans le cas de la vidéo trafiquée où Joe Biden attaquait les personnes transgenres, les experts en criminalistique numérique estiment qu'elle a été conçue avec l'IA de la société ElevenLabs. Basée au Royaume-Uni, ElevenLabs est une startup d'IA fondées en 2022 par Piotr Dabkowski, ancien ingénieur en apprentissage automatique (ML) chez Google, et Mati Staniszewski, ancien spécialiste en déploiement chez Palantir. Le mois dernier, la société a lancé la phase bêta de la phase bêta Prime Voice, un outil qui permet aux utilisateurs de générer un son réaliste de la voix de n'importe quelle personne à partir d'un échantillon audio et d'une invite textuelle.


    Si le clip mettant en scène le président Joe Biden n'a peut-être pas réussi à tromper la plupart des utilisateurs cette fois-ci, il montre à quel point il est désormais facile pour les gens de générer des vidéos "deepfake" haineuses et de désinformation qui pourraient causer des dommages dans le monde réel. « Des outils comme celui-ci vont essentiellement ajouter de l'huile sur le feu. Le monstre est déjà en liberté », déplore Hafiz Malik, professeur d'ingénierie électrique et informatique à l'université du Michigan, qui se concentre sur la criminalistique multimédia. L'IA a été détournée de son usage initial, laissant la startup dans une situation délicate.

    ElevenLabs affirme que son IA a été développée pour doubler des fichiers audio dans différentes langues pour des films, des livres audio et des jeux afin de préserver la voix et les émotions de l'orateur. Mais c'est sans compter sur la bonne volonté des membres du forum 4chan. Quelques jours après le lancement de l'IA, ils se sont saisis de l'IA d'ElevenLabs pour simuler des voix de célébrités débitant des propos racistes et homophobes. Ils ont partagé un échantillon audio généré par l'IA d'Hillary Clinton lisant le même texte transphobe que dans le clip de Biden et de faux clips audio de Bill Gates disant que le vaccin contre la Covid-19 provoque le sida.

    Dans un autre échantillon audio, on peut entendre la voix de l'actrice Emma Watson lisant le manifeste "Mein Kampf" d'Hitler. Dans un autre exemple, une personne disant "les droits des personnes transgenres sont des droits de l'homme" se fait étrangler. Face à ces cas répétés, ElevenLabs a indiqué sur Twitter qu'elle constatait "un nombre croissant de cas d'utilisation abusive du clonage vocal" et a annoncé qu'elle étudiait actuellement des mesures de protection pour limiter les abus. L'une des premières étapes du plan d'action d'ElevenLabs a été de rendre la fonctionnalité disponible uniquement pour ceux qui fournissent des informations de paiement.

    Lors du lancement initial, les utilisateurs anonymes ont pu accéder gratuitement à l'outil de clonage vocal. ElevenLabs affirme également qu'en cas de problème, elle peut remonter jusqu'au créateur de la voix générée. Cependant, les experts affirment que ces dispositions sont insuffisantes et pourront être facilement contournées. Ils affirment également que même la possibilité de retrouver les créateurs n'atténuera pas vraiment le préjudice causé par l'outil de clonage de voix ElevenLabs. « Le mal est déjà fait », a déclaré Hany Farid, professeur à l'université de Californie à Berkeley, qui s'intéresse à la criminalistique numérique et à la désinformation.

    Par exemple, Hany Farid a déclaré que des acteurs malveillants pourraient faire bouger le marché boursier avec un faux enregistrement audio d'un PDG affirmant que les bénéfices sont en baisse. Il y a également un clip truqué et faire croire que Biden avait déclaré que les États-Unis lançaient une attaque nucléaire contre la Russie. Selon les experts, même en retrouvant la personne qui est à l'origine de ces matériels, il serait trop tard pour réparer les torts. En outre, des logiciels gratuits et libres dotés des mêmes capacités sont également apparus en ligne, ce qui signifie que les murs payants des outils commerciaux ne sont pas un obstacle.

    « La question est de savoir où pointer le doigt et comment remettre le génie dans la bouteille. Nous ne pouvons pas le faire », a déclaré Malik. Par ailleurs, une autre source de préoccupations pour les experts est la "vraisemblance" que ces nouveaux deepfakes apportent. Lorsque les deepfakes ont fait les gros titres il y a environ cinq ans, ils étaient assez faciles à détecter puisque le sujet ne clignait pas des yeux et que l'audio utilisait une voix semblable à celle d'un robot. Ce n'est plus le cas, car les outils deviennent de plus en plus sophistiqués. La détection nécessite de plus en plus de temps, ce qui fait que plus de personnes tombent dans le panneau.

    La vidéo modifiée de Biden faisant des commentaires désobligeants sur les transsexuels, par exemple, combinait l'audio généré par l'IA d'ElevenLabs avec un vrai clip du président, tiré d'une émission en direct de CNN du 25 janvier annonçant l'envoi de chars américains en Ukraine. La bouche du président Joe Biden a été manipulée dans la vidéo pour correspondre à l'audio. Si la plupart des utilisateurs de Twitter ont reconnu que le contenu n'était pas quelque chose que Biden était susceptible de dire, ils ont néanmoins été choqués par le réalisme de la vidéo. D'autres semblaient croire que c'était réel, ou du moins ne savaient pas quoi croire.

    « Les studios d'Hollywood sont depuis longtemps capables de déformer la réalité, mais l'accès à cette technologie s'est démocratisé sans tenir compte des implications. C'est une combinaison de la très puissante technologie basée sur l'IA, de la facilité d'utilisation, et puis du fait que le modèle semble être : mettons-le sur Internet et voyons ce qui se passe ensuite », a déclaré Farid. Microsoft dispose également d'un outil de synthèse de voix appelé VALL-E. Il n'a pas encore été rendu public, mais d'autres petites ont beaucoup moins hésité à commercialiser leurs outils - parfois sans une analyse profonde, ouvrant ainsi la voie à toute forme d'abus.

    Mais l'audio n'est qu'un des domaines où la désinformation générée par l'IA constitue une menace. D'autres systèmes d'IA gratuits de génération d'images en ligne, tels que Midjourney et DALL-E, peuvent produire des images photoréalistes de guerre et de catastrophes naturelles dans le style des médias traditionnels, à partir d'un simple texte. Le mois dernier, certains districts scolaires des États-Unis et de la France ont commencé à bloquer ChatGPT, qui peut produire du texte lisible - comme les travaux de fin d'études des étudiants - à la demande. Le détournement de ces outils peut entraver les maux qui minent déjà Internet et le Web.

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous des outils d'IA de clonage et de synthèse vocale ?
    Selon vous, risquent-ils d'amplifier la désinformation en ligne ? Pourquoi ?
    Est-il possible d'éviter qu'ils soient utilisés à mauvais escient ? Si oui, que proposez-vous ?

    Voir aussi

    Des membres de 4chan utilisent une IA de clonage vocal pour simuler des voix de célébrités débitant des propos racistes et homophobes, obligeant le créateur à revoir les conditions d'accès à son IA

    Les acteurs affirment qu'ils subissent de plus en plus de pressions pour céder leur voix à l'IA, qui se chargera ensuite de générer des versions synthétiques capables de remplacer les acteurs

    VALL-E : l'IA de synthèse vocale de Microsoft peut imiter n'importe quelle voix avec seulement un échantillon de trois secondes, y compris les émotions et le ton d'un orateur

Discussions similaires

  1. Réponses: 0
    Dernier message: 04/09/2019, 12h47
  2. Réponses: 1
    Dernier message: 28/03/2013, 13h35
  3. Réponses: 2
    Dernier message: 16/07/2012, 22h28
  4. Réponses: 5
    Dernier message: 25/02/2009, 11h02
  5. Réponses: 2
    Dernier message: 02/07/2008, 02h26

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo