La société IA xAI d'Elon Musk lance « Custom Voices » pour le clonage vocal instantané dans les API de synthèse vocale et d'agents vocaux, le processus prend moins de deux minutes pour un modèle prêt à l'emploi

xAI a lancé Custom Voices, une fonctionnalité permettant aux utilisateurs de créer des clones vocaux en enregistrant environ une minute de parole naturelle dans la console xAI, puis de les utiliser via les API Grok Text-to-Speech et Voice Agent. Le processus prend moins de deux minutes et comprend la vérification, le traitement et la livraison d'un modèle prêt à l'emploi. Pour répondre aux préoccupations en matière de sécurité vocale, xAI utilise un processus de vérification en deux étapes. Les utilisateurs lisent d'abord une phrase de passe, qui est transcrite en temps réel pour confirmer leur consentement et leur présence.

xAI Corp. est une entreprise américaine spécialisée dans l'intelligence artificielle (IA) et créée par Elon Musk et Igor Babuschkin le 12 juillet 2023. Elle est un concurrent de l'entreprise OpenAI, notamment grâce au super-ordinateur Colossus en cours d'extension à Memphis (Tennessee). Au début 2026, xAI est marqué par une début de restructuration profonde, qui a suivi la perte d'une large majorité des cofondateurs, avec une refonte annoncée par Elon Musk de l’architecture technique et de la culture d’entreprise.

Récemment, xAI a lancé Custom Voices, une fonctionnalité permettant aux utilisateurs de créer des clones vocaux en enregistrant environ une minute de parole naturelle dans la console xAI, puis de les utiliser via les API Grok Text-to-Speech et Voice Agent. Le processus prend moins de deux minutes et comprend la vérification, le traitement et la livraison d'un modèle prêt à l'emploi. Une fois générées, les voix personnalisées peuvent être utilisées partout où les voix intégrées de xAI sont prises en charge.

Pour répondre aux préoccupations en matière de sécurité vocale, xAI utilise un processus de vérification en deux étapes. Les utilisateurs lisent d'abord une phrase de passe, qui est transcrite en temps réel pour confirmer leur consentement et leur présence. Le système compare ensuite les données vocales issues de la phrase de passe et de l'enregistrement complet afin de vérifier qu'elles appartiennent bien à la même personne, empêchant ainsi le clonage à partir d'enregistrements préexistants ou d'échantillons non autorisés.

Les voix personnalisées prennent en charge les balises vocales, la sortie multilingue, l'accès à l'API REST et le streaming WebSocket, avec des cas d'utilisation comprenant la narration de créateurs, les agents vocaux de marque, l'accessibilité, les jeux vidéo et la production de livres audio. xAI a également lancé Voice Library, une section de la console permettant de gérer et de prévisualiser les voix intégrées et personnalisées, avec plus de 80 voix intégrées dans 28 langues et sans frais supplémentaires pour l'utilisation de voix personnalisées avec ses API.

Nom : 1.jpg
Affichages : 2626
Taille : 31,3 Ko

Voici un extrait de l'annonce de xAI :

Custom Voices et Voice Library

Aujourd'hui, nous lançons les voix personnalisées. Clonez votre voix à partir de quelques secondes d'enregistrement audio et utilisez-la instantanément avec les API Grok Text to Speech et Voice Agent. En plus des voix personnalisées, la nouvelle Bibliothèque de voix offre à votre équipe un espace unique pour parcourir, prévisualiser et gérer toutes vos voix depuis la console xAI.

Custom Voices

Clonez votre voix en moins de deux minutes. Utilisez-la partout.

Enregistrez environ une minute de parole naturelle dans la console xAI. Notre pipeline vérifie que vous êtes bien le propriétaire de la voix, traite votre enregistrement et fournit un modèle vocal prêt à l'emploi, le tout en moins de deux minutes. Votre voix personnalisée hérite de toutes les fonctionnalités TTS : balises vocales, sortie multilingue et streaming REST et WebSocket. Les voix personnalisées fonctionnent partout où nos voix intégrées sont disponibles. Transmettez l'identifiant voice_id à n'importe quel point de terminaison TTS ou utilisez-le avec l'API Voice Agent pour des agents conversationnels en temps réel.

Sécurité vocale

Chaque voix personnalisée passe par un processus de vérification en deux étapes avant de pouvoir être créée. Tout d'abord, le locuteur lit une phrase de vérification que notre moteur STT transcrit et compare en temps réel, confirmant ainsi l'intention et la présence. Ensuite, nous calculons les embeddings de l'orateur à partir de l'extrait de vérification et de l'enregistrement complet pour confirmer qu'ils appartiennent à la même personne.

Vous ne pouvez pas cloner une voix à partir d'un enregistrement préexistant, ni cloner la voix d'une autre personne.

Nom : 2.jpg
Affichages : 457
Taille : 44,6 Ko

Voice Library

Voice Library est une nouvelle section de la console xAI qui répertorie toutes les voix à la disposition de votre équipe, en regroupant vos créations personnalisées et nos voix intégrées. Parcourez, prévisualisez et gérez les voix depuis une seule page. Nous avons élargi notre catalogue de voix intégrées à plus de 80 voix dans 28 langues. Écoutez n'importe quelle voix dans différents scénarios avant d'en choisir une pour votre application. L'utilisation des API Text to Speech ou Voice Agent avec des voix personnalisées n'entraîne aucun frais supplémentaire.

Nom : 3.jpg
Affichages : 458
Taille : 30,6 Ko

Ce lancement intervient alors la société xAI d'Elon Musk subit des secousses profondes et les employés sont mécontents. Elon Musk est exaspéré par les piètres performances de son chatbot Grok et son outil de codage. Il a écarté plusieurs membres fondateurs de xAI et a fait appel à des cadres de Tesla et de SpaceX pour examiner les travaux de la startup. De nombreux employés ont été licenciés après que leurs efforts ont été jugés insuffisants. Mais le chaos s'est installé. Le personnel se plaint que les changements fréquents de stratégie et de leadership secouent XAI. Cela rend difficile la continuité du travail et donne l’impression que l’entreprise avance sans direction claire.

Source : Annonce de xAI

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

xAI d'Elon Musk lance l'API Grok Voice Agent, qui fournit aux développeurs les outils pour créer des agents vocaux capables de parler des dizaines de langues et d'interagir avec des outils

La start-up française Mistral AI annonce le lancement de Voxtral TTS, un modèle d'IA de synthèse vocale conçu pour la génération vocale multilingue avancée dans 9 langues, dont l'anglais et le français

Gemini 3.1 Flash Live : Google déploie un agent vocal si naturel qu'il serait plus difficile de savoir si vous parlez à un robot, offrant une expérience plus intuitive aux développeurs et aux entreprises