Stability AI vient de dévoiler un nouveau modèle à poids ouvert, Stable Audio Open, conçu pour générer de courts échantillons audio, des effets sonores et d'autres éléments audio à partir d'invites textuelles.

Stability AI présente Stable Audio Open. Stable Audio Open est un modèle texte-audio open source permettant de générer jusqu'à 47 secondes d'échantillons et d'effets sonores. Les utilisateurs peuvent créer des rythmes de batterie, des riffs d'instruments, des sons ambiants, des bruitages et des éléments de production. Le modèle permet de créer des variations audio et de transférer des styles d'échantillons audio.

Stability AI, la société à l'origine du populaire IA générateur d'art "Stable Diffusion", vient de dévoiler un nouveau modèle à poids ouvert, Stable Audio Open. Il est conçu pour générer de courts échantillons audio, des effets sonores et des éléments de production à partir de textes. Stable Audio Open peut créer jusqu'à 47 secondes d'audio à partir d'une simple description textuelle. Par exemple, si vous entrez "Rock beat played in a treated studio", il générera un rythme de batterie unique sur le thème du rock. C'est un outil amusant pour les musiciens, les concepteurs sonores et les passionnés d'audio.

Tout d'abord, Stable Audio est un produit commercial alors que Stable Audio Open est gratuit. Stable Audio est également plus avancé et se concentre sur la création de pistes complètes et cohérentes avec une structure musicale allant jusqu'à trois minutes. Il offre également des fonctionnalités telles que la génération audio-to-audio et les compositions musicales en plusieurs parties.

Stable Audio Open, quant à lui, est plutôt une introduction à l'IA générative pour la conception sonore. Il est idéal pour créer des clips courts, des effets sonores et des variations audio, mais il n'est pas conçu pour des chansons ou des voix complètes.

Nom : 1.jpg
Affichages : 3147
Taille : 51,2 Ko

Stability AI indique que le modèle est formé sur un vaste ensemble de données d'enregistrements audio libres de droits provenant de FreeSound et de Free Music Archive, ce qui garantit le respect des droits des créateurs. Il utilise un auto-encodeur pour gérer la longueur des formes d'onde, l'intégration de texte pour le conditionnement du texte et un modèle de diffusion basé sur un transformateur.

Il y a quelques limitations à prendre en compte. Tout d'abord, il ne peut pas produire des voix réalistes. Il est également plus performant avec les descriptions en anglais et ne répond pas de la même manière à tous les styles de musique et à toutes les cultures, ce que l'entreprise attribue aux données d'entraînement. Il faut également savoir que même s'il s'agit d'un modèle à poids ouvert, il est assorti d'un accord de licence qui en interdit l'utilisation commerciale.

Le lancement de Stable Audio Open intervient alors que les droits d'auteur suscitent de plus en plus d'inquiétudes dans le domaine de la génération de musique par l'IA. De grands labels comme Sony Music ont récemment mis en garde les entreprises d'IA contre l'utilisation non autorisée de leur contenu pour l'entraînement des générateurs audio, et l'État du Tennessee a adopté une loi visant à limiter les abus de l'IA dans le domaine de la musique.


Voici l'annonce de Stability AI :

Nous sommes ravis d'annoncer Stable Audio Open, un modèle open source optimisé pour générer de courts échantillons audio, des effets sonores et des éléments de production à l'aide d'invites textuelles. Cette version marque une étape clé dans l'ouverture de certaines parties de nos capacités audio génératives afin d'aider les concepteurs sonores, les musiciens et les communautés créatives.

Qu'est-ce que Stable Audio Open ?

Stable Audio Open permet à quiconque de générer jusqu'à 47 secondes de données audio de haute qualité à partir d'une simple invite textuelle. Sa formation spécialisée le rend idéal pour créer des rythmes de batterie, des riffs d'instruments, des sons d'ambiance, des enregistrements de bruitage et d'autres échantillons audio pour la production musicale et la conception sonore.

L'un des principaux avantages de cette version open source est que les utilisateurs peuvent affiner le modèle sur leurs propres données audio. Par exemple, un batteur peut affiner le modèle sur des échantillons de ses propres enregistrements de batterie pour générer de nouveaux rythmes.

Quelle est la différence avec Stable Audio ?

Notre produit commercial Stable Audio produit des pistes complètes de haute qualité avec une structure musicale cohérente d'une durée maximale de trois minutes, ainsi que des fonctionnalités avancées telles que la génération audio-to-audio et des compositions musicales multipartites cohérentes.

Stable Audio Open, quant à lui, est spécialisé dans les échantillons audio, les effets sonores et les éléments de production. Bien qu'il puisse générer de courts clips musicaux, il n'est pas optimisé pour les chansons, les mélodies ou les voix complètes. Ce modèle ouvert donne un aperçu de l'IA générative pour la conception sonore, tout en privilégiant un développement responsable aux côtés des communautés créatives.

Le nouveau modèle a été entraîné sur des données audio provenant de FreeSound et de Free Music Archive. Cela nous a permis de créer un modèle audio ouvert tout en respectant les droits des créateurs.

Pour commencer

Les poids du modèle Stable Audio Open sont disponibles sur Hugging Face. Nous encourageons les concepteurs sonores, les musiciens, les développeurs et les passionnés d'audio à télécharger le modèle, à explorer ses capacités et à nous faire part de leurs commentaires.

Bien qu'il s'agisse d'un pas en avant passionnant, ce n'est encore qu'un début pour les capacités de génération audio ouvertes et responsables. Nous sommes impatients de poursuivre la recherche et de donner la priorité au développement en collaboration avec les communautés créatives. Que l'exploration ouverte de l'IA audio commence !
Source : Stability AI

Et vous ?

Quel est votre avis sur cette annonce ?

Voir aussi :

Stability AI, le créateur du modèle d'IA de génération d'images Stable Diffusion, publie en open source un nouveau modèle d'IA appelé StableLM. Il serait aussi performant que ChatGPT

Udio : l'IA de génération de musique qui suscite l'engouement avec sa promesse de révolutionner la création musicale, mais ces outils d'IA sont perçus comme une menace par l'industrie musicale

Stability.ai présente Stable Video 3D, un outil d'IA générative pour le rendu de vidéos en 3D, qui permet aux utilisateurs de générer une courte vidéo à partir d'une image ou d'un texte