Stable Diffusion 3.0 présente une nouvelle architecture de transformateur de diffusion pour réinventer l'IA de conversion texte-image, afin d'offrir une qualité d'image et des performances améliorées
Au cours de l'année écoulée, Stability AI a régulièrement itéré et publié de nombreux modèles de génération d'images, chacun d'entre eux présentant des niveaux croissants de sophistication et de qualité. Aujourd'hui, Stability AI présente en avant-première Stable Diffusion 3.0, son modèle phare d'IA générative texte-image de nouvelle génération.
Stable Diffusion est un modèle d'apprentissage profond, de texte à image, publié en 2022 et basé sur des méthodes de diffusion. Il s'agit d'un modèle de diffusion latente, une sorte de réseau neuronal artificiel génératif profond. Son code et les poids du modèle ont été mis en libre accès, et il peut fonctionner sur la plupart des appareils grand public équipés d'un GPU avec au moins 4 Go de VRAM. Cela marque une rupture par rapport aux modèles de conversion de texte en image propriétaires précédents, tels que DALL-E et Midjourney, qui n'étaient accessibles que via des services cloud.
Stable Diffusion est principalement utilisé pour générer des images numériques photoréalistes conditionnées par des descriptions textuelles, bien qu'il puisse également être appliqué à d'autres tâches telles que l'inpainting, l'outpainting et la génération de traductions d'image à image guidées par une invite textuelle. Son développement a impliqué des chercheurs du groupe CompVis de l'université Ludwig Maximilian de Munich et de Runway, avec une donation informatique de Stability AI et des données d'entraînement provenant d'organisations à but non lucratif.
Stability AI annonce aujourd'hui 22 février en avant-première Stable Diffusion 3, son modèle de conversion texte-image le plus performant, avec des performances grandement améliorées en matière d'invites multi-sujets, de qualité d'image et de capacités orthographiques.
Bien que le modèle ne soit pas encore largement disponible, Stability AI ouvre aujourd'hui la liste d'attente pour une avant-première. Cette phase de preview, comme pour les modèles précédents, est cruciale pour recueillir des informations permettant d'améliorer les performances et la sécurité du modèle avant sa mise à disposition.
La suite de modèles Stable Diffusion 3 comprend actuellement entre 800 millions et 8 milliards de paramètres. Cette approche vise à s'aligner sur les valeurs fondamentales de Stability AI et à démocratiser l'accès, en offrant aux utilisateurs une variété d'options en termes d'évolutivité et de qualité afin de répondre au mieux à leurs besoins créatifs. Stable Diffusion 3 combine une architecture de transformateur de diffusion et une adaptation des flux. Un rapport technique détaillé sera bientôt publié.
Stability AI croit en des pratiques d'IA sûres et responsables. Cela signifie que l'entreprise a pris et continue de prendre des mesures raisonnables pour empêcher l'utilisation abusive de Stable Diffusion 3 par des acteurs malveillants. La sécurité commence dès l'entraînement du modèle et se poursuit tout au long des tests, de l'évaluation et du déploiement. En préparation de cette avant-première, de nombreuses mesures de protection ont été mises en place. En collaborant continuellement avec les chercheurs, les experts et la communauté de Stability AI, l'entreprise prévoit de continuer à innover avec intégrité à l'approche de la sortie du modèle pour le grand public.
L'engagement de Stability AI à garantir l'ouverture, la sécurité et l'accessibilité universelle de l'IA générative reste inébranlable. Avec Stable Diffusion 3, l'entreprise s'efforce d'offrir des solutions adaptables qui permettent aux individus, aux développeurs et aux organisations de libérer leur créativité, conformément à sa mission d'activer le potentiel de l'humanité.
Source : Stable Diffusion 3 (Stability AI)
Et vous ?
Quel est votre avis sur le sujet ?
Voir aussi :
Stability AI annonce la version 2.0 de Stable Diffusion, le modèle d'IA de diffusion d'image, il améliore le modèle texte-image OpenCLIP et apporte le modèle profondeur-image
Stable Diffusion de Stability AI serait le modèle d'IA le plus important de tous les temps, contrairement à GPT-3 et DALL-E 2, il apporte des applications du monde réel ouvertes pour les utilisateur
Comprendre les biais de l'intelligence artificielle, une analyse du modèle d'IA générative Stable Diffusion
Partager