Dall-E 2 : le générateur d'images IA développé par OpenAI propose la fonctionnalité Outpainting

Version imprimable

07/04/2022, 15h10
Bruno

2 pièce(s) jointe(s)

Dall-E 2 : le générateur d'images IA développé par OpenAI propose la fonctionnalité Outpainting

Le générateur d'images de l'IA DALL-E d'OpenAI peut désormais modifier des photos,
les chercheurs peuvent s'inscrire pour le tester

Le groupe de recherche en intelligence artificielle OpenAI a créé une nouvelle version de DALL-E, son programme de génération de texte en image. DALL-E 2 est une version à plus haute résolution et à plus faible latence du système original, qui produit des images représentant les descriptions écrites par les utilisateurs. Il comprend également de nouvelles fonctionnalités, comme l'édition d'une image existante. Comme pour les travaux précédents d'OpenAI, l'outil n'est pas directement mis à la disposition du public. Mais les chercheurs peuvent s'inscrire en ligne pour avoir un aperçu du système, et OpenAI espère le rendre disponible ultérieurement pour une utilisation dans des applications tierces.

Nommé d'après l'artiste surréaliste Salvador Dali et le personnage robot de Pixar, Wall-E, le prédécesseur du modèle, DALL-E, a été lancé l'année dernière. Ce logiciel est capable de créer des images dans différents styles artistiques lorsqu'il est guidé par des entrées de texte : il génère des images à partir de ce que vous lui décrivez. Vous demandez un cœur anatomiquement réaliste, ou un dessin animé d'un bébé radis chinois en tutu promenant un chien, et il fera de son mieux pour créer une image qui y correspond.

Pièce jointe 616918

La nouvelle version, DALL-E 2, est censée être plus polyvalente et capable de générer des images à partir de légendes à des résolutions plus élevées. Elle est également dotée de nouvelles capacités. Il s'agissait d'un test limité mais fascinant de la capacité de l'IA à représenter visuellement des concepts, qu'il s'agisse de la représentation banale d'un mannequin en chemise de flanelle, d'une « girafe en tortue » ou de l'illustration d'un radis promenant un chien.

À l'époque, OpenAI a déclaré qu'elle continuerait à développer le système tout en examinant les dangers potentiels, tels que les préjugés dans la génération d'images ou la production de fausses informations. Elle tente de résoudre ces problèmes à l'aide de garanties techniques et d'une nouvelle politique de contenu, tout en réduisant sa charge de calcul et en poussant plus loin les capacités de base du modèle.

L'une des nouvelles fonctionnalités de DALL-E 2, l'inpainting, applique les capacités de conversion de texte en image de DALL-E à un niveau plus granulaire. Les utilisateurs peuvent partir d'une image existante, sélectionner une zone et demander au modèle de la modifier. Vous pouvez, par exemple, masquer un tableau sur le mur d'un salon et le remplacer par une autre photo, ou ajouter un vase de fleurs sur une table basse. Le modèle peut remplir (ou supprimer) des objets tout en tenant compte de détails tels que la direction des ombres dans une pièce.

Une autre fonctionnalité, les variations, est une sorte d'outil de recherche d'images qui n'existent pas. Les utilisateurs peuvent télécharger une image de départ, puis créer une série de variations similaires à celle-ci. Ils peuvent également mélanger deux images, générant ainsi des photos qui contiennent des éléments des deux. Les images générées mesurent 1 024 x 1 024 pixels, un bond en avant par rapport aux 256 x 256 pixels du modèle original.

DALL-E 2 s'appuie sur CLIP, un système de vision par ordinateur qu'OpenAI a également annoncé l'année dernière. « DALL-E 1 a simplement repris notre approche GPT-3 du langage et l'a appliquée à la production d'une image : nous avons comprimé les images en une série de mots et nous avons simplement appris à prédire ce qui allait suivre », explique Prafulla Dhariwal, chercheur chez OpenAI, en référence au modèle GPT utilisé par de nombreuses applications d'IA textuelle.

Pièce jointe 616917

Mais la correspondance des mots n'a pas nécessairement permis de saisir les qualités les plus importantes aux yeux des humains, et le processus de prédiction a limité le réalisme des images. CLIP a été conçu pour regarder les images et résumer leur contenu comme le ferait un humain. OpenAI a itéré sur ce processus pour créer "unCLIP", une version inversée qui commence par la description et se dirige vers l'image. DALL-E 2 génère l'image à l'aide d'un processus appelé "diffusion", que Dhariwal décrit comme le fait de commencer par un "sac de points", puis de remplir un motif de plus en plus détaillé.

Le logiciel pourrait aider les gens à retoucher leurs photos, à créer des œuvres d'art ou à produire d'innombrables images de stock. « DALL-E 2 est un projet de recherche que nous ne mettons actuellement pas à disposition dans notre API », a déclaré OpenAI mercredi. « Dans le cadre de nos efforts pour développer et déployer l'IA de manière responsable, nous étudions les limites et les capacités de DALL-E avec un groupe restreint d'utilisateurs. »

DALL-E 2 pourra être testé par des partenaires agréés, sous réserve de certaines conditions. Les utilisateurs n'ont pas le droit de télécharger ou de générer des images non classées G et « susceptibles de causer du tort », notamment tout ce qui implique des symboles de haine, de la nudité, des gestes obscènes ou "des conspirations majeures ou des événements liés à des événements géopolitiques majeurs en cours". Ils doivent également divulguer le rôle de l'IA dans la génération des images, et ils ne peuvent pas servir les images générées à d'autres personnes par le biais d'une application ou d'un site web.

OpenAI espère toutefois l'ajouter ultérieurement aux outils API du groupe, ce qui lui permettrait d'alimenter des applications tierces. « Notre espoir est de poursuivre le processus par étapes, afin de pouvoir continuer à évaluer, à partir des retours que nous recevons, comment diffuser cette technologie en toute sécurité », explique Dhariwal.

Source : OpenAi

Et vous ?

:fleche: Que pensez-vous de cette nouvelle version de DALL-E ?

Voir aussi :

:fleche: OpenAI permet désormais aux développeurs de personnaliser son système de génération de texte GPT-3, pour créer des modèles adaptés au contenu spécifique de leurs applications et services

:fleche: L'API d'OpenAI est désormais disponible sans liste d'attente, il apporte des modèles de la série Instruct qui sont spécialisés pour des réponses plus véridiques

:fleche: L'IA Codex d'OpenAI fait ses débuts en programmation et peut déjà coder dans une dizaine de langages, l'IA pourra-t-elle bientôt décharger les développeurs de certaines tâches, voire les remplacer ?

:fleche: OpenAI conçoit un algorithme basé sur l'IA qui permet à un robot d'imiter des tâches réalisées par des humains, dans un environnement virtuel
21/07/2022, 10h31
Stéphane le calme

4 pièce(s) jointe(s)

Dall-E 2 : le générateur d'images IA développé par OpenAI est disponible en bêta

Dall-E 2 : le générateur d'images IA développé par OpenAI est disponible en bêta
il peut produire une large gamme d'images à partir de quelques mots

DALL-E 2, le système d'IA d'OpenAI qui peut générer des images à partir d'une invite ou éditer et affiner des images existantes, est de plus en plus disponible. La société a annoncé dans un billet de blog qu'elle accélérerait l'accès des clients sur la liste d'attente dans le but d'atteindre environ 1 million de personnes dans les prochaines semaines.

Avec ce lancement "bêta", DALL-E 2, dont l'utilisation était gratuite, passera à une structure de frais basée sur le crédit. Les nouveaux utilisateurs obtiendront une quantité limitée de crédits qui peuvent être utilisés pour générer ou éditer une image ou créer une variation d'une image. (Les générations renvoient quatre images, tandis que les modifications et les variations en renvoient trois.) Les crédits se rechargeront chaque mois à raison de 50 le premier mois et de 15 par mois ensuite. Les utilisateurs auront la possibilité d'acheter des crédits supplémentaires par incréments de 15 $.

Voici un tableau avec les détails:

Pièce jointe 622664

L'intelligence artificielle a souvent affronté les humains dans des combats créatifs. Il peut battre les grands maîtres aux échecs, créer des symphonies, produire des poèmes et, désormais, créer des œuvres d'art détaillées à partir d'une courte invite écrite. L'équipe d'OpenAI a récemment créé un logiciel puissant, capable de produire une large gamme d'images en quelques secondes, juste à partir d'une chaîne de mots qui lui est donnée. Ce programme est connu sous le nom de Dall-E 2 et a été conçu pour révolutionner la façon dont nous utilisons l'IA avec les images.

Mercredi, OpenAI a annoncé qu'il inviterait plus de personnes à le tester. La société a déclaré qu'elle prévoyait de laisser entrer jusqu'à 1 million de personnes de sa liste d'attente au cours des prochaines semaines, alors qu'elle passe de sa phase de recherche à sa phase bêta. On ne sait pas si DALL-E sera un jour entièrement accessible au public, mais l'expansion devrait être un test important pour la plate-forme, de nombreux chercheurs surveillant la manière dont la technologie sera utilisée de manière abusive.

OpenAI a gardé DALL-E étroitement surveillé par crainte que des personnes malveillantes n'utilisent ce puissant outil pour diffuser de la désinformation. Imaginez quelqu'un essayant de l'utiliser pour fabriquer des images de la guerre en Ukraine, ou créer des images réalistes de catastrophes naturelles qui ne se sont jamais produites. De plus, la génération d'une image avec la plateforme consomme tellement d'énergie que les responsables de l'entreprise craignaient que ses serveurs ne s'effondrent si trop de personnes essayaient de l'utiliser en même temps.

Pièce jointe 622665
Une image générée par le DALL-E2 d'OpenAI avec l'invite*: « Une photographie de trois chihuahuas assis sur un taxi jaune à New York »

Que fait le Dall-E 2 ?

En 2021, la société de développement de la recherche sur l'IA OpenAI a créé un programme connu sous le nom de «Dall-E» - un mélange des noms Salvador Dali et Wall-E. Ce logiciel a été capable de prendre une invite écrite et de créer une image générée par l'IA complètement unique. Par exemple, « un renard dans un arbre » ferait apparaître une photo d'un renard assis dans un arbre, ou l'invite « astronaute avec un bagel à la main » montrerait… eh bien, vous voyez où cela mène.

Bien que ce soit certainement impressionnant, les images étaient souvent floues, pas tout à fait précises et prenaient un certain temps à créer. Maintenant, OpenAI a apporté de vastes améliorations au logiciel, créant Dall-E 2 - une nouvelle itération puissante qui fonctionne à un niveau beaucoup plus élevé.

Outre quelques autres nouvelles fonctionnalités, la principale différence avec ce deuxième modèle est une énorme amélioration de la résolution de l'image, des latences plus faibles (le temps nécessaire à la création de l'image) et un algorithme plus intelligent pour créer les images.

Le logiciel ne se contente pas de créer une image dans un style unique, vous pouvez ajouter différentes techniques artistiques à votre demande, en entrant des styles de dessin, de peinture à l'huile, un modèle en pâte à modeler, tricoté en laine, dessiné sur un mur de grotte, ou même comme une affiche de film des années 1960.

« Dall-E est un assistant très utile qui amplifie ce qu'une personne peut normalement faire, mais cela dépend vraiment de la créativité de la personne qui l'utilise. Un artiste ou quelqu'un de plus créatif peut créer des choses vraiment intéressantes », explique Aditya Ramesh, l'un des ingénieurs principaux de Dall-E 2.

Un touche-à-tout

En plus de la capacité de la technologie à produire des images uniquement sur des invites textuelles, Dall-E 2 dispose de deux autres techniques intelligentes : l'inpainting (le nom donné à la technique de reconstruction d'images détériorées ou de remplissage des parties manquantes d'une image) et les variations. Ces deux applications fonctionnent de manière similaire au reste de Dall-E, juste avec une touche.

Avec l'inpainting, vous pouvez prendre une image existante et y ajouter de nouveaux éléments ou en modifier des parties. Si vous avez une image d'un salon, vous pouvez ajouter un nouveau tapis, un chien sur le canapé, changer le tableau au mur ou même faire apparaître un éléphant dans la pièce… parce que quelqu'un pourrait y penser, voyez vous.

Pièce jointe 622662
à gauche, l'image originale, à droite l'édition Dall-E 2. Les chiffres 1, 2 et 3 donne un exemple d'illustration de placement d'un élément (en l'occurrence le flamant). Vous pouvez modifier sa position

Variations est un autre service qui nécessite une image existante. Insérez une photo, une illustration ou tout autre type d'image et l'outil de variation de Dall-E créera des centaines de ses propres versions. Vous pouvez lui donner une image d'un des télétubbies, et il la reproduira, créant des versions similaires. Une vieille peinture d'un samouraï créera des images similaires, vous pouvez même prendre une photo de certains graffitis que vous voyez et obtenir des résultats similaires.

Vous pouvez également utiliser cet outil pour combiner deux images en une seule. Mélangez un dragon et un corgi, ou un arc-en-ciel et un pot pour générer des pots avec de la couleur.

Pièce jointe 622663
à gauche l'image originale, à droite, l'outil variation de Dall-E 2 appliqué sur cette image

DALL-E 2 s'appuie sur CLIP, un système de vision par ordinateur qu'OpenAI a également annoncé l'année dernière. « DALL-E 1 a simplement repris notre approche GPT-3 du langage et l'a appliquée à la production d'une image : nous avons comprimé les images en une série de mots et nous avons simplement appris à prédire ce qui allait suivre », explique Prafulla Dhariwal, chercheur chez OpenAI, en référence au modèle GPT utilisé par de nombreuses applications d'IA textuelle.

Mais la correspondance des mots n'a pas nécessairement permis de saisir les qualités les plus importantes aux yeux des humains, et le processus de prédiction a limité le réalisme des images. CLIP a été conçu pour regarder les images et résumer leur contenu comme le ferait un humain. OpenAI a itéré sur ce processus pour créer "unCLIP", une version inversée qui commence par la description et se dirige vers l'image. DALL-E 2 génère l'image à l'aide d'un processus appelé "diffusion", que Dhariwal décrit comme le fait de commencer par un "sac de points", puis de remplir un motif de plus en plus détaillé.

Le logiciel pourrait aider les gens à retoucher leurs photos, à créer des œuvres d'art ou à produire d'innombrables images de stock. « DALL-E 2 est un projet de recherche que nous ne mettons actuellement pas à disposition dans notre API », a déclaré OpenAI. « Dans le cadre de nos efforts pour développer et déployer l'IA de manière responsable, nous étudions les limites et les capacités de DALL-E avec un groupe restreint d'utilisateurs. »

Limites de Dall-E 2

Bien qu'il n'y ait aucun doute sur l'impressionnante de cette technologie, elle n'est pas sans limites.

Un problème auquel vous êtes confronté est la confusion de certains mots ou expressions. Par exemple, des chercheurs ont noté que lorsqu'ils saisissaient « un trou noir à l'intérieur d'une boîte », Dall-E 2 renvoyait un trou noir à l'intérieur d'une boîte, au lieu du corps cosmique qu'ils recherchaient.

Cela peut se produire souvent lorsqu'un mot a plusieurs sens, des phrases peuvent être mal comprises ou si des expressions familières sont utilisées. C'est ce qu'il faut attendre d'une intelligence artificielle prenant le sens littéral de vos propos.

« Une autre chose à laquelle il faut s'habituer avec le système est le fonctionnement des invites et des styles artistiques. Lorsque vous tapez quelque chose, l'image initiale peut ne pas être correcte et bien qu'elle corresponde techniquement à votre demande, elle ne correspond pas entièrement à la sensation ou à l'idée que vous aviez en tête. Cela peut prendre un certain temps pour s'y habituer et demander quelques ajustements mineurs », explique Ramesh.

Un autre domaine dans lequel Dall-E peut devenir confus est le « mélange variable ». « Si vous demandez au modèle de dessiner un cube rouge au-dessus d'un cube bleu, il devient parfois confus et fait le contraire. Nous pouvons résoudre ce problème assez facilement dans les futures itérations du système, je pense », a expliqué Ramesh.

La lutte contre les stéréotypes et l'apport humain

Comme toutes les bonnes choses sur Internet, il ne faut pas attendre longtemps pour qu'un problème clé se pose : comment cette technologie peut-elle être utilisée de manière contraire à l'éthique ? Et sans parler du problème supplémentaire de l'histoire de l'IA d'apprendre certains comportements grossiers de la part des internautes.

Lorsqu'il s'agit d'une technologie autour de la création d'images par l'IA, il semble évident que cela pourrait être manipulé de plusieurs façons : la propagande, les fausses nouvelles et les images manipulées viennent à l'esprit comme les voies évidentes.

Pour contourner cela, l'équipe OpenAI derrière Dall-E a mis en place une politique de sécurité pour toutes les images sur la plateforme qui fonctionne en trois étapes. La première étape consiste à filtrer les données qui incluent une violation majeure. Cela inclut la violence, le contenu sexuel et les images que l'équipe considérerait comme inappropriées.

La deuxième étape est un filtre qui recherche des points plus subtils difficiles à détecter. Il peut s'agir de contenu politique ou de propagande sous une forme ou sous une autre. Enfin, dans sa forme actuelle, chaque image produite par Dall-E est revue par un humain, mais ce n'est pas une étape viable à long terme à mesure que le produit grandit.

Malgré l'utilisation de cette politique, l'équipe est clairement consciente de l'avenir de ce produit. Ils ont répertorié les risques et les limites de Dall-E, en détaillant le nombre de problèmes auxquels ils pourraient être confrontés.

Cela couvre un grand nombre de problèmes. Par exemple, les images peuvent souvent montrer des préjugés ou des stéréotypes comme l'utilisation du terme mariage renvoyant principalement aux mariages occidentaux. Ou la recherche d'un avocat montre une majorité d'hommes blancs plus âgés, les infirmières faisant de même avec les femmes.

Ce ne sont pas du tout de nouveaux problèmes et c'est quelque chose que Google traite depuis des années. Souvent, la génération d'images peut suivre les préjugés observés dans la société.

Il existe également des moyens d'inciter Dall-E à produire du contenu que le terme cherche à filtrer. Alors que le sang déclencherait le filtre de violence, un utilisateur pourrait taper "une mare de ketchup" ou quelque chose de similaire pour tenter de le contourner.

En plus de la politique de sécurité de l'équipe, ils ont une politique de contenu claire que les utilisateurs doivent respecter.

Joanne Jang, chef de produit de DALL-E, affirme que l'entreprise affine toujours ses règles de contenu, qui interdisent désormais ce à quoi vous pourriez vous attendre*: créer des contenus violents, pornographiques et haineux. L'entreprise interdit également les images représentant des urnes et des manifestations, ou toute image qui « pourrait être utilisée pour influencer le processus politique ou pour faire campagne ».

DALL-E interdit également les représentations de personnes réelles et prévoit d'établir davantage de garde-fous à mesure que ses chercheurs apprendront comment les utilisateurs interagissent avec le système.

« En ce moment, nous pensons qu'il y a beaucoup d'inconnues sur lesquelles nous aimerions avoir une meilleure maîtrise », a déclaré Jang. « Nous prévoyons d'accélérer et d'inviter rapidement de plus en plus de personnes à mesure que nous gagnerons en confiance ».

Les experts disent que même si les algorithmes de création d'images existent depuis un certain temps, la vitesse, la précision et l'étendue de DALL-E représentent une avancée remarquable dans le domaine.

« Ce que fait DALL-E, c'est capturer un élément de l'imagination humaine. Ce n'est pas vraiment différent de la façon dont les humains peuvent lire un livre et imaginer des choses, mais c'est être capable de capturer cette intelligence avec un algorithme », a déclaré Phillip Isola, professeur de sciences informatiques au MIT qui travaillait auparavant à Open AI mais n'est plus affilié. « Bien sûr, il existe de nombreuses inquiétudes quant à la manière dont ce type de technologie peut être utilisé à mauvais escient ».

Source : OpenAI

Et vous ?

:fleche: Que pensez-vous de Dall-e 2 ? Êtes-vous tenté de l'utiliser ?
:fleche: Que pensez-vous de la tarification ?

Voir aussi :

:fleche: OpenAI permet désormais aux développeurs de personnaliser son système de génération de texte GPT-3, pour créer des modèles adaptés au contenu spécifique de leurs applications et services
:fleche: L'API d'OpenAI est désormais disponible sans liste d'attente, il apporte des modèles de la série Instruct qui sont spécialisés pour des réponses plus véridiques
:fleche: L'IA Codex d'OpenAI fait ses débuts en programmation et peut déjà coder dans une dizaine de langages, l'IA pourra-t-elle bientôt décharger les développeurs de certaines tâches, voire les remplacer ?
:fleche: OpenAI conçoit un algorithme basé sur l'IA qui permet à un robot d'imiter des tâches réalisées par des humains, dans un environnement virtuel
21/07/2022, 11h03
micka132

C'est franchement dingue !
J'imagine bien un jeu vidéo couplé avec ça.
21/07/2022, 16h48
Invité

L'avenir était sombre pour les photographes avec l'avènement des banques d'images à bas prix, maintenant ce sont les deux qui risquent de disparaitre.
01/09/2022, 16h08
Stéphane le calme

3 pièce(s) jointe(s)

Dall-E 2 : le générateur d'images IA développé par OpenAI propose la fonctionnalité Outpainting

Dall-E 2 : le générateur d'images IA développé par OpenAI propose la fonctionnalité Outpainting,
permettant de créer des images à grande échelle à partir de quelques mots

L'intelligence artificielle a souvent affronté les humains dans des combats créatifs. Il peut battre les grands maîtres aux échecs, créer des symphonies, produire des poèmes et, désormais, créer des œuvres d'art détaillées à partir d'une courte invite écrite. L'équipe d'OpenAI a récemment créé un logiciel puissant, capable de produire une large gamme d'images en quelques secondes, juste à partir d'une chaîne de mots qui lui est donnée. Ce programme est connu sous le nom de Dall-E 2 et a été conçu pour révolutionner la façon dont nous utilisons l'IA avec les images.

En juillet, OpenAI a annoncé qu'il inviterait plus de personnes à le tester. La société a déclaré qu'elle prévoyait de laisser entrer jusqu'à 1 million de personnes de sa liste d'attente au cours des prochaines semaines, alors qu'elle passe de sa phase de recherche à sa phase bêta. On ne sait pas si DALL-E sera un jour entièrement accessible au public, mais l'expansion devrait être un test important pour la plate-forme, de nombreux chercheurs surveillant la manière dont la technologie sera utilisée de manière abusive.

OpenAI a gardé DALL-E étroitement surveillé par crainte que des personnes malveillantes n'utilisent ce puissant outil pour diffuser de la désinformation. Imaginez quelqu'un essayant de l'utiliser pour fabriquer des images de la guerre en Ukraine, ou créer des images réalistes de catastrophes naturelles qui ne se sont jamais produites. De plus, la génération d'une image avec la plateforme consomme tellement d'énergie que les responsables de l'entreprise craignaient que ses serveurs ne s'effondrent si trop de personnes essayaient de l'utiliser en même temps.

Pièce jointe 624741
Une image générée par le DALL-E2 d'OpenAI avec l'invite : « Une photographie de trois chihuahuas assis sur un taxi jaune à New York »

Que fait le Dall-E 2 ?

En 2021, la société de développement de la recherche sur l'IA OpenAI a créé un programme connu sous le nom de «Dall-E» - un mélange des noms Salvador Dali et Wall-E. Ce logiciel a été capable de prendre une invite écrite et de créer une image générée par l'IA complètement unique. Par exemple, « un renard dans un arbre » ferait apparaître une photo d'un renard assis dans un arbre, ou l'invite « astronaute avec un bagel à la main » montrerait… eh bien, vous voyez où cela mène.

Bien que ce soit certainement impressionnant, les images étaient souvent floues, pas tout à fait précises et prenaient un certain temps à créer. Maintenant, OpenAI a apporté de vastes améliorations au logiciel, créant Dall-E 2 - une nouvelle itération puissante qui fonctionne à un niveau beaucoup plus élevé.

Outre quelques autres nouvelles fonctionnalités, la principale différence avec ce deuxième modèle est une énorme amélioration de la résolution de l'image, des latences plus faibles (le temps nécessaire à la création de l'image) et un algorithme plus intelligent pour créer les images.

Le logiciel ne se contente pas de créer une image dans un style unique, vous pouvez ajouter différentes techniques artistiques à votre demande, en entrant des styles de dessin, de peinture à l'huile, un modèle en pâte à modeler, tricoté en laine, dessiné sur un mur de grotte, ou même comme une affiche de film des années 1960.

« Dall-E est un assistant très utile qui amplifie ce qu'une personne peut normalement faire, mais cela dépend vraiment de la créativité de la personne qui l'utilise. Un artiste ou quelqu'un de plus créatif peut créer des choses vraiment intéressantes », explique Aditya Ramesh, l'un des ingénieurs principaux de Dall-E 2.

Un touche-à-tout

En plus de la capacité de la technologie à produire des images uniquement sur des invites textuelles, Dall-E 2 dispose de deux autres techniques intelligentes : l'inpainting (le nom donné à la technique de reconstruction d'images détériorées ou de remplissage des parties manquantes d'une image) et les variations. Ces deux applications fonctionnent de manière similaire au reste de Dall-E, juste avec une touche.

Avec l'inpainting, vous pouvez prendre une image existante et y ajouter de nouveaux éléments ou en modifier des parties. Si vous avez une image d'un salon, vous pouvez ajouter un nouveau tapis, un chien sur le canapé, changer le tableau au mur ou même faire apparaître un éléphant dans la pièce… parce que quelqu'un pourrait y penser, voyez vous.

Pièce jointe 624737
à gauche, l'image originale, à droite l'édition Dall-E 2. Les chiffres 1, 2 et 3 donne un exemple d'illustration de placement d'un élément (en l'occurrence le flamant). Vous pouvez modifier sa position

Variations est un autre service qui nécessite une image existante. Insérez une photo, une illustration ou tout autre type d'image et l'outil de variation de Dall-E créera des centaines de ses propres versions. Vous pouvez lui donner une image d'un des télétubbies, et il la reproduira, créant des versions similaires. Une vieille peinture d'un samouraï créera des images similaires, vous pouvez même prendre une photo de certains graffitis que vous voyez et obtenir des résultats similaires.

Vous pouvez également utiliser cet outil pour combiner deux images en une seule. Mélangez un dragon et un corgi, ou un arc-en-ciel et un pot pour générer des pots avec de la couleur.

Pièce jointe 624739
à gauche l'image originale, à droite, l'outil variation de Dall-E 2 appliqué sur cette image

DALL-E 2 s'appuie sur CLIP, un système de vision par ordinateur qu'OpenAI a également annoncé l'année dernière. « DALL-E 1 a simplement repris notre approche GPT-3 du langage et l'a appliquée à la production d'une image : nous avons comprimé les images en une série de mots et nous avons simplement appris à prédire ce qui allait suivre », explique Prafulla Dhariwal, chercheur chez OpenAI, en référence au modèle GPT utilisé par de nombreuses applications d'IA textuelle.

Mais la correspondance des mots n'a pas nécessairement permis de saisir les qualités les plus importantes aux yeux des humains, et le processus de prédiction a limité le réalisme des images. CLIP a été conçu pour regarder les images et résumer leur contenu comme le ferait un humain. OpenAI a itéré sur ce processus pour créer "unCLIP", une version inversée qui commence par la description et se dirige vers l'image. DALL-E 2 génère l'image à l'aide d'un processus appelé "diffusion", que Dhariwal décrit comme le fait de commencer par un "sac de points", puis de remplir un motif de plus en plus détaillé.

Le logiciel pourrait aider les gens à retoucher leurs photos, à créer des œuvres d'art ou à produire d'innombrables images de stock. « DALL-E 2 est un projet de recherche que nous ne mettons actuellement pas à disposition dans notre API », a déclaré OpenAI. « Dans le cadre de nos efforts pour développer et déployer l'IA de manière responsable, nous étudions les limites et les capacités de DALL-E avec un groupe restreint d'utilisateurs. »

L'arrivée du mode Outpainting

Citation:

Envoyé par Open AI

Aujourd'hui, nous présentons Outpainting, une nouvelle fonctionnalité qui aide les utilisateurs à étendre leur créativité en continuant une image au-delà de ses frontières d'origine - en ajoutant des éléments visuels dans le même style ou en prenant une histoire dans de nouvelles directions - simplement en utilisant une description en langage naturel.

La fonction d'édition de DALL·E permet déjà des modifications dans une image générée ou téléchargée - une capacité connue sous le nom d'Inpainting. Désormais, avec Outpainting, les utilisateurs peuvent étendre l'image d'origine, en créant des images à grande échelle dans n'importe quel rapport d'aspect. Outpainting prend en compte les éléments visuels existants de l'image - y compris les ombres, les reflets et les textures - pour conserver le contexte de l'image d'origine.

Aujourd'hui, plus d'un million de personnes utilisent DALL·E, le système d'IA qui génère des images et des illustrations originales à partir d'une description en langage naturel, comme outil de création. Les artistes ont déjà créé des images remarquables avec la nouvelle fonctionnalité Outpainting et nous ont aidés à mieux comprendre ses capacités dans le processus.

Outpainting est désormais disponible pour tous les utilisateurs DALL·E sur ordinateur.

Limites de Dall-E 2

Bien qu'il n'y ait aucun doute sur l'impressionnante de cette technologie, elle n'est pas sans limites.

Un problème auquel vous êtes confronté est la confusion de certains mots ou expressions. Par exemple, des chercheurs ont noté que lorsqu'ils saisissaient « un trou noir à l'intérieur d'une boîte », Dall-E 2 renvoyait un trou noir à l'intérieur d'une boîte, au lieu du corps cosmique qu'ils recherchaient.

Cela peut se produire souvent lorsqu'un mot a plusieurs sens, des phrases peuvent être mal comprises ou si des expressions familières sont utilisées. C'est ce qu'il faut attendre d'une intelligence artificielle prenant le sens littéral de vos propos.

« Une autre chose à laquelle il faut s'habituer avec le système est le fonctionnement des invites et des styles artistiques. Lorsque vous tapez quelque chose, l'image initiale peut ne pas être correcte et bien qu'elle corresponde techniquement à votre demande, elle ne correspond pas entièrement à la sensation ou à l'idée que vous aviez en tête. Cela peut prendre un certain temps pour s'y habituer et demander quelques ajustements mineurs », explique Ramesh.

Un autre domaine dans lequel Dall-E peut devenir confus est le « mélange variable ». « Si vous demandez au modèle de dessiner un cube rouge au-dessus d'un cube bleu, il devient parfois confus et fait le contraire. Nous pouvons résoudre ce problème assez facilement dans les futures itérations du système, je pense », a expliqué Ramesh.

La lutte contre les stéréotypes et l'apport humain

Comme toutes les bonnes choses sur Internet, il ne faut pas attendre longtemps pour qu'un problème clé se pose : comment cette technologie peut-elle être utilisée de manière contraire à l'éthique ? Et sans parler du problème supplémentaire de l'histoire de l'IA d'apprendre certains comportements grossiers de la part des internautes.

Lorsqu'il s'agit d'une technologie autour de la création d'images par l'IA, il semble évident que cela pourrait être manipulé de plusieurs façons : la propagande, les fausses nouvelles et les images manipulées viennent à l'esprit comme les voies évidentes.

Pour contourner cela, l'équipe OpenAI derrière Dall-E a mis en place une politique de sécurité pour toutes les images sur la plateforme qui fonctionne en trois étapes. La première étape consiste à filtrer les données qui incluent une violation majeure. Cela inclut la violence, le contenu sexuel et les images que l'équipe considérerait comme inappropriées.

La deuxième étape est un filtre qui recherche des points plus subtils difficiles à détecter. Il peut s'agir de contenu politique ou de propagande sous une forme ou sous une autre. Enfin, dans sa forme actuelle, chaque image produite par Dall-E est revue par un humain, mais ce n'est pas une étape viable à long terme à mesure que le produit grandit.

Malgré l'utilisation de cette politique, l'équipe est clairement consciente de l'avenir de ce produit. Ils ont répertorié les risques et les limites de Dall-E, en détaillant le nombre de problèmes auxquels ils pourraient être confrontés.

Cela couvre un grand nombre de problèmes. Par exemple, les images peuvent souvent montrer des préjugés ou des stéréotypes comme l'utilisation du terme mariage renvoyant principalement aux mariages occidentaux. Ou la recherche d'un avocat montre une majorité d'hommes blancs plus âgés, les infirmières faisant de même avec les femmes.

Ce ne sont pas du tout de nouveaux problèmes et c'est quelque chose que Google traite depuis des années. Souvent, la génération d'images peut suivre les préjugés observés dans la société.

Il existe également des moyens d'inciter Dall-E à produire du contenu que le terme cherche à filtrer. Alors que le sang déclencherait le filtre de violence, un utilisateur pourrait taper "une mare de ketchup" ou quelque chose de similaire pour tenter de le contourner.

En plus de la politique de sécurité de l'équipe, ils ont une politique de contenu claire que les utilisateurs doivent respecter.

Joanne Jang, chef de produit de DALL-E, affirme que l'entreprise affine toujours ses règles de contenu, qui interdisent désormais ce à quoi vous pourriez vous attendre*: créer des contenus violents, pornographiques et haineux. L'entreprise interdit également les images représentant des urnes et des manifestations, ou toute image qui « pourrait être utilisée pour influencer le processus politique ou pour faire campagne ».

DALL-E interdit également les représentations de personnes réelles et prévoit d'établir davantage de garde-fous à mesure que ses chercheurs apprendront comment les utilisateurs interagissent avec le système.

« En ce moment, nous pensons qu'il y a beaucoup d'inconnues sur lesquelles nous aimerions avoir une meilleure maîtrise », a déclaré Jang. « Nous prévoyons d'accélérer et d'inviter rapidement de plus en plus de personnes à mesure que nous gagnerons en confiance ».

Les experts disent que même si les algorithmes de création d'images existent depuis un certain temps, la vitesse, la précision et l'étendue de DALL-E représentent une avancée remarquable dans le domaine.

« Ce que fait DALL-E, c'est capturer un élément de l'imagination humaine. Ce n'est pas vraiment différent de la façon dont les humains peuvent lire un livre et imaginer des choses, mais c'est être capable de capturer cette intelligence avec un algorithme », a déclaré Phillip Isola, professeur de sciences informatiques au MIT qui travaillait auparavant à Open AI mais n'est plus affilié. « Bien sûr, il existe de nombreuses inquiétudes quant à la manière dont ce type de technologie peut être utilisé à mauvais escient ».

Source : Open AI

Et vous ?

:fleche: Que pensez-vous de Dall-e 2 ? Êtes-vous tenté de l'utiliser ?
:fleche: Que pensez-vous de la fonctionnalité Outpainting ?

Voir aussi :

:fleche: OpenAI permet désormais aux développeurs de personnaliser son système de génération de texte GPT-3, pour créer des modèles adaptés au contenu spécifique de leurs applications et services
:fleche: L'API d'OpenAI est désormais disponible sans liste d'attente, il apporte des modèles de la série Instruct qui sont spécialisés pour des réponses plus véridiques
:fleche: L'IA Codex d'OpenAI fait ses débuts en programmation et peut déjà coder dans une dizaine de langages, l'IA pourra-t-elle bientôt décharger les développeurs de certaines tâches, voire les remplacer ?
:fleche: OpenAI conçoit un algorithme basé sur l'IA qui permet à un robot d'imiter des tâches réalisées par des humains, dans un environnement virtuel
21/09/2022, 10h04
stigma

j'avais fait une expérience sympa avec Starryai sur Android. Je me suis donc inscrit. J'ai l'impression d’être dans le jeu Myst où l'on créé des mondes en les écrivant. Déjà en 1995 !