MetaAI présente Chameleon, une famille de modèles de fondation multimodaux à fusion précoce comme GPT-4o, capable de « comprendre et de générer des textes et des images entrelacés »

MetaAI présente Chameleon, une famille de modèles multimodaux mixtes basés sur des jetons, capables de comprendre et de générer des images et du texte dans n'importe quelle séquence arbitraire.

L'équipe de MetaAI en charge du projet a mis au point une approche d'apprentissage stable dès le départ, une recette d'alignement et une paramétrisation architecturale adaptée à la fusion précoce, à base de jetons, et à l'environnement intermodal. Les modèles ont été évalués sur un large éventail de tâches, notamment la réponse à des questions visuelles, le sous-titrage d'images, la génération de texte, la génération d'images et la génération d'un long formulaire multimodal.

Chameleon démontre par ailleurs des capacités larges et générales, y compris des performances de pointe dans les tâches de sous-titrage d'images, surpassant Llama-2 dans les tâches de texte uniquement tout en étant compétitif avec des modèles tels que Mixtral 8x7B et Gemini-Pro, et réalisant une génération d'images non triviale, le tout dans un seul modèle. Il égale ou dépasse également les performances de modèles beaucoup plus grands, notamment Gemini Pro et GPT-4V, d'après les évaluations humaines réalisées dans le cadre d'une nouvelle évaluation de génération multimodale de longue durée, où l'invite ou les résultats contiennent des séquences mixtes d'images et de texte. Chameleon marque ainsi une avancée significative dans la modélisation unifiée de documents multimodaux complets.

Comparé à Gemini et à GPT-4V, Chameleon est très compétitif lorsqu'il s'agit de traiter des invites qui attendent des réponses intermodales et mixtes. Les images générées par Chameleon sont généralement pertinentes par rapport au contexte, ce qui rend les documents contenant du texte et des images entrelacés très attrayants pour les utilisateurs. Toutefois, ces derniers doivent être conscients des limites de l'évaluation humaine.

Nom : Chameleon 1.PNG
Affichages : 6522
Taille : 108,0 Ko

Tout d'abord, les invites utilisées lors de l'évaluation du modèle provenaient du crowdsourcing et non d'utilisateurs réels qui interagissent avec un modèle. Bien que l'équipe de MetaAI dispose d'un ensemble diversifié d'invites, la couverture peut encore être limitée, compte tenu de la taille de l'ensemble de données. Deuxièmement, en partie parce que les invites se concentrent sur la sortie multimodale, certaines tâches de compréhension visuelle, telles que l'OCR ou les infographies (c'est-à-dire l'interprétation d'un graphique ou d'un diagramme donné), sont naturellement exclues de l'évaluation. Enfin, les API des LLM multimodaux existants ne fournissent que des réponses textuelles. Bien que l'équipe de MetaAI ait renforcé les lignes de base en augmentant leurs résultats avec des images générées séparément, les chercheurs soulignent la nécessité de comparer Chameleon à d'autres modèles multimodaux natifs.

Dans leur article publié dans la revue Computation and Language, les chercheurs de MetaAI ont présenté Chameleon comme une nouvelle famille de modèles de fondation basés sur des jetons qui établit une nouvelle norme pour l'apprentissage automatique multimodal. En apprenant un espace de représentation unifié sur des jetons d'image et de texte entrelacés, Chameleon est décrit comme un modèle unique qui atteint de fortes performances sur une large gamme de benchmarks vision-langage tout en permettant de nouvelles capacités de raisonnement et de génération multimodales.

Nom : Chameleon 2.PNG
Affichages : 1011
Taille : 273,0 Ko

La clé du succès de Chameleon repose sur son architecture entièrement basée sur les jetons, qui permet une intégration transparente des informations entre les différents modes. En quantifiant les images en jetons discrets et en s'entraînant sur des données multimodales à partir de zéro, Chameleon apprend à raisonner conjointement sur l'image et le texte d'une manière qui est impossible avec les architectures late-fusion ou les modèles qui maintiennent des encodeurs séparés pour chaque modalité.

Parallèlement, Chameleon introduit de nouvelles techniques pour un apprentissage stable et évolutif des modèles de fusion précoce, en relevant les principaux défis d'optimisation et de conception architecturale qui ont précédemment limité l'échelle de ces approches. Dans des tâches telles que le sous-titrage d'images et la réponse à des questions visuelles, Chameleon-34B surpasse des modèles tels que Flamingo et IDEFICS, tout en conservant des performances compétitives sur des repères textuels uniquement. Chameleon ouvre également de toutes nouvelles possibilités d'interaction multimodale, comme le montrent les excellentes performances de Chameleon sur le nouveau benchmark pour l'assurance qualité ouverte et multimodale de MetaAI.

Source : "Chameleon: Mixed-Modal Early-Fusion Foundation Models" (MetaAI)

Et vous ?

Quel est votre avis sur le sujet ?
Que pensez-vous des capacités de cette nouvelle famille de modèles publiée par MetaAI ?

Voir aussi :

Meta lance Meta AI et 28 IA ayant des « personnalités » incarnées par des célébrités telles que Snoop Dogg, Kendall Jenner et Paris Hilton afin d'accroître l'interaction des jeunes avec l'IA

Mark Zuckerberg a expliqué comment Meta allait écraser Google et Microsoft dans le domaine de l'IA, et Meta a prévenu que cela pourrait coûter plus de 30 milliards de dollars par an