Meta AI présente Megabyte, une architecture IA capable de modéliser des millions d’octets en se passant de la tokenisation.
Les chercheurs y voient le début d'une révolution de l'IA générative

L'équipe de recherche de Meta a dévoilé une architecture de modèle d'IA innovante, capable de générer plus d'un million de jetons dans plusieurs formats et dépassant les capacités de l'architecture Transformer existante derrière des modèles comme GPT-4. Le modèle Megabyte résout les problèmes d'évolutivité des modèles actuels et effectue des calculs en parallèle, ce qui améliore l'efficacité et surpasse les transformateurs.

Une équipe Meta de chercheurs en IA a proposé une architecture innovante pour les modèles d'IA, capable de générer un contenu expansif aux formats texte, image et audio, s'étendant jusqu'à plus d'un million de jetons. Cette proposition révolutionnaire, si elle est adoptée, pourrait ouvrir la voie à la prochaine génération de modèles d'IA performants, transcendant l'architecture Transformer qui sous-tend des modèles tels que GPT-4 et Bard, et libérant de nouvelles capacités de génération de contenu.

Les contraintes des modèles actuels

Les modèles contemporains d'IA générative hautement performants, comme le GPT-4 d'OpenAI, sont fondés sur l'architecture Transformer. Initialement introduite par les chercheurs de Google en 2017, cette architecture constitue l'épine dorsale des modèles d'IA émergents, facilitant la compréhension des entrées nuancées et générant des phrases et des documents longs.

Les transformateurs ont permis le développement de systèmes préentraînés comme BERT (Bidirectional Encoder Representations from Transformers) et GPT (Generative Pre-trained Transformer), qui ont été entraînés avec de grands corpus linguistiques, comme le corpus Wikipedia ou Common Crawl, et qui peuvent être adaptés à des tâches spécifiques.

Les modèles d’IA actuels sont confrontés à plusieurs contraintes qui limitent leur potentiel et leur adoption. Parmi ces contraintes, on peut citer :
  • la complexité et l’opacité des modèles : certains modèles d’IA, comme les réseaux de neurones profonds, sont difficiles à comprendre et à expliquer, ce qui pose des problèmes de confiance, de responsabilité et d’éthique. Il existe un besoin croissant de développer des méthodes pour expliquer l’IA (XAI) qui permettent aux utilisateurs de comprendre le fonctionnement et le raisonnement des modèles ;
  • la disponibilité et la qualité des données : les modèles d’IA nécessitent souvent de grandes quantités de données pour être entraînés et validés, mais ces données ne sont pas toujours accessibles ou fiables. Il existe des problèmes de confidentialité, de sécurité, de biais, de bruit et d’incomplétude des données qui affectent la performance et la robustesse des modèles ;
  • le coût et l’efficacité énergétique du calcul : les modèles d’IA sont souvent gourmands en ressources computationnelles, ce qui implique un coût financier et environnemental élevé. Il existe un besoin de développer des méthodes d’optimisation du calcul, comme la compression, la quantification ou la distillation des modèles, ainsi que des architectures matérielles dédiées à l’IA, comme les puces spécialisées ;
  • l’interopérabilité et la standardisation des modèles : les modèles d’IA sont souvent développés avec des frameworks, des formats ou des langages différents, ce qui rend difficile leur partage, leur réutilisation ou leur intégration. Il existe un besoin de développer des méthodes d’interopérabilité de l’IA, comme les formats ouverts (par exemple ONNX) ou les compilateurs universels (par exemple TVM) qui permettent de convertir ou d’exécuter les modèles sur différentes plateformes.


Nom : mega.png
Affichages : 1911
Taille : 21,8 Ko

Les avantages apportés par Megabyte

Pour mieux comprendre le fonctionnement et les avantages de Megabyte, il faut revenir sur le concept de tokenisation, qui est une étape essentielle dans la plupart des modèles d’IA actuels. La tokenisation consiste à découper un texte ou une autre modalité en unités plus petites et plus gérables, appelées tokens. Par exemple, un texte peut être découpé en mots, en syllabes ou en caractères. Une image peut être découpée en pixels ou en régions. Un son peut être découpé en fréquences ou en phonèmes.

La tokenisation permet de réduire la complexité et la taille des données à traiter par les modèles d’IA, mais elle présente aussi des inconvénients. Tout d’abord, elle nécessite de choisir un vocabulaire de tokens adapté au domaine et à la langue des données, ce qui peut être coûteux et fastidieux. Ensuite, elle introduit une perte d’information et une ambiguïté dans la représentation des données, car certains tokens peuvent avoir plusieurs sens ou ne pas correspondre exactement aux unités sémantiques des données. Enfin, elle limite la capacité des modèles à traiter des séquences longues et variées, car le nombre de tokens augmente avec la longueur et la diversité des données.

Megabyte propose une solution radicale à ces problèmes : se passer complètement de la tokenisation et travailler directement au niveau des octets. Les octets sont les unités élémentaires d’information numérique, qui peuvent représenter n’importe quelle modalité : texte, image, son, etc. En utilisant les octets comme unités de base, Megabyte évite les coûts et les biais liés à la tokenisation, et peut apprendre à générer des contenus multimodaux de haute qualité à partir de données brutes.

L'architecture multiéchelle de Megabyte

Mais comment Megabyte fait-il pour traiter des séquences d’un million d’octets sans exploser en termes de complexité et de coût ? C’est là qu’intervient son architecture multiéchelle, qui combine un grand transformeur global et un petit transformeur local. Le grand transformeur global prend en entrée des patchs de données, qui sont des séquences courtes d’octets (par exemple 256 octets). Il produit une représentation globale de chaque patch en tenant compte du contexte fourni par les autres patchs. Le petit transformeur local prend en sortie les représentations globales des patchs et prédit autoregressivement le patch suivant.

Cette architecture permet à Megabyte de bénéficier de plusieurs avantages par rapport aux transformeurs classiques. Tout d’abord, elle réduit le coût de l’autoattention, qui est le mécanisme qui permet aux transformeurs de capturer les relations entre les différentes parties d’une séquence. En effet, l’autoattention a un coût quadratique par rapport à la longueur de la séquence : plus la séquence est longue, plus l’autoattention est coûteuse. En décomposant les longues séquences en deux séquences plus courtes (les patchs et leurs représentations globales), Megabyte réduit le coût de l’autoattention, qui reste gérable même pour les longues séquences.

Ensuite, elle augmente l’expressivité des couches feedforward, qui sont les couches qui permettent aux transformeurs d’apprendre des fonctions non linéaires sur les données. En effet, les couches feedforward sont appliquées par position dans les transformeurs classiques : chaque position (mot, pixel, etc.) a sa propre couche feedforward. Cela limite la taille et la capacité des couches feedforward, car elles doivent être répétées pour chaque position. En revanche, dans Megabyte, les couches feedforward sont appliquées par patch : chaque patch a sa propre couche feedforward. Cela permet d’avoir des couches feedforward plus grandes et plus expressives pour le même coût.

Enfin, elle accélère la vitesse de génération lors du déploiement. En effet, dans les transformeurs classiques à décodeur seul, la génération se fait séquentiellement : il faut attendre que le modèle prédise le token suivant avant de passer au token suivant. Cela ralentit considérablement la génération pour les longues séquences. En revanche, dans Megabyte, la génération se fait parallèlement : le modèle peut prédire les patchs suivants en même temps, sans attendre que le patch précédent soit généré. Cela permet d’accélérer considérablement la génération pour les longues séquences.

Conclusion

Les chercheurs de Meta AI ont évalué Megabyte sur plusieurs jeux de données de long texte, d’images et d’audio. Ils ont montré que Megabyte surpassait les modèles existants au niveau des octets, et obtenait des résultats compétitifs avec les modèles à sous-mots. Ils ont également montré que Megabyte pouvait générer des contenus multimodaux de haute qualité à partir de données brutes, sans avoir besoin de tokenisation.

Megabyte est présentée comme une architecture révolutionnaire qui ouvre la voie à une nouvelle génération de modélisation des séquences longues et multimodales. Il s’agit d’une avancée majeure pour le domaine de l’IA et pour la vision du métavers portée par Meta AI. Megabyte fait partie du plan ambitieux de Meta AI pour construire la prochaine génération de son infrastructure d’IA, qui comprend également sa première puce en silicium personnalisée pour exécuter des modèles d’IA, un nouveau design de centre de données optimisé pour l’IA et la deuxième phase de son superordinateur à 16 000 GPU pour la recherche en IA. Ces efforts visent à développer des modèles d’IA plus grands et plus sophistiqués et à les déployer efficacement à grande échelle.

Pour mémoire, Facebook s'est ajouté à la liste des nombreuses sociétés développant leurs propres puces. L'idée derrière étant de réduire sa dépendance à Intel, Qualcomm ou Broadcom, et de parvenir à mettre au point des puces répondant précisément à ses besoins. Le réseau social plancherait plus spécifiquement sur une suite de puces personnalisées pour ses data centers, selon les informations rapportées par la presse spécialisée en 2021.

De plus, en janvier 2022, Meta a annoncé que son équipe de recherche a construit un superordinateur d'IA baptisé "AI Research SuperCluster" (RSC). Il a été présenté comme une aide pour l'entreprise dans sa construction de meilleurs modèles d'intelligence artificielle capables d'apprendre à partir de milliers de milliards d'exemples, de travailler dans des centaines de langues et d'analyser ensemble du texte, des images et des vidéos pour déterminer si le contenu est nuisible.

Sources : MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers, infrastructures IA de Meta

Voir aussi :

Que pensez-vous de Megabyte et de ses applications potentielles ?
Quels sont les avantages et les inconvénients de modéliser des séquences au niveau des octets ?
Quels sont les défis ou les opportunités que Megabyte représente pour le domaine de l’IA générative et du métavers ?
Quelles sont les limites ou les améliorations possibles de Megabyte ?
Quels sont les autres modèles d’IA ou architectures qui vous intéressent ou vous inspirent ?