Google introduit l'architecture Titans et le framework MIRAS, qui permettent aux modèles d'IA de travailler beaucoup plus rapidement et de gérer des contextes massifs en mettant à jour leur mémoire centrale
Dans deux nouveaux articles, Titans et MIRAS, Google présente une architecture et un schéma théorique qui combinent la vitesse des RNN avec la précision des transformateurs. Titans est l'architecture spécifique (l'outil) et MIRAS est le framework théorique (le plan) pour généraliser ces approches. En employant des réseaux neuronaux profonds comme modules de mémoire qui apprennent à mémoriser au fur et à mesure que les données arrivent, ces approches surmontent les limites des états récurrents de taille fixe. En outre, MIRAS fournit une puissante unification théorique, révélant le lien entre l'optimisation en ligne, la mémoire associative et la conception architecturale.
Google est une multinationale américaine spécialisée dans les technologies de l'information, la publicité en ligne, la technologie des moteurs de recherche, le courrier électronique, l'informatique en nuage, les logiciels, l'informatique quantique, le commerce électronique, l'électronique grand public et l'intelligence artificielle (IA). Google est le plus grand fournisseur de moteurs de recherche, d'applications de cartographie et de navigation, de services de messagerie, de suites bureautiques, de plateformes vidéo en ligne, de stockage de photos et de nuages, de systèmes d'exploitation mobiles, de navigateurs web, de framework d'apprentissage automatique et d'assistants virtuels d'IA au monde, en termes de parts de marché.
L'intelligence artificielle (IA) est la capacité des systèmes informatiques à effectuer des tâches typiquement associées à l'intelligence humaine, telles que l'apprentissage, le raisonnement, la résolution de problèmes, la perception et la prise de décision. Les objectifs traditionnels de la recherche en IA comprennent l'apprentissage, le raisonnement, la représentation des connaissances, la planification, le traitement du langage naturel, la perception et le soutien à la robotique. Certaines entreprises, comme OpenAI, Google DeepMind et Meta, visent à créer une intelligence générale artificielle (AGI), c'est-à-dire une IA capable d'accomplir pratiquement n'importe quelle tâche cognitive au moins aussi bien qu'un être humain.
L'architecture Transformer a révolutionné la modélisation des séquences grâce à l'introduction de l'attention, un mécanisme par lequel les modèles reviennent sur des entrées antérieures pour hiérarchiser les données d'entrée pertinentes. Cependant, le coût de calcul augmente considérablement avec la longueur de la séquence, ce qui limite la capacité à adapter les modèles basés sur Transformer à des contextes extrêmement longs, tels que ceux requis pour la compréhension d'un document complet ou l'analyse génomique.
La communauté des chercheurs a exploré diverses approches pour trouver des solutions, telles que les réseaux neuronaux récurrents linéaires efficaces (RNN) et les modèles d'espace d'état (SSM) comme Mamba-2. Ces modèles offrent une mise à l'échelle rapide et linéaire en comprimant le contexte dans une taille fixe. Cependant, cette compression de taille fixe ne peut pas capturer de manière adéquate la richesse des informations contenues dans les très longues séquences.
Dans deux nouveaux articles, Titans et MIRAS, Google présente une architecture et un schéma théorique qui combinent la vitesse des RNN avec la précision des transformateurs. Titans est l'architecture spécifique (l'outil) et MIRAS est le framework théorique (le plan) pour généraliser ces approches. Ensemble, ils font progresser le concept de mémorisation en temps réel, c'est-à-dire la capacité d'un modèle d'intelligence artificielle à conserver sa mémoire à long terme en incorporant des mesures « surprises » plus puissantes (c'est-à-dire des éléments d'information inattendus) pendant que le modèle est en cours d'exécution et sans réentraînement hors ligne spécifique.
Le framework MIRAS, tel que démontré par Titans, introduit un changement significatif vers l'adaptation en temps réel. Au lieu de comprimer les informations dans un état statique, cette architecture apprend activement et met à jour ses propres paramètres au fur et à mesure que les données affluent. Ce mécanisme crucial permet au modèle d'incorporer instantanément de nouveaux détails spécifiques dans ses connaissances de base.
Titans : Apprendre un nouveau contexte à la volée
Un système d'apprentissage efficace nécessite des modules de mémoire distincts mais interconnectés, reflétant la séparation de la mémoire à court terme et de la mémoire à long terme du cerveau humain.
Alors que les mécanismes d'attention excellent pour la mémoire précise à court terme, Titans introduit un nouveau module de mémoire neuronale à long terme qui, contrairement à la mémoire vectorielle ou matricielle de taille fixe des RNN traditionnels, agit comme un réseau neuronal profond (plus précisément, un perceptron multicouche). Ce module de mémoire offre un pouvoir d'expression nettement plus élevé, permettant au modèle de résumer de grandes quantités d'informations sans perdre le contexte important. Le modèle ne se contente pas de prendre des notes, il comprend et synthétise l'ensemble de l'histoire.
Surtout, Titans ne se contente pas de stocker passivement des données. Il apprend activement à reconnaître et à conserver les relations importantes et les thèmes conceptuels qui relient les jetons dans l'ensemble de l'entrée. Un aspect clé de cette capacité est la « métrique de la surprise ». En psychologie humaine, nous savons que nous oublions rapidement et facilement les événements routiniers et attendus, mais que nous nous souvenons des choses qui brisent le modèle - les événements inattendus, surprenants ou hautement émotionnels.
Dans le contexte Titans, la "métrique de la surprise" est la détection par le modèle d'une grande différence entre ce dont il se souvient actuellement et ce que les nouvelles données lui indiquent.
- Faible surprise : si le nouveau mot est "chat" et que l'état de la mémoire du modèle s'attend déjà à un mot animal, le gradient (surprise) est faible. Il peut sans risque ne pas mémoriser le mot "chat" dans son état permanent à long terme.
- Surprise élevée : si l'état de la mémoire du modèle résume un rapport financier sérieux et que la nouvelle entrée est une image de peau de banane (l'événement inattendu), le gradient (surprise) sera très élevé. Ce signal indique que la nouvelle entrée est importante ou anormale et qu'elle doit être traitée en priorité pour être stockée de manière permanente dans le module de mémoire à long terme.
Le modèle utilise ce signal d'erreur interne (le gradient) comme un équivalent mathématique de la phrase : "C'est inattendu et important !". Cela permet à l'architecture Titans de mettre à jour sa mémoire à long terme de manière sélective, uniquement avec les informations les plus nouvelles et les plus dérangeantes pour le contexte, ce qui permet de maintenir le processus global rapide et efficace.
Titans affine ce mécanisme en incorporant deux éléments essentiels :
- L'élan : Le modèle tient compte à la fois de la "surprise momentanée" (l'entrée actuelle) et de la "surprise passée" (le flux de contexte récent). Cela permet de s'assurer que les informations ultérieures pertinentes sont également prises en compte, même si ces éléments ne sont pas individuellement surprenants.
- Oubli (décroissance du poids) : Pour gérer la capacité limitée de la mémoire lorsqu'il s'agit de séquences extrêmement longues, les Titans utilisent un mécanisme adaptatif de décroissance du poids. Ce mécanisme agit comme une porte d'oubli, permettant au modèle de se débarrasser des informations qui ne sont plus nécessaires.
MIRAS : Une vue unifiée de la modélisation des séquences
Chaque avancée majeure dans la modélisation des séquences - des transformateurs modernes aux nouveaux RNN linéaires rapides comme l'éclair - est essentiellement la même chose sous le capot : un module de mémoire associative hautement complexe.
Par conséquent, ce qui rend MIRAS à la fois unique et pratique, c'est la façon dont il envisage la modélisation de l'IA. Au lieu de voir diverses architectures, il voit différentes méthodes pour résoudre le même problème : combiner efficacement de nouvelles informations avec d'anciennes mémoires sans oublier les concepts essentiels.
MIRAS définit un modèle de séquence à travers quatre choix de conception clés :
- Architecture de la mémoire : La structure qui stocke l'information (par exemple, un vecteur, une matrice ou un perceptron multicouche profond, comme dans Titans).
- Biais attentionnel : L'objectif d'apprentissage interne que le modèle optimise et qui détermine ce à quoi il donne la priorité.
- Porte de rétention : Le régularisateur de mémoire. MIRAS réinterprète les "mécanismes d'oubli" comme des formes spécifiques de régularisation qui équilibrent les nouveaux apprentissages et la conservation des connaissances antérieures.
- Algorithme de mémoire : L'algorithme d'optimisation utilisé pour mettre à jour la mémoire.
Transcender le paradigme de l'erreur quadratique moyenne
Pratiquement tous les modèles de séquences existants qui ont fait leurs preuves s'appuient sur l'erreur quadratique moyenne (EQM) ou sur la similarité du produit point pour leur biais et leur rétention. Cette dépendance peut rendre les modèles sensibles aux valeurs aberrantes et limiter leur pouvoir d'expression.
MIRAS transcende cette limitation en fournissant un framework génératif pour explorer un espace de conception plus riche informé par la littérature en optimisation et en statistiques. Cela permet de créer de nouvelles architectures avec des objectifs non euclidiens et une régularisation.
En utilisant MIRAS, Google a créé trois modèles spécifiques sans attention :
- YAAD : Google a conçu cette variante de MIRAS pour qu'elle soit moins sensible aux erreurs majeures ou "aberrantes" (comme une seule faute de frappe dans un document volumineux). Elle utilise une pénalité mathématique plus douce (perte de Huber) pour les erreurs, de sorte qu'elle ne réagit pas de manière excessive aux problèmes ponctuels. Le modèle est ainsi plus robuste lorsque les données d'entrée sont désordonnées ou incohérentes.
- MONETA : ce modèle explore l'utilisation de pénalités mathématiques plus complexes et plus strictes (appelées normes généralisées). Il cherche à déterminer si l'utilisation de ces règles plus disciplinées pour ce à quoi le modèle s'intéresse et ce qu'il oublie peut conduire à un système de mémoire à long terme plus puissant et plus stable dans l'ensemble.
- MEMORA : ce modèle s'efforce d'obtenir la meilleure stabilité possible de la mémoire en forçant sa mémoire à agir comme une carte de probabilité stricte. Cette contrainte permet de s'assurer qu'à chaque fois que l'état de la mémoire est mis à jour, les changements sont contrôlés et équilibrés. Pratiquement tous les modèles de séquence existants qui ont fait leurs preuves s'appuient sur l'erreur quadratique moyenne (EQM) ou sur la similarité du produit point pour leur biais et leur rétention. Cette dépendance peut rendre les modèles sensibles aux valeurs aberrantes et limiter leur pouvoir d'expression.
Expériences et résultats
Google a comparé Titans et les variantes de MIRAS (YAAD, MONETA, MEMORA) aux principales architectures, notamment Transformer++, Mamba-2 et Gated DeltaNet. Ils ont également validé la polyvalence en testant Titans sur la modélisation génomique (ADN) et les prévisions de séries temporelles, ce qui prouve que l'architecture se généralise efficacement au-delà du texte.
Dans les ensembles de données de modélisation linguistique standard (C4, WikiText) et les tâches de raisonnement à partir de zéro (HellaSwag, PIQA), nos modèles ont constamment fait preuve d'une plus grande précision et d'une plus grande perplexité (une mesure du degré de surprise d'un LLM lorsqu'il regarde un morceau de texte).
La puissance de la mémoire profonde
Les études d'ablation montrent clairement que la profondeur de l'architecture de la mémoire est cruciale. Lorsque l'on compare des modules de mémoire à long terme de même taille mais de profondeurs différentes, les modules dotés de mémoires plus profondes obtiennent systématiquement une perplexité plus faible dans la modélisation du langage. En outre, ils présentent de meilleures propriétés de mise à l'échelle, conservant leurs performances lorsque la longueur de la séquence augmente de manière significative.
Modélisation du langage et efficacité
Dans les tâches de modélisation du langage et de raisonnement par le bon sens, les architectures de Titans sont plus performantes que les modèles récurrents linéaires de pointe (tels que Mamba-2 et Gated DeltaNet) et les lignes de base Transformer++ de tailles comparables. Les nouvelles variantes de MIRAS (MONETA, YAAD, MEMORA) améliorent également les performances par rapport à ces modèles de base, validant ainsi l'intérêt d'explorer des mécanismes d'optimisation robustes et non MSE. Il est important de noter que ces modèles conservent une formation efficace et parallélisable ainsi que des vitesses d'inférence linéaire rapides.
Rappel de contextes extrêmement longs
L'avantage le plus significatif de ces nouvelles architectures est leur capacité à gérer des contextes extrêmement longs. Ceci est mis en évidence dans le benchmark BABILong, une tâche qui nécessite de raisonner sur des faits distribués dans des documents extrêmement longs. Dans ce contexte difficile, Titans surpasse tous les modèles de référence, y compris les modèles de très grande taille comme GPT-4, bien qu'il ait beaucoup moins de paramètres. Titans démontre en outre sa capacité à s'adapter efficacement à des fenêtres contextuelles de plus de 2 millions de jetons.
Conclusion
L'introduction de Titans et du framework MIRAS marque une avancée significative dans la modélisation des séquences. En employant des réseaux neuronaux profonds comme modules de mémoire qui apprennent à mémoriser au fur et à mesure que les données arrivent, ces approches surmontent les limites des états récurrents de taille fixe. En outre, MIRAS fournit une puissante unification théorique, révélant le lien entre l'optimisation en ligne, la mémoire associative et la conception architecturale. En dépassant le paradigme euclidien standard, cette recherche ouvre la voie à une nouvelle génération de modèles de séquences qui combinent l'efficacité des RNN avec la puissance expressive nécessaire à l'ère de l'IA à contexte long.
Sources : Etude sur Titans, Etude sur MIRAS
Et vous ?
Pensez-vous que ces études sont crédibles ou pertinentes ?
Quel est votre avis sur le sujet ?
Voir aussi :
Google Research a dévoilé VaultGemma, un LLM à confidentialité différentielle doté d'un milliard de paramètres. Une avancée dans le domaine de l'IA préservant la confidentialité des données
Alibaba a lancé Qwen3-Next, une toute nouvelle architecture de modèle d'IA optimisée pour la compréhension de contextes longs, les paramètres à grande échelle et une efficacité de calcul sans précédent
Philipp Schmid : «La nouvelle compétence de l'IA n'est pas le prompting, mais l'ingénierie contextuelle». Structurer dynamiquement le contexte permettrait de booster la pertinence des modèles d'IA, selon lui











Pensez-vous que ces études sont crédibles ou pertinentes ?
Répondre avec citation
Partager