Google affirme que sa nouvelle technologie d'entraînement de l'IA, JEST, est 13 fois plus rapide et 10 fois plus économe en énergie, JEST optimise les données d'entraînement selon DeepMind.

Google affirme que sa nouvelle technologie d'entraînement à l'IA est 13 fois plus rapide et 10 fois plus économe en énergie. La nouvelle technologie JEST de DeepMind optimise les données d'entraînement pour obtenir des gains impressionnants.

Google DeepMind est un laboratoire de recherche en intelligence artificielle britannico-américain qui sert de filiale à Google. DeepMind a introduit les machines de Turing neuronales, ce qui a permis de créer un ordinateur qui ressemble vaguement à la mémoire à court terme du cerveau humain. DeepMind a également créé des modèles de réseaux neuronaux pour jouer à des jeux vidéo et à des jeux de société.

En 2020, DeepMind a réalisé des avancées significatives sur le problème du repliement des protéines avec AlphaFold. La base de données de prédictions d'AlphaFold a atteint des records de l'état de l'art sur les tests de référence pour les algorithmes de repliement des protéines, bien que chaque prédiction individuelle nécessite encore d'être confirmée par des tests expérimentaux. AlphaFold3 a été publié en mai 2024, faisant des prédictions structurelles pour l'interaction des protéines avec diverses molécules.

Récemment, Google DeepMind a publié de nouvelles recherches sur la formation des modèles d'IA qui prétendent accélérer considérablement la vitesse de formation et l'efficacité énergétique d'un ordre de grandeur, avec des performances 13 fois supérieures et une efficacité énergétique dix fois plus élevée que les autres méthodes. La nouvelle méthode de formation JEST arrive à point nommé, alors que les conversations sur l'impact environnemental des centres de données d'IA s'intensifient.

Les chercheurs de DeepMind commente la nouvelle méthode en déclarant :

La curation des données est une composante essentielle du pré-entraînement à grande échelle. Dans ce travail, nous démontrons que la sélection conjointe de lots de données est plus efficace pour l'apprentissage que la sélection indépendante d'exemples. Les objectifs contrastifs multimodaux exposent les dépendances entre les données et fournissent donc naturellement des critères pour mesurer la capacité d'apprentissage conjointe d'un lot. Nous dérivons un algorithme simple et pratique pour sélectionner de tels lots, qui accélèrent de manière significative l'apprentissage par rapport aux points de données priorisés individuellement.

Comme les performances s'améliorent en sélectionnant des lots plus importants, nous tirons également parti des avancées récentes en matière d'approximation de modèle pour réduire la charge de calcul associée. En conséquence, notre approche - apprentissage multimodal contrastif avec sélection conjointe d'exemples (JEST) - surpasse les modèles de pointe avec jusqu'à 13 fois moins d'itérations et 10 fois moins de calculs.

La capacité à orienter le processus de sélection des données vers la distribution d'ensembles de données plus petits et bien curés via des modèles de référence pré-entraînés est essentielle à la performance de JEST, exposant le niveau de curation des données comme une nouvelle dimension pour les lois de mise à l'échelle neuronale.
Nom : 2.jpg
Affichages : 4594
Taille : 59,1 Ko
Gains d'efficacité et de rapidité par rapport aux méthodes traditionnelles d'apprentissage de l'IA

JEST : Accélérer la formation de l'IA par la sélection conjointe d'exemples

La méthode de DeepMind, baptisée JEST ("Joint Example Selection" ou sélection conjointe d'exemples), se distingue des techniques traditionnelles de formation de modèles d'IA de manière simple. Les méthodes de formation habituelles se concentrent sur des points de données individuels pour la formation et l'apprentissage, alors que la méthode JEST se base sur des lots entiers.

La méthode JEST crée d'abord un petit modèle d'IA qui évalue la qualité des données provenant de sources de très haute qualité, en classant les lots en fonction de leur qualité. Il compare ensuite ce classement à un ensemble plus important de données de moindre qualité. Le petit modèle JEST détermine les lots les plus adaptés à la formation, et un grand modèle est ensuite formé à partir des résultats du petit modèle.

Les chercheurs de DeepMind indiquent clairement que cette "capacité à orienter le processus de sélection des données vers la distribution d'ensembles de données plus petits et bien sélectionnés" est essentielle au succès de la méthode JEST. DeepMind affirme que "notre approche surpasse les modèles de pointe avec jusqu'à 13 fois moins d'itérations et 10 fois moins de calculs".

Bien entendu, ce système repose entièrement sur la qualité de ses données d'apprentissage, car la technique du bootstrapping s'effondre sans un ensemble de données de la plus haute qualité possible créé par l'homme. Le mantra "garbage in, garbage out" n'est nulle part plus vrai que dans cette méthode, qui tente de "brûler les étapes" dans son processus de formation.

La méthode JEST est donc beaucoup plus difficile à mettre en œuvre pour les amateurs ou les développeurs d'IA que la plupart des autres méthodes, car des compétences de recherche de niveau expert sont probablement nécessaires pour collecter les données d'entraînement initiales de la plus haute qualité.

Nom : 3.jpg
Affichages : 404
Taille : 52,6 Ko
Notation efficace et formation multirésolution

La recherche JEST arrive à point nommé, alors que l'industrie technologique et les gouvernements du monde entier entament des discussions sur les besoins extrêmes en énergie de l'intelligence artificielle. Les charges de travail de l'IA ont consommé environ 4,3 GW en 2023, ce qui correspond presque à la consommation annuelle d'énergie de la nation de Chypre. Et les choses ne ralentissent certainement pas : une seule requête ChatGPT coûte 10 fois plus d'énergie qu'une recherche Google, et le PDG d'Arm estime que l'IA occupera un quart du réseau électrique des États-Unis d'ici 2030.

Reste à savoir si et comment les méthodes JEST seront adoptées par les principaux acteurs de l'espace IA. La formation du GPT-4o aurait coûté 100 millions de dollars, et les futurs modèles plus importants pourraient bientôt atteindre le milliard de dollars, de sorte que les entreprises sont probablement à la recherche de moyens d'économiser leur portefeuille dans ce domaine.

Certains espèrent que les méthodes JEST seront utilisées pour maintenir les taux de productivité actuels de la formation à des niveaux de consommation d'énergie nettement inférieurs, ce qui permettra de réduire les coûts de l'IA et d'aider la planète. Cependant, il est beaucoup plus probable que la machine du capital garde la pédale au plancher, en utilisant les méthodes JEST pour maintenir la consommation d'énergie au maximum afin d'obtenir un rendement de formation hyper-rapide. Réduction des coûts ou augmentation de la production, qui l'emportera ?

Nom : 4.jpg
Affichages : 416
Taille : 45,1 Ko
La mise à l'échelle de la curation des données améliore les performances de JEST

De leur coté, les chercheurs de DeepMind concluent cette découverte :

Nous avons proposé une méthode - JEST - pour sélectionner conjointement les lots de données les plus faciles à apprendre, ce qui accélère considérablement l'apprentissage multimodal à grande échelle, surpassant l'état de l'art précédent avec jusqu'à 10 fois moins de FLOP et 13 fois moins d'exemples. En particulier, nos expériences mettent en évidence le fort potentiel du "bootstrapping de la qualité des données", en utilisant de petits ensembles de données curatées pour guider l'apprentissage sur des ensembles de données beaucoup plus importants et non curatés.

Des travaux récents ont montré que le filtrage statique des ensembles de données, sans connaissance de la formation en aval, peut en fin de compte limiter les performances. Nos résultats démontrent que les lots utiles, qui doivent être construits en ligne, améliorent l'efficacité de la préformation au-delà des exemples sélectionnés individuellement. Ces résultats plaident donc en faveur de distributions de base - soit par le biais d'ensembles de données pré-notés avec JEST easy-reference, soit ajustés dynamiquement aux exigences du modèle avec JEST learnability - comme remplacement plus général et plus efficace des ensembles de données de base génériques.

Bien que notre méthode ait accéléré l'apprentissage multimodal des tâches canoniques en aval, elle s'est appuyée sur de petits ensembles de données de référence bien curés qui spécifient la distribution à prioriser dans des données non curées beaucoup plus importantes. Nous encourageons donc les travaux futurs qui explorent l'inférence d'ensembles de données de référence à partir de l'ensemble des tâches en aval qui nous intéressent.
Source : "Data curation via joint example selection further accelerates multimodal learning" (Google DeepMind)

Et vous ?

Pensez-vous que cette méthode est crédible ou pertinente ?
Quel est votre avis sur le sujet ?

Voir aussi :

La "distillation pas-à-pas", un nouveau paradigme d'apprentissage pour surpasser les performances des grands LLM avec moins de données d'entraînement et des modèles d'IA de plus petite taille

Le PDG d'Anthropic estime que le coût de la formation d'un modèle d'IA atteindra bientôt 100 milliards de dollars, ce qui suggère que les entreprises échouent à réduire les coûts liés au développement de l'IA

Les entreprises d'IA sont-elles à court de données pour entraîner leurs modèles après avoir englouti l'ensemble de l'Internet ? Un rapport alerte sur une potentielle pénurie de données