GPT-4 : la nouvelle version de l'IA de traitement du langage naturel d'OpenAI pourrait arriver cet été

**Bill Fassinou** · 19/04/2022, 22h53

GPT-4 : la nouvelle version de l'IA de traitement du langage naturel d'OpenAI pourrait arriver cet été
il devrait être moins volumineux que GPT-3, mais beaucoup plus performant

La sortie de GPT-4, la prochaine version du modèle de langage d'OpenAI, serait imminente. Bien qu'aucune date de sortie n'a encore été annoncée jusque-là, OpenAI a donné quelques indications sur les caractéristiques du successeur de GPT-3. Ainsi, contrairement à ce à quoi beaucoup pourraient s'attendre, GPT-4 ne devrait pas être plus grand que GPT-3, mais devrait utiliser plus de ressources de calcul, ce qui limitera son impact environnemental. GPT-4 ne devrait pas non plus être une IA multimodale, et devrait prendre en charge uniquement les données textuelles.

En mai 2020, OpenAI, la société d'IA cofondée par Elon Musk et Sam Altman, publiait GPT-3, présenté alors comme le grand réseau neuronal de l'époque. Modèle de langage de pointe, GPT-3 comprend 175 milliards de paramètres contre 1,5 milliard de paramètres pour son prédécesseur GPT-2. GPT-3 a battu le modèle NLG Turing (Turing Natural Language Generation) de Microsoft avec 17 milliards de paramètres qui détenait auparavant le record du plus grand réseau neuronal. Le modèle de langage a été émerveillé, critiqué et même soumis à un examen approfondi ; il a également trouvé de nouvelles applications intéressantes.

Nom : 0_aZpL9ZsxWrfan9V5.png
Affichages : 9491
Taille : 444,5 Ko

Les trois modèles ont été publiés à un an d'intervalle : GPT-1 est sorti en 2018, GPT-2 en 2019 et GPT-3 en 2020. Si cette tendance devait se confirmer d'une version à l'autre, GPT-4 devrait déjà être là. Ce n'est pas le cas, mais le PDG d'OpenAI, Sam Altman, a déclaré il y a quelques mois que GPT-4 allait arriver. Selon la rumeur, la date de sortie serait prévue pour 2022, probablement entre juillet et août. Altman a organisé une séance de questions-réponses à la fin de l'année dernière et a donné quelques indices sur ce que l'on peut attendre de GPT-4. Bien que ces informations manquent de précision, l'on peut prévoir les points suivants.

Taille du modèle : GPT-4 devrait être moins grand que GPT-3

Lors de la séance, Altman a laissé entendre que, contrairement à la croyance populaire, GPT-4 ne sera pas le plus grand modèle de langue. Il ne devrait pas être plus grand que GPT-3. Le modèle sera certainement plus grand que les générations précédentes de réseaux neuronaux, mais la taille ne sera pas son signe distinctif. Il se situera probablement quelque part entre GPT-3 et Gopher (entre 175 et 280 milliards de paramètres). Selon Altman, un modèle plus grand ne signifie pas toujours un modèle plus performant. L'existence de modèles plus petits qui sont meilleurs a deux implications.

Premièrement, les entreprises ont réalisé que l'utilisation de la taille du modèle comme proxy pour améliorer les performances n'est pas la seule façon de le faire ni la meilleure. En 2020, Jared Kaplan, d'OpenAI, et ses collègues auraient conclu que les performances s'améliorent le plus lorsque les augmentations du budget de calcul sont principalement allouées à l'augmentation du nombre de paramètres, suivant une relation de type loi de puissance. Google, Nvidia, Microsoft, OpenAI, DeepMind et d'autres entreprises développant des modèles de langage ont pris ces directives pour argent comptant.

Mais MT-NLG (Megatron-Turing NLG, un réseau neuronal construit par Nvidia et Microsoft l'année dernière avec 530 milliards de paramètres), aussi gros qu'il soit, n'est pas le meilleur en matière de performances. En fait, l'on estime qu'il n'est le meilleur dans aucune catégorie de référence. Des modèles plus petits, comme Gopher, ou Chinchilla (70 milliards de paramètres) - à peine une fraction de sa taille - seraient bien meilleurs que MT-NLG dans toutes les tâches. Ainsi, il est devenu évident que la taille du modèle n'est pas le seul facteur permettant d'obtenir une meilleure compréhension du langage.

Ce qui amène à la deuxième implication. Les entreprises auraient commencé à rejeter le dogme : plus c'est gros, mieux c'est. Disposer de plus de paramètres ne serait qu'un facteur parmi d'autres qui peut améliorer les performances. Et les dommages collatéraux (par exemple, l'empreinte carbone, les coûts de calcul ou les barrières à l'entrée) en font l'un des pires facteurs à prendre en compte, bien qu'il soit très simple à mettre en œuvre. Les entreprises réfléchiront à deux fois avant de construire un modèle gigantesque lorsqu'elles peuvent obtenir des résultats similaires - voire meilleurs - avec un modèle plus petit.

L'optimalité : OpenAI veut tirer le meilleur parti de GPT-4

Selon Altman, les modèles de langage souffrent d'une limitation critique lorsqu'il s'agit d'optimisation. La formation serait si coûteuse que les entreprises doivent faire des compromis entre la précision et le coût. Il en résulte souvent que les modèles sont nettement sous-optimisés. Le PDG a indiqué que GPT-3 n'a été entraîné qu'une seule fois, malgré quelques erreurs qui, dans d'autres cas, auraient conduit à un nouvel entraînement. De ce fait, OpenAI aurait décidé de ne pas le faire en raison des coûts inabordables, empêchant les chercheurs de trouver le meilleur ensemble d'hyperparamètres pour le modèle.

Une autre conséquence des coûts de formation élevés est que les analyses du comportement du modèle seraient restreintes. Selon un rapport, lorsque les chercheurs en intelligence artificielle ont conclu que la taille du modèle était la variable la plus pertinente pour améliorer les performances, ils n'ont pas pris en compte le nombre de jetons d'apprentissage, c'est-à-dire la quantité de données fournies aux modèles. Cela aurait nécessité des quantités extraordinaires de ressources informatiques. Les entreprises technologiques auraient suivi les conclusions des chercheurs parce que c'était ce qu'elles avaient de mieux.

Mais selon des analystes, Google, Microsoft, Facebook et d'autres ont "gaspillé" des millions de dollars pour des modèles de plus en plus grands - générant ainsi de grandes quantités de pollution - motivés précisément par des restrictions économiques. Aujourd'hui, les entreprises, avec DeepMind et OpenAI en tête, exploreraient d'autres approches. Elles essaieraient de trouver des modèles optimaux plutôt que des modèles plus grands.

OpenAI travaillerait sur un paramétrage optimal de GPT-4

Le mois dernier, Microsoft et OpenAI ont prouvé que GPT-3 pouvait encore être amélioré s'ils entraînaient le modèle avec des hyperparamètres optimaux. Ils auraient constaté qu'une version de GPT-3 avec seulement 6,7 milliards de paramètres augmentait tellement ses performances qu'elle était comparable au modèle GPT-3 original de 13 milliards de paramètres. L'ajustement des hyperparamètres - irréalisable pour les modèles plus grands - a entraîné une augmentation des performances équivalente au doublement du nombre de paramètres. Ils auraient ainsi trouvé une nouvelle paramétrisation (μP).

Dans le cadre de cette dernière, les meilleurs hyperparamètres pour un petit modèle étaient également les meilleurs pour un plus grand modèle de la même famille. μP aurait permis d'optimiser des modèles de taille arbitraire pour une fraction minuscule du coût de formation. Les hyperparamètres pourraient ensuite être transférés pratiquement sans coût au modèle plus grand. OpenAI devrait prendre en compte ces points dans GPT-4.

GPT-4 devrait utiliser beaucoup plus de calculs que GPT-3

Altman a déclaré que GPT-4 utilisera beaucoup plus de calcul que son prédécesseur. OpenAI devrait implémenter des idées liées à l'optimalité dans GPT-4 - bien que l'on ne puisse pas prévoir dans quelle mesure, puisque leur budget est inconnu. Cependant, les déclarations d'Altman montrent qu'OpenAI devrait se concentrer sur l'optimisation d'autres variables que la taille du modèle. Trouver le meilleur ensemble d'hyperparamètres, la taille optimale du modèle et le nombre de paramètres pourrait entraîner des améliorations incroyables dans tous les benchmarks.

Selon les analystes, toutes les prédictions pour les modèles de langage tomberont à l'eau si ces approches sont combinées en un seul modèle. Altman a également déclaré que les gens ne croiraient pas à quel point les modèles peuvent être meilleurs sans être forcément plus grands. Il suggère peut-être que les efforts de mise à l'échelle sont terminés pour le moment.

Multimodalité : GPT-4 devrait être un modèle uniquement textuel

Selon les analystes, l'avenir de l'apprentissage profond réside probablement dans les modèles multimodaux. Le cerveau humain est multisensoriel parce que nous vivons dans un monde multimodal. Percevoir le monde d'un seul mode à la fois limite considérablement la capacité de l'IA à s'y retrouver ou à le comprendre. Cependant, il serait beaucoup plus difficile de construire de bons modèles multimodaux que de bons modèles basés sur le langage ou la vision uniquement. Les analystes estiment que combiner des informations visuelles et textuelles en une seule représentation est une tâche ardue. Ainsi, Altman a déclaré que GPT-4 devrait être un modèle uniquement textuel.

Sparsité : OpenAI indique que GPT-4 devrait être un modèle dense

Les modèles épars qui exploitent le calcul conditionnel en utilisant différentes parties du modèle pour traiter différents types d'entrées auraient connu un grand succès ces dernières années. Ces modèles s'étendraient facilement au-delà de la marque de 1T-paramètre sans souffrir de coûts de calcul élevés, créant une relation apparemment orthogonale entre la taille du modèle et le budget de calcul. Cependant, les avantages diminueraient sur les très grands modèles. Étant donné qu'OpenAI s'est concentré sur des modèles de langage denses, il serait raisonnable de penser que GPT-4 sera également un modèle dense.

Et étant donné qu'Altman a déclaré que GPT-4 ne sera pas beaucoup plus grand que GPT-3, l'on pourrait déduire que la sparsité n'est pas une option pour OpenAI - du moins pour le moment. Selon les analystes, la sparsité, à l'instar de la multimodalité, dominera très probablement les futures générations de réseaux neuronaux, étant donné que le cerveau humain - l'inspiration de l'IA - s'appuie fortement sur le traitement clairsemé.

Alignement : GPT-4 devrait être plus aligné que GPT-3

OpenAI aurait déployé beaucoup d'efforts pour résoudre le problème de l'alignement de l'IA : comment faire en sorte que les modèles de langage suivent les intentions de l'être humain et adhèrent à ses valeurs ? D'après les analystes, il ne s'agit pas seulement d'un problème difficile sur le plan mathématique (comment faire en sorte que l'IA comprenne précisément ce que nous voulons ?), mais aussi sur le plan philosophique (il n'existe pas un moyen universel pour aligner l'IA sur les humains, car la variabilité des valeurs humaines d'un groupe à l'autre est énorme, et souvent conflictuelle).

OpenAI aurait fait une première tentative avec InstructGPT, qui est un GPT-3 renouvelé, entraîné avec un retour humain pour apprendre à suivre des instructions (que celles-ci soient bien intentionnées ou non n'est pas encore pris en compte dans les modèles). La principale avancée d'InstructGPT serait que, indépendamment de ses résultats sur les benchmarks linguistiques, il est perçu comme un meilleur modèle par les juges humains (qui forment un groupe très homogène de personnes - employés d'OpenAI et anglophones -, l'on devrait donc être prudent avant d'en tirer des conclusions).

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des caractéristiques potentielles de GPT-4 ?

Voir aussi

GPT-3, le système de génération de texte d'OpenAI, produit désormais 4,5 milliards de mots par jour, avec une précision de 91 %

Un faux blogue d'un lycéen généré par GPT-3, l'IA de traitement du langage naturel d'OpenAI, a trompé des dizaines de milliers de personnes

Un chatbot médical GPT-3 d'OpenAI serait-il une bonne idée ? Il a dit à un patient simulé de se suicider, lors d'un test réalisé par Nabla

Microsoft crée un autocompléteur de code à l'aide de GPT-3, le système de génération de texte d'OpenAI, pour combler le manque de développeurs dans le monde