Le PDG d'Anthropic estime que le coût de la formation d'un modèle d'IA atteindra bientôt 100 Mds $

**Stéphane le calme** · 26/05/2023, 18h20

Les modèles de langages coûtent 10 fois plus cher à développer dans certaines langues que dans d'autres,
d'après l'analyse d'une chercheuse en IA

Les modèles de langage sont des systèmes informatiques capables de générer ou de comprendre du texte naturel. Ils sont utilisés pour de nombreuses applications, comme la recherche, la traduction, la rédaction ou le dialogue. Mais Yennie Jun, ingénieure en machine learning et chercheuse en AI, a démontré que tous les modèles de langage ne se valent pas : selon la langue qu’ils traitent, ils peuvent avoir des performances et des coûts très différents.

Les modèles de langage sont des outils puissants et prometteurs pour traiter le texte naturel, mais ils ont aussi un coût qui varie selon la langue qu’ils manipulent. Ce coût dépend de plusieurs facteurs, comme la taille du modèle, la qualité des données ou le niveau de spécialisation. Il a des conséquences importantes pour les développeurs, les utilisateurs et l’environnement.

Le concept de tokenisation

La tokenisation est une étape essentielle dans la plupart des modèles d’IA actuels. La tokenisation consiste à découper un texte ou une autre modalité en unités plus petites et plus gérables, appelées tokens. Par exemple, un texte peut être découpé en mots, en syllabes ou en caractères. Une image peut être découpée en pixels ou en régions. Un son peut être découpé en fréquences ou en phonèmes.

La tokenisation permet de réduire la complexité et la taille des données à traiter par les modèles d’IA, mais elle présente aussi des inconvénients. Tout d’abord, elle nécessite de choisir un vocabulaire de tokens adapté au domaine et à la langue des données, ce qui peut être coûteux et fastidieux. Ensuite, elle introduit une perte d’information et une ambiguïté dans la représentation des données, car certains tokens peuvent avoir plusieurs sens ou ne pas correspondre exactement aux unités sémantiques des données. Enfin, elle limite la capacité des modèles à traiter des séquences longues et variées, car le nombre de tokens augmente avec la longueur et la diversité des données.

Pour être plus clair, les grands modèles de langage tels que ChatGPT traitent et génèrent des séquences de texte en divisant d'abord le texte en unités plus petites appelées tokens (ou jetons). Dans l'image ci-dessous, chaque bloc coloré représente un token unique. Des mots courts ou courants tels que “you”, “say”, “loud” et “always” sont leurs propres token, tandis que des mots plus longs ou moins courants tels que “atrocious”, “precocious”, and “supercalifragilisticexpialidocious” sont divisés en sous-mots plus petits.

Nom : token.png
Affichages : 1793
Taille : 104,7 Ko

Ce processus de tokenisation n'est pas uniforme d'une langue à l'autre, ce qui entraîne des disparités dans le nombre de jetons produits pour des expressions équivalentes dans différentes langues. Par exemple, une phrase en birman ou en amharique peut nécessiter 10 fois plus de jetons qu'un message similaire en anglais.

Dans son billet, Yennie Jun a exploré le processus de tokenisation et s'est intéressé à sa variation d'une langue à l'autre. Elle a notamment :

analysé des distributions de tokens dans un ensemble de données parallèles de messages courts qui ont été traduits dans 52 langues différentes ;
noté que certaines langues, comme l'arménien ou le birman, nécessitent 9 à 10 fois plus de tokens que l'anglais pour tokeniser des messages comparables ;
noté l'impact de cette disparité linguistique, rappelant au passage que ce phénomène n'est pas nouveau pour l'IA et précisant que cela correspond à ce que nous observons dans le code Morse et les polices informatiques.

Certaines langues se segmentent systématiquement en longueurs plus longues

Pour chaque langue, Yennie a calculé la longueur médiane du token pour tous les textes de l'ensemble de données. Le tableau suivant compare un sous-ensemble de langues. Les textes anglais avaient la plus petite longueur médiane de 7 tokens et les textes birmans avaient la plus grande longueur médiane de 72 jetons. Les langues romanes telles que l'espagnol, le français et le portugais avaient tendance à donner un nombre similaire de token à l'anglais.

Nom : median.png
Affichages : 1437
Taille : 139,6 Ko

Comme l'anglais avait la longueur de jeton médiane la plus courte, Yennie a calculé le rapport entre la longueur médiane du token des autres langues et celle de l'anglais. Des langues telles que l'hindi et le bengali (plus de 800 millions de personnes parlent l'une ou l'autre de ces langues) ont donné une longueur symbolique médiane d'environ 5 fois celle de l'anglais. Le ratio est 9 fois celui de l'anglais pour l'arménien et plus de 10 fois celui de l'anglais pour le birman. En d'autres termes, pour exprimer le même sentiment, certaines langues nécessitent jusqu'à 10 fois plus de token. Le français quant à lui nécessitait 1,5 fois le nombre de token en anglais pour exprimer le même sentiment.

Nom : sentiment.png
Affichages : 1403
Taille : 105,3 Ko

Quels sont les facteurs qui influencent le coût des modèles de langage ?

Le coût d’un modèle de langage dépend de plusieurs facteurs, dont les principaux sont :

La taille du modèle : plus un modèle a de paramètres, c’est-à-dire de variables internes qui déterminent son comportement, plus il est complexe et puissant, mais aussi plus il consomme de ressources informatiques pour être entraîné et déployé.
La qualité des données : pour apprendre à produire ou à analyser du texte, un modèle de langage a besoin de données d’entraînement, c’est-à-dire de textes étiquetés ou non qui lui servent d’exemples. La qualité de ces données influe sur la qualité du modèle : plus les données sont diverses, représentatives et sans erreur, plus le modèle sera performant et robuste. Or, certaines langues disposent de plus de données que d’autres, notamment celles qui sont parlées par un grand nombre de personnes ou qui sont présentes sur le web. Par exemple, l’anglais bénéficie d’un corpus de données très riche et varié, tandis que des langues moins répandues ou moins numérisées comme le basque ou le tibétain ont moins de données disponibles.
Le niveau de spécialisation : un modèle de langage peut être généraliste ou spécialisé dans un domaine particulier, comme la médecine, le droit ou la finance. Un modèle spécialisé a l’avantage d’être plus précis et pertinent dans son domaine, mais il nécessite aussi des données plus spécifiques et plus rares, ce qui augmente son coût. Par exemple, un modèle de langage médical en français aura besoin de données issues de publications scientifiques, de rapports médicaux ou de dialogues entre médecins et patients en français, ce qui est moins facile à trouver qu’un corpus généraliste en français.

Il n’existe pas de mesure unique et universelle du coût des modèles de langage, car il dépend du contexte et du but recherché. Néanmoins, on peut distinguer deux types principaux de coût :

Le coût d’entraînement : il correspond au coût nécessaire pour créer un modèle à partir de données. Il inclut le coût du matériel informatique (processeurs, mémoire, stockage), du logiciel (frameworks, bibliothèques), de l’électricité et du temps humain (ingénieurs, chercheurs, annotateurs). Le coût d’entraînement peut être très élevé pour les modèles les plus grands et les plus sophistiqués
Le coût d’inférence : il correspond au coût nécessaire pour utiliser un modèle existant pour générer ou comprendre du texte. Il inclut le coût du matériel informatique (serveurs, cloud), du logiciel (APIs, services), de l’électricité et du temps humain (utilisateurs, clients). Le coût d’inférence peut varier selon la fréquence et la complexité des requêtes.

Le coût des modèles de langage a des implications importantes pour les acteurs qui les développent ou les utilisent, ainsi que pour les utilisateurs finaux qui en bénéficient. On peut citer quelques exemples :

Le coût d’entraînement peut être un frein à l’innovation et à la diversité linguistique : seuls les acteurs disposant de moyens financiers importants peuvent se permettre d’entraîner des modèles de pointe sur des langues peu dotées en données. Cela peut créer un déséquilibre entre les langues dominantes et les langues minoritaires, et renforcer les biais culturels ou idéologiques des modèles.
Le coût d’inférence peut être un facteur de compétitivité et de rentabilité : les acteurs qui proposent des services basés sur des modèles de langage doivent trouver le bon équilibre entre la qualité et le coût de leurs offres. Cela peut les inciter à optimiser leurs modèles, à choisir des langues plus rentables ou à répercuter le coût sur les utilisateurs.
Le coût des modèles de langage peut avoir un impact environnemental : les modèles de langage consomment beaucoup d’énergie, ce qui contribue au réchauffement climatique. Selon une étude menée par l’Université du Massachusetts en 2019 , entraîner un modèle de langage comme BERT équivaut à émettre environ 284 tonnes de CO2, soit l’équivalent de la consommation annuelle de 5 voitures américaines. Cela pose la question de la responsabilité écologique des acteurs du domaine.

Conclusion

Les disparités linguistiques dans la tokenisation révèlent un problème urgent en IA*: l'équité et l'inclusivité. Comme des modèles comme ChatGPT sont principalement formés à l'anglais, les langues de script non indo-européennes et non latines sont confrontées à des obstacles en raison des coûts de tokenisation prohibitifs.

Aussi, tous les modèles de langage ne se valent pas : selon la langue ciblée, le coût peut varier considérablement. Par exemple, le français est une langue moins représentée que l’anglais sur le web et dans les bases de données. Il existe donc moins de données disponibles pour entraîner des modèles de langage en français. De plus, le français est une langue plus riche et plus variée que l’anglais sur le plan morphologique et syntaxique. Il faut donc des modèles plus grands et plus complexes pour couvrir toutes les nuances du français.

Yennie Jun estime qu'il est « essentiel de s'attaquer à ces disparités pour assurer un avenir plus inclusif et accessible à l'intelligence artificielle, qui profitera en fin de compte aux diverses communautés linguistiques du monde entier ». Elle propose un tableau de bord exploratoire qu'elle a réalisé, disponible sur les espaces HuggingFace. Une fois dessus, vous pouvez comparer les longueurs de jeton pour différentes langues et pour différents tokenizers (ce qui n'a pas été exploré dans son article, mais qu'elle recommande aux curieux).

Essayez vous-même

Source : Yennie Jun

Et vous ?

Avez-vous déjà utilisé un modèle de langage dans votre vie quotidienne ou professionnelle ? Si oui, dans quel contexte et avec quel résultat ?

Quelle est la langue que vous préférez utiliser pour interagir avec un modèle de langage ? Pourquoi ?

Êtes-vous surpris par les résultats comparatifs de la chercheuse entre le français et l'anglais ? Que pensez-vous de la place du français ?

Quels sont les risques ou les opportunités que vous percevez liés à l’utilisation des modèles de langage dans différents domaines (éducation, santé, divertissement, etc.) ?

**Mathis Lucas** · 13/05/2024, 14h15

Le PDG d'Anthropic estime que le coût de la formation d'un modèle d'IA atteindra bientôt 100 milliards de dollars
ce qui suggère que les entreprises échouent à réduire les coûts liés au développement de l'IA

Dario Amodei, PDG d'Anthropic, a déclaré que le coût de développement d'un grand modèle de langage (LLM) est actuellement estimé à 100 millions de dollars. Mais ce coût augmente de façon exponentielle et pourrait franchir la barre des 100 milliards de dollars dans les années à venir. Il affirme que ce coût faramineux pourrait s'expliquer par la recherche d'algorithmes d'IA de plus en plus efficaces et d'éventuelles difficultés en matière de puissance de calcul et d'approvisionnement en puces d'IA. Ses déclarations donnent une idée des investissements colossaux qu'exige le développement de l'IA et des difficultés des entreprises à réduire ces coûts au fil des ans.

Les coûts liés à la formation des modèles d'IA augmentent de façon exponentielle

Un modèle d'IA est un programme qui analyse des ensembles de données pour trouver des modèles spécifiques et faire des prédictions. Il s'agit d'une illustration d'un système qui peut recevoir des données et tirer des conclusions ou mener des actions en fonction de ces conclusions. Les modèles d'IA peuvent être utilisés pour toute une série d'activités, de la reconnaissance d'images et de vidéos au traitement du langage naturel (NLP), en passant par les systèmes de recommandation et la modélisation prédictive, ainsi que la robotique et les systèmes de contrôle. Toutefois, leur formation a un coût excessif pour les entreprises.

Anthropic CEO Dario Amodei says the cost of AI models will soon scale to the $100 billion range pic.twitter.com/sZdpwo6Ski
— Tsarathustra (@tsarnick) May 10, 2024

Selon les experts, le coût de la formation d'un modèle n'a cessé d'augmenter depuis plusieurs années. Bien que des entreprises comme OpenAI et Google ne divulguent pas les coûts précis de la formation de modèles d'IA comme GPT-4 et Gemini, il est évident qu'il s'agit d'une activité extrêmement coûteuse. Et plus ces modèles dits "frontières" deviennent grands et performants, plus leur formation est coûteuse. Lorsqu'OpenAI a publié GPT-3 en 2020, le fournisseur de services cloud Lambda a estimé la formation du modèle, qui compte 175 millions de paramètres, a coûté plus de 4,6 millions de dollars à la société d'IA.

OpenAI n'a pas révélé la taille de GPT-4 et refuse de divulguer toute information à propos du modèle pour raisons commerciales et de concurrences. Mais certaines analyses suggèrent que GPT-4 compterait 1 000 à 1 800 milliards de paramètres et le PDG d'OpenAI, Sam Altman, a vaguement évalué le coût de l'entraînement à plus de 100 millions de dollars. Dario Amodei, cofondateur et PDG d'Anthropic, déclarait en août que des modèles coûtant plus d'un milliard de dollars apparaîtraient cette année et que d'ici 2025, nous pourrions avoir un modèle de 10 milliards de dollars. Amodei vient de revoir à la hausse cette estimation.

Lors d'une interview avec Bloomberg la semaine dernière, le PDG d'Anthopic a déclaré que la formation d'un modèle pourrait coûter jusqu'à 100 milliards de dollars dans un avenir proche. Il s'agit d'un investissement colossal que seules quelques entreprises pourraient être capables de supporter. Amodei a déclaré :

Envoyé par Dario Amodei

La génération actuelle de modèles que nous voyons sur le marché est encore de l'ordre de 100 millions de dollars. Je pense que tout cela peut aller jusqu'à 100 milliards de dollars à l'extrémité de cette fourchette, avec quelques difficultés en matière de puissance et d'approvisionnement en puces. Mais nous y parviendrons dans quelques années.

C'est donc un facteur de mille de plus. Ensuite, je pense que les algorithmes deviendront plus efficaces et que nous verrons des choses, des choses qui s'ajouteront au post-entraînement. À un moment donné, nous n'en aurons plus. Mais je pense qu'il y a beaucoup de choses empilées pour continuer à améliorer les modèles.

Dario Amodei a cofondé Anthropic avec sa sœur Daniela en 2021. Autrefois chercheurs principaux chez OpenAI, les deux ont démissionné fin 2020 pour créer leur propre entreprise d'IA, avec l'objectif de construire des systèmes d'IA puissants et intelligents, mais aussi alignés sur les valeurs humaines. « Nous avons quitté OpenAI parce que nous étions préoccupés par la direction à prendre », a déclaré Daniela Amodei, présidente d'Anthropic, lors de l'interview.

Le coût de la formation pourrait bientôt devenir difficile à supporter pour les entreprises

Selon Dario Amodei, la puissance de calcul et les puces d'IA constitueront un facteur important de cette augmentation exponentielle des coûts. À titre de rappel, pour former leurs modèles d'IA, les entreprises s'appuient sur des unités de traitement graphique (GPU) capables de traiter de grandes quantités de données à grande vitesse. Non seulement ces puces sont rares, mais elles sont aussi extrêmement chères, les puces d'IA les plus avancées du marché étant principalement fabriquées par une seule entreprise : Nvidia. La demande des puces d'IA de Nvidia a rendu l'entreprise extrêmement riche ces dernières années.

Mais ce n'est pas tout. Amodei a ajouté : « il faut commencer à penser à l'écosystème plus large, aux compensations carbone pour les grands centres de données, et c'est ce que nous étudions également ». Cela suggère que les coûts de formation des modèles pourraient à l'avenir prendre en compte les dépenses liées aux efforts de compensation des émissions de dioxyde de carbone. L'IA est très vorace en énergie, tant pendant la formation que lors de l'inférence des modèles. La puissance de calcul nécessaire à l'IA contribue à une consommation d'énergie importante et à des émissions de dioxyde de carbone à grande échelle.

En 2022, des chercheurs du Royaume-Uni, des États-Unis, d'Allemagne et d'Espagne ont constaté que, après l'essor de l'apprentissage profond au début des années 2010, la puissance de calcul nécessaire pour former les nouveaux modèles les plus performants a doublé environ tous les six mois. Selon Jaime Sevilla, directeur d'Epoch AI et auteur principal de l'article, la trajectoire s'est maintenue depuis lors, le coût de la formation triplant environ chaque année. Elle a également déclaré que la multiplication par 4 des besoins en calcul est compensée par une augmentation de 1,3 fois de l'efficacité.

« C'est toujours une ligne droite et elle continue à pointer vers le haut », a ajouté Sevilla. Selon les analystes, si cette tendance se poursuit, le coût de la formation d'un modèle par rapport aux capacités acquises deviendra à un moment donné trop élevé pour être supporté par une entreprise. Par exemple, GPT-3 était plus précis que GPT-2, au point qu'il a pu alimenter le générateur de code GitHub Copilot. GPT-3.5, renforcé par des processus qui nécessitaient à nouveau une formation et des ressources informatiques supplémentaires, était suffisamment convaincant pour servir de base à la première version de ChatGPT.

Les difficultés liées à l'accès aux données pourraient augmenter les coûts de la formation

L'un des facteurs pouvant être un frein à l'évolution des capacités des modèles est la disponibilité des données pour la formation. Heim souligne qu'il existe plusieurs moyens pour contourner ce problème. (Par exemple, en s'entraînant sur un plus grand nombre de types de données et en montrant plusieurs fois les mêmes données aux modèles.) Les poursuites pour violation de droits d'auteur pourraient jouer un rôle dans l'équation, si elles empêchent les entreprises de s'emparer de toutes les données qu'elles peuvent trouver en ligne. Mais même si cela se produit, il y a toujours la possibilité d'utiliser des données synthétiques.

Ces données synthétiques comprennent, entre autres, des données vidéo générées par les moteurs de jeu Unity ou Unreal. D'autres proposent également d'utiliser des données générées par les modèles d'IA. En outre, il est probable que les entreprises accorderont de plus en plus de licences pour des données privées à des fins d'entraînement à l'IA. En outre, un autre risque réside dans l'aspect pratique de l'expansion des centres de données et de l'augmentation de la consommation d'énergie et d'eau qui en découle. Toutefois, l'opposition aux nouveaux grands centres de données s'accroît dans le monde.

« Nous pensons qu'à l'avenir, nous aurons bien sûr des modèles de base fermés, grands et solides, mais beaucoup d'entreprises adopteront de multiples petits modèles pour des cas d'utilisation spécifiques », a déclaré Philipp Schmid, responsable technique de la startup d'IA Hugging Face, ajoutant qu'une approche open source (comme l'ont fait des acteurs tels que Meta et Mistral) aiderait également à résoudre les problèmes de coûts. « Si nous nous appuyons sur le travail des uns et des autres, nous pouvons réutiliser les ressources et l'argent dépensés », a-t-il déclaré. Cependant, l'industrie est divisée sur cette question.

Lors d'une interview au début du mois, Sam Altman, PDG d'OpenAI, a déclaré qu'il ne se soucie pas du tout des sommes colossales dépensées par son entreprise pour développer des modèles d'IA plus avancés. Il a déclaré que le but est de construire l'intelligence artificielle générale (AGI) et que la fin justifie les moyens. Par conséquent, l'entrepreneur affirme qu'il se fiche de savoir si la construction de l'AGI va saigner jusqu'à 50 milliards de dollars par an. Lors de l'interview, Altman a également déclaré que le modèle GPT-4 d'OpenAI est la technologie la plus stupide que le monde aura à utiliser.

« Que nous brûlions 500 millions de d dollars, 5 milliards de dollars ou 50 milliards de dollars par an, cela m'est égal. Je m'en fiche vraiment tant que nous pouvons rester sur une trajectoire où nous créons finalement beaucoup plus de valeur pour la société que cela et tant que nous pouvons trouver un moyen de payer les factures. Nous sommes en train de créer l'AGI, et cela va coûter cher, mais cela en vaut vraiment la peine », a déclaré Altman lors de son apparition dans l'émission Stanford eCorner. Ses propos lui ont toutefois valu de nombreuses critiques dans la communauté.

Et vous ?

Quel est votre avis sur le sujet ?

Pensez-vous que la formation d'un modèle d'IA peut nécessiter 100 milliards de dollars ?

Une telle croissance exponentielle des coûts est-elle réaliste ? Ces dépenses permettront-elles d'atteindre l'AGI ?

Pourquoi les investisseurs injectent-ils autant d'argent dans les entreprises et les startups d'IA ?

Quelles pourraient être les conséquences sur l'économie mondiale si la bulle de l'IA finissait par éclater ?

Voir aussi

Sam Altman : « je me fiche de savoir si nous dépensons 50 milliards de dollars par an, nous construisons l'AGI et cela en vaudra la peine », ce montant dépasse largement le PIB de certains pays

L'IA sera-t-elle une catastrophe pour le climat ? Examens de ses répercussions environnementales, les outils d'IA, comme ChatGPT, sont reconnue comme énergivore

Une étude suggère que les outils d'IA de génération de texte et d'image émettent moins de CO2 que les humains pour les mêmes tâches, mais elle est controversée et divise les experts en IA

Le PDG d'Anthropic estime que le coût de la formation d'un modèle d'IA atteindra bientôt 100 Mds $

Discussions similaires

Partager

Partager