IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Ll'IA sera-t-elle à court de données ? Limites de la mise à l'échelle des LLM sur les données de l'homme


Sujet :

Intelligence artificielle

  1. #1
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 144
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 144
    Points : 80 104
    Points
    80 104
    Par défaut Ll'IA sera-t-elle à court de données ? Limites de la mise à l'échelle des LLM sur les données de l'homme
    L'IA semble s'approcher rapidement d'un mur où elle ne peut pas devenir plus intelligente : l'IA sera-t-elle à court de données ? Limites de la mise à l'échelle des LLM sur les données générées par l'homme

    Une nouvelle étude explore les défis et les possibilités en matière de mise à l'échelle des systèmes d'apprentissage automatique. Les résultats indiquent que les modèles utiliseront la totalité des données textuelles humaines publiques à un moment donné entre 2026 et 2032. Elle explore également une série de stratégies potentielles pour contourner cette contrainte.

    Les progrès récents dans le domaine de la modélisation linguistique se sont fortement appuyés sur la formation non supervisée sur de grandes quantités de texte généré par l'homme, provenant principalement du web ou de corpus conservés. Les plus grands ensembles de données textuelles publiques générées par l'homme, tels que RefinedWeb, C4 et RedPajama, contiennent des milliers de milliards de mots collectés à partir de milliards de pages web.

    La demande de données textuelles humaines publiques devrait continuer à augmenter. Afin de mettre à l'échelle la taille des modèles et des cycles de formation de manière efficace, les grands modèles de langage (LLM) sont généralement formés selon des lois de mise à l'échelle neuronale. Ces relations impliquent que l'augmentation de la taille des ensembles de données d'entraînement est cruciale pour améliorer efficacement les performances des LLM.

    Des chercheurs étudient les contraintes potentielles sur la mise à l'échelle du LLM posées par la disponibilité de données textuelles publiques générées par l'homme. L'étude prévoit la demande croissante de données d'entraînement sur la base des tendances actuelles et estime le stock total de données textuelles humaines publiques.

    Les résultats indiquent que si les tendances actuelles de développement du LLM se poursuivent, les modèles seront entraînés sur des ensembles de données d'une taille à peu près égale au stock disponible de données textuelles humaines publiques entre 2026 et 2032, ou légèrement plus tôt si les modèles sont surentraînés.

    Nom : 1.jpg
Affichages : 96663
Taille : 52,0 Ko
    Projections entre les données générés et les données utilisés

    Les chercheurs étudient également comment les progrès en matière de modélisation linguistique peuvent se poursuivre lorsque les ensembles de données textuelles générées par l'homme ne peuvent plus être mis à l'échelle. L'étude soutient que la génération de données synthétiques, l'apprentissage par transfert à partir de domaines riches en données et l'amélioration de l'efficacité des données pourraient permettre de réaliser de nouveaux progrès.

    Les chercheurs commentent l'étude :

    Dans cet article, nous soutenons que les données textuelles publiques générées par l'homme ne peuvent pas supporter une augmentation au-delà de cette décennie. Pour étayer cette conclusion, nous développons un modèle de la demande croissante de données de formation et de la production de données textuelles humaines publiques. Nous utilisons ce modèle pour prédire le moment où la trajectoire du développement du LLM épuisera complètement le stock disponible de données textuelles humaines publiques. Nous explorons ensuite une série de stratégies potentielles pour contourner cette contrainte, telles que la génération de données synthétiques, l'apprentissage par transfert à partir de domaines riches en données et l'utilisation de données non publiques.
    L'IA sera-t-elle à court de données ? Limites de la mise à l'échelle des LLM sur la base de données générées par l'homme

    L'étude explore les défis et les possibilités en matière de mise à l'échelle des systèmes d'apprentissage automatique, en particulier à la lumière de la nature limitée des données textuelles humaines publiques. L'analyse révèle l'approche d'un point critique d'ici la fin de la décennie, où la dépendance actuelle à l'égard des données textuelles humaines publiques pour l'entraînement des modèles d'apprentissage automatique pourrait devenir insoutenable.

    Malgré ce goulot d'étranglement imminent, l'apprentissage par transfert et les données autogénérées sont identifiés comme des voies viables et prometteuses qui pourraient permettre la croissance et l'évolution continues des systèmes de ML au-delà des contraintes des données textuelles humaines publiques.

    Les conclusions de l'étude sont donc doubles. D'une part, le paradigme actuel basé sur les données textuelles humaines publiques ne pourra pas perdurer dans une décennie. D'autre part, il est probable que d'autres sources de données seront adoptées avant cette échéance, ce qui permettra aux systèmes de ML de continuer à se développer.

    Nom : 2.jpg
Affichages : 38516
Taille : 41,5 Ko
    Ajustements du stock de données

    Bien que les arguments concernant les sources de données alternatives soient essentiellement qualitatifs, une meilleure compréhension de la qualité des données pourrait permettre de faire des estimations quantitatives des avantages de l'apprentissage par transfert et des données synthétiques. Par exemple, les expériences de mise à l'échelle pour l'apprentissage par transfert pourraient être utilisées pour quantifier la proximité ou la synergie entre différentes distributions et identifier de nouveaux ensembles de données susceptibles d'accroître efficacement le stock de données.

    Mais l'étude présente des limites : elle n'explore pas certaines considérations qui pourraient être pertinentes pour comprendre le rôle futur des données. Tout d'abord, le choix des données devrait dépendre des compétences ou des capacités souhaitées pour le modèle. L'identification des compétences économiquement ou scientifiquement utiles et des ensembles de données nécessaires pour les enseigner pourrait révéler des lacunes critiques en matière de données. Deuxièmement, les futures percées en ML, telles que les systèmes capables d'explorer et d'expérimenter le monde réel de manière autonome, pourraient modifier la source d'information dominante pour l'apprentissage.

    Les chercheurs concluent :

    Nous avons projeté les tendances de croissance de la taille des ensembles de données d'apprentissage utilisés pour les modèles linguistiques de pointe et le stock total de données textuelles publiques disponibles générées par l'homme. Notre analyse suggère que, si la croissance rapide de la taille des ensembles de données se poursuit, les modèles utiliseront la totalité des données textuelles humaines publiques à un moment donné entre 2026 et 2032, ou un ou deux ans plus tôt si les modèles d'avant-garde sont surentraînés. À ce stade, la disponibilité des données textuelles humaines publiques peut devenir un facteur limitant pour la poursuite de la mise à l'échelle des modèles de langage.

    Toutefois, en tenant compte des améliorations constantes de l'efficacité des données et des promesses de techniques telles que l'apprentissage par transfert et la génération de données synthétiques, il est probable que nous serons en mesure de surmonter ce goulot d'étranglement dans la disponibilité des données textuelles humaines publiques.

    Conclusion

    Il est important de reconnaître l'incertitude inhérente aux projections à long terme, surtout si l'on considère le rythme rapide des progrès dans le domaine de l'IA. Les résultats de l'étude soulignent la nécessité de poursuivre les recherches pour quantifier les taux de croissance de l'efficacité des données et les gains de performance potentiels des méthodes émergentes. En outre, les travaux futurs devraient explorer la faisabilité et l'efficacité de l'apprentissage par transfert à partir de divers domaines de données et l'impact de la génération de données synthétiques sur la performance des modèles, entre autres.

    Source : "Will we run out of data? Limits of LLM scaling based on human-generated data"

    Et vous ?

    Pensez-vous que cette étude est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Les entreprises d'IA sont-elles à court de données pour entraîner leurs modèles après avoir englouti l'ensemble de l'Internet ? Un rapport alerte sur une potentielle pénurie de données

    La "distillation pas-à-pas", un nouveau paradigme d'apprentissage pour surpasser les performances des grands LLM avec moins de données d'entraînement et des modèles d'IA de plus petite taille

    Des chercheurs mettent en garde contre un "effondrement du modèle" lorsque l'IA s'entraîne sur du contenu généré par l'IA. Ils affirment que cela pourrait à terme éloigner l'IA de la réalité
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  2. #2
    Membre chevronné
    Homme Profil pro
    Chargé de projets
    Inscrit en
    Décembre 2019
    Messages
    459
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 33
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Chargé de projets
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Décembre 2019
    Messages : 459
    Points : 1 966
    Points
    1 966
    Par défaut
    Un coup c'est un article qui dit attention l'IA vous dit de manger des cailloux c'est un peu bizarre et le jour d'après c'est purée il faut un gros bouton rouge pour l'arrêter si jamais l'IA prend le contrôle de l'assemblée nationale et enfin le lundi matin c'est carrément l'IA est à ses limites elle a déjà mangée l'intégralité du savoir humain mais comment on va faire ?!

    Y'a pas comme un problème dans la façon même dont on conçois ces programmes ?

    Les mecs en sont à commander des réacteurs nucléaire portable pour que Mme Michu puisse faire des fake photos de son chiuahaha grimé en prince d'espagne et que son fils puisse parler à des fausses nana dans sa chambre d'ado....

    Le mur je le vois arriver mais il est pour nous...

    Heureusement que Macon va nous sauver

  3. #3
    Membre expert
    Homme Profil pro
    ingénieur qualité
    Inscrit en
    Mars 2015
    Messages
    1 188
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations professionnelles :
    Activité : ingénieur qualité
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Mars 2015
    Messages : 1 188
    Points : 3 622
    Points
    3 622
    Par défaut
    Le savoir mène-t-elle à l'intelligence?
    Je ne suis pas si sur que ça.
    Donc je ne suis pas sur que la limite de l'IA est qu'elle a/va ingérer tous les textes du monde mais sa capacité à relier les chose, à mettre du sens là dedans ou encore à reconnaitre une fiction, d'une information, d'une désinformation.

    Avant ChatGPT on nous expliquait que la pyramide donnée, information, connaissance, sagesse était la base d'une réflexion rationnelle.
    Ce modèle (qui est discutable mais reste une bonne base) a été complètement abandonné en se disant qu'on pouvait "se contenter" de créer de l'information par statistique linguistique et que c'est de la connaissance.
    Le premier modèle est certes limité (il s'attaque difficilement aux sciences humaines, à la philosophie ou à la politique) mais il a l'intérêt d'éviter de divaguer quand on parle de faits.

  4. #4
    Membre du Club
    Homme Profil pro
    mécanicien
    Inscrit en
    Mai 2024
    Messages
    30
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Lot (Midi Pyrénées)

    Informations professionnelles :
    Activité : mécanicien

    Informations forums :
    Inscription : Mai 2024
    Messages : 30
    Points : 40
    Points
    40
    Par défaut
    Toutes ces gesticulations autour de l'IA ... L'impression que l'on façonne une image constituant un reflet pour que les humains s'y identifient afin de faciliter leur intégration à l'IoT et éventuellement une techno-dictature en marche. Amis robots : pfff ...
    Le savoir mène-t-elle à l'intelligence?
    Depuis des millénaires, la réponse est : non.

Discussions similaires

  1. Réponses: 0
    Dernier message: 01/06/2022, 11h52
  2. Réponses: 0
    Dernier message: 02/02/2017, 12h45
  3. Réponses: 0
    Dernier message: 30/04/2015, 14h16
  4. fail2ban : l'ip sera-t'elle bannie ?
    Par Christophe Charron dans le forum Sécurité
    Réponses: 0
    Dernier message: 02/05/2008, 18h16

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo