IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 455
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 455
    Par défaut Le test de Turing serait dépassé et ne reflèterait pas la véritable intelligence des chatbots modernes
    Mustafa Suleyman estime que le test de Turing est dépassé et ne reflète pas la véritable intelligence des chatbots modernes,
    le cofondateur de DeepMind propose une version « moderne » de ce test

    Le test de Turing est une méthode classique pour évaluer l’intelligence artificielle (IA) basée sur sa capacité à imiter la conversation humaine. Mais pour Mustafa Suleyman, cofondateur de DeepMind, le célèbre laboratoire d’IA racheté par Google, ce test est dépassé et ne reflète pas la véritable intelligence des chatbots modernes.

    L'un des cofondateurs du laboratoire de recherche sur l'IA de Google, DeepMind, pense que les chatbots d'IA comme ChatGPT devraient être testés sur leur capacité à transformer 100 000 dollars en 1 million de dollars dans un « test de Turing moderne » qui mesure l'intelligence de type humain.

    Mustafa Suleyman, ancien responsable de l'IA appliquée chez DeepMind et maintenant PDG et cofondateur d'Inflection AI, a publié un nouveau livre intitulé The Coming Wave: Technology, Power, and the Twenty-first Century's Greatest Dilemma.

    Dans le livre, Suleyman a rejeté le test de Turing traditionnel, car il n'est « pas clair s'il s'agit d'une étape significative ou non », a rapporté Bloomberg mardi.

    « Cela ne nous dit rien sur ce que le système peut faire ou comprendre, rien sur s'il a établi des monologues internes complexes ou s'il peut s'engager dans une planification sur des horizons temporels abstraits, ce qui est la clé de l'intelligence humaine », a-t-il ajouté.

    Le test de Turing a été introduit par Alan Turing dans les années 1950 pour déterminer si une machine possède une intelligence de niveau humain. Pendant le test, les évaluateurs humains déterminent s'ils parlent à un humain ou à une machine. Si la machine peut passer pour un humain, alors elle réussit le test.

    Au lieu de comparer l'intelligence de l'IA à celle des humains, Suleyman propose de confier à un bot des objectifs et des tâches à court terme qu'il peut accomplir avec peu d'intervention humaine dans un processus connu sous le nom « d'intelligence artificielle capable » ou ACI en anglais (pour Artificial Capable Intelligence) .

    Pour atteindre l'ACI, Suleyman dit que les robots IA doivent réussir un nouveau test de Turing dans lequel ils reçoivent un investissement initial de 100 000 $ et doivent le transformer en 1 million de dollars. Dans le cadre du test, le bot doit rechercher une idée d'entreprise de commerce électronique, élaborer un plan pour le produit, trouver un fabricant, puis vendre l'article.

    Il s'attend à ce que l'IA franchisse cette étape dans les deux prochaines années.

    « Nous ne nous soucions pas seulement de ce qu'une machine peut dire; nous nous soucions également de ce qu'elle peut faire », a-t-il écrit, selon Bloomberg.

    Les limites de son test

    Suleyman s’inspire des modèles de langage comme ChatGPT et Google Bard, qui sont capables de générer des textes cohérents et créatifs à partir d’un simple mot-clé. Il imagine qu’un chatbot intelligent pourrait utiliser ces modèles pour rechercher des opportunités d’affaires, concevoir un produit ou un service, trouver des fournisseurs et des clients, et gérer les transactions financières.

    Il reconnaît toutefois que ce test présente des limites éthiques et pratiques. Par exemple, comment vérifier que le chatbot n’utilise pas des méthodes frauduleuses ou illégales pour gagner de l’argent ? Comment éviter que le chatbot ne nuise à l’environnement ou aux droits humains ? Comment protéger les données personnelles des utilisateurs ?

    Suleyman affirme que son test n’a pas pour but de créer une intelligence artificielle générale (AGI), qui serait capable de réaliser toutes les tâches intellectuelles humaines. Il s’agit plutôt d’une façon de mesurer l’intelligence artificielle appliquée (AAI), qui se concentre sur des domaines spécifiques et concrets.

    Il espère que son test encouragera les chercheurs en IA à se focaliser sur les problèmes réels du monde actuel, plutôt que sur des fantasmes futuristes. Il appelle également à une régulation plus stricte et plus transparente de l’IA, afin d’éviter les abus et les dérives.


    Un grand potentiel économique

    Selon McKinsey, l’IA générative pourrait générer entre 1400 et 13400 milliards de dollars de valeur ajoutée annuelle à l’économie mondiale d’ici 2030, en fonction du rythme d’adoption et de la réglementation. Les secteurs les plus susceptibles de bénéficier de l’IA générative sont ceux qui ont une forte intensité de données, une forte demande de créativité ou de personnalisation, et une faible automatisation actuelle. Parmi ces secteurs figurent les médias et le divertissement, le commerce électronique, l’éducation, la santé, la fabrication et les services financiers.

    Pour réaliser ce potentiel, les entreprises devront surmonter les défis techniques, organisationnels et éthiques liés à l’utilisation de l’IA générative. Les défis techniques concernent la qualité, la fiabilité, la sécurité et la responsabilité des contenus générés. Les défis organisationnels concernent le développement des compétences, la gestion du changement, l’intégration des processus et la mesure de la performance. Les défis éthiques concernent le respect des droits d’auteur, de la vie privée, de la sécurité et de la moralité. Les entreprises devront adopter des principes et des pratiques éthiques pour utiliser l’IA générative de manière responsable et durable.

    L'IA s'est introduite progressivement dans nos vies, que ce soit par le biais de la technologie qui alimente nos smartphones, des fonctions de conduite autonome des voitures ou des outils que les détaillants utilisent pour surprendre et ravir les consommateurs. En conséquence, ses progrès ont été presque imperceptibles. Des événements marquants, comme la victoire d'AlphaGo, un programme d'IA développé par DeepMind, sur un champion du monde de go en 2016, ont été célébrés, mais ont rapidement disparu de l'esprit du public.

    Les applications d'IA générative telles que ChatGPT Copilot, Stable Diffusion et d'autres ont capturé l'imagination des gens du monde entier d'une manière qu'AlphaGo n'a pas connue, grâce à leur large utilité - presque tout le monde peut les utiliser pour communiquer et créer - et à leur capacité naturelle à avoir une conversation avec un utilisateur. Les dernières applications d'IA générative peuvent effectuer une série de tâches de routine, telles que la réorganisation et la classification de données. Mais c'est leur capacité à écrire des textes, à composer de la musique et à créer des œuvres d'art numériques qui a fait les gros titres et persuadé les consommateurs et les ménages d'expérimenter par eux-mêmes.

    En conséquence, un plus grand nombre de parties prenantes sont confrontées à l'impact de l'IA générative sur les entreprises et la société, mais sans beaucoup de contexte pour les aider à le comprendre.

    Nom : chat.png
Affichages : 4120
Taille : 234,9 Ko

    La technologie de l'IA générative se développe à une grande vitesse...

    ChatGPT d'OpenAI est sorti en novembre 2022 et a impressionné les utilisateurs par sa capacité à tenir des conversations informelles, à générer du code et à rédiger des essais. ChatGPT a stimulé le battage médiatique autour de l'industrie de l'IA générative.

    Quatre mois après la sortie de ChatGPT, OpenAI a publié un nouveau grand modèle de langage, ou LLM, appelé GPT-4, dont les capacités ont été nettement améliorées. De même, en mai 2023, Claude, l'IA générative d'Anthropic, était capable de traiter 100 000 tokens de texte, soit environ 75 000 mots en une minute - la longueur d'un roman moyen - contre environ 9 000 tokens lors de son lancement en mars 2023.

    En mai 2023, Google a annoncé plusieurs nouvelles fonctionnalités alimentées par l'IA générative, notamment Search Generative Experience et un nouveau LLM appelé PaLM 2 qui alimentera son chatbot Bard, parmi d'autres produits Google.

    ... mais invente souvent des faits et des sources

    ChatGPT fait partie d’une famille de nouvelles technologies appelées IA générative qui peuvent tenir des conversations qui sont si organiques et normales que parfois ChatGPT semble avoir une volonté propre. Mais la technologie est notoirement imprécise et invente souvent des faits et des sources pour des faits qui sont complètement faux. Le produit concurrent de Google, Bard, a des problèmes similaires.

    Mais rien de tout cela n’a empêché les gens d’utiliser cette technologie expérimentale comme si elle était une source d’information fiable.

    Source : Bloomberg

    Et vous ?

    Pensez-vous que le test de Turing est dépassé ?
    Que pensez-vous du test proposé par Mustafa Suleyman ? Est-il pertinent ?
    Quels risques voyez-vous avec son test ?
    Quels sont les exemples de produits ou de services que vous aimeriez voir créés par un chatbot « intelligent » ?
    Quelles sont les alternatives possibles au test de Suleyman pour évaluer l’intelligence artificielle ?

    Voir aussi :

    Un avocat cite des affaires juridiques fictives inventées par ChatGPT, provoquant la fureur du juge et des sanctions potentielles. ChatGPT avait assuré à l'avocat que ces affaires étaient réelles
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  2. #2
    Rédacteur/Modérateur

    Avatar de bouye
    Homme Profil pro
    Information Technologies Specialist (Scientific Computing)
    Inscrit en
    Août 2005
    Messages
    6 900
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : Nouvelle-Calédonie

    Informations professionnelles :
    Activité : Information Technologies Specialist (Scientific Computing)
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Août 2005
    Messages : 6 900
    Billets dans le blog
    54
    Par défaut
    En même temps, j'ai jamais trouvé l’énoncée du test de Turing tel qu'il m'a toujours été présenté comme étant bien formalisé : un humain n'arrive pas a distinguer si on interlocuteur masqué est un autre humain ou une machine. Ça semble être surtout un test très empirique et basé sur les biais de l’époque (assez intéressant quand on voit que Turing réfutait lui-même une objection émise en son temps par lady Lovelace comme étant le fruit d'un biais de son époque a elle).

    Bref, cela me rappelle le discourt assez basique de mon prof de philo au lycée qui nous sortait que si les animaux étaient intelligent alors ils pourraient parler, en omettant l’évidence que nous pouvons parler car nous avons l'anatomie pour communiquer de cette manière (a la fois pour émettre et pour recevoir), que nous avons mis des dizaines de milliers d’années a construire ce moyen de communication (quand nos ancêtres sont-ils devenus "intelligents" ?), que la communication n'est pas en soit un signe d’intelligence (même les plantes communiquent entre elles) et qu'en plus qu'il y a d'autres manières de communiquer que le langage.

    Voir :
    Merci de penser au tag quand une réponse a été apportée à votre question. Aucune réponse ne sera donnée à des messages privés portant sur des questions d'ordre technique. Les forums sont là pour que vous y postiez publiquement vos problèmes.

    suivez mon blog sur Développez.

    Programming today is a race between software engineers striving to build bigger and better idiot-proof programs, and the universe trying to produce bigger and better idiots. So far, the universe is winning. ~ Rich Cook

  3. #3
    Membre éprouvé
    Homme Profil pro
    ingénieur qualité
    Inscrit en
    Mars 2015
    Messages
    1 494
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations professionnelles :
    Activité : ingénieur qualité
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Mars 2015
    Messages : 1 494
    Par défaut
    Citation Envoyé par Stéphane le calme Voir le message
    Il reconnaît toutefois que ce test présente des limites éthiques et pratiques. Par exemple, comment vérifier que le chatbot n’utilise pas des méthodes frauduleuses ou illégales pour gagner de l’argent ? Comment éviter que le chatbot ne nuise à l’environnement ou aux droits humains ? Comment protéger les données personnelles des utilisateurs ?
    La première limite ne serait pas que la réponse au problème posé est présente dans ses données sources?
    Il vient de proposer cette méthode, certains, sur internet vont donner leur propre réponse, qui pourraient ensuite se retrouver comme source de l'IA évaluée.
    Citation Envoyé par Stéphane le calme Voir le message
    Il espère que son test encouragera les chercheurs en IA à se focaliser sur les problèmes réels du monde actuel, plutôt que sur des fantasmes futuristes. Il appelle également à une régulation plus stricte et plus transparente de l’IA, afin d’éviter les abus et les dérives.
    C'est vrai qu'un problème réel de la vie de tout les jours est de faire fructifier un montant que la majorité de la population n'a pas.

  4. #4
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    2 304
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 2 304
    Par défaut Les gens ne peuvent pas distinguer GPT-4 d'un humain dans un test de Turing, selon une éude
    Les gens ne peuvent pas distinguer GPT-4 d'un humain dans un test de Turing, GPT-4 a été jugé comme étant un humain dans 54% des cas, confirmant qu'une IA peut réussir un test de Turing.

    Une nouvelle étude dans le cadre d'un test de Turing démontre que les gens ne peuvent pas distinguer GPT-4 d'un humain. GPT-4 a été considéré comme un humain dans 54 % des cas, ce qui est supérieur à ELIZA (22 %), mais inférieur aux humains réels (67 %). Ces résultats constituent la première démonstration empirique solide qu'un système artificiel réussit un test de Turing interactif à deux joueurs.

    Le test de Turing, initialement appelé "jeu d'imitation" par Alan Turing en 1950, est un test de la capacité d'une machine à présenter un comportement intelligent équivalent ou indiscernable de celui d'un humain. Turing a proposé qu'un évaluateur humain juge les conversations en langage naturel entre un humain et une machine conçue pour générer des réponses semblables à celles d'un humain.

    L'évaluateur serait conscient que l'un des deux partenaires de la conversation est une machine, et tous les participants seraient séparés les uns des autres. La conversation se limiterait à un canal textuel, tel qu'un clavier et un écran d'ordinateur, de sorte que le résultat ne dépendrait pas de la capacité de la machine à restituer les mots sous forme de discours.

    Si l'évaluateur ne pouvait pas distinguer de manière fiable la machine de l'humain, on considérerait que la machine avait réussi le test. Les résultats du test ne dépendent pas de la capacité de la machine à donner des réponses correctes aux questions, mais seulement de la mesure dans laquelle ses réponses ressemblent à celles que donnerait un être humain.


    Dans une nouvelle étude, des chercheurs ont évalué 3 systèmes (ELIZA, GPT-3.5 et GPT-4) dans le cadre d'un test de Turing randomisé, contrôlé et préenregistré. Les participants humains ont eu une conversation de 5 minutes avec un humain ou une IA, et ont jugé s'ils pensaient que leur interlocuteur était humain ou non. GPT-4 a été considéré comme un humain dans 54 % des cas, ce qui est supérieur à ELIZA (22 %), mais inférieur aux humains réels (67 %).

    Ces résultats constituent la première démonstration empirique solide qu'un système artificiel réussit un test de Turing interactif à deux joueurs. Les résultats ont des implications pour les débats sur l'intelligence des machines et, plus urgemment, suggèrent que la tromperie par les systèmes d'IA actuels pourrait ne pas être détectée. L'analyse des stratégies et du raisonnement des participants suggère que les facteurs stylistiques et socio-émotionnels jouent un rôle plus important dans la réussite du test de Turing que les notions traditionnelles d'intelligence.

    Nom : 1.jpg
Affichages : 7266
Taille : 70,6 Ko

    Le GPT-4 réussit-il le test de Turing ?

    Comment savoir si un système a réussi le test de Turing ? Dans son article de 1950, Turing prédit que d'ici la fin du siècle, les systèmes seront capables de "jouer le jeu de l'imitation si bien qu'un interrogateur moyen n'aura pas plus de 70 % de chances de faire la bonne identification après cinq minutes d'interrogatoire", ce qui a conduit à ce qu'un taux de réussite de 30 % devienne un objectif dans certaines discussions. Ce critère semble toutefois arbitraire, et il n'est pas certain que Turing l'ait considéré comme une définition du succès.

    Une base de 50 % est plus justifiée car elle indique que les interrogateurs ne sont pas plus doués que le hasard pour identifier les machines. Cette définition est particulièrement pertinente pour déterminer si les utilisateurs peuvent identifier de manière fiable d'autres humains dans le cadre d'interactions en ligne. Un problème potentiel avec cette définition du succès, cependant, est qu'elle semble impliquer la confirmation de l'hypothèse nulle. Un système peut atteindre une précision qui ne se distingue pas statistiquement du hasard parce que les participants ont deviné au hasard, ou parce que l'expérience n'avait pas assez de puissance.

    Dans cette analyse préenregistrée, les chercheurs ont abordé ce problème en utilisant la ligne de base ELIZA comme contrôle de la manipulation. Ce n'est que dans le cas où l'analyse montrait un taux de réussite inférieur au hasard pour ELIZA - ce qui indique que le modèle est suffisamment sensible pour détecter cette différence - mais pas pour GPT-4, que le modèle pouvait être considéré comme réussi. Sur la base de cette définition, le GPT-4 réussit cette version du test de Turing. De plus, les scores de confiance des participants et les justifications de leurs décisions suggèrent qu'ils n'ont pas deviné au hasard : les jugements selon lesquels GPT-4 était humain avaient un niveau de confiance moyen de 73 %.

    À première vue, le faible taux de réussite des humains pourrait être surprenant. Si le test mesure la ressemblance avec l'être humain, celui-ci ne devrait-il pas être à 100 % ? En fait, le taux de réussite des humains reflète probablement l'évolution des hypothèses sur la qualité des systèmes d'IA et est similaire à d'autres estimations récentes. Lorsque les systèmes d'IA sont médiocres, il est facile d'identifier les humains. Au fur et à mesure que la confiance des interrogateurs dans les capacités des systèmes d'IA augmente, ils devraient être plus enclins à identifier à tort des humains comme étant de l'IA.

    Nom : 2.jpg
Affichages : 1750
Taille : 61,2 Ko

    Que mesure le test de Turing ?

    À l'origine, Turing avait envisagé le jeu d'imitation comme mesure de l'intelligence. Diverses objections ont été soulevées à l'encontre de cette idée. Certains ont objecté que le test était trop difficile ou trop chauvin. Toutefois, ces préoccupations sont moins pressantes si un système semble réussir. D'autres ont fait valoir que c'était trop facile. Les interrogateurs humains, enclins à l'anthropomorphisme, pourraient être trompés par des systèmes inintelligents.

    L'étude a tenté de répondre partiellement à cette préoccupation en incluant ELIZA comme base de référence, mais on peut toujours répondre qu'une base de référence plus stricte ou plus difficile est nécessaire. D'autres encore ont soutenu qu'aucun test comportemental ne peut mesurer l'intelligence ; que l'intelligence repose sur le bon type de mécanisme interne ou de relation causale avec le monde.

    En fin de compte, il semble peu probable que le test de Turing fournisse des preuves nécessaires ou suffisantes de l'intelligence, mais au mieux un soutien probabiliste. Heureusement, le type de preuve qu'il fournit complète d'autres approches d'évaluation. Les repères traditionnels de la PNL et les instruments de psychologie cognitive sont bien définis et permettent d'obtenir des indices comportementaux spécifiques et attendus des capacités cognitives, mais ils sont nécessairement statiques, étroits et rigides. Le test de Turing, en revanche, est naturellement interactif, contradictoire et d'une portée potentiellement très large.

    Les résultats présentés ici fournissent des preuves empiriques de ce que le test de Turing mesure. Tant en ce qui concerne les stratégies utilisées que les raisons invoquées pour justifier leurs décisions, les participants se sont davantage concentrés sur le style linguistique et les facteurs socio-émotionnels que sur les notions plus traditionnelles d'intelligence, telles que la connaissance et le raisonnement. Cela pourrait refléter l'hypothèse latente des interrogateurs selon laquelle l'intelligence sociale est devenue la caractéristique humaine la plus inimitable par les machines.

    Source : "People cannot distinguish GPT-4 from a human in a Turing test"

    Et vous ?

    Pensez-vous que cette étude est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Le test de Turing est dépassé et ne reflète pas la véritable intelligence des chatbots modernes, d'après le co-fondateur de DeepMind, qui propose une version plus moderne de ce test

    Les jugements moraux donnés par ChatGPT4, le chatbot IA d'OpenAI, ont été "perçus comme étant de qualité supérieure à celle des humains", dans un document de recherche sur le test de Turing moral modifié

    Les avis générés par l'IA trompent les humains, menaçant la confiance dans les plateformes en ligne, ces avis peuvent passer le test de Turing, selon une étude
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  5. #5
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 455
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 455
    Par défaut Des chercheurs affirment que GPT-4 a réussi le test de Turing
    Des chercheurs affirment que GPT-4 a réussi le test de Turing. Si la prouesse technique est remarquable,
    des scientifiques font des critiques concernant l'approche trop simpliste de ce test

    GPT-4, la dernière itération des modèles de langage de OpenAI, est réputée avoir réussi le test de Turing. Selon les chercheurs, cette version améliorée peut imiter le langage humain à un niveau indiscernable des vraies interactions humaines.

    Nous interagissons avec l'intelligence artificielle (IA) en ligne non seulement plus que jamais, mais aussi plus que nous ne le pensons. Des chercheurs ont donc demandé à des personnes de converser avec quatre agents, dont un humain et trois types différents de modèles d'IA, pour voir si elles pouvaient faire la différence.

    Le "test de Turing", proposé pour la première fois sous le nom de "jeu d'imitation" par l'informaticien Alan Turing en 1950, permet de déterminer si la capacité d'une machine à faire preuve d'intelligence est indiscernable de celle d'un être humain. Pour qu'une machine réussisse le test de Turing, elle doit être capable de parler à quelqu'un et de lui faire croire qu'elle est humaine.

    Les scientifiques ont décidé de reproduire ce test en demandant à 500 personnes de parler avec quatre répondants, dont un humain et le programme d'IA des années 1960 ELIZA, ainsi que GPT-3.5 et GPT-4, l'IA qui alimente ChatGPT. Les conversations duraient cinq minutes, après quoi les participants devaient dire s'ils pensaient parler à un humain ou à une IA. Dans l'étude, publiée le 9 mai sur le serveur arXiv, les scientifiques ont constaté que les participants considéraient GPT-4 comme un humain dans 54 % des cas. ELIZA, un système préprogrammé avec des réponses mais sans grand modèle linguistique (LLM) ni architecture de réseau neuronal, a été jugé humain dans seulement 22 % des cas. GPT-3.5 a obtenu un score de 50 %, tandis que le participant humain a obtenu un score de 67 %.

    « Les machines peuvent confabuler, rassembler des justifications plausibles a posteriori, comme le font les humains », a déclaré Nell Watson, chercheuse en IA à l'Institute of Electrical and Electronics Engineers (IEEE). « Elles peuvent être sujettes à des biais cognitifs, être embobinées et manipulées, et deviennent de plus en plus trompeuses. Tous ces éléments signifient que les systèmes d'IA expriment des faiblesses et des bizarreries semblables à celles de l'homme, ce qui les rend plus humains que les approches précédentes qui se limitaient à une liste de réponses préétablies ».

    L'étude, qui s'appuie sur des décennies de tentatives pour faire passer le test de Turing à des agents d'IA, fait écho aux préoccupations communes selon lesquelles les systèmes d'IA considérés comme humains auront des « conséquences sociales et économiques généralisées ».

    Un outil dépassé ?

    Le test de Turing, développé par Alan Turing dans les années 1950, est un critère d’évaluation de l’intelligence d’une machine. Pour le réussir, un système doit être capable de mener une conversation avec un humain sans que celui-ci ne puisse distinguer s’il interagit avec une machine ou une autre personne.

    Les scientifiques ont fait valoir qu'il existe des critiques valables concernant l'approche trop simpliste de ce test, en affirmant que « les facteurs stylistiques et socio-émotionnels jouent un rôle plus important dans la réussite du test de Turing que les notions traditionnelles d'intelligence ». Cela suggère que nous n'avons pas cherché l'intelligence des machines au bon endroit.

    « L'intelligence brute ne suffit pas. Ce qui compte vraiment, c'est d'être suffisamment intelligent pour comprendre une situation, les compétences des autres et d'avoir l'empathie nécessaire pour relier ces éléments entre eux. Les capacités ne sont qu'une petite partie de la valeur de l'IA - sa capacité à comprendre les valeurs, les préférences et les limites des autres est également essentielle. Ce sont ces qualités qui permettront à l'IA de servir de concierge fidèle et fiable dans nos vies ».

    Watson a ajouté que l'étude représentait un défi pour les futures interactions homme-machine et que nous deviendrons de plus en plus paranoïaques quant à la véritable nature des interactions, en particulier dans les domaines sensibles. Elle a ajouté que l'étude mettait en évidence l'évolution de l'IA au cours de l'ère des GPT.

    « ELIZA était limité à des réponses toutes faites, ce qui limitait considérablement ses capacités. Il pouvait tromper quelqu'un pendant cinq minutes, mais ses limites devenaient rapidement évidentes », a-t-elle déclaré. « Les modèles de langages sont infiniment flexibles, capables de synthétiser des réponses à un large éventail de sujets, de s'exprimer dans des langues ou des sociolectes particuliers et de se présenter avec une personnalité et des valeurs axées sur le caractère. C'est un énorme pas en avant par rapport à quelque chose programmé à la main par un être humain, même si c'est avec beaucoup d'intelligence et de soin ».

    Les défis de l’intelligence artificielle indiscernable

    Bien que la réussite de GPT-4 au test de Turing soit une prouesse technique, elle n’est pas sans soulever des défis importants. Premièrement, l’indiscernabilité entre les interactions humaines et celles générées par l’IA peut conduire à des abus, tels que la désinformation ou l’usurpation d’identité.

    De plus, il existe un risque que la dépendance croissante envers les IA dans les prises de décisions importantes puisse mener à une perte de compétences critiques chez les humains. La question de la responsabilité légale en cas d’erreurs commises par l’IA est également préoccupante.

    En outre, l’intégration de GPT-4 dans des domaines sensibles comme la santé ou la justice nécessite une transparence et une réglementation accrues pour prévenir les biais et garantir l’équité.

    Il est essentiel que la société engage un dialogue ouvert sur ces questions et travaille à établir des normes qui régissent l’utilisation des IA avancées comme GPT-4, afin d’en maximiser les bénéfices tout en minimisant les risques potentiels.


    L'IA pourrait-elle être confrontée à un plafond de verre ? Les IA génératives pourraient manquer de données d'entraînement dès 2026

    Les progrès récents dans le domaine de la modélisation de langage se sont fortement appuyés sur la formation non supervisée sur de grandes quantités de texte généré par l'homme, provenant principalement du web ou de corpus conservés. Les plus grands ensembles de données textuelles publiques générées par l'homme, tels que RefinedWeb, C4 et RedPajama, contiennent des milliers de milliards de mots collectés à partir de milliards de pages web.

    La demande de données textuelles humaines publiques devrait continuer à augmenter. Afin de mettre à l'échelle la taille des modèles et des cycles de formation de manière efficace, les grands modèles de langage (LLM) sont généralement formés selon des lois de mise à l'échelle neuronale. Ces relations impliquent que l'augmentation de la taille des ensembles de données d'entraînement est cruciale pour améliorer efficacement les performances des LLM.

    Des chercheurs étudient les contraintes potentielles sur la mise à l'échelle du LLM posées par la disponibilité de données textuelles publiques générées par l'homme. L'étude prévoit la demande croissante de données d'entraînement sur la base des tendances actuelles et estime le stock total de données textuelles humaines publiques.

    Les résultats indiquent que si les tendances actuelles de développement du LLM se poursuivent, les modèles seront entraînés sur des ensembles de données d'une taille à peu près égale au stock disponible de données textuelles humaines publiques entre 2026 et 2032, ou légèrement plus tôt si les modèles sont surentraînés.

    Nom : pro.png
Affichages : 31395
Taille : 133,3 Ko
    Projections entre les données générés et les données utilisés

    Les chercheurs étudient également comment les progrès en matière de modélisation de langage peuvent se poursuivre lorsque les ensembles de données textuelles générées par l'homme ne peuvent plus être mis à l'échelle. L'étude soutient que la génération de données synthétiques, l'apprentissage par transfert à partir de domaines riches en données et l'amélioration de l'efficacité des données pourraient permettre de réaliser de nouveaux progrès.

    L'IA sera-t-elle à court de données ? L'étude explore les défis et les possibilités en matière de mise à l'échelle des systèmes d'apprentissage automatique, en particulier à la lumière de la nature limitée des données textuelles humaines publiques. L'analyse révèle l'approche d'un point critique d'ici la fin de la décennie, où la dépendance actuelle à l'égard des données textuelles humaines publiques pour l'entraînement des modèles d'apprentissage automatique pourrait devenir insoutenable.

    Malgré ce goulot d'étranglement imminent, l'apprentissage par transfert et les données autogénérées sont identifiés comme des voies viables et prometteuses qui pourraient permettre la croissance et l'évolution continues des systèmes de ML au-delà des contraintes des données textuelles humaines publiques.

    Toutefois, l'étude présente des limites : elle n'explore pas certaines considérations qui pourraient être pertinentes pour comprendre le rôle futur des données. Tout d'abord, le choix des données devrait dépendre des compétences ou des capacités souhaitées pour le modèle. L'identification des compétences économiquement ou scientifiquement utiles et des ensembles de données nécessaires pour les enseigner pourrait révéler des lacunes critiques en matière de données. Deuxièmement, les futures percées en ML, telles que les systèmes capables d'explorer et d'expérimenter le monde réel de manière autonome, pourraient modifier la source d'information dominante pour l'apprentissage.

    Les conclusions de l'étude sont donc doubles. D'une part, le paradigme actuel basé sur les données textuelles humaines publiques ne pourra pas perdurer dans une décennie. D'autre part, il est probable que d'autres sources de données seront adoptées avant cette échéance, ce qui permettra aux systèmes de ML de continuer à se développer.

    Conclusion

    GPT-4 marque un tournant significatif car il semble avoir franchi le seuil du test de Turing. Les implications sont vastes et touchent divers domaines tels que le service clientèle, l’éducation et même la création littéraire. Cependant, cette prouesse soulève également des questions éthiques et des préoccupations concernant la sécurité et la vie privée. Les entreprises envisagent déjà d’intégrer GPT-4 dans leurs opérations pour améliorer l’efficacité et personnaliser les expériences utilisateur. Néanmoins, il est crucial de procéder avec prudence pour garantir que l’utilisation de cette technologie soit éthique et sécurisée.

    Source : résultats de l'expérience

    Et vous ?

    Pensez-vous que la réussite du test de Turing par GPT-4 soit un indicateur fiable de l’intelligence artificielle ?
    Quelles mesures devraient être prises pour assurer une utilisation éthique des IA comme GPT-4 dans la société ?
    Comment la réussite de GPT-4 au test de Turing pourrait-elle transformer votre secteur d’activité ?
    Quels sont les risques potentiels liés à l’indiscernabilité entre les interactions humaines et celles générées par l’IA ?
    En quoi la réussite de GPT-4 au test de Turing influence-t-elle votre perception de la conscience et de l’intelligence ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  6. #6
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    2 304
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 2 304
    Par défaut GPT-4 est jugé plus humain que les humains dans les tests de Turing déplacés et inversés.
    GPT-4 est jugé plus humain que les humains dans les tests de Turing déplacés et inversés, selon une étude sur la capacité des LLM et des humains à détecter les contenus générés par IA en ligne.

    Durant un test de Turing inversé, les juges GPT-3.5 et GPT-4 ont obtenu un score similaire aux juges humains. Il est intéressant de noter que parmi les participants jugés, IA et humains confondus, GPT-4 était le plus souvent considéré comme humain. Comparée aux résultats des tests de Turing classiques, cette étude montre que ni l'IA ni les humains ne sont fiables pour détecter les contributions de l'IA aux conversations en ligne.

    Le "test de Turing", proposé pour la première fois sous le nom de "jeu d'imitation" par l'informaticien Alan Turing en 1950, permet de déterminer si la capacité d'une machine à faire preuve d'intelligence est indiscernable de celle d'un être humain. Pour qu'une machine réussisse le test de Turing, elle doit être capable de parler à quelqu'un et de lui faire croire qu'elle est humaine.

    Lors d'une étude, des scientifiques ont reproduit le test et affirmé que GPT-4 avait réussi le test de Turing. Ils ont constaté que les participants considéraient GPT-4 comme un humain dans 54 % des cas. ELIZA, un système préprogrammé avec des réponses mais sans grand modèle de langage (LLM) ni architecture de réseau neuronal, a été jugé humain dans seulement 22 % des cas. GPT-3.5 a obtenu un score de 50 %, tandis que le participant humain a obtenu un score de 67 %.

    Mais des critiques ont reproché l'approche trop simpliste de ce test. Ils affirment que "les facteurs stylistiques et socio-émotionnels jouent un rôle plus important dans la réussite du test de Turing que les notions traditionnelles d'intelligence. L'intelligence brute ne suffit pas. Ce qui compte vraiment, c'est d'être suffisamment intelligent pour comprendre une situation, les compétences des autres et d'avoir l'empathie nécessaire pour relier ces éléments entre eux".

    Récemment, une nouvelle étude a mesuré la capacité de discrimination des personnes et des grands modèles de langage à l'aide de deux versions modifiées du test de Turing : inversée et déplacée. Au quotidien, les personnes n'interagissent pas directement avec les systèmes d'IA, mais lisent les conversations entre les systèmes d'IA et d'autres personnes. Ansi, des juges GPT-3.5, GPT-4 et des juges humains déplacés ont jugé si un agent était humain ou IA sur la base de la transcription d'un test de Turing.

    Les chercheurs ont constaté que les juges IA et humains déplacés étaient moins précis que les interrogateurs interactifs, avec une précision globale inférieure à 50 %. En outre, les trois ont jugé le témoin GPT-4 le plus performant comme étant humain plus souvent que les témoins humains. Cela suggère que les humains et les LLM actuels ont du mal à faire la distinction entre les deux lorsqu'ils n'interrogent pas activement la personne, ce qui souligne le besoin urgent d'outils plus précis pour détecter l'IA dans les conversations.


    Présentation du test de Turing

    En 1950, Alan Turing a conçu le jeu d'imitation comme un test permettant de répondre indirectement à la question : "Les machines peuvent-elles penser ?". Dans un test de Turing classique, un interrogateur humain engage une conversation textuelle avec deux témoins : un humain et une machine. Si l'interrogateur est incapable de faire la différence entre l'humain et l'ordinateur, l'ordinateur réussit le test et peut être considéré comme intelligent.

    Depuis l'article original de Turing, le test de Turing a suscité un débat intense qui a joué un rôle essentiel dans la construction des compréhensions et conceptions modernes de l'intelligence, façonnant les domaines de l'informatique, des sciences cognitives, de l'intelligence artificielle, de la robotique, de la philosophie, de la psychologie et de la sociologie. Au-delà de son rôle controversé de test d'intelligence, le test de Turing permet également de déterminer si les humains peuvent détecter l'IA dans le cadre d'une conversation, ou si les modèles d'IA peuvent réussir à tromper les interlocuteurs humains en leur faisant croire qu'ils sont humains.

    Des travaux empiriques récents ont montré que les interrogateurs ne pouvaient pas déterminer de manière fiable si un agent basé sur le GPT-4 était humain ou IA lors d'un test de Turing. Les modèles capables de se faire passer pour des personnes comportent des risques. Cela motive la réalisation de variantes du test de Turing dans des contextes plus valides sur le plan écologique afin de déterminer dans quelle mesure les gens sont capables de faire la distinction entre les humains et les IA dans des scénarios réalistes.

    Un test de Turing classique implique qu'un évaluateur humain interroge un témoin de manière interactive afin de déterminer s'il s'agit d'un humain ou d'une IA. Bien que le test de Turing ait été proposé à l'origine comme un test d'intelligence, de nombreuses objections ont été émises quant à sa validité ou à sa suffisance sous cette forme. Indépendamment de sa validité en tant que mesure de l'intelligence, le test de Turing constitue un test puissant pour évaluer les similitudes entre l'écriture humaine et l'écriture de l'IA, ainsi qu'une prémisse utile pour étudier la tromperie de l'IA.

    Plusieurs tentatives ont été faites pour réussir le test de Turing, notamment le Loebner Prize, un concours qui s'est déroulé de 1990 à 2020 sans qu'aucun système ne réussisse. "Human or Not", une expérience de test de Turing social à grande échelle qui a révélé un taux d'exactitude de l'interrogateur de 60 %. Et une étude de 2024 faisant état du premier système à avoir un taux de réussite statistiquement indiscernable du hasard (54 %) mais encore inférieur au seuil humain (67 %).

    Nom : 1.jpg
Affichages : 4323
Taille : 29,3 Ko
    Résumé de l'expérience

    Test de Turing déplacé

    Il existe plusieurs variantes du test, chacune d'entre elles apportant des informations sur les dimensions de la théorie et de la pratique. La première de ces variantes est le test de Turing inversé, qui place un système d'IA dans le rôle de l'interrogateur. Le test est réussi si un système d'IA est "incapable de faire la distinction entre deux humains, ou entre un humain et une machine qui peut réussir le test de Turing normal, mais qui peut faire la distinction entre un humain et une machine qui peut être distinguée par un test de Turing normal avec un observateur humain".

    Un test de Turing ordinaire offre à l'interrogateur un avantage clé qui n'est pas toujours présent dans la consommation passive de textes générés par l'IA : il peut adapter ses questions pour tester le témoin de manière contradictoire en temps réel. Mais cette nouvelle expérience a été mise en place pour voir les performances des juges humains et IA sans cet avantage, lorsqu'ils n'ont accès qu'à une transcription d'un entretien de test de Turing mené par un autre participant.

    Les chercheurs présentent un nouveau type de test de Turing, appelé test de Turing déplacé, dans lequel un juge humain lit la transcription d'un test de Turing interactif effectué précédemment par un autre interrogateur humain. Le nouveau juge humain est "déplacé" en ce sens qu'il n'est pas présent pour interagir avec le témoin.

    Ils ont utilisé ce paradigme pour répondre à plusieurs questions : Les humains peuvent-ils discriminer de manière fiable les humains des IA en observant simplement les conversations ? Les LLM peuvent-ils servir de détecteurs d'IA, non seulement pour les textes statiques (essais, articles et paragraphes), mais aussi pour les conversations dynamiques ? Le déplacement du test de Turing augmente-t-il ou diminue-t-il la précision ? Un test de Turing inversé révèle-t-il une psychologie naïve dans les systèmes artificiels ? Et quelles sont les méthodes qui fonctionnent le mieux pour la détection de l'IA dans les espaces conversationnels du monde réel ?

    Nom : 2.jpg
Affichages : 1002
Taille : 89,9 Ko
    Top 10 des motifs fournis pour chaque verdict

    Psychologie naïve

    Le critère pour réussir le test de Turing inversé est qu'une machine soit aussi performante que des évaluateurs humains. Si les évaluateurs humains peuvent faire la différence entre les humains et une IA particulière, un évaluateur IA devrait également réussir. Les résultats n'ont pas montré des différences statistiques entre la précision de GPT-4 et celle de l'évaluateur humain déplacé, et l'ICL a augmenté la précision de GPT-4 pour atteindre celle de l'évaluateur humain déplacé (58 % et 58,2 % respectivement).

    Ces résultats suggèrent que l'IA n'est ni meilleure ni pire que les humains pour attribuer avec précision la mentalité à différents témoins. Cela dit, les chercheurs ont constaté que les humains déplacés et les adjudicateurs de l'IA ont montré un faible accord sur leurs verdicts (56%). Bien qu'ils aient eu une précision de verdict aussi faible, ils n'étaient pas inexacts de la même manière. Ces résultats impliquent donc que tout modèle d'esprit, que ces systèmes d'intelligence artificielle ont, est systématiquement différent des modèles des juges humains.

    Détection dans la nature

    Le test de Turing déplacé semble être plus difficile que le test interactif, mais cette variation est également susceptible de se produire plus fréquemment dans la vie de tous les jours. Étant donné que de nombreuses conversations en ligne sont désormais publiques - sur les forums, les plateformes de médias sociaux et les chats de groupe - une interaction entre deux utilisateurs est susceptible d'être lue par un groupe beaucoup plus large qui n'a pas la possibilité d'interroger directement des bots potentiels.

    Les résultats montrent que GPT-4 et les humains sont relativement peu capables de faire la différence entre les humains et l'IA dans ce contexte. Cet effet est particulièrement marqué pour l'IA-témoin la plus performante, dont le taux de réussite est plus élevé que celui des humains selon les deux types d'adjudicateurs. L'ensemble de ces résultats suggère que des systèmes d'IA bien conçus, chargés de se faire passer pour des humains dans des espaces publics en ligne, pourraient avoir plus de chances de réussir à se faire passer pour des humains qu'un véritable humain ne le ferait.

    Les méthodes statistiques de détection de l'IA sont prometteuses en tant que technique de défense contre les faux humains en ligne. La courbure, une mesure de l'optimalité de la probabilité d'un énoncé par rapport à de petites perturbations, a montré une nette différence entre les messages générés par les humains et ceux générés par l'IA. L'analyse ROC a suggéré un seuil qui a conduit à une précision de 69 % dans l'ensemble de données. Néanmoins, ce niveau de précision ne serait pas pratique pour les problèmes du monde réel où les faux positifs pourraient conduire à des résultats négatifs pour les utilisateurs humains réels.

    Nom : 3.jpg
Affichages : 1014
Taille : 44,3 Ko
    Précision moyenne par type d'adjudicateur et de témoin

    Conclusion

    Cette nouvelle expérience a effectué un test de Turing inversé, dans lequel GPT-3.5 et GPT-4 ont jugé si un interlocuteur dans une transcription était humain. Puis les chercheurs ont reproduit cette approche dans un test déplacé, dans lequel des adjudicateurs humains ont lu les mêmes transcriptions. Ils ont constaté que les adjudicateurs IA et les adjudicateurs humains déplacés étaient moins précis que les interrogateurs interactifs qui avaient effectué le test de Turing original, mais pas plus ou moins précis les uns que les autres. Cela suggère que ni l'IA ni les humains ne sont fiables pour détecter les contributions de l'IA aux conversations en ligne.

    Source : "GPT-4 is judged more human than humans in displaced and inverted Turing tests"

    Et vous ?

    Pensez-vous que cette étude est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Les gens ne peuvent pas distinguer GPT-4 d'un humain dans un test de Turing : GPT-4 a été jugé comme étant un humain dans 54% des cas, confirmant qu'une IA peut réussir un test de Turing

    Une étude affirme que les internautes ne parviennent à détecter avec précision les textes générés par l'IA que dans 50 % des cas, et une autre estime que les outils de détection ne sont pas fiables

    L'IA surpasse les humains en matière de persuasion avec une réussite de 82 % en moyenne, selon une étude où les LLM ont surpassé les participants sur tous les sujets avec un haut niveau de persuasion
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  7. #7
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    2 304
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 2 304
    Par défaut Voici les benchmarks qui ont été définis et ont été résolus par les progrès de l'IA
    Killed by LLM : voici les benchmarks qui ont défini et ont été résolus par les progrès de l'IA, y compris le test de Turing, comment l'IA devient plus intelligente que les humains, devons-nous nous inquiéter ?

    Le site web Killed by LLM a partagé une liste des benchmarks "vaincus" par les LLM, révélant les progrès fait par l'IA. La liste confirme le statut de GPT-4 comme le déclencheur du boom de l'IA. Elle montre également que le Test de Turing est le benchmark le plus vieux, mais également le plus controversé.

    GPT-4, le célèbre modèle de langage d'OpenAI, est réputé à avoir réussi le test de Turing. Pour rappel, le "test de Turing" permet de déterminer si la capacité d'une machine à faire preuve d'intelligence est indiscernable de celle d'un être humain. Pour qu'une machine réussisse le test de Turing, elle doit être capable de parler à quelqu'un et de lui faire croire qu'elle est humaine. Le test de Turing fait partie des benchmarks (tests d'évaluation ou de référence) qui permettent de déterminer les progrès de l'IA.

    Depuis le lancement de GPT-4, de nombreux grands modèles de langage (LLM) sont sortis, et d'autres benchmarks ont été résolus et réussi par l'intelligence artificielle (IA). Le site web Killed by LLM a partagé une liste des benchmarks "vaincus" par les LLM. Le terme "vaincu" signifie qu'un benchmark ne peut plus mesurer la frontière. Bien que ces repères soient toujours des outils utiles et précieux, ils ne sont plus en mesure de contribuer de manière significative à la question suivante : "L'IA peut-elle faire ceci ou cela ?"

    Nom : 1.jpg
Affichages : 9378
Taille : 10,8 Ko

    Voici la liste proposée par Killed by LLM au mois de janvier 2025 :

    • ARC-AGI (2019 - 2024), Raisonnement : Résolu il y a 1 mois, un défi de raisonnement abstrait consistant en des tâches de complétion de motifs visuels. Chaque tâche présente une séquence de motifs visuels abstraits et nécessite de sélectionner la bonne réponse. Créé par François Chollet dans le cadre d'une enquête plus large sur la mesure de l'intelligence. Il a été créé il y a 5 ans et 1 mois.

      Vaincu par : "o3"

    • MATH (2021 - 2024), Mathématiques : Résolu il y a 4 mois, un ensemble de données de 12 000 problèmes mathématiques de concours difficiles provenant de l'AMC, de l'AIME et d'autres concours mathématiques. Les problèmes vont du niveau pré-algèbre au niveau olympique et requièrent un raisonnement complexe en plusieurs étapes. Chaque problème a une solution détaillée qui teste les capacités de raisonnement mathématique. Il a été créé il y a 3 ans et 6 mois.

      Vaincu par : "o1"

    • BIG-Bench-Hard (2022 - 2024), Multi-tâche : Résolu il y a 7 mois, une suite de 23 tâches difficiles de BIG-Bench où les modèles de langage ont initialement réalisé des performances inférieures au niveau humain moyen. Sélectionné pour mesurer les progrès sur des capacités particulièrement difficiles. Il a été créé il y a 1 an et 8 mois.

      Vaincu par : Sonnet 3.5

    • HumanEval (2021 - 2024), Codage : Résolu il y a 8 mois, une collection de 164 problèmes de programmation Python conçus pour tester les capacités de codage des modèles de langage. Chaque problème comprend une signature de fonction, une docstring et des tests unitaires. Les modèles doivent générer des implémentations de fonctions complètes et correctes qui passent tous les tests. Il a été créé il y a 2 ans et 10 mois.

      Vaincu par : GPT-4o

    • IFEval (2023 - 2024), Suivi de l'instruction : Résolu il y a 10 mois, une suite d'évaluation complète testant les capacités de suivi des instructions à travers le codage, les mathématiques, les jeux de rôle et d'autres tâches. Mesure la capacité à gérer des instructions complexes en plusieurs étapes et des contraintes. Cette évaluation a été réalisée il y a 4 mois.

      Vaincu par : LLama 3.3 70B

    • GSM8K (2021 - 2023), Mathématiques : Résolu il y a 1 an, Une collection de 8 500 problèmes de mots mathématiques d'école primaire nécessitant des solutions étape par étape. Les problèmes testent à la fois le calcul numérique et la compréhension du langage naturel à travers un raisonnement mathématique en plusieurs étapes. Il a été créé il y a 2 ans et 1 mois.

      Vaincu par : GPT-4

    • Test de Turing (1950-2023), Conversation : Résolu il y a 1 an, le test original d'IA proposé par Alan Turing en 1950. Dans ce "jeu d'imitation", un ordinateur doit convaincre des juges humains qu'il est humain par le biais d'une conversation naturelle. Ce test a suscité des décennies de débats sur l'intelligence et la conscience des machines. Il a été créé il y a 73 ans et 5 mois.

      Vaincu par GPT-4

    • ARC (AI2)(2018 - 2023), Raisonnement : Résolu il y a 1 an, AI2 Reasoning Challenge (ARC) - Une collection de tâches de raisonnement à choix multiples de niveau scolaire testant la déduction logique, le raisonnement spatial et le raisonnement temporel. Chaque tâche requiert l'application de capacités de raisonnement abstraites pour résoudre des problèmes à plusieurs étapes. Il a été créé il y a 5 ans.

      Vaincu par : GPT-4

    • HellaSwag (2019 - 2023), Sens commun : Résolu il y a 1 an, Un ensemble de données difficile de questions à choix multiples sur des scénarios quotidiens. Il utilise le filtrage contradictoire pour tester la capacité des modèles à comprendre et à raisonner sur les situations du monde réel et leurs résultats probables. Il a été créé il y a 3 ans et 10 mois.

      Vaincu par : GPT-4

    • MMLU(2020 - 2023), Connaissances : Résolu il y a 1 an, Un benchmark complet couvrant 57 sujets dont les mathématiques, l'histoire, le droit, l'informatique, et plus encore. Les questions sont tirées de sources réelles telles que des examens professionnels afin de tester à la fois l'étendue et la profondeur des connaissances dans divers domaines académiques. Cette évaluation a été créée il y a 2 ans et 6 mois.

      Vaincu par : GPT-4

    • WinoGrande(2019 - 2023), Sens commun : Résolu il y a 1 an, Une version améliorée de WSC avec 44 000 problèmes testant le raisonnement de bon sens à travers la résolution des pronoms. Utilise un filtrage contradictoire pour s'assurer que les problèmes requièrent une compréhension du monde réel. Il a été créé il y a 3 ans et 8 mois.

      Vaincu par : GPT-4


    Nom : 2.jpg
Affichages : 2982
Taille : 41,3 Ko

    Fait intéressant, cette liste révèle que le "test de Turing" est le benchmark le plus ancien qui ai existé. Pourtant, ce test est très critiqué par certains chercheurs en IA. En 2020, un professeur de l’Université de Reading a déclaré : "Dans le domaine de l’intelligence artificielle, il n’y a pas de jalon plus emblématique et controversé que le test de Turing." Le scientifique en chef d'Alexa avait également déclaré : "Le test de Turing est obsolète. Il est temps de créer un nouveau baromètre pour l'IA".

    Plus récemment, c'est Mustafa Suleyman, cofondateur de DeepMind, le célèbre laboratoire d’IA racheté par Google, qui a critiqué le "test de Turing". Il a qualifié le test de "dépassé" et "ne reflète pas la véritable intelligence des chatbots modernes." Il a proposé un test "plus moderne" où une IA est évaluée non seulement par ce qu'elle dit, mais aussi par ce qu'elle fait.

    Dans tous les cas, cette liste montre la course effrénée à l'IA depuis son boom en 2023, engendré par GPT-4. C'est pourquoi de nombreux observateurs craignent que l'IA ne devienne hors de contrôle. Ce n'est pas la première fois que de telles craintes ont été exprimées sur l'IA. En 2019, Elon Musk avertissait que "l'IA est bien plus dangereuse que l'arme nucléaire". Alors que Bill Gates avait estimé que l'IA est à la fois porteuse d'espoir et dangereuse.

    Il sera maintenant intéressant de voir quel sera le prochain progrès de l'IA et dans quelle direction elle se dirige.

    Source : "Killed by LLM"

    Et vous ?

    Pensez-vous que cette liste est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Les limites et perspectives des benchmarks pour évaluer les performances de l'IA par rapport aux performances humaines

    Les principaux systèmes d'IA résolvent moins de 2 % des problèmes d'un nouveau test de référence en mathématiques avancées, ce qui révèle les limites importantes de leurs capacités de raisonnement

    Trolldi : « Will Smith mangeant des spaghettis » est désormais un benchmark pour l'IA. Lorsqu'un nouveau générateur de vidéos par IA est publié, quelqu'un l'utilise pour réaliser cette vidéo de l'acteur

    2023, l'année de l'IA ? L'année a été marquée par l'émergence de l'IA générative, une explosion des investissements dans le domaine et l'accélération dans les législations
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

Discussions similaires

  1. Réponses: 0
    Dernier message: 08/12/2022, 01h30
  2. Réponses: 13
    Dernier message: 10/02/2022, 12h45
  3. Réponses: 16
    Dernier message: 31/07/2018, 01h04
  4. Ilias estime que le développement front-end est plus complexe qu’il ne parait
    Par Olivier Famien dans le forum Général Conception Web
    Réponses: 42
    Dernier message: 21/09/2017, 11h16
  5. Un développeur estime que le développeur full stack est une chimère
    Par Olivier Famien dans le forum Actualités
    Réponses: 63
    Dernier message: 16/11/2015, 11h58

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo