« Le test de Turing est obsolète. Il est temps de créer un nouveau baromètre pour l'IA »
Le scientifique en chef d'Alexa pense que l'ancienne référence n'est plus pertinente pour l'ère de l'IA d'aujourd'hui.
Le test de Turing est une proposition de test d’intelligence artificielle fondée sur la faculté d'une machine à imiter la conversation humaine. Décrit par Alan Turing en 1950 dans sa publication Computing Machinery and Intelligence, ce test consiste à mettre un humain en confrontation verbale à l’aveugle avec un ordinateur et un autre humain.
Si la personne qui engage les conversations n’est pas capable de dire lequel de ses interlocuteurs est un ordinateur, on peut considérer que le logiciel de l’ordinateur a passé avec succès le test. Cela sous-entend que l’ordinateur et l’humain essaieront d’avoir une apparence sémantique humaine. Pour conserver la simplicité et l’universalité du test, la conversation est limitée à des messages textuels entre les protagonistes.
En 2014, un ordinateur, grâce à un programme informatique, a réussi pour la première fois à convaincre des chercheurs qu’il était un enfant de 13 ans, devenant ainsi la première machine à passer le test de Turing.
Concrètement, l’ordinateur devait réussir, en l’espace de 5 minutes, à tromper 30 % d’un panel de juges humains à travers des échanges de texte. Jusqu’à là, aucun ordinateur n’avait été capable de passer ce test, en dehors des programmes sur lesquels des sujets ou des questions avaient déjà été définis à l’avance. « Eugene Goostman », un ordinateur conçu par une équipe de chercheurs russes, s’est démarqué parmi quatre autres machines qui ont passé un test à la Royal Society de Londres.
Eugene Goostman a réussi à convaincre 33 % des juges qu’il était un écolier de 13 ans. Les résultats ont été vérifiés de façon indépendante.
« Eugene est né en 2001. Notre idée principale était qu’il puisse affirmer qu’il connaissait tout, mais son âge rendait parfaitement raisonnable le fait qu’il ne connaissait pas tout », a expliqué Vladimir Veselov, responsable de l’équipe derrière le projet. « Nous avons passé beaucoup de temps à développer un personnage avec une personnalité crédible ».
« Dans le domaine de l’intelligence artificielle, il n’y a pas de jalon plus emblématique et controversé que le test de Turing. » a déclaré au quotidien The Independent Kevin Warwick, professeur de l’Université de Reading. « Avoir un ordinateur qui peut tromper un humain et l’amener à penser que quelqu’un ou même quelque chose est une personne en laquelle nous avons confiance est un signal d'alerte pour la cybercriminalité. Le test Turing est un outil essentiel pour combattre cette menace. »
Un peu plus tard, la même année, a été proposé un test d'intelligence artificielle qui s'est positionné comme une alternative au test de Turing. Lovelace 2.0, était une itération d’un précédent test Lovelace, proposé en 2001. Dans la version originale du test, un agent artificiel programmé par un humain réussit le test s’il arrive à produire un résultat qui ne peut pas être expliqué par son programmeur.
Lovelace 2.0 est basé sur la créativité et est venu montrer les insuffisances du test de Turing. L’hypothèse du test est que l’homme se distingue des machines par la créativité. Le concepteur de Lovelace a affirmé que l’intelligence d’un agent artificiel est déterminée par sa capacité à répondre lorsqu’il est pris par surprise.
« L'agent artificiel réussit le test s’il développe un artefact créatif à partir d'un sous-ensemble de genres artistiques nécessitant une intelligence humaine, et l'artefact répond à certaines contraintes créatives données par un évaluateur humain », a expliqué le professeur Riedl. Pour ce dernier, « La créativité n’est pas unique à l'intelligence humaine, mais c’est l'une des caractéristiques de l'intelligence humaine » et même si des algorithmes ont déjà créé des histoires, « il n’existe pas de système générateur d’histoire qui puisse réussir le test Lovelace 2.0 ».
Bien entendu, les experts ont eu des sentiments mitigés au sujet de la qualité d'un tel test. Le professeur Alan Woodward, un expert en informatique de l'Université de Surrey, a pensé que cela pourrait aider à faire une distinction essentielle : « Je pense que ce nouveau test montre que nous reconnaissons tous maintenant que les humains sont plus que des machines très avancées et que la créativité est une de ces caractéristiques qui nous sépare de l'informatique - pour le moment ».
Ce que pense le directeur scientifique d’Amazon Alexa du Test de Turing
Dans une tribune, Rohit Prasad, directeur scientifique d'Alexa, l’assistant intelligent d'Amazon, estime que le test de Turing n’est plus le bon outil pour mesurer l’efficacité d’une intelligence artificielle. Selon lui, ce test est trop focalisé sur l’imitation humaine et ne permet pas d’évaluer l’utilité réelle de l’intelligence artificielle dans la vie de tous les jours :
« Dans les années qui ont suivi son introduction, le test de Turing a été l'étoile du nord de l'IA pour le monde universitaire. Les premiers chatbots des années 60 et 70, ELIZA et PARRY, étaient centrés sur la réussite au test. Pas plus tard qu'en 2014, le chatbot Eugene Goostman a déclaré avoir réussi le test de Turing en faisant croire à 33 % des juges qu'il était humain. Cependant, comme d'autres l'ont souligné, la barre consistant à tromper plus de 30 % des juges est arbitraire. Certains estiment même qu'une telle victoire semble dépassée.
« Pourtant, le test de Turing continue de stimuler l'imagination populaire. Le modèle de langage GPT-3 (Generative Pre-Training Transformer 3) d'OpenAI a fait les gros titres sur son potentiel pour battre le test de Turing. De même, les journalistes, les chefs d'entreprise et d'autres observateurs me demandent toujours: "Quand Alexa passera-t-elle le test de Turing?" Certes, le test de Turing est un moyen de mesurer l'intelligence d'Alexa - mais est-il conséquent et pertinent de mesurer l'intelligence d'Alexa de cette façon ?
« Pour répondre à cette question, revenons au moment où Turing a présenté sa thèse pour la première fois. En 1950, le premier ordinateur commercial n'avait pas encore été vendu, les bases des câbles à fibres optiques ne seraient pas publiées avant quatre ans, et le domaine de l'IA n'avait pas été formellement établi - cela viendrait en 1956. Nous avons maintenant 100 000 fois plus de puissance de calcul sur nos téléphones qu'Apollo 11, et avec le cloud computing et la connectivité à large bande passante, les IA peuvent désormais prendre des décisions basées sur d'énormes quantités de données en quelques secondes.
« Alors que la vision originale de Turing continue d’être inspirante, l’interprétation de son test comme la marque ultime des progrès de l’IA est limitée par l’époque à laquelle il a été introduit. D'une part, le test de Turing ne tient pas compte des attributs de l'IA, semblables à ceux d'une machine, de calcul rapide et de recherche d'informations, des fonctionnalités parmi les plus efficaces de l'IA moderne. L'accent mis sur le fait de tromper les humains signifie que pour qu'une IA réussisse le test de Turing, elle doit injecter des pauses dans les réponses à des questions telles que "savez-vous quelle est la racine cubique de 3434756?" ou "à quelle distance se trouve Seattle de Boston?" En réalité, l’IA connaît ces réponses instantanément, et s’arrêter pour rendre ses réponses plus humaines n’est pas la meilleure utilisation de ses compétences. De plus, le test de Turing ne prend pas en compte la capacité croissante de l'IA à utiliser des capteurs pour entendre, voir et ressentir le monde extérieur. Au lieu de cela, il se limite simplement au texte.
« Pour rendre l'IA plus utile aujourd'hui, ces systèmes doivent accomplir efficacement nos tâches quotidiennes. Si vous demandez à votre assistant IA d'éteindre les lumières de votre garage, vous ne cherchez pas à dialoguer. Au lieu de cela, vous souhaitez qu'il réponde à cette demande et vous en informe par un simple accusé de réception, "OK" ou "terminé". Même lorsque vous vous engagez dans un dialogue approfondi avec un assistant IA sur un sujet d'actualité ou que vous faites lire une histoire à votre enfant, vous aimeriez toujours savoir qu'il s'agit d'une IA et non d'un humain. En fait, "tromper" les utilisateurs en se faisant passer pour des humains présente un risque réel. Imaginez les possibilités dystopiques, comme nous avons déjà commencé à le voir avec les robots semant la désinformation et l'émergence de deepfake ».
Il faudrait créer un nouveau test
Rohit Prasad estime qu'il faudrait créer un nouveau test, capable de mesurer non seulement les capacités conversationnelles d’une intelligence artificielle, mais aussi l’utilité proactive de ses services d’assistance :
« Au lieu de nous efforcer de rendre les IA indiscernables des humains, notre ambition devrait être de construire des IA qui augmentent l'intelligence humaine et améliorent notre vie quotidienne d'une manière équitable et inclusive. Un objectif sous-jacent louable est que les IA présentent des attributs d'intelligence de type humain - y compris le bon sens, l'autosupervision et la maîtrise de la langue - et combinent une efficacité semblable à celle d'une machine, comme des recherches rapides, le rappel de la mémoire et l'accomplissement de tâches en votre nom. Le résultat final est d'apprendre et d'accomplir une variété de tâches et de s'adapter à des situations nouvelles, bien au-delà de ce qu'une personne ordinaire peut faire.
« Cet objectif informe la recherche actuelle dans les domaines de l'IA qui comptent vraiment: compréhension sensorielle, conversation, connaissance large et approfondie, apprentissage efficace, raisonnement pour la prise de décision et élimination de tout préjugé ou préjugé inapproprié (c'est-à-dire l'équité). Les progrès dans ces domaines peuvent être mesurés de diverses manières. Une approche consiste à diviser un défi en tâches constitutives. Par exemple, "Abstraction and Reasoning Challenge" de Kaggle se concentre sur la résolution de tâches de raisonnement que l'IA n'a jamais vues auparavant. Une autre approche consiste à concevoir un défi du monde réel à grande échelle pour l'interaction homme-machine tel que Alexa Prize Socialbot Grand Challenge, un concours axé sur l'IA conversationnelle pour les étudiants universitaires. »
Source : tribune Rohit Prasad, directeur scientifique d'Alexa
Et vous ?
Que pensez-vous de l'affirmation selon laquelle le test de Turing est obsolète et qu'il faudrait créer un nouveau baromètre pour l'IA ?
Que pensez-vous des propos de Rohit Prasad sur le sujet (les pistes de réflexion sur la conception de nouveaux tests, sa perspective de l'IA, etc.) ?
Voir aussi :
Sophos lance des développements libres d'intelligence artificielle pour lutter contre les cyberattaques
Xiaoice, le chatbot de Microsoft doté d'intelligence émotionnelle, séduit des millions d'hommes célibataires en Chine, il enregistre également leurs désirs et leurs émotions les plus intimes
USA : une IA vient de contrôler un avion militaire pour la toute première fois, un tournant décisif pour une technologie intensément débattue dans le domaine du contrôle des armements
Le marché des logiciels d'IA pèsera 37 milliards de dollars d'ici 2025, selon une étude de Forrester, un nombre bien inférieur aux prévisions de nombreux investisseurs
Partager