L’IA n'a toujours pas le bon sens pour comprendre le langage humain

**Stan Adkens** · 03/03/2020, 15h42

L’IA n'a toujours pas le bon sens pour comprendre le langage humain,
Les chercheurs devraient aller au-delà du deep learning dans le traitement du langage naturel, selon une étude

Le domaine du traitement du langage naturel (NLP) a fait d'énormes progrès, et les machines peuvent maintenant générer des passages convaincants par simple appui sur un bouton, ce que les ordinateurs ne pouvaient pas faire quelques années en arrière. Nous devons ces avancées aux techniques d'apprentissage approfondi de l’intelligence artificielle, qui permettent d'extraire des modèles statistiques de l'utilisation des mots et de la structure de l'argumentation à partir de vastes quantités de texte, selon le magazine MIT Technology Review.

Mais dans quelle mesure l'IA comprend-elle vraiment ce qu'elle lit ? Selon un récent article du Allen Institute for AI, partagé initialement dans l’archive de prépublications électroniques d'articles scientifiques ArXiv, l’IA comprend moins ce qu’elle lit que ce que nous pensions. Selon l’article, rapporté par MIT Technology Review, les chercheurs de l'Institut ont trouvé qu’il manque toujours quelque chose au domaine de traitement du langage naturel, à savoir que les machines ne comprennent pas vraiment ce qu'elles écrivent (ou lisent), malgré les progrès.

Nom : cs01.jpg
Affichages : 2234
Taille : 30,7 Ko

Selon MIT, il s'agit là d'un défi fondamental dans la grande quête d'une IA généralisable, mais au-delà du monde universitaire, il est également pertinent pour les consommateurs. Par exemple, les chatbots et les assistants vocaux construits sur des modèles de langage naturel de pointe sont devenus l'interface de nombreuses institutions financières, de prestataires de soins de santé et d'agences gouvernementales. Mais selon les chercheurs, sans une véritable compréhension du langage, ces systèmes sont plus susceptibles d'échouer, ce qui ralentit l'accès à des services importants, d’après MIT.

Pour leur évaluation, les chercheurs se sont appuyés sur les travaux du Winograd Schema Challenge (WSC), un test créé en 2011 pour évaluer le raisonnement de bon sens des systèmes du traitement du langage naturel. Selon MIT qui a rapporté l’article des chercheurs, le test utilise un ensemble de 273 questions impliquant des paires de phrases identiques à l'exception d'un mot. Ce mot, appelé "déclencheur", retourne le sens du pronom de chaque phrase. Voici, ci-dessous, un exemple de paire de phrases du test:

« Le trophée ne rentre pas dans le sac marron parce qu'il est trop grand. »
« Le trophée ne rentre pas dans le sac marron parce qu'il est trop petit. »

Pour réussir le test, un système de PNL doit déterminer à laquelle des deux options le pronom se réfère. Dans ce cas, le système devrait sélectionner "trophée" pour la première phrase et "sac" pour la seconde afin de résoudre correctement le problème. Selon les chercheurs, ce test issu des travaux du WSC a été conçu à l'origine avec l'idée que de tels problèmes ne pouvaient être résolus sans une connaissance approfondie de la sémantique. Avec ce défi, les modèles d'apprentissage approfondi de pointe ont appris et se sont rapprochés de l’objectif avec une précision d'environ 90 %, selon l’article.

Cependant, dans l’article du Allen Institute for AI, qui recevra le prix du meilleur article lors de la conférence de l’Association for the Advancement of Artificial Intelligence (AAAI) du mois prochain, les chercheurs remettent en question l'efficacité de la référence et, par conséquent, le niveau de progrès que le domaine du traitement du langage naturel a réellement atteint avec ce test.

Le test d’évaluation de bon sens des systèmes NLP, selon les chercheurs

En se basant sur des travaux du WSC, les chercheurs de l'Institut ont créé un ensemble de données beaucoup plus important, baptisé WinoGrande, avec 44 000 problèmes du même type. Pour ce faire, ils ont conçu un système de crowdsourcing permettant de créer et de valider rapidement de nouvelles paires de phrases.

Selon le rapport de MIT, « les travailleurs d'Amazon Mechanical Turk ont créé de nouvelles phrases avec les mots requis sélectionnés par une procédure de randomisation. Chaque paire de phrases a ensuite été donnée à trois travailleurs supplémentaires et n'a été retenue que si elle répondait à trois critères : au moins deux travailleurs ont sélectionné les bonnes réponses, les trois ont jugé les options non ambiguës, et les références du pronom n'ont pas pu être déduites par de simples associations de mots ».

« Enfin, les chercheurs ont également fait passer l'ensemble des données par un algorithme afin de supprimer autant d'"artefacts" que possible - des modèles de données ou des corrélations involontaires qui pourraient aider un modèle de langage à trouver les bonnes réponses pour les mauvaises raisons ». Ce traitement ayant pour but de réduire les chances qu'un modèle pourrait avoir pour manipuler l'ensemble de données.

Les chercheurs ont ensuite testé des modèles de pointe dans le domaine sur ces nouveaux problèmes élaborés. Selon l’article, les performances des modèles sont tombées entre 59,4 % et 79,1 %. En revanche, les humains atteignaient encore une précision de 94 %. Les chercheurs ont tiré la conséquence selon laquelle un score élevé au test original de Winograd est probablement gonflé. « Il s'agit d'une performance spécifique à un ensemble de données, et non d'une performance générale », a déclaré Yejin Choi, professeure associée à l'Université de Washington et directeur de recherche à l'AI2, qui a dirigé les recherches.

Selon l’article, Mme Choi espère que le nouvel ensemble de données servira de nouveau point de référence pour les chercheurs. Mieux encore, elle espère également qu'il incitera davantage de chercheurs à aller au-delà de l'apprentissage approfondi. En effet, les résultats lui ont fait comprendre que les véritables systèmes de PNL de bon sens doivent intégrer d'autres techniques, telles que des modèles de connaissances structurés, dont les travaux antérieurs se sont révélés très prometteurs dans ce sens. « Nous devons, en quelque sorte, trouver un plan de bataille différent », a-t-elle dit.

Les modèles vraiment robustes ne devraient pas avoir besoin d'une grammaire parfaite

Le document des chercheurs n’a pas fait l’unanimité. Certains ont reproché le test de contenir des phrases confuses. Ernest Davis, l'un des chercheurs qui ont travaillé sur le test original de Winograd, a déclare que de nombreuses paires de phrases citées en exemple dans le document sont « sérieusement lacunaires » et comportent une grammaire confuse, a rapporté MIT. « Elles ne correspondent pas à la façon dont les personnes parlant anglais utilisent les pronoms », écrit M. Davis dans un courriel.

Mais selon MIT, Mme Choi a indiqué que les modèles vraiment robustes ne devraient pas avoir besoin d'une grammaire parfaite pour comprendre une phrase. Les personnes qui parlent l'anglais comme deuxième langue mélangent parfois leur grammaire tout en transmettant leur sens correct.

« Les humains peuvent facilement comprendre le sujet de nos questions et choisir la bonne réponse », dit-elle, en faisant référence à la précision des performances de 94 %. « Si les humains devaient être capables de faire cela, ma position est que les machines devraient être capables de le faire aussi », a-t-elle ajouté.

Selon un commentateur du sujet, pour que l'IA ait du bon sens, « elle doit savoir ce que c'est que d'avoir des expériences humaines ». Pour lui, comme l’IA ne peut jamais vivre des expériences humaines, « elle ne pourra jamais s'identifier à vous et vous ne pourrez pas vous identifier à elle ». Et vous, qu’en pensez-vous ?

Sources : ArXiv

Et vous ?

Que pensez-vous de l’article des chercheurs ?

Pensez-vous que l’IA aura un jour assez de bon sens pour comprendre le langage humain ?

Selon vous, l’IA a-t-elle besoin d’avoir du bon sens pour être le fer de lance du progrès de notre société ?

Lire aussi

L'IA aurait résolu en moins d'une seconde « le problème à trois corps », vieux de trois siècles, grâce à un réseau neuronal, d'après des chercheurs

La collaboration entre humains et agents IA changera pour toujours la façon dont les tâches professionnelles sont exécutées, selon un rapport d'étude

Alibaba : un nouvel algorithme d'IA peut identifier les infections à coronavirus avec une précision de 96 %, et achever le processus de reconnaissance de la maladie en 20 secondes

Deux musiciens utilisent un algorithme pour générer toutes les combinaisons possibles de mélodies et les mettent sous licence CC0, afin de mettre fin à des poursuites en matière de droits d'auteur

**Matthieu Vergne** · 03/03/2020, 23h57

Question de bon sens. {^_^}

**10_GOTO_10** · 04/03/2020, 11h12

Les schémas Winograd sont un des pires tests d'intelligence, je ne comprends pas pourquoi on en parle encore. Un exemple parmi d'autres (extrait de https://cs.nyu.edu/faculty/davise/pa...ollection.html) :

Sam's drawing was hung just above Tina's and it did look much better with another one [below/above] it. Which looked better?
Answers: Sam's drawing/Tina's drawing.

Pour bien répondre à ce test, il faut supposer que le dessin de Sam n'est pas entre deux dessins de Tina, ou celui de Tina entre deux de Sam. C'est ce que l'humain supposera (à tort) mais pas l'ordinateur qui prend en compte toutes les possibilités.

Donc, de la même façon que le test de Turing, où on reconnait l'humain parce qu'il fait des fautes de frappes et qu'il ne sait pas multiplier deux nombres de 3 chiffres, on voudrait tester l'intelligence artificielle à faire les mêmes erreurs que les humains. Ce n'est pas de l'intelligence artificielle, c'est de la bêtise artificielle capable de reproduire la bêtise humaine.

**Matthieu Vergne** · 04/03/2020, 13h24

C'est un des objectifs communs dans le domaine de l'IA : reproduire l'humain. Les expérimentations pour simuler le cerveau humain (Blue Brain) vont dans le même sens. Tout le monde n'adhère pas, mais ça reste une définition fréquente de l'IA. Quand on est conscient de ça état de fait, alors oui on peut dire que c'est de l'IA, mais c'est un avis qui ne satisfera qu'une partie du domaine.

**Steinvikel** · 05/03/2020, 10h06

Selon un commentateur du sujet, pour que l'IA ait du bon sens, « elle doit savoir ce que c'est que d'avoir des expériences humaines ».
Pour lui, comme l’IA ne peut jamais vivre des expériences humaines, « elle ne pourra jamais s'identifier à vous et vous ne pourrez pas vous identifier à elle ».

Et vous, qu’en pensez-vous ?
Est-ce que parler de "bon sens" et " d'expérience humaine " est vraiment pertinent quand le problème pour un humain requiert : une analyse, et un raisonnement logique, le tout s'appuyant sur son expérience passé (fiable ou non, et concluante ou non).
ce qui fait la magie de " l'intelligence " c'est quand on est pas capable d'expliquer par quelles règles c'est gouverné mais que ça semble produire le résultat voulu.
daisant penser à la signature d'un de nos membre du forum :
Albert Einstein --> " La théorie, c'est quand on sait tout et que rien ne fonctionne. La pratique, c'est quand tout fonctionne et que personne ne sait pourquoi. Ici, nous avons réuni théorie et pratique : Rien ne fonctionne... et personne ne sait pourquoi ! "

Pensez-vous que l’IA aura un jour assez de bon sens pour comprendre le langage humain ?
Un humain qui déboule directement de l'utérus met moins de 2 ans pour exprimer des idées claires, sa difficulté c'est la maitrise de l'oral, c'est pourquoi on apprend aux jeunes enfants un morceau du langage des signe (ou une variante). Dès lors qu'il est en capacité de prononcer des mots, il devient par causalité en capacité de s'expérimenter à l'oral. En moins de 2 ans il maîtrise la base du langage, puis avec 2 autres années, les règles courantes d'usage... l'école lui apprenant le reste qui n'est pas forcément transmit par l'entourage direct.
Ce qu'il faut retenir, c'est que l'apprentissage d'un humain ce fait essentiellement par 4 axes :
- l'observation, l'analyse
- le mimétisme, et l'expérimentation
- la (forte) répétitivité
- la corrélation statistique d'un succès ou d'un échec
Donc pour moi, si on donne suffisamment de règles à une machine, suffisamment d'essai, et suffisamment d'accompagnement ...elle y parviendra assurément.
Maintenant si l'on me demande la même chose, mais sur une machine avec seulement une partie des règles, un temps ridiculement court d'apprentissage, et donc une faible répétitivité à l'apprentissage ...alors ma position serait plutôt : "ça dépend" ...de quels sont les règles omises, de quel type d'apprentissage, des exemples sur lequel porte l'apprentissage, etc. On peut apprendre à une machine en 10 ans bien des choses, par plein de méthodes différentes, mais quand l'on souhaite le même résultat en 24h, les méthodes concluantes sont bien moins nombreuses.

Selon vous, l’IA a-t-elle besoin d’avoir du bon sens pour être le fer de lance du progrès de notre société ?
Aujourd'hui, "progrès" et "bon sens" sont parfois antinomique, alors que "progrès" et "lucratif" le sont bien moins souvent... x)
L'IA présentera toujours des défauts, car étant façonné par l'humain qui, lui, est loin d'être parfait, et car étant également conditionné par les ressources financières allouées.
Le bon sens est un facteur "favorisant" le progrès, il n'est pas "nécessaire". Est-ce que l'IA en a la nécessité pour en être "le fer de lance" mal-grès ses défauts ? J'avoue ne pas savoir.

**pkplomb46** · 30/04/2020, 20h29

Il ne faut pas oublier que l'informatique est une science relativement recente, internet n'a qu'une cinquantaine d'année, ...
Alors oui je pense que les intelligence artificielle arriveront à comprendre et à utiliser le language humain meme si cela n'est pas pour tout de suite

L’IA n'a toujours pas le bon sens pour comprendre le langage humain

Discussions similaires

Partager

Partager