Une équipe de Google Brain entraîne un bot à agréger des informations,
pour produire un article Wikipedia
Un article récemment publié par la Cornell University Library documente comment une équipe de Google Brain, un projet d’apprentissage profond (deep learning) conduit par la filiale d’Alphabet, apprend aux bots à agréger des informations trouvées sur différents sites afin de créer une page Wikipedia qui agrège sa découverte en un seul texte. En d'autres termes, faire comme les humains le font depuis janvier 2001, date à laquelle Wikipédia a été créée.
Peter J Liu, qui fait partie de l’équipe ayant mené ce projet, a expliqué que « Nous montrons que la génération d'articles Wikipedia en anglais peut être considérée comme une synthèse multidocuments de documents sources. Nous utilisons la synthèse extractive pour identifier les informations saillantes et un modèle abstractif neuronal pour générer l'article. Pour le modèle abstractif, nous introduisons une architecture décodeur uniquement qui peut prendre en charge de manière très évolutive des séquences très longues, beaucoup plus longues que les architectures typiques codeur-décodeur utilisées dans la transduction de séquence. Nous montrons que ce modèle peut générer des paragraphes multiphrases fluides et cohérents et mêmes des articles entiers de Wikipédia. Lorsqu'on nous donne des documents de référence, nous montrons qu'il peut extraire des informations factuelles pertinentes telles que reflétées dans la perplexité, les scores ROUGE (Recall-Oriented Understudy for Gisting Evaluation) et les évaluations humaines. »
À travers un processus appelé « résumé extractif », l’équipe de Google Brain enseigne à un bot comment identifier les informations pertinentes sur un sujet et à les organiser à travers un « modèle abstractif neuronal » pour créer un article.
Le modèle fonctionne en prenant les dix premières pages Web d'un sujet donné – en excluant l'entrée de Wikipédia – ou en extrayant des informations des liens dans la section des références d'un article de Wikipédia. La plupart des pages sélectionnées sont utilisées pour l’apprentissage, et quelques-unes sont retenues pour développer et tester le système.
Les paragraphes de chaque page sont classés et le texte de toutes les pages est ajouté pour créer un long document. Par la suite, le texte est codé puis raccourci, divisé en 32 000 mots individuels et utilisés comme entrée.
Pourtant, l'algorithme prend essentiellement des phrases plus longues, non originales et les réduits en plus courtes en utilisant un modèle abstractif, une solution astucieuse utilisée à la fois pour créer et résumer un texte. Les phrases du texte généré proviennent en fait du texte précédent, elles ne sont pas construites de rien. Ce qui peut expliquer pourquoi la structure du texte peut s’avérer répétitive et rigide.
Mohammad Saleh, coauteur de l'article et membre de l’équipe, a expliqué que « La phase d'extraction est un goulot d'étranglement qui détermine quelles parties de l'entrée seront utilisées pour l'étape d'abstraction. Idéalement, nous aimerions transmettre tous les commentaires des documents de référence. »
Et de poursuivre en disant que « La conception de modèles et de matériel pouvant prendre en charge des séquences d'entrée plus longues est actuellement un domaine de recherche actif qui peut atténuer ces limitations. »
En somme, pour l’instant, nous sommes encore très loin d'une synthèse ou d'une génération de texte efficace. Et même si le projet Google Brain est plutôt intéressant, il serait probablement imprudent d'utiliser un tel système pour générer automatiquement des entrées sur Wikipedia.
Néanmoins, Google a affirmé que « Pour encourager d'autres recherches sur le résumé à grande échelle, nous publierons les URL utilisées dans notre expérience (l'URL Wikipedia ainsi que les URL de ses références) qui sont disponibles dans le cadre du dataset CommonCrawl4, qui est disponible gratuitement en téléchargement ».
Google s’est servi de la bibliothèque open source tensor2tensor pour l’apprentissage des modèles abstractifs et va également publier les extensions de code de modélisation abstractive.
Source : bibliothèque de l'université Cornell
Et vous ?
Que pensez-vous de ce type de projet ? Quelles retombées possibles entrevoyez-vous s'il venait à être amélioré ?
Partager