IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    8 453
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 8 453
    Points : 197 757
    Points
    197 757
    Par défaut Une équipe de Google Brain entraîne un bot à agréger des informations pour produire un article Wikipedia
    Une équipe de Google Brain entraîne un bot à agréger des informations,
    pour produire un article Wikipedia

    Un article récemment publié par la Cornell University Library documente comment une équipe de Google Brain, un projet d’apprentissage profond (deep learning) conduit par la filiale d’Alphabet, apprend aux bots à agréger des informations trouvées sur différents sites afin de créer une page Wikipedia qui agrège sa découverte en un seul texte. En d'autres termes, faire comme les humains le font depuis janvier 2001, date à laquelle Wikipédia a été créée.

    Peter J Liu, qui fait partie de l’équipe ayant mené ce projet, a expliqué que « Nous montrons que la génération d'articles Wikipedia en anglais peut être considérée comme une synthèse multidocuments de documents sources. Nous utilisons la synthèse extractive pour identifier les informations saillantes et un modèle abstractif neuronal pour générer l'article. Pour le modèle abstractif, nous introduisons une architecture décodeur uniquement qui peut prendre en charge de manière très évolutive des séquences très longues, beaucoup plus longues que les architectures typiques codeur-décodeur utilisées dans la transduction de séquence. Nous montrons que ce modèle peut générer des paragraphes multiphrases fluides et cohérents et mêmes des articles entiers de Wikipédia. Lorsqu'on nous donne des documents de référence, nous montrons qu'il peut extraire des informations factuelles pertinentes telles que reflétées dans la perplexité, les scores ROUGE (Recall-Oriented Understudy for Gisting Evaluation) et les évaluations humaines. »

    À travers un processus appelé « résumé extractif », l’équipe de Google Brain enseigne à un bot comment identifier les informations pertinentes sur un sujet et à les organiser à travers un « modèle abstractif neuronal » pour créer un article.


    Le modèle fonctionne en prenant les dix premières pages Web d'un sujet donné – en excluant l'entrée de Wikipédia – ou en extrayant des informations des liens dans la section des références d'un article de Wikipédia. La plupart des pages sélectionnées sont utilisées pour l’apprentissage, et quelques-unes sont retenues pour développer et tester le système.

    Les paragraphes de chaque page sont classés et le texte de toutes les pages est ajouté pour créer un long document. Par la suite, le texte est codé puis raccourci, divisé en 32 000 mots individuels et utilisés comme entrée.

    Pourtant, l'algorithme prend essentiellement des phrases plus longues, non originales et les réduits en plus courtes en utilisant un modèle abstractif, une solution astucieuse utilisée à la fois pour créer et résumer un texte. Les phrases du texte généré proviennent en fait du texte précédent, elles ne sont pas construites de rien. Ce qui peut expliquer pourquoi la structure du texte peut s’avérer répétitive et rigide.

    Mohammad Saleh, coauteur de l'article et membre de l’équipe, a expliqué que « La phase d'extraction est un goulot d'étranglement qui détermine quelles parties de l'entrée seront utilisées pour l'étape d'abstraction. Idéalement, nous aimerions transmettre tous les commentaires des documents de référence. »

    Et de poursuivre en disant que « La conception de modèles et de matériel pouvant prendre en charge des séquences d'entrée plus longues est actuellement un domaine de recherche actif qui peut atténuer ces limitations. »

    En somme, pour l’instant, nous sommes encore très loin d'une synthèse ou d'une génération de texte efficace. Et même si le projet Google Brain est plutôt intéressant, il serait probablement imprudent d'utiliser un tel système pour générer automatiquement des entrées sur Wikipedia.

    Néanmoins, Google a affirmé que « Pour encourager d'autres recherches sur le résumé à grande échelle, nous publierons les URL utilisées dans notre expérience (l'URL Wikipedia ainsi que les URL de ses références) qui sont disponibles dans le cadre du dataset CommonCrawl4, qui est disponible gratuitement en téléchargement ».

    Google s’est servi de la bibliothèque open source tensor2tensor pour l’apprentissage des modèles abstractifs et va également publier les extensions de code de modélisation abstractive.

    Source : bibliothèque de l'université Cornell

    Et vous ?

    Que pensez-vous de ce type de projet ? Quelles retombées possibles entrevoyez-vous s'il venait à être amélioré ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  2. #2
    Expert éminent Avatar de marsupial
    Homme Profil pro
    Retraité
    Inscrit en
    Mars 2014
    Messages
    1 764
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Autre

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Mars 2014
    Messages : 1 764
    Points : 7 189
    Points
    7 189
    Par défaut
    Le projet doit être génial à concevoir.
    Le positif : obtenir une synthèse rapide sur tous les sujets scientifiques, recherche, je pense à phys.org.
    Le négatif : ma biographie sur Wikipedia est-elle pour bientôt ? ( big brother pourrait éviter de se pencher dessus, ce serait bien )
    Repeat after me
    Le monsieur lutte pour la défense des libertés individuelles et collectives

    Repeat after me...

  3. #3
    Inactif  
    Profil pro
    Inscrit en
    Août 2008
    Messages
    238
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2008
    Messages : 238
    Points : 620
    Points
    620
    Par défaut
    On leur souhaite bien du courage ...

    Je ne pense pas qu'ils envisagent dans un futur proche d'en faire une application fonctionnelle étant donné que l'IA malgré le bon de géant qu'elle accomplit est loin des capacités cognitives d'un cerveau humain adulte, notamment sur le langage.

    Mais l'initiative est à saluer puisqu'elle ouvre la voie vers sans doute de nouvelles méthodes et découvertes.

  4. #4
    Inactif  


    Homme Profil pro
    Doctorant sécurité informatique — Diplômé master Droit/Économie/Gestion
    Inscrit en
    Décembre 2011
    Messages
    9 012
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Loire (Rhône Alpes)

    Informations professionnelles :
    Activité : Doctorant sécurité informatique — Diplômé master Droit/Économie/Gestion
    Secteur : Enseignement

    Informations forums :
    Inscription : Décembre 2011
    Messages : 9 012
    Points : 23 145
    Points
    23 145
    Par défaut
    C'est bien gentil mais si on prend les 10 premiers sites sur certains domaine, à tout hasard "voyance", on va trouver quasi-exclusivement des sites soutenant le bien fondé de la voyance... donc ainsi obtenir un article Wikipédia qui va nous dire que la voyance, ça marche, et c'est trop génial .

  5. #5
    Inactif  

    Homme Profil pro
    Écrivain public, Économiste et Programmeur Free Pascal
    Inscrit en
    Août 2005
    Messages
    350
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Écrivain public, Économiste et Programmeur Free Pascal
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Août 2005
    Messages : 350
    Points : 948
    Points
    948
    Billets dans le blog
    40
    Par défaut Wikipedia
    Je pense qu'il est facile de créer des articles Wikipedia.
    En effet, vu la complexité des articles, un bot pourra facilement être aussi difficile à lire.

  6. #6
    Membre extrêmement actif
    Avatar de Ryu2000
    Homme Profil pro
    Étudiant
    Inscrit en
    Décembre 2008
    Messages
    9 602
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Décembre 2008
    Messages : 9 602
    Points : 18 517
    Points
    18 517
    Par défaut
    Citation Envoyé par Stéphane le calme Voir le message
    Que pensez-vous de ce type de projet ? Quelles retombées possibles entrevoyez-vous s'il venait à être amélioré ?
    Le côté positif c'est que les journaux n'auront plus besoin d'embaucher des journalistes, des IA les remplaceront. (un boulot qui consiste à recopier des articles ça doit être chiant, ça leur rendra service d'être libéré)

    J'aimerais savoir ce qu'il ce passe, si on donne des millions d'articles sur un même sujet, avec aucun texte qui va dans le même sens.
    Peut être qu'un jour les IA pourront différencier les fausses informations des vrais informations mieux que les humains le font, vu que les IA peuvent lire beaucoup plus de textes et faire beaucoup plus de comparaisons.
    En plus les IA vont peut être pas trop subir la propagande du système.

    Les IA ça en a rien à foutre et ça j'aime bien :
    « Hitler avait raison » : l’intelligence artificielle un peu trop humaine
    Keith Flint 1969 - 2019

  7. #7
    Membre habitué
    Homme Profil pro
    Étudiant
    Inscrit en
    Juillet 2014
    Messages
    28
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Nièvre (Bourgogne)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Juillet 2014
    Messages : 28
    Points : 137
    Points
    137
    Par défaut
    Bonjour,

    Citation Envoyé par Stéphane le calme Voir le message
    En d'autres termes, faire comme les humains le font depuis avril 2008, date à laquelle Wikipédia a été créée.
    @Neckara, à moins qu'une partie de la phrase m'échappe, apparemment les humains aussi font des erreurs .

    PS: Pour la bonne date cf: https://fr.wikipedia.org/wiki/Wikipédia

  8. #8
    Expert éminent
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Août 2007
    Messages
    2 161
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Août 2007
    Messages : 2 161
    Points : 7 952
    Points
    7 952
    Par défaut
    Je me demande comment une IA peut distinguer une info pertinente d'une autre qui l'est moins voir pas du tout
    Le nombre ne peut absolument pas être un critère.
    A une époque, la grande majorité de la planète pensait que la Terre était plate et que c'était le Soleil qui tournait autour du Soleil.
    Les rares personnes qui osaient prétendre le contraire étaient considérés comme fou et hérétique et condamnés au bûcher.
    A cette époque, avec le nombre comme critère, une IA aurait conclu que la Terre était plate

    Autre exemple bien plus actuel : celui de la reconnaissance faciale par les IA qui ont confondu les personnes noires avec des gorilles.
    ==> http://www.bfmtv.com/international/g...es-898885.html
    La raison est toute simple : l'IA a été très majoritairement entraînée à reconnaître des hommes blancs.
    Du coup, elle se plante dès qu'elle sort du cadre de son entraînement.

    Vue le nombre quasi infini de sujets possibles sur Wikipédia, comment vont ils pouvoir entraîner cette IA ?
    Va t'elle devoir se limiter à un nombre très restreint de sujet ?
    Vue le temps qu'il faudra pour entraîner cette IA pour automatiser le temps de traitement de seulement un petit nombre de sujets, est-ce que ça aura du sens de le faire ?

  9. #9
    Expert confirmé
    Homme Profil pro
    Développeur .NET
    Inscrit en
    Novembre 2009
    Messages
    2 025
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Développeur .NET

    Informations forums :
    Inscription : Novembre 2009
    Messages : 2 025
    Points : 5 462
    Points
    5 462
    Par défaut
    Citation Envoyé par Saverok Voir le message
    Je me demande comment une IA peut distinguer une info pertinente d'une autre qui l'est moins voir pas du tout
    Ben vu les délires actuels autour des fake news, nos dirigeants semblent croire que la majorité des humains n'en sont pas capables, donc une IA ne fera pas pire .

  10. #10
    Expert éminent sénior
    Avatar de Mat.M
    Profil pro
    Développeur informatique
    Inscrit en
    Novembre 2006
    Messages
    8 361
    Détails du profil
    Informations personnelles :
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Novembre 2006
    Messages : 8 361
    Points : 20 379
    Points
    20 379
    Par défaut
    Citation Envoyé par Saverok Voir le message
    Je me demande comment une IA peut distinguer une info pertinente d'une autre qui l'est moins voir pas du tout
    remarque elle-même pertinente et pleine de bon sens..
    encore faut-il déterminer ce qui relève précisément de la pertinence.
    Sur quelles normes peut-on se baser pour affirmer que telle ou telle chose est pertinente ?
    Une fois que l'on a déterminé des normes elles peuvent relever de la subjectivité histoire de compliquer les choses.
    Ensuite il y a toute la problèmatique d'interprétation du réel en lui-même et de sa représentation

  11. #11
    Expert éminent
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Août 2007
    Messages
    2 161
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Août 2007
    Messages : 2 161
    Points : 7 952
    Points
    7 952
    Par défaut
    Citation Envoyé par Mat.M Voir le message
    remarque elle-même pertinente et pleine de bon sens..
    encore faut-il déterminer ce qui relève précisément de la pertinence.
    Sur quelles normes peut-on se baser pour affirmer que telle ou telle chose est pertinente ?
    Une fois que l'on a déterminé des normes elles peuvent relever de la subjectivité histoire de compliquer les choses.
    Ensuite il y a toute la problèmatique d'interprétation du réel en lui-même et de sa représentation
    Excellente remarque.
    Pour y répondre, une équipe de Google Brain a décidé d'entraîner une IA pour y répondre

  12. #12
    Membre émérite
    Inscrit en
    Janvier 2011
    Messages
    805
    Détails du profil
    Informations personnelles :
    Localisation : Autre

    Informations forums :
    Inscription : Janvier 2011
    Messages : 805
    Points : 2 918
    Points
    2 918
    Par défaut
    L'expérience en elle-même est très intéressante, mais je m'interroge sur le choix de l'article Wikipedia comme type d'output. Wikipedia c'est une éthique et un art de mettre en contraste les différents points de vue sur un même sujet, donc différent d'un simple agrégateur de sources.

    Quand on regarde l'exemple d'output qu'ils ont mis en annexe dans le papier, ça casse pas trois pattes à un canard : répétitions, tonalité commerciale, ponctuation laissant à désirer...

  13. #13
    Membre extrêmement actif
    Avatar de Ryu2000
    Homme Profil pro
    Étudiant
    Inscrit en
    Décembre 2008
    Messages
    9 602
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Décembre 2008
    Messages : 9 602
    Points : 18 517
    Points
    18 517
    Par défaut
    Citation Envoyé par Luckyluke34 Voir le message
    Quand on regarde l'exemple d'output qu'ils ont mis en annexe dans le papier, ça casse pas trois pattes à un canard
    Non mais là ils en sont aux balbutiements, si ils continuent comme ça, dans 25/30 ans ce sera peut être au point.
    Keith Flint 1969 - 2019

  14. #14
    Membre extrêmement actif

    Profil pro
    Grand Timonier des Chats
    Inscrit en
    Décembre 2011
    Messages
    879
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Grand Timonier des Chats

    Informations forums :
    Inscription : Décembre 2011
    Messages : 879
    Points : 3 302
    Points
    3 302
    Par défaut
    Citation Envoyé par Luckyluke34 Voir le message
    L'expérience en elle-même est très intéressante, mais je m'interroge sur le choix de l'article Wikipedia comme type d'output. Wikipedia c'est une éthique et un art de mettre en contraste les différents points de vue sur un même sujet, donc différent d'un simple agrégateur de sources.

    Quand on regarde l'exemple d'output qu'ils ont mis en annexe dans le papier, ça casse pas trois pattes à un canard : répétitions, tonalité commerciale, ponctuation laissant à désirer...
    Effectivement ce n'est pas du bon article wikipédia. Par contre, c'est mieux écrit que les emails de certains collègues

Discussions similaires

  1. Google Assistant : une plateforme de bots et un SDK pour l'assistant personnel intelligent
    Par Michael Guilloux dans le forum Intelligence artificielle
    Réponses: 1
    Dernier message: 05/10/2016, 16h09
  2. Réponses: 8
    Dernier message: 13/05/2015, 11h50
  3. Réponses: 3
    Dernier message: 18/03/2015, 13h45
  4. Réponses: 14
    Dernier message: 20/05/2014, 17h37
  5. Réponses: 0
    Dernier message: 10/07/2009, 04h50

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo