+ Répondre à la discussion Actualité déjà publiée
  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    mars 2013
    Messages
    2 795
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : mars 2013
    Messages : 2 795
    Points : 60 893
    Points
    60 893

    Par défaut Une intelligence artificielle explore Mario Bros et apprend de ses erreurs grâce à sa « curiosité »

    Une intelligence artificielle explore Mario Bros et apprend de ses erreurs grâce à sa « curiosité »,
    la démo est disponible en téléchargement

    Les algorithmes conventionnels d'IA apprennent par un renforcement positif : ils sont récompensés pour la réalisation d'une sorte de but externe, comme augmenter le score dans un jeu vidéo d'un point. Cela les encourage à effectuer des actions qui augmentent leur score (comme sauter sur les ennemis dans le cas de Mario) et les décourage d'effectuer des actions qui n'augmentent pas le score (comme de tomber dans une fosse).

    Ce type d'approche, appelé apprentissage de renforcement, a été utilisé dans la conception d’AlphaGo, l'intelligence artificielle de la filiale de Google DeepMind qui a fait plier le meilleur joueur mondial cette semaine. Sur des milliers de jeux, l'algorithme AlphaGo a appris à poursuivre des stratégies qui ont conduit à la récompense ultime : une victoire.

    Mais, dans le monde réel, l’apprentissage n’est pas toujours motivé par la récompense, explique Deepak Pathak, un scientifique de l’Université Berkely en Californie qui a développé le système : « Au lieu de cela, les humains ont une curiosité innée qui les aide à apprendre », indique-t-il. Ce qui peut, selon lui, être la raison pour laquelle les humains arrivent à maîtriser un large éventail de compétences sans nécessairement chercher à les apprendre.

    Ainsi, Pathak s'est mis à insuffler à son propre algorithme d'apprentissage de renforcement un « sentiment de curiosité » pour voir si cela suffirait à lui permettre d'apprendre une gamme de compétences.

    « Nous formulons la curiosité comme l'erreur dans la capacité d'un agent à prédire la conséquence de ses propres actions dans un espace de fonctionnalité visuel, appris par un modèle de dynamique inverse autosupervisé. Notre formulation évolue vers des espaces d'état continus à grande dimension comme des images, contourne les difficultés de prédiction directe des pixels et, de manière critique, ignore les aspects de l'environnement qui ne peuvent affecter l'agent », a-t-il expliqué.

    L'algorithme de Pathak était récompensé lorsqu'il améliorait la compréhension de son environnement, en particulier les éléments qui l'ont directement affecté. Ainsi, plutôt que de chercher une récompense dans le monde du jeu, l'algorithme a été récompensé pour l'exploration et la maîtrise des compétences qui l'ont amené à en découvrir plus sur ce monde.


    L'approche de Pathak a été évaluée dans deux environnements : VizDoom et Super Mario Bros. Trois grands paramètres sont étudiés :
    une récompense extrinsèque éparse, où la curiosité permet de réduire considérablement les interactions avec l'environnement pour atteindre le but ;
    une exploration sans récompense extrinsèque, où la curiosité pousse l'agent à explorer plus efficacement ;
    et une généralisation à des scénarios invisibles (par exemple, nouveaux niveaux du même jeu) où la connaissance acquise grâce à une expérience antérieure aide l'agent à explorer de nouveaux endroits beaucoup plus rapidement que quand il est parti de zéro.

    Ce type d'approche peut accélérer les temps d'apprentissage et améliorer l'efficacité des algorithmes, explique Max Jaderberg de DeepMind. La société a utilisé une technique similaire l'année dernière pour enseigner une IA à explorer un labyrinthe virtuel. Son algorithme a appris beaucoup plus rapidement que les approches d'apprentissage de renforcement conventionnelles. « Notre agent est beaucoup plus rapide et nécessite beaucoup moins d'expérience dans le monde pour s'entraîner, ce qui le rend beaucoup plus efficace », a-t-il déclaré.

    tester la démo

    Source : GitHub

    Voir aussi :

    Jeu de Go : AlphaGo prend sa retraite et pourrait ne plus participer à des compétitions, suite à sa récente victoire sur le numéro un mondial
    Apple travaille en secret sur le « Neural Engine », une puce dédiée aux applications d'intelligence artificielle
    Qui devra être tenu pour responsable si une intelligence artificielle fait un mauvais diagnostic induisant un médecin en erreur ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  2. #2
    Membre habitué Avatar de Matthieu76
    Homme Profil pro
    Étudiant
    Inscrit en
    mars 2013
    Messages
    164
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Seine Maritime (Haute Normandie)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : mars 2013
    Messages : 164
    Points : 143
    Points
    143

    Par défaut

    Cela n'est que mon avis mais j'ai l'impression que c'est bien beau et très vendeur et que ce n'est pas vraiment exceptionnelle.

    L'approche de Pathak n'est ni plus ni moins qu'une fonctionne de score mais qui n'est pas baser sur le score du jeu.

    C'est que j'ai compris c'est :


    Apprentissage par renfoncement :

    • le score du jeu augment c'est bien.
    • le score du jeu n'augment pas ou diminue, c'est pas bien.



    Approche de Pathak :

    • les variables du jeu et le score varie c'est bien.
    • le score du jeu n'augment pas, c'est bof.
    • les variables du jeu ne varie pas, c'est pas bien.



    En gros, c'est juste une manière différente de calculer le score de l'IA qui favorise l'exploration au détriment du score du jeu

    Personnellement, je travaille sur les réseaux de neurones et j'ai l'impression que maintenant le plus difficile c'est de déterminer une bonne fonction de calcul d'erreur (donc de score).
    Une très bonne fonction de calcul d'erreur va beaucoup aider l'IA en la guidant l'IA dans son apprentissage.

    Après un autre moyen simple de mettre ce côté "curiosité", c'est de ne pas à chaque fois choisir la meilleur action mais de tirer les actions à effectuer de manière aléatoire en fonction de leur score.
    Plus une action est considérer comme étant bonne plus l'action aura de chance d'être effectuer par L'IA mais l'IA effectura aussi des actions un peu moins bonne par moment ce qui renforce le côté exploration.

Discussions similaires

  1. Créer une intelligence artificielle en C++
    Par redda dans le forum Intelligence artificielle
    Réponses: 2
    Dernier message: 12/04/2016, 02h45
  2. Réponses: 0
    Dernier message: 27/02/2015, 13h52
  3. Créer une intelligence artificielle qui joue a un jeu sur internet..
    Par pinkfloyd234 dans le forum Langages de programmation
    Réponses: 0
    Dernier message: 10/01/2013, 01h41
  4. [Flash Pascal] Architecture d'un jeu incluant une intelligence artificielle
    Par Roland Chastain dans le forum Flash Pascal
    Réponses: 26
    Dernier message: 28/12/2012, 18h09
  5. [Debutant] Apprendre à créer une Intelligence Artificielle (IA)
    Par Aspic dans le forum Intelligence artificielle
    Réponses: 46
    Dernier message: 21/12/2010, 18h04

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo