[IA] Implémentation d'un apprentissage par renforcement

**shinigami** · 03/02/2008, 18h31

Bonjour à tous,
je suis un novice en Prolog et en intelligence artificielle, et je voudrais savoir comment faire pour implémenter en Prolog un apprentissage par renforcement, avec parcours de tous les états possibles, détermination d'une stratégie, calcul de la plus grande récompense à long terme.
Je galère sur ce problème depuis 2 semaines, et je trouve pas d'info utile par google. Donc si quelqu'un peut m'expliquer, ça serait sympa.
Merci d'avance

**Trap D** · 03/02/2008, 21h53

As-tu une situation particulière à nous décrire, car là, j'avoue que c'est un peu vague pour moi et que je ne peux vraiment pas t'aider.

**shinigami** · 04/02/2008, 22h29

En fait, je dois résoudre un problème classique, mais qui a été corsé.
C'est un singe qui doit attraper des bananes qui sont au plafond d'une salle. Il y a 3 pièces, au départ le singe est dans la première, une caisse sur laquelle il peut monter est dans la deuxième. Et les bananes sont dans la troisième.
Chacune des pièces communique avec les deux autres par une porte.
Les actions possibles pour le singe sont se déplacer n'importe où dans les pièces, passer les portes, pousser la caisse, monter et descendre de la caisse, et prendre les bananes.
On m'a dit d'utiliser l'apprentissage par renforcement pour résoudre ça. Le problème, c'est que je suis novice en Prolog et je ne sais pas comment l'implémenter.

**Trap D** · 04/02/2008, 23h50

As-tu déjà une idée de la mise en oeuvre de cet algo en langage naturel ?
Peux-tu expliquer ce que tu cherches à traduire en Prolog ?
Il te faut une base de faits et une base de règles qui décriront la navigation dans cette base de faits.

**shinigami** · 10/02/2008, 21h18

Oui, après plusieurs heures d'essais de programme, j'ai déjà trouvé une solution mais ce n'est pas avec de l'apprentissage par renforcement.
J'ai décrit toutes les actions et les états possibles, je choisis aléatoirement les actions à effectuer. Je déclare 2 listes, une contenant les états dans lesquels j'ai déjà été, et une deuxième avec les actions que je peux effectuer en étant à l'état dans lequel je me trouve.
Si à partir de l'état présent, j'effectue une action qui me ramène à un état déjà vu, je supprime l'action de ma liste d'action et j'en essai une autre. Si j'arrive à un état pas encore vu, je prends cet état et je recommence en remettant à jour ma liste d'actions possibles. Je fais ça jusqu'à ce que le singe attrape les bananes.
Le problème maintenant c'est qu'il faut donner une récompense quand je fais une action qui fonctionne, que j'enlève une partie du butin quand je fais une action qui sert à rien ou qui me ramène à un état déjà vu. Au final, le singe fait les actions qui lui rapportent le plus.
Je vais essayer de rajouter une variable de récompense qui s'incrémente quand une action réussi à aller à un état jamais vu et qui se décrémente dans le cas contraire. Mais je ne sais pas si c'est vraiment de l'apprentissage par renforcement ou tout simplement du bricolage.

**Trap D** · 11/02/2008, 09h26

Comme c'est plutôt un problème d'algo que de Prolog pour le moment, je déplace vers le forum approprié : "Algorithme".

**pseudocode** · 11/02/2008, 10h55

Envoyé par shinigami

Oui, après plusieurs heures d'essais de programme, j'ai déjà trouvé une solution mais ce n'est pas avec de l'apprentissage par renforcement.
(...)
Je vais essayer de rajouter une variable de récompense qui s'incrémente quand une action réussi à aller à un état jamais vu et qui se décrémente dans le cas contraire. Mais je ne sais pas si c'est vraiment de l'apprentissage par renforcement ou tout simplement du bricolage.

Ce que tu veut faire s'appelle du TD-Learning. Il y a beaucoup de litterature surce sujet sur internet (par exemple cela). La "variable de récompense" c'est la fonction valeur de l'algorithme du TD-Learning. Ce n'est donc pas du bricolage.

[IA] Implémentation d'un apprentissage par renforcement

Méthodes prédictives

Vue hybride

Discussions similaires

Partager

Partager