Bonjour à tous,
je suis un novice en Prolog et en intelligence artificielle, et je voudrais savoir comment faire pour implémenter en Prolog un apprentissage par renforcement, avec parcours de tous les états possibles, détermination d'une stratégie, calcul de la plus grande récompense à long terme.
Je galère sur ce problème depuis 2 semaines, et je trouve pas d'info utile par google. Donc si quelqu'un peut m'expliquer, ça serait sympa.
Merci d'avance
		
		
        





  Répondre avec citation

 
   


 

Partager