Bonjour à tous,
je suis un novice en Prolog et en intelligence artificielle, et je voudrais savoir comment faire pour implémenter en Prolog un apprentissage par renforcement, avec parcours de tous les états possibles, détermination d'une stratégie, calcul de la plus grande récompense à long terme.
Je galère sur ce problème depuis 2 semaines, et je trouve pas d'info utile par google. Donc si quelqu'un peut m'expliquer, ça serait sympa.
Merci d'avance
Partager