Bonjour a tous, j'essaie de mettre en place un systeme de reinforcement learning avec un neural network.

J'ai tout d'abord teste avec du QLearning classique et ca marche bien... le seul probleme c'est que mes donnees sont continues et non discrete.


Donc voila comment je procede:

Je creer mon NN avec le nombre d'input que j'ai normalise.
Ensuite je prevois X le nombre d'output qui represente le nombre total de mes actions possibles.

J'execute le reseau de neuronne, je prend la valeur max comme etant l'action a executee.
Je calcule la reward fonction de la reward immediate (1 en cas de victoire -1 en cas de defaite).

Et j'entraine mon reseau de neuronne avec 0 dans tous les outputs sauf pour l'action choisie je met la reward calculee.



Je souhaite savoir si je pars sur de bonnes bases ou si je me trompe completement.
Pour le moment cela ne marche pas, je me doute que je dois faire une erreur quelque part...


Merci de votre aide...