Bonjour à tous !
Après avoir réussi (enfin) à obtenir de "bons" résultats (1.5% d'erreur) avec un réseau de neurones simple et un apprentissage classique (SGD Widrow-Horff) ou via mini-batch (mais là mon implémentation laisse à désirer : impossible de tomber en dessous des 10%), je m'intéresse donc à l'apprentissage par renforcement dans l'optique ambitieuse, à long terme, pourquoi pas, de faire apprendre le poker à un réseau.
Je me suis donc penché sur le premier algorithme trouvé sur internet pour ce type d'apprentissage : le Q-Learning, mais cette méthode me parait finalement assez peu adaptée à mon problème dans le sens où je peux avoir un nombre d'état gigantesque, sur plusieurs dimensions plongeant alors la phase de recueil des "rewards" sur plusieurs milliers voire millions de parties (heureusement, le nombre d'action est limité entre 5 et 10 selon le type de jeu).
A ce titre, j'aimerais savoir alors si quelqu'un pourrait m'orienter vers un algorithme moins contraignant.
Je rêve peut-être, mais ce qui pourrait être formidable, c'est de voir mon réseau s'améliorer de parties en parties.
Cependant, maintenant que j'y pense, j'imagine que ce dernier souhait m'orienterais plutôt vers de l'apprentissage non-supervisé pur...
Une idée ? des conseils ? N'hésitez pas !
Merci d'avance !
Partager