Bonjour tout le monde !

Je suis en ce moment en train de réaliser un projet dans le cadre de ma deuxième année d'école d'ingénieur, le but étant de simuler un robot (comprendre un assemblage de figures géométriques 2D avec des articulations motorisées) et ensuite de lui apprendre à se déplacer.

Donc j'ai modélisé mon truc avec la library Box2D et j'ai voulu commencer l'apprentissage.

Je connais à peu prêt bien l'algorithme de rétropropagation de gradient pour régler les poids d'un réseau lors d'un apprentissage supervisé mais en loccurence je n'ai pas de set d'entrainement donc je ne peux pas calculer le gradient d'erreur, j'ai alors essayé de faire une "descente de gradient aléatoire" (en gros modifié légèrement et aléatoirement les poids et conserver la modification si cela engendre une croissance d'une fonction fitness) et également de faire un apprentissage des poids par algorithme génétique mais ces deux solutions ne me conviennent pas vraiment.

Du coup j'ai lu des dizaines de pdf sur le sujet mais je n'ai nul part trouvé une réponse claire à ma question : comment entrainer (pas trop difficilement) mon réseau de neurone par renforcement ?

Merci beaucoup