Gradient bandit - Maximisation d'une espérance

**BioKore** · 23/03/2023, 22h23

Bonjour à vous,

Je ne suis pas certain que ce post soit dans la bonne catégorie, mais puisque ce dernier corresponds à une question plutôt d'ordre mathématique, dans le cadre d'une implémentation d'un algorithme en Python, je me suis dit que je devrais pouvoir obtenir des réponses ici.
Ma question concerne un simple exercice que je me suis posé concernant la compréhension du "gradient Bandit". Le principe est assez simple d'une manière générale et je n'ai pas trop de problèmes avec les calculs associés, cependant, je ne comprends pas le choix final de l'implémentation - ou alors - c'est qu'il y a un principe de base qui m’échappe.

n'ayant pas trouvé comment écrire des formules sur le forum, voici une capture d'écran de mon calcul (pour ceux qui connaissent l'algorithme, j'ai volontairement omis le facteur de "baseline" qui n'a a pas d'impact à priori sur mon problème):

Nom : gradient_bandit.PNG
Affichages : 134
Taille : 51,9 Ko

Nom : gradient_bandit.PNG
Affichages : 134
Taille : 51,9 Ko

En gros, pourquoi est-ce que l'on reprends la formule qui est dans l'espérance, et pas la formule de l'espérance en elle-même ?

Nom : gradient_bandit_res.PNG
Affichages : 118
Taille : 26,1 Ko

Nom : gradient_bandit_res.PNG
Affichages : 118
Taille : 26,1 Ko

J'ai fait une application numérique rapide pour voir ce que ça donne et, le sens du gradient est le bon dans les deux cas, mais le poids de ce dernier est nécessairement plus faible selon mon approche.
Pour plus de contexte, vous pouvez vous faire une idée de ce à quoi tout ceci correspond sur multi-armed-bandits-1 et multi-armed-bandits-2

Un grand merci par avance pour toute aide que vous sauriez m'apporter sur ce point.