Précisions sur un réseau perceptron multicouche

**ProgrammeurDuGrenier** · 14/12/2017, 10h32

Bonjour,

Grâce au tuto http://alp.developpez.com/tutoriels/...x-de-neurones/, j'ai réussi à écrire mon propre réseau perceptron avec un nombre de couches variable, mais je n'ai pas bien compris certaines choses :

Dans le cadre d'un apprentissage supervisé,

1)
Lors de la rétropropagation du gradient :
on calcule les deltas des neurones de la couche de sortie par la formule suivante : sortieObtenue * (1 - sortieObtenue) * (sortieAttendue - sortieObtenue)
et on calcule les deltas des neurones des couches cachées par la formule suivante : sortieObtenue * (1 - sortieObtenue) * somme des erreurs des neurones de la couche suivante, pondérée par le poids reliant ce neurone au suivant.

Je ne sais pas d'où sortent ces formules, sont-elles là parce que j'ai utilisé la fonction d'activation sigmoide ?
(j'ai d'ailleurs lu qu'il serait utile qu'elle se dérive, mais je ne vois sa dérivée nul part, j'ai loupé quelque chose ?)

2)

Si je change ma fonction d'activation de sigmoide à heavy-side, mon réseau ne converge plus pour l'exemple du XOR. Changer la fonction d'activation implique d'autres changements ? ou c'est une erreur dans mon code (que je peux founir si vous voulez lire) ?

Si quelqu'un pouvait m'éclairer, ce serait super.
Merci !

**dourouc05** · 14/12/2017, 12h52

La dérivée n'est pas mentionnée explicitement, mais elle correspond aux alpha*(yk - sk)*x_i des sections V-1 et V-2. Les formules de rétropropagation ne sont qu'une application de la dérivation des fonctions composées et utilisent notamment la dérivée de la fonction d'activation.

**ProgrammeurDuGrenier** · 14/12/2017, 16h16

Salut, merci de ta réponse, mais je ne vois pas comment on passe de 1 / (1+e-x) à alpha*(yk - sk)*x_i, tu connais un site qui expliquerai ça ?

Et ça explique donc aussi pourquoi la fonction heavy-side ne fonctionne pas, elle n'a pas de dérivée !

**BioKore** · 19/12/2017, 09h31

Bonjour,

Étant moi aussi novice dans la création et l'utilisation des réseaux de neurones, je me permet de répondre à tes questions qui sont plus "mathématiques" qu'autre chose finalement.

En réalité, le g(x)*(1-g(x)) (ou encore oi*(1-oi) dans le cours de alp) correspond à la dérivée de la fonction sigmoïde. Le calcul du delta avec cette base indique implicitement que les fonctions d'activation des neurones sont sigmoïdes...
Si tu souhaite voir d'où cela vient, je t'invite à lire la fin du cours d'initiation de alp dans lequel tu retrouveras ces réponses.

Enfin, pour la fonction heaviside, si tu as suivi ce que je viens de dire ici, tu devrais comprendre par toi même pourquoi tu ne peux pas l'utiliser tel-quel ici : cette fonction n'est pas dérivable. Je ne me suis pas trop penché sur le sujet encore, donc je ne peux pas te dire comment calculer le delta d'une telle fonction.

**ProgrammeurDuGrenier** · 08/01/2018, 21h29

Oui j'ai maintenant pu voir d'où venaient ces chiffres mystérieux, avec une superbe page wikipédia (entre autre) https://fr.wikipedia.org/wiki/Fonction_d%27activation .

C'est compris pour la fonction heaviside, merci de ta réponse.

Précisions sur un réseau perceptron multicouche

Intelligence artificielle

Discussions similaires

Partager

Partager