Eclaircissements sur les perceptrons multicouches

**tnarol** · 01/08/2008, 16h17

Salut,

J'essaye de mieux comprendre l'utilisation pratique des PMC. Beaucoup d'articles (notamment celui de Alp sur le site) parlent très bien de l'architecture et le fonctionnement du réseau de neurones et la technique de descente de gradient. Par contre comme le souligne cet article l'aspect méthodologique et pratique est plutôt éludé. Au mieux les articles disent "il n'y a pas de méthode" et sinon ils ne posent même pas la question.
Pourriez vous me donner quelques indications (ou renvoyer vers des exemple un peu pratiques) pour alimenter ma réflexion sur des questions aussi élémentaires que :
- le nombre de couches (intérêt d'avoir plusieurs couches, risque associé à un nombre de couches élevé...)
- le nombre de neurones par couche intermédiaire
- la signification et le choix des neurones d'entrée
- le choix de la fonction d'activation

J'ai aussi une question très bête sur les neurones de la couche intermédiaire. Dans les diverses descriptions j'ai l'impression qu'ils sont tous connectés aux mêmes sorties des neurones des couches d'entrée et de sortie et qu'ils ont généralement la même fonction d'activation, comment peut-on arriver à désymmétriser pour arriver à une situation où ils jouent un rôle différent ?

Merci

**Alp** · 01/08/2008, 16h44

Envoyé par tnarol

Salut,

J'essaye de mieux comprendre l'utilisation pratique des PMC. Beaucoup d'articles (notamment celui de Alp sur le site) parlent très bien de l'architecture et le fonctionnement du réseau de neurones et la technique de descente de gradient. Par contre comme le souligne cet article l'aspect méthodologique et pratique est plutôt éludé. Au mieux les articles disent "il n'y a pas de méthode" et sinon ils ne posent même pas la question.
Pourriez vous me donner quelques indications (ou renvoyer vers des exemple un peu pratiques) pour alimenter ma réflexion sur des questions aussi élémentaires que :
- le nombre de couches (intérêt d'avoir plusieurs couches, risque associé à un nombre de couches élevé...)
- le nombre de neurones par couche intermédiaire
- la signification et le choix des neurones d'entrée
- le choix de la fonction d'activation

J'ai aussi une question très bête sur les neurones de la couche intermédiaire. Dans les diverses descriptions j'ai l'impression qu'ils sont tous connectés aux mêmes sorties des neurones des couches d'entrée et de sortie et qu'ils ont généralement la même fonction d'activation, comment peut-on arriver à désymmétriser pour arriver à une situation où ils jouent un rôle différent ?

Merci

Alors, je vais répondre du mieux que je peux.

- Le nombre de couches augmente la complexité de ton réseau de neurones. Cela veut notamment dire qu'il pourra représenter une fonction beaucoup plus complexe, mais aussi que si tu veux approcher une fonction "pas si complexe" cette architecture sera trop lourde. Pour terminer, ce théorème limite pas mal l'intérêt des perceptrons multicouches à plus d'une couche cachée.
- Le nombre de neurones de la couche cachée est un sujet très gênant. Il n'existe rien qui dans le cas général permet de calculer le nombre de neurones à mettre dans la couche cachée. Il a par contre été démontré que pour un certain type de fonctions booléennes, le nombre de neurones à mettre dans la couche cachée était je crois de 2^n, où n est le nombre d'informations en entrée.
- Pour les informations d'entrée, il s'agit simplement de fournir au réseau de neurones des informations caractérisant parfaitement les objets que tu vas étudier. Par exemple, si tu veux donner une image de taille 40x40 pixels, il te faudra 1600 informations à fournir à l'entrée du réseau de neurones. La valeur étant à chaque fois un nombre identifiant uniquement la couleur, par exemple.
- Le choix de la fonction... ça dépend en fait de tes besoins. La fonction sigmoïde permet de "mettre à l'échelle" de grands nombres entre 0 et 1 sans que cela soit linéaire, avec toutefois un "seuil" visible. La fonction tanh remplit le même rôle mais a une dérivée plus complexe, ce qui est gênant pour la delta rule. Après, la fonction seuil par exemple est utile lorsque l'on désire avoir uniquement des valeurs qui sont soit 0 soit 1, par exemple pour des fonctions logiques. Mon article étant un article d'introduction, je te conseille de consulter des documents plus techniques et poussés sur le sujet (tu n'en trouveras pas en français je pense

) afin de mieux te représenter tout ça.

En espérant t'avoir aidé

**ToTo13** · 02/08/2008, 19h16

Bonjour,

juste deux petites précisions même si tu viens d'obtenir des réponses à tes questions.

Pour le nombre de couches : plus tu mets des couches cachées (intermédiaires), plus le pmc sera capable de construire un modèle complexe. Mais plus il y a de couche, plus les calculs sont longs et fastidieux, mais surtout plus tu risques de faire de l'apprentissage par coeur et ton modèle ne sera pas capable de généraliser. Ce qui est le risque majeur à l'utilisation des pmc.

Pour le nombre de neurones en entrée : comme on te l'a dit, tu mets autan de neurones que de descripteurs. C'est en fait la dimension du vecteur caractéristique. L'erreur la plus courante lorsque l'on utilise un pmc (erreur que l'on pourrait nommer l'erreur du "neuneu"), c'est de mettre bêtement un maximum d'information quelconques et de faire tourner le tout. Par exemple, l'exemple typiquement bourrin mais très fréquent est de mettre en entrée la valeur de tous les pixels de ton image et de dire "le pcm trouvera tout seul" (il y a d'ailleurs une discussion sur la reconnaissance de portes où j'explique le défaut de cette approche). Ce que Alp vient de te donner c'était un exemple, pas un conseil

. Là typiquement ton rdn va faire de l'apprentissage par coeur. Donc à cette étape, c'est à toi de réfléchir sur les caractérisques de ce que tu souhaites classer afin d'extraire des descripteurs (caractéristiques) pertinents. Le mieux est toujours d'utiliser un minimum de descripteurs.

**Alp** · 02/08/2008, 19h34

D'ailleurs, il y a souvent un traitement préalable à faire sur des informations fournies pour n'obtenir que le strict nécessaire d'informations à fournir au réseau de neurones.

Eclaircissements sur les perceptrons multicouches

Méthodes prédictives

Discussions similaires

Partager

Partager