Réseau de neurones - reconnaissance visage

**PrAbronsius** · 01/05/2006, 14h40

Bonjour à tous,

Je dois faire une application utilisant un perceptron multi-couches et l'algorithme de rétro-propagation pour classifier 20 visages différents.

Je dois utiliser des photos de 64x60 px², en 8 niveaux de gris, et il y a 8 photos différentes pour chacune des 20 personnes.
80 photos sont utilisées pour entraîner le réseau et 60 pour le tester.

J'ai cherché de la documentation sur internet, j'ai trouvé des exemples de code pour la rétropropagation, j'ai lu pas mal de trucs, mais je suis toujours aussi perdu!
Par où commencer?

Je ne sais pas quels vecteurs d'entrée utiliser... Faut-il faire un prétraitement de l'image?
Je ne sais également pas quelle doit-être l'architecture du réseau.
Apparemment le plus courant est de faire une couche d'entrée, une couche cachée et une couche de sortie, avec 20 neurones de sorties (autant que de personnes), mais combien mettre de neurones dans la couche d'entrée et dans celle cachée?

La liste de mes questions est encore longue, toute information est la bienvenue!
Merci d'avance!

**Matthieu Brucher** · 01/05/2006, 15h21

A priori, on peut mettre l'image directement en entrée.
Pour savoir combien mettre de neurones dans la couche intermédiaire, c'est un peu de l'essai erreur. moins de 20 n'est sans doute pas la bonne idée, mais trop spécialiserait sans doute le réseau.
Ensuite, il faut aussi voir comment l'apprentissage est sensé se dérouler.

**PrAbronsius** · 02/05/2006, 08h05

Merci beaucoup pour cette réponse.

En ce qui concerne la couche d'entrée, combien de neurones me conseilleriez-vous?

Et ne vaut-il pas mieux traiter l'image avant de la faire passer dans le réseau?

On peut trouver pas mal de documentation sur le sujet sur internet, mais je n'ai pas vu grand chose de concret en ce qui concerne ce genre de questions...

**Matthieu Brucher** · 02/05/2006, 09h08

Le réseau peut traiter lui-même l'image directement. De plus, il pourrait baser sa réponse sur des éléments que nous, pauvres humains, enlèverions lors d'un pré-traitement. Ca peut être gânant. Ou bien si les photos ont toutes été prises au même endroit.

**Flo.** · 02/05/2006, 09h42

Attention

,

les réseaux de neurones ne sont pas des "générateurs de miracles".

Je pense qu'il te faut pré-traiter les images voire même les analyser. Sinon tu vas travailler sur des images bruitées, dépendant de la luminance et de la teinte des éclairages, etc (même sur des images en niveaux de gris). Il faut pouvoir se ramener à un référentiel identique pour toutes les images (basé gradient, identification de caractéristiques, primitives, ...).

Mais bon j'ai jamais travaillé sur un tel sujet

(mais néanmoins intéressant) ....

Flo.

**Matthieu Brucher** · 02/05/2006, 10h04

Tout à fait, les RN peuvent être capricieux. Mais je pense qu'on peut se passer de pré-traitement. Enfin, ça dépend du nombre d'images qu'on a aussi, il en faut plus si on ne pré-traite pas, puisqu'il y a plus d'info à discriminer.

**PrAbronsius** · 02/05/2006, 10h14

Merci à tous.

Petite précision, les images utilisées sont toutes prises au même endroit, à peu près dans les mêmes conditons.
Je pense peut-être au moins rendre le nombre de pixels en entrée un peu plus petit en n'utilisant que la partie de l'image où se situe le visage.

Pour la couche d'entrée, dois-je utiliser autant de neurones qu'il y a de pixels dans le vecteur d'entrée?

**chebreg** · 02/05/2006, 18h04

Je pense qu'on a oublier une question fondamentale. qui est "Que veut on faire apprendre a ce réseau de neurones"
On sais tous que les réseaux de neurones permettent d’avoir un modèle d’approximation d’une fonction de type F(X)=Y ; où X et Y sont des vecteurs (à N dimensions). Et dans ce lead, on a pas abordé la fonction «F». Si on suppose que X et une image, le Y on ne sait pas exactement de quoi il s’agit.

Pour ma part je propose trois possibilités pour la fonction «F»:

Premiére proposition : si le nombre de visages à reconnaître est fixe (dans ton cas 20 visages), l’entrée X est une image. Et le vecteur de sortie Y sera un tableau à 1 dimension avec 20 cases; chaque case prendra des valeurs de 0 à 1. La valeur prise par la case « N » pourra être interprété comme la probabilité que l’image donnée en entrée correspond au visage numéro N...
Une autre possibilité c’est de construire un réseau pour chaque visage. Ce réseau aura comme entrée une image et un seul neurone en sortie; avec une valeur de sortie comprise entre 0 et 1. cette valeur n’est autre qu’une probabilité que l’image donnée en entrée correspond exactement au visage...
Une dernière proposition : le réseau accepte deux image en entrée et une neurone en sortie. Le neurone de sortie donne une probabilité de correspondance...

J‘ai pas trop détaillé les propositions. J’espère que cela donnera de la matière pour un débat plus approfondi.

**Luc Hermitte** · 02/05/2006, 23h03

En vrac.

On ne peut jamais se passer de la phase de pré-traitements avec les RdNs. Ce n'est pas le cas avec d'autres approches "proches" comme les SVMs.
Tes visages tu vas devoir obligatoirement les transformer en données plus réduites et denses en informations. Là, consulte la littérature sur ce sujet précis.

Les PMC 3-couches avec la simple back-prop ne sont pas ce qu'il y a de plus efficace.

Une heuritique "classique" pour dimensionner la couche intermédiaire, c'est d'extraire une dimension "pertinente" obtenue après une ACL sur l'espace d'entrée.

**PrAbronsius** · 03/05/2006, 03h38

Merci beaucoup pour votre aide.

Je pense comprendre le principe, mais je suis toujours aussi perdu pour implémenter tout ça dans une application...

Une autre petite question:
La fonction d'activation utilisée est souvent une sigmoïde, mais je vois de temps en temps la fonction tanh (tangente hyperbolique) qui permet d'avoir une sortie comprise entre -1 et 1 au lieu de 0 et 1. Cela permet-il d'obtenir de meilleurs résultats?

Réseau de neurones - reconnaissance visage

Algorithmes et structures de données

Discussions similaires

Partager

Partager