[Réseaux de neurones] Utilité pour de la reconnaissance de caractères

**gaetan13** · 08/07/2012, 01h01

Bonjour,
J'ai une petite question a propos des neural network. J'ai mis beaucoup de temps à comprendre et encore tout n'est pas très clair.

Mais je me demande l’utilité pour l'ocr, ce que je pensais faire au départ c'était comparer les matrix de bits de l'image a analyser avec celle d'une base de données...

Je ne vois pas en quoi un neural network est plus performant. Merci

**thelvin** · 08/07/2012, 02h08

Les ordinateurs, en général, utilisent en effet la méthode des matrix à comparer à une base de données.
Et ils font beaucoup plus d'erreurs que mon neveu de 6 ans.

Les humains ne se trompent pas, parce qu'ils déduisent les mots en fonction du contexte de la phrase, et de l'ensemble des lettres qui le composent, pas une lettre à la fois.
C'est donc une sorte d'heuristique complexe à calculer, quel est le mot rencontré, voire quels sont les groupes de mots rencontrés, en fonction de "ce qui a été dit avant" et de quels mots sont en général représentés par les bouts de formes qui sont censés être ses lettres.
Le domaine typique d'un réseau de neurones.

**gaetan13** · 08/07/2012, 09h36

Merci pour la réponse,
Ici le logiciel ne va pas lire des mots mais des séries de chiffres et de lettres donc ici pas de déductions complexes avec des dictionnaires, etc...

Je vois toujours pas pourquoi il ferait plus d'erreurs, au lieu d'entrainer le network ici on constitue notre base. Et si on a une base bien complète je vois pas quelles sont les raisons qui font que le network s'en sortirait mieux.

Dans les deux cas l’entrée est un matrix de bits que ce soit pour chercher dans la base de donnée ou pour les entrées du network, non ?

**bertry** · 08/07/2012, 14h43

Envoyé par gaetan13

Je vois toujours pas pourquoi il ferait plus d'erreurs, au lieu d'entrainer le network ici on constitue notre base. Et si on a une base bien complète je vois pas quelles sont les raisons qui font que le network s'en sortirait mieux.?

Si tes caractères son représentés par une image de 16*16pixels et 256niveaux de gris : il existe 16*16*256 = 65536 images possibles et donc 16*16*258/8 = 8ko par images. Ce qui représente 65536*8 = 512Mo de données à stocker.

Tu peux voir que pour cet exemple simple il te faut ( avec la méthode brutale ) gérer 65536 objet dans 512Mo d'espace de stockage. Tu peux en suite comparer cela à la taille d'un réseau de neurones bien entrainé et en tirer les conclusions...

Je ne pense pas que l'activation du réseau de neurones soit plus couteuse en calculs que la comparaison de ton image d'entrée avec les 65536 images de ta base! En générale elle l'est beaucoup moins, de plus les coefs de ton réseau de neurones n'occuperont jamais 512Mo pour la reconnaissance de caractères 16*16px*256gris

**gaetan13** · 08/07/2012, 23h36

Je comptais faire la reconnaissance sur du noir et du blanc donc pas de niveau de gris. Et si non tu es vraiment sur de tes calculs :

16*16*256 = 65536

Moi je dirais plutôt pour des niveaux 256^(16*16).

Et pour le N/B on a 2^(2*2) (avec une image de 2 par 2) ça donne 16, j'ai vérifie avec un arbre.

Et sinon on stock pas toute les combinaisons d'images mais une base de données de caractères...

**bertry** · 09/07/2012, 05h46

Envoyé par gaetan13

Et si non tu es vraiment sur de tes calculs :

Moi je dirais plutôt pour des niveaux 256^(16*16).

Oups en effet!! tu as raison, c'est encore bien pire : (16*16)^256 = 3.23*10^616 : là c'est vraiment beaucoup!!!
Je trouvais bien que les valeurs étaient faibles, mais bon...

**gaetan13** · 09/07/2012, 10h49

(16*16)^256

C'est l'inverse 256 possibilités pour chaque pixels :

256*256*256..... donc 256^(16*16) même si ça revient au même ici

[Réseaux de neurones] Utilité pour de la reconnaissance de caractères

Méthodes prédictives

Discussions similaires

Partager

Partager