Réalisation d'un OCR

**nusasa** · 24/06/2021, 11h11

Je suis actuellement en stage au sein d'un cabinet de comptabilité et je dois réaliser l'automatisation de certains de leur processus.
Une partie de ces processus se base sur L'OCR (Optical character recognition) pour la recherche de donnée dans une image scannée. Après l'utilisation de certaine librairie déjà existante tel que easyocr, pytesseract,opencv à l'aide de python, et l'utilisation d'extracteur de texte en ligne, je n'arrive pas à avoir de résultat concluant. C'est pourquoi je me suis penché sur la réalisation de mon propre OCR. Après de nombreuse recherche j'ai remarqué, que la majorité des projets se base sur les réseaux neuronaux ainsi que le modèle de Markov caché. Cependant peu de documentation concrète (non mathématique) pour l'élaboration d'un programme existe sur le domaine.
C'est pourquoi je voulais savoir si vous seriez par quoi je devrais commencer, et si vous auriez des documentations sur des codes informatiques.

**Canvas** · 25/06/2021, 18h21

Bonsoir,

Sur Github, il y a ce projet simple développé dans le cadre d'un TIPE.

Reconnaissance de codes postaux par ordinateur

Ce projet est un programme de reconnaissance optique de caractères (OCR) développé dans le cadre du TIPE du deuxième année de CPGE. Il permet la reconnaissance d'un code postal à partir d'un scan manuscrit. L'objectif était de découvrir le fonctionnement d'un OCR et d'en développer un en partant de zéro. Ainsi les fonctions de bases telles que le seuillage, le calcul d'un histogramme ou la détection des contours ont été réimplémentées.

https://github.com/guillaumebour/programme-ocr

**nusasa** · 28/06/2021, 09h37

Bonjour, merci pour votre réponse effectivement ce github est une véritable mine d'or, j'ai appris beaucoup de chose dessus.
Désormais je voulais savoir, je suis nouveau dans le domaine et mon sujet se base sur la détection de caractère non manuscrite ce qui est un peu différent de ce projet donc je dois reconnaitre, la majeur partie des caractères ce trouvant dans une table ascii. Je voulais savoir si ce genre de dataset était disponible pour ce genre de chose avec des échantillons de toutes les lettres dans différentes police, ou si je devais le faire moi meme.

**nusasa** · 29/06/2021, 14h49

Après avoir utilisé les codes du github en insérant un dataset de police non manuscrite, le programme ne reconnait plus du tout les caractères même pour des images très net.
Comment dois je y remédier?

**mach1974** · 29/06/2021, 16h02

Normalement il faut passer le format de l'image en TIFF équivalent du point par point plus détaillé que le BMP .
Il faut regarder sur source forge sur le le projet TESSERACT qui est un ocr par réseaux de neurones .

Réalisation d'un OCR

Traitement d'images

Discussions similaires

Partager

Partager