Tesseracte ocr sur visual studio c++

Version imprimable

25/01/2014, 18h03
handetaker

Tesseracte ocr sur visual studio c++
Bonsoir à tous.
J'ai su intégré tesseract ocr sur visual studio c++ 2008.J'ai juste eu un souci au niveau de l'extraction du texte.Le texte extrait (en anglais) n'est restitué qu'à 80% mais il est moins bon(je dirais même catastrophique ,avec 2% des mots en bonne uniformité) lorsque le document scanné est écrit en Français.Evidement j'ai renseigné à la fonction

Code:

Init(..)

le dossier tessdata qui contient les fichiers associés au langage du texte :
Code:

1 2 tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI(); api->Init("C:\tesseract-mingw-master\tessdata", "fra", tesseract::OEM_DEFAULT)
.

Comment puis-je faire pour avoir une extraction plus ou moins à 90% du document scanné ??Y'aurait t-il d'autres ocr que je pourrais intégrer sur visula studio c++ plus performant que tesseract??Merci pour vos réponses. :)
27/01/2014, 11h24
skeud

As-tu télécharger le dico français?

Sinon déjà commence par ça, car c'est bien de préciser la langue dans le code mais il faut aussi lui donner les bonnes références.

Sinon regarde sur le site de tesserac, de mémoire, ils donnent pas mal de lien pour télécharger des dictionnaires.

Ensuite pour la bonne reconnaissance, tu peux aussi limiter le nombre de mot à reconnaitre suivant les champs de ton scan. Cela permet d'augmenter le taux de reconnaissance en supprimant les bruit inutiles. :)

Citation:
Envoyé par handetaker
Code:

1 2 tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI(); api->Init("C:\tesseract-mingw-master\tessdata", "fra", tesseract::OEM_DEFAULT)
Es-tu conscient que ta première chaîne de caractères contient des tabulations ? \t est en effet une séquence signifiant tab.
Code:

1 2 3 4 api->Init("C:\\tesseract-mingw-master\\tessdata", "fra", tesseract::OEM_DEFAULT); // Ou api->Init("C:/tesseract-mingw-master/tessdata", "fra", tesseract::OEM_DEFAULT);

@JolyLoic : Oui j'ai téléchargé le dico Français et j'ai suivi votre conseil mais rien n'a changé il ne reconnait pas toujours le "é".

@skeud: Merci.Mais comment limiter le nombre de mot à reconnaître suivant les champs de mon scan?Que dois-je modifié dans les fichiers ??

Finallement j'ai réglé le problème en faisant ceci:
Code:

1 2 3 4 tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI(); api->Init("C:\\tesseract-mingw-master\\tsdata", "fra",tesseract::OEM_DEFAULT ); char* outext = api->GetUTF8Text();
et j'ai inclu le résultat dans un fichier texte en faisant:
Code:

1 2 3 4 5 6 7 8 9 10 ofstream fichier("test.txt", ios::out | ios::trunc); // ouverture en écriture avec effacement du fichier ouvert for(int i=0;i<strlen(outext);i=i+1) { if(fichier) fichier <<outext[i]; else cerr << "Impossible d'ouvrir le fichier !" << endl; } fichier.close();
Merci à tous :ccool: