Tesseracte ocr sur visual studio c++

**handetaker** · 25/01/2014, 17h03

Bonsoir à tous.
J'ai su intégré tesseract ocr sur visual studio c++ 2008.J'ai juste eu un souci au niveau de l'extraction du texte.Le texte extrait (en anglais) n'est restitué qu'à 80% mais il est moins bon(je dirais même catastrophique ,avec 2% des mots en bonne uniformité) lorsque le document scanné est écrit en Français.Evidement j'ai renseigné à la fonction

Code c++ :

Sélectionner tout - Visualiser dans une fenêtre à part

Init(..)

le dossier tessdata qui contient les fichiers associés au langage du texte :

Code c++ :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();
 api->Init("C:\tesseract-mingw-master\tessdata", "fra", tesseract::OEM_DEFAULT)

.

Comment puis-je faire pour avoir une extraction plus ou moins à 90% du document scanné ??Y'aurait t-il d'autres ocr que je pourrais intégrer sur visula studio c++ plus performant que tesseract??Merci pour vos réponses.

**skeud** · 27/01/2014, 10h24

As-tu télécharger le dico français?

Sinon déjà commence par ça, car c'est bien de préciser la langue dans le code mais il faut aussi lui donner les bonnes références.

Sinon regarde sur le site de tesserac, de mémoire, ils donnent pas mal de lien pour télécharger des dictionnaires.

Ensuite pour la bonne reconnaissance, tu peux aussi limiter le nombre de mot à reconnaitre suivant les champs de ton scan. Cela permet d'augmenter le taux de reconnaissance en supprimant les bruit inutiles.

**JolyLoic** · 27/01/2014, 11h53

Envoyé par handetaker

Code c++ :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();
 api->Init("C:\tesseract-mingw-master\tessdata", "fra", tesseract::OEM_DEFAULT)

Es-tu conscient que ta première chaîne de caractères contient des tabulations ? \t est en effet une séquence signifiant tab.

Code c++ :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 
 api->Init("C:\\tesseract-mingw-master\\tessdata", "fra", tesseract::OEM_DEFAULT);
// Ou
 api->Init("C:/tesseract-mingw-master/tessdata", "fra", tesseract::OEM_DEFAULT);

**handetaker** · 27/01/2014, 22h53

@JolyLoic : Oui j'ai téléchargé le dico Français et j'ai suivi votre conseil mais rien n'a changé il ne reconnait pas toujours le "é".

@skeud: Merci.Mais comment limiter le nombre de mot à reconnaître suivant les champs de mon scan?Que dois-je modifié dans les fichiers ??

Finallement j'ai réglé le problème en faisant ceci:

Code c++ :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();
 
api->Init("C:\\tesseract-mingw-master\\tsdata", "fra",tesseract::OEM_DEFAULT    );
char* outext = api->GetUTF8Text();

et j'ai inclu le résultat dans un fichier texte en faisant:

Code c++ :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
ofstream fichier("test.txt", ios::out | ios::trunc);  // ouverture en écriture avec effacement du fichier ouvert
 
	for(int i=0;i<strlen(outext);i=i+1) 
	{
 
        if(fichier) fichier <<outext[i];
        else
                cerr << "Impossible d'ouvrir le fichier !" << endl;
	}
	fichier.close();

Merci à tous

Tesseracte ocr sur visual studio c++

Langage C++

Discussions similaires

Partager

Partager