IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage C++ Discussion :

Tesseracte ocr sur visual studio c++


Sujet :

Langage C++

  1. #1
    Nouveau membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Avril 2011
    Messages
    27
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Avril 2011
    Messages : 27
    Points : 31
    Points
    31
    Par défaut Tesseracte ocr sur visual studio c++
    Bonsoir à tous.
    J'ai su intégré tesseract ocr sur visual studio c++ 2008.J'ai juste eu un souci au niveau de l'extraction du texte.Le texte extrait (en anglais) n'est restitué qu'à 80% mais il est moins bon(je dirais même catastrophique ,avec 2% des mots en bonne uniformité) lorsque le document scanné est écrit en Français.Evidement j'ai renseigné à la fonction

    le dossier tessdata qui contient les fichiers associés au langage du texte :

    Code c++ : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();
     api->Init("C:\tesseract-mingw-master\tessdata", "fra", tesseract::OEM_DEFAULT)
    .

    Comment puis-je faire pour avoir une extraction plus ou moins à 90% du document scanné ??Y'aurait t-il d'autres ocr que je pourrais intégrer sur visula studio c++ plus performant que tesseract??Merci pour vos réponses.

  2. #2
    Membre émérite
    Avatar de skeud
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Juin 2011
    Messages
    1 091
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2011
    Messages : 1 091
    Points : 2 724
    Points
    2 724
    Billets dans le blog
    1
    Par défaut
    As-tu télécharger le dico français?

    Sinon déjà commence par ça, car c'est bien de préciser la langue dans le code mais il faut aussi lui donner les bonnes références.

    Sinon regarde sur le site de tesserac, de mémoire, ils donnent pas mal de lien pour télécharger des dictionnaires.

    Ensuite pour la bonne reconnaissance, tu peux aussi limiter le nombre de mot à reconnaitre suivant les champs de ton scan. Cela permet d'augmenter le taux de reconnaissance en supprimant les bruit inutiles.
    Pas de solution, pas de probleme

    Une réponse utile (ou +1) ->
    Une réponse inutile ou pas d'accord -> et expliquer pourquoi
    Une réponse à votre question


  3. #3
    Rédacteur/Modérateur
    Avatar de JolyLoic
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Août 2004
    Messages
    5 463
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 49
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Août 2004
    Messages : 5 463
    Points : 16 213
    Points
    16 213
    Par défaut
    Citation Envoyé par handetaker Voir le message
    Code c++ : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();
     api->Init("C:\tesseract-mingw-master\tessdata", "fra", tesseract::OEM_DEFAULT)
    Es-tu conscient que ta première chaîne de caractères contient des tabulations ? \t est en effet une séquence signifiant tab.

    Code c++ : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
     
     api->Init("C:\\tesseract-mingw-master\\tessdata", "fra", tesseract::OEM_DEFAULT);
    // Ou
     api->Init("C:/tesseract-mingw-master/tessdata", "fra", tesseract::OEM_DEFAULT);
    Ma session aux Microsoft TechDays 2013 : Développer en natif avec C++11.
    Celle des Microsoft TechDays 2014 : Bonnes pratiques pour apprivoiser le C++11 avec Visual C++
    Et celle des Microsoft TechDays 2015 : Visual C++ 2015 : voyage à la découverte d'un nouveau monde
    Je donne des formations au C++ en entreprise, n'hésitez pas à me contacter.

  4. #4
    Nouveau membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Avril 2011
    Messages
    27
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Avril 2011
    Messages : 27
    Points : 31
    Points
    31
    Par défaut
    @JolyLoic : Oui j'ai téléchargé le dico Français et j'ai suivi votre conseil mais rien n'a changé il ne reconnait pas toujours le "é".

    @skeud: Merci.Mais comment limiter le nombre de mot à reconnaître suivant les champs de mon scan?Que dois-je modifié dans les fichiers ??

    Finallement j'ai réglé le problème en faisant ceci:
    Code c++ : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();
     
    api->Init("C:\\tesseract-mingw-master\\tsdata", "fra",tesseract::OEM_DEFAULT    );
    char* outext = api->GetUTF8Text();

    et j'ai inclu le résultat dans un fichier texte en faisant:
    Code c++ : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    ofstream fichier("test.txt", ios::out | ios::trunc);  // ouverture en écriture avec effacement du fichier ouvert
     
    	for(int i=0;i<strlen(outext);i=i+1) 
    	{
     
            if(fichier) fichier <<outext[i];
            else
                    cerr << "Impossible d'ouvrir le fichier !" << endl;
    	}
    	fichier.close();
    Merci à tous

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. erreur d'installation sur visual studio 6.0
    Par nassimmm dans le forum Installation, Déploiement et Sécurité
    Réponses: 3
    Dernier message: 06/07/2007, 14h26
  2. question sur visual studio 2005
    Par informatik dans le forum Autres éditeurs
    Réponses: 1
    Dernier message: 20/12/2006, 13h56
  3. ASP sur visual studio 2005
    Par smtjv dans le forum Visual Studio
    Réponses: 1
    Dernier message: 31/10/2006, 17h30
  4. problème sur visual studio
    Par oliver75 dans le forum Accès aux données
    Réponses: 1
    Dernier message: 10/10/2006, 16h52
  5. Infos sur visual studio express
    Par molo2003 dans le forum MFC
    Réponses: 2
    Dernier message: 10/05/2006, 16h18

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo