Précédent   Forum des professionnels en informatique > Systèmes > Linux > Applications
Applications Questions sur l'utilisation d'applications, du shell, et des interfaces graphiques (KDE, Gnome, XFCE... )
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 18/03/2011, 19h13   #1
Candidat au titre de Membre du Club
 
Inscription : mars 2008
Messages : 91
Détails du profil
Informations forums :
Inscription : mars 2008
Messages : 91
Points : 13
Points : 13
Par défaut Choix logiciel OCR

Bonjour,
Je recherche un programme de reconnaissance optique des caractères pour Ubuntu 10.10 afin de convertir un scan PDF en texte. Mon problème c'est qu'avec tout ceux que je trouve, il n'est possible de convertir qu'une page à la fois ce qui est assez pénible. Existe-t-il un moyen de convertir tout le PDF d'un coup?

Merci ;-)
nico! est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 19/03/2011, 08h46   #2
Expert Confirmé Sénior
 
Avatar de frp31
 
Homme francois
Ingénieur systèmes et réseaux
Inscription : juillet 2006
Messages : 3 534
Détails du profil
Informations personnelles :
Nom : Homme francois
Âge : 35
Localisation : France, Haute Garonne (Midi Pyrénées)

Informations professionnelles :
Activité : Ingénieur systèmes et réseaux
Secteur : Aéronautique - Marine - Espace - Armement

Informations forums :
Inscription : juillet 2006
Messages : 3 534
Points : 7 743
Points : 7 743
solution de flémard :
pdf2jpeg ou tout autre convertion en images
imagemagic pour "traiter les images" augmenter le contraste pour un meilleur traiterment OCR
OCR

tu scriptes le tout et tu as un fichier texte brut,
tu lance un correcteur orthographique par derrière pour trouver les mots et expressions mal reprises, et paf y'a plus qu'a mettre en forme

personellement j'avais fait ça y'a 1 ou 2 ans pour un dossier d'une centaine de page, le script avait tourné genre toute la nuit et le matin vers midi j'avais fini la correction du texte
frp31 est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 22h38.


 
 
 
 
Partenaires

Hébergement Web