IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Imagerie Discussion :

PDF -> reconnaissance textuelle


Sujet :

Imagerie

  1. #1
    Membre régulier
    Profil pro
    Inscrit en
    Janvier 2005
    Messages
    152
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations forums :
    Inscription : Janvier 2005
    Messages : 152
    Points : 80
    Points
    80
    Par défaut PDF -> reconnaissance textuelle
    Bonjour à tous,

    Je ne sais pas si c'est le bon endroit pour poser la question mais je vous explique le problème. Ma société déménage et ils ont décidé de lancé un projet de numérisation des papiers pour économiser de la place. Cependant comme les soft de reconnaissance textuelles coute chère, seule les documents très important pourrons bénéficier d'une reconnaissance textuelle. Le reste est du bête scanning en PDF image.

    D'ou ma question ! Existe-il un soft open source ou pas trop chère qui permette de recupérer le texte se trouvant dans un PDF ? Nous en avons un ici mais apparemment le cout est à la feuille scannée et c'est très chère.


    Merci,


    Vodnok,

  2. #2
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Bonsoir,

    je sais que ta discussion remonte à un sacré moment, mais peut être le problème est il toujours d'actualité.
    je vois le problème suivant deux aspects :
    - Si quelqu'un connaît le codage utilisé dans les pdf, peut être pourra t-il te dire comment on peut retrouver le texte dans le fichier.
    - Sinon, renseigne toi sur les OCR (Optical Characters Recognition), il y en a tout un tas gratuits et performants qui feront sans doute une partie du travail que tu souhaites...
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  3. #3
    Membre régulier
    Profil pro
    Inscrit en
    Janvier 2005
    Messages
    152
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations forums :
    Inscription : Janvier 2005
    Messages : 152
    Points : 80
    Points
    80
    Par défaut
    Oui le problème est toujours d'actualité.


    Les scanners publiques ne font que du scan image et j'aimerais avec un petit outils qui permette de transformer l'image scannée en pdf en fichier texte.


    Le nec plus ultra sera la reconnaissance de l'écritue également mais bon là ca devient du luxe et je suppose qu'il faudrait une configuration personnalisée du programme.

    Je vais googler sur OCR pour voir s'il y a des choses interessantes.

    Merci

  4. #4
    Invité
    Invité(e)
    Par défaut
    Citation Envoyé par ToTo13 Voir le message
    - Si quelqu'un connaît le codage utilisé dans les pdf, peut être pourra t-il te dire comment on peut retrouver le texte dans le fichier.
    C'est un pdf qui vient d'un scanner donc c'est une image, il n'y a pas de codage particulier.

    Et les logiciels OCR de reconnaissance de texte sont chers mais pour ton besoin je ne vois pas d'autre solution miracle.

  5. #5
    Modérateur
    Avatar de ToTo13
    Homme Profil pro
    Chercheur en informatique
    Inscrit en
    Janvier 2006
    Messages
    5 793
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Chercheur en informatique
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 793
    Points : 9 860
    Points
    9 860
    Par défaut
    Bonjour,

    quenéni... tous les OCR ne sont pas chers et il en existe de très très bien qui sont libres
    Je te conseille donc de chercher de ce coté là... surtout que pour tout ce qui est document imprimés (à l'inverse de manuscrit), le problème est considéré comme fini.

    Pour ce qui est du codage d'un pdf, je ne sais absolument pas comment on convertit le fichier en image que l'on pourra travailler.
    Consignes aux jeunes padawans : une image vaut 1000 mots !
    - Dans ton message respecter tu dois : les règles de rédaction et du forum, prévisualiser, relire et corriger TOUTES les FAUTES (frappes, sms, d'aurteaugrafe, mettre les ACCENTS et les BALISES) => ECRIRE clairement et en Français tu DOIS.
    - Le côté obscur je sens dans le MP => Tous tes MPs je détruirai et la réponse tu n'auras si en privé tu veux que je t'enseigne.(Lis donc ceci)
    - ton poste tu dois marquer quand la bonne réponse tu as obtenu.

  6. #6
    Expert éminent
    Avatar de Sepia
    Homme Profil pro
    Administrateur du cursus IDE@L - Chef de Projet NCU (digital learning) - Université de Rennes
    Inscrit en
    Octobre 2007
    Messages
    3 117
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 60
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Administrateur du cursus IDE@L - Chef de Projet NCU (digital learning) - Université de Rennes
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Octobre 2007
    Messages : 3 117
    Points : 6 856
    Points
    6 856
    Par défaut OCR
    Salut,

    La plupart des grands constructeurs de scan grand public (comme HP, mais les bons le font tous) t'offre officiellement des OCR de bon niveau gratos ou pour 1 € (pour le texte non manuscrit).

    Moi j'ai un scan HP avec un Mac, tout gratos et super efficace (taux > 92 %)

    @+

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Recherche textuelle dans PDF
    Par jmjmjm dans le forum MS SQL Server
    Réponses: 5
    Dernier message: 29/11/2010, 14h33
  2. reconnaissance caractères dans fichiers pdf, dvi
    Par Ruyneau dans le forum Général Python
    Réponses: 18
    Dernier message: 17/11/2010, 09h53
  3. Reconnaissance texte par OCR sur pdf non fonctionnel
    Par quentinec dans le forum Powerpoint
    Réponses: 2
    Dernier message: 30/10/2009, 17h18
  4. [langage] Reconnaissance de mots
    Par Flo. dans le forum Langage
    Réponses: 2
    Dernier message: 10/08/2002, 23h34
  5. [CR] exporter en PDF
    Par Nathy dans le forum SAP Crystal Reports
    Réponses: 3
    Dernier message: 16/05/2002, 09h27

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo