PDF -> reconnaissance textuelle

**vodnok** · 28/01/2008, 16h19

Bonjour à tous,

Je ne sais pas si c'est le bon endroit pour poser la question mais je vous explique le problème. Ma société déménage et ils ont décidé de lancé un projet de numérisation des papiers pour économiser de la place. Cependant comme les soft de reconnaissance textuelles coute chère, seule les documents très important pourrons bénéficier d'une reconnaissance textuelle. Le reste est du bête scanning en PDF image.

D'ou ma question ! Existe-il un soft open source ou pas trop chère qui permette de recupérer le texte se trouvant dans un PDF ? Nous en avons un ici mais apparemment le cout est à la feuille scannée et c'est très chère.

Merci,

Vodnok,

**ToTo13** · 28/05/2008, 00h27

Bonsoir,

je sais que ta discussion remonte à un sacré moment, mais peut être le problème est il toujours d'actualité.
je vois le problème suivant deux aspects :
- Si quelqu'un connaît le codage utilisé dans les pdf, peut être pourra t-il te dire comment on peut retrouver le texte dans le fichier.
- Sinon, renseigne toi sur les OCR (Optical Characters Recognition), il y en a tout un tas gratuits et performants qui feront sans doute une partie du travail que tu souhaites...

**vodnok** · 13/06/2008, 10h11

Oui le problème est toujours d'actualité.

Les scanners publiques ne font que du scan image et j'aimerais avec un petit outils qui permette de transformer l'image scannée en pdf en fichier texte.

Le nec plus ultra sera la reconnaissance de l'écritue également mais bon là ca devient du luxe et je suppose qu'il faudrait une configuration personnalisée du programme.

Je vais googler sur OCR pour voir s'il y a des choses interessantes.

Merci

Invité · 13/06/2008, 15h27

Envoyé par ToTo13

- Si quelqu'un connaît le codage utilisé dans les pdf, peut être pourra t-il te dire comment on peut retrouver le texte dans le fichier.

C'est un pdf qui vient d'un scanner donc c'est une image, il n'y a pas de codage particulier.

Et les logiciels OCR de reconnaissance de texte sont chers mais pour ton besoin je ne vois pas d'autre solution miracle.

**ToTo13** · 16/06/2008, 11h32

Bonjour,

quenéni... tous les OCR ne sont pas chers et il en existe de très très bien qui sont libres

Je te conseille donc de chercher de ce coté là... surtout que pour tout ce qui est document imprimés (à l'inverse de manuscrit), le problème est considéré comme fini.

Pour ce qui est du codage d'un pdf, je ne sais absolument pas comment on convertit le fichier en image que l'on pourra travailler.

**Sepia** · 26/06/2008, 00h13

Salut,

La plupart des grands constructeurs de scan grand public (comme HP, mais les bons le font tous) t'offre officiellement des OCR de bon niveau gratos ou pour 1 € (pour le texte non manuscrit).

Moi j'ai un scan HP avec un Mac, tout gratos et super efficace (taux > 92 %)

@+

PDF -> reconnaissance textuelle

Imagerie

Discussions similaires

Partager

Partager