[PDF]Module extraction données de fichiers PDF

**boniface** · 06/04/2007, 17h31

Bonjour,

Je cherche une solution pour extraire des données d'un fichier PDF.
Le but est de rechercher une certaine chaine de caractères dans le fichier pdf et extraire les données qui suivent cette chaine, le tout de manière automatique, donc j'ai pensé à Perl.
J'ai pas mal cherché dans tous les modules CPAN dispo, le module File::Extract:

DF aurait pu convenir mais il n'y a aucune doc sur CPAN,il faut installer pleins d'autres modules qui posent d'autres problèmes et d'après ce que j'ai pu voir sur le net, il n'a pas l'air très au point....Bref, si je pouvais trouver une autre solution, ce serait cool!!

Sinon, le script perl serait lancé à partir de fichiers php donc une solution php pourrait convenir aussi...

Merci d'avance pour toutes les solutions que vous pouvez me donner, c'est toujours pour le boulot, et comme d'habitude, c'est pour avant-avant-hier.....

Bon we, en tous les cas!
Virginie

**Jedai** · 06/04/2007, 17h54

Envoyé par boniface

Merci d'avance pour toutes les solutions que vous pouvez me donner, c'est toujours pour le boulot, et comme d'habitude, c'est pour avant-avant-hier.....

Et tu es tellement pressé que tu n'as pas lu le sujet du premier message IMPORTANT en haut de ce forum... Je te déplace dans le sous-forum Module, mais la prochaine fois fait attention !

--
Jedaï

**iblis** · 08/04/2007, 14h16

Et avec CAM::PDF::PageText ?

**iblis** · 08/04/2007, 18h31

Pardon de répondre en deux temps.

Le problème avec CAM::PDF::PageText, c'est que même avec des .pdf très simples (des .txt ou .rtf PDFisés, avec ghostscript et ted par exemple) le texte récupéré peut être fortement haché de sauts de ligne intempestifs – mélés à de vrais sauts de ligne, ce qui rend la reconstitution du texte parfois très délicate.

A mon avis, vous avez peut être intérêt à convertir vos .pdf en .txt. Si vous avez xpdf d'installé, alors tout va bien (sinon, tout va bien aussi, car xpdf s'installe en un clin d'oeil). Xpdf a un utilitaire pdftotext qui marche très bien (jetez un oeil au manuel avec un : man pdftotext). Et là, plus de problème, vous parsez comme vous voulez. On trouve aussi sur le Net des scripts shell, basés sur ps2ascii ; mais je n'ai testé.

Sous Windows, je n'ai aucune idée.

Bien sûr tout dépend de ce que vous voulez mais pour récupérer des lignes sur la base de mots clés, cela suffit.

**boniface** · 10/04/2007, 11h34

Tout d'abord merci pour vos réponses...
J'ai finalement abandonné l'idée d'utiliser des modules CPAN, vu les problèmes que j'avais pour installer tous les modules nécessaires à un seul module c'est-à-dire CAM:

DF.

J'ai donc plutot opté pour la solution proposée par Iblis, à savoir utiliser pdftotext qui me transforme les pdf en fichiers txt que je parse sans aucun souci avec un bon script Perl...

Voilà, encore merci à tous et bonne journée!
Virginie

[PDF]Module extraction données de fichiers PDF

Modules Perl

Discussions similaires

Partager

Partager