IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Modules Perl Discussion :

[PDF]Module extraction données de fichiers PDF


Sujet :

Modules Perl

  1. #1
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Juin 2005
    Messages
    45
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2005
    Messages : 45
    Points : 36
    Points
    36
    Par défaut [PDF]Module extraction données de fichiers PDF
    Bonjour,

    Je cherche une solution pour extraire des données d'un fichier PDF.
    Le but est de rechercher une certaine chaine de caractères dans le fichier pdf et extraire les données qui suivent cette chaine, le tout de manière automatique, donc j'ai pensé à Perl.
    J'ai pas mal cherché dans tous les modules CPAN dispo, le module File::Extract:DF aurait pu convenir mais il n'y a aucune doc sur CPAN,il faut installer pleins d'autres modules qui posent d'autres problèmes et d'après ce que j'ai pu voir sur le net, il n'a pas l'air très au point....Bref, si je pouvais trouver une autre solution, ce serait cool!!

    Sinon, le script perl serait lancé à partir de fichiers php donc une solution php pourrait convenir aussi...

    Merci d'avance pour toutes les solutions que vous pouvez me donner, c'est toujours pour le boulot, et comme d'habitude, c'est pour avant-avant-hier.....

    Bon we, en tous les cas!
    Virginie

  2. #2
    Expert éminent
    Avatar de Jedai
    Homme Profil pro
    Enseignant
    Inscrit en
    Avril 2003
    Messages
    6 245
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Côte d'Or (Bourgogne)

    Informations professionnelles :
    Activité : Enseignant

    Informations forums :
    Inscription : Avril 2003
    Messages : 6 245
    Points : 8 586
    Points
    8 586
    Par défaut
    Citation Envoyé par boniface
    Merci d'avance pour toutes les solutions que vous pouvez me donner, c'est toujours pour le boulot, et comme d'habitude, c'est pour avant-avant-hier.....
    Et tu es tellement pressé que tu n'as pas lu le sujet du premier message IMPORTANT en haut de ce forum... Je te déplace dans le sous-forum Module, mais la prochaine fois fait attention !

    --
    Jedaï

  3. #3
    Membre confirmé Avatar de iblis
    Inscrit en
    Janvier 2007
    Messages
    510
    Détails du profil
    Informations personnelles :
    Âge : 57

    Informations forums :
    Inscription : Janvier 2007
    Messages : 510
    Points : 570
    Points
    570
    Par défaut
    Et avec CAM::PDF::PageText ?

  4. #4
    Membre confirmé Avatar de iblis
    Inscrit en
    Janvier 2007
    Messages
    510
    Détails du profil
    Informations personnelles :
    Âge : 57

    Informations forums :
    Inscription : Janvier 2007
    Messages : 510
    Points : 570
    Points
    570
    Par défaut
    Pardon de répondre en deux temps.

    Le problème avec CAM::PDF::PageText, c'est que même avec des .pdf très simples (des .txt ou .rtf PDFisés, avec ghostscript et ted par exemple) le texte récupéré peut être fortement haché de sauts de ligne intempestifs – mélés à de vrais sauts de ligne, ce qui rend la reconstitution du texte parfois très délicate.

    A mon avis, vous avez peut être intérêt à convertir vos .pdf en .txt. Si vous avez xpdf d'installé, alors tout va bien (sinon, tout va bien aussi, car xpdf s'installe en un clin d'oeil). Xpdf a un utilitaire pdftotext qui marche très bien (jetez un oeil au manuel avec un : man pdftotext). Et là, plus de problème, vous parsez comme vous voulez. On trouve aussi sur le Net des scripts shell, basés sur ps2ascii ; mais je n'ai testé.

    Sous Windows, je n'ai aucune idée.

    Bien sûr tout dépend de ce que vous voulez mais pour récupérer des lignes sur la base de mots clés, cela suffit.

  5. #5
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Juin 2005
    Messages
    45
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2005
    Messages : 45
    Points : 36
    Points
    36
    Par défaut
    Tout d'abord merci pour vos réponses...
    J'ai finalement abandonné l'idée d'utiliser des modules CPAN, vu les problèmes que j'avais pour installer tous les modules nécessaires à un seul module c'est-à-dire CAM:DF.

    J'ai donc plutot opté pour la solution proposée par Iblis, à savoir utiliser pdftotext qui me transforme les pdf en fichiers txt que je parse sans aucun souci avec un bon script Perl...

    Voilà, encore merci à tous et bonne journée!
    Virginie

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 1
    Dernier message: 02/01/2014, 13h03
  2. Lecture fichier PDF et extraction de données avec Java
    Par le_misterioso dans le forum Général Java
    Réponses: 2
    Dernier message: 03/04/2011, 01h32
  3. Récuperer des données de fichier pdf vers une feuille xls
    Par zeralium dans le forum Macros et VBA Excel
    Réponses: 3
    Dernier message: 31/08/2007, 14h03
  4. Stockage/extraction d'un fichier pdf
    Par Laurent_DS dans le forum MS SQL Server
    Réponses: 6
    Dernier message: 22/11/2006, 15h10
  5. [FPDF] Créer un fichier PDF à partir d'un autre fichier PDF
    Par axel-erator dans le forum Bibliothèques et frameworks
    Réponses: 5
    Dernier message: 18/06/2006, 23h29

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo