IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bibliothèques et frameworks PHP Discussion :

[FPDF] Extraire le texte d'un pdf


Sujet :

Bibliothèques et frameworks PHP

  1. #1
    Nouveau membre du Club
    Inscrit en
    Mars 2003
    Messages
    66
    Détails du profil
    Informations forums :
    Inscription : Mars 2003
    Messages : 66
    Points : 37
    Points
    37
    Par défaut [FPDF] Extraire le texte d'un pdf
    Bonjour,

    je cherche à extraire le texte d'un fichier pdf.
    Je sais qu'il existe pdf2txt mais d'après ce que j'ai pu voir, c'est payant.

    Est ce qu'il existe une fonction ou une classe qui le fait?
    J'ai trouvé pour les .doc et les .xls maintenant je cherche pour .pdf

    Merci d'avance
    Sandra

  2. #2
    Membre averti
    Profil pro
    Inscrit en
    Janvier 2004
    Messages
    489
    Détails du profil
    Informations personnelles :
    Âge : 51
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Janvier 2004
    Messages : 489
    Points : 388
    Points
    388
    Par défaut
    si tu es sur un serveur ou tu peux ajouter des executables, tu as ca :
    pdftotext
    c'est un executable que est une partie de xpdf..

    http://www.foolabs.com/xpdf/

    tu as juste a extraire l'executable en question de xpdf (pas besoin de tout installer) et de l'appeller depuis la ligne de commande.. ou un script php, avec "exec"

  3. #3
    Nouveau membre du Club
    Inscrit en
    Mars 2003
    Messages
    66
    Détails du profil
    Informations forums :
    Inscription : Mars 2003
    Messages : 66
    Points : 37
    Points
    37
    Par défaut
    J'ai télechargé à partir de l'adresse que tu m'as donné mais je ne trouve pas pdftotext?

  4. #4
    Nouveau membre du Club
    Inscrit en
    Mars 2003
    Messages
    66
    Détails du profil
    Informations forums :
    Inscription : Mars 2003
    Messages : 66
    Points : 37
    Points
    37
    Par défaut
    J'ai trouvé : pdftotext.cc
    je l'ai copié sur mon serveur et j'ai fait ç :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
     exec ('pdftotext '.$nomfichier);
    et j'ai l'erreur suivante :

    Warning: exec(): Unable to fork [pdftotext documents/calendrier.pdf] in F:\DirInfo\PHP\GRH\Salarie\ged.php on line 68



    Sandra

  5. #5
    Membre averti
    Profil pro
    Inscrit en
    Janvier 2004
    Messages
    489
    Détails du profil
    Informations personnelles :
    Âge : 51
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Janvier 2004
    Messages : 489
    Points : 388
    Points
    388
    Par défaut
    hmm.. ca a ptet evolué, moi j'avais trouvé un pdftotext mais pas en .cc

    c'etait un executable..

    je vais chercher voir si je le retrouve sur le net ou dans mes archives

  6. #6
    Nouveau membre du Club
    Inscrit en
    Mars 2003
    Messages
    66
    Détails du profil
    Informations forums :
    Inscription : Mars 2003
    Messages : 66
    Points : 37
    Points
    37
    Par défaut
    Si tu l'as ça serait génial!!!!!!

    Sandra

  7. #7
    Nouveau membre du Club
    Inscrit en
    Mars 2003
    Messages
    66
    Détails du profil
    Informations forums :
    Inscription : Mars 2003
    Messages : 66
    Points : 37
    Points
    37
    Par défaut
    c'est pas grave

  8. #8
    Membre averti
    Profil pro
    Inscrit en
    Janvier 2004
    Messages
    489
    Détails du profil
    Informations personnelles :
    Âge : 51
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Janvier 2004
    Messages : 489
    Points : 388
    Points
    388
    Par défaut
    ok, il est dans l'archive precompilée, normal..

    http://www.foolabs.com/xpdf/download.html
    x86, Linux (glibc 2.2, staticly linked to Motif, t1lib, and FreeType):
    xpdf-3.01pl2-linux.tar.gz (5604272 bytes)

    et dedans tu as un pdftotext, sans extension, c'est celui la, je viens de tester..

  9. #9
    Nouveau membre du Club
    Inscrit en
    Mars 2003
    Messages
    66
    Détails du profil
    Informations forums :
    Inscription : Mars 2003
    Messages : 66
    Points : 37
    Points
    37
    Par défaut
    Mais je ne suis pas sous linux

    ça va marcher qd même?

  10. #10
    Membre averti
    Profil pro
    Inscrit en
    Janvier 2004
    Messages
    489
    Détails du profil
    Informations personnelles :
    Âge : 51
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Janvier 2004
    Messages : 489
    Points : 388
    Points
    388
    Par défaut
    aie.. lol

    tu as celle la, aussi ..
    x86, DOS/Win32 -- pdftops, pdftotext, pdfimages, pdfinfo, and pdffonts only:
    Win32 (built with MSVC): xpdf-3.01pl2-win32.zip (1679081 bytes)

    et dedans tu dois avoir un pdftotext.exe

  11. #11
    Nouveau membre du Club
    Inscrit en
    Mars 2003
    Messages
    66
    Détails du profil
    Informations forums :
    Inscription : Mars 2003
    Messages : 66
    Points : 37
    Points
    37
    Par défaut
    Ok merci.

    J'ai téléchargé et essayé et j'ai l'erreur suivante


    Warning: exec(): Unable to fork [pdftotext.exe documents/calendrier.pdf] in F:\DirInfo\PHP\GRH\Salarie\ged.php on line 69


    Ma ligne 69 c'est ça :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
     exec ("pdftotext.exe ".$nomfichierupload);
    qq 1 a eu le même pb?

    Sandra

  12. #12
    Membre averti
    Profil pro
    Inscrit en
    Janvier 2004
    Messages
    489
    Détails du profil
    Informations personnelles :
    Âge : 51
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Janvier 2004
    Messages : 489
    Points : 388
    Points
    388
    Par défaut
    deja je peux te dire qu'il te manque un parametre... vu que pdftotext, tu dois lui indiquer le doc pdf mais aussi la sortie texte..
    Pour le reste etant sous linux, je ne peux pas t'aider plus..
    Bon courage

    PS. tu peux deja essayer en ligne de commande, pour voir si ca marche correctement..

  13. #13
    Nouveau membre du Club
    Inscrit en
    Mars 2003
    Messages
    66
    Détails du profil
    Informations forums :
    Inscription : Mars 2003
    Messages : 66
    Points : 37
    Points
    37
    Par défaut
    J'ai ajouté le paramètre qui me manquait mais j'ai tjs la même erreur
    Est ce que qq1 peut m'aider?

    Merci d'avance
    Sandra

    PS: merci pour ton aide zevince

  14. #14
    Rédacteur/Modérateur

    Avatar de SpaceFrog
    Homme Profil pro
    Développeur Web Php Mysql Html Javascript CSS Apache - Intégrateur - Bidouilleur SharePoint
    Inscrit en
    Mars 2002
    Messages
    39 637
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 74
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Développeur Web Php Mysql Html Javascript CSS Apache - Intégrateur - Bidouilleur SharePoint
    Secteur : Industrie

    Informations forums :
    Inscription : Mars 2002
    Messages : 39 637
    Points : 66 661
    Points
    66 661
    Billets dans le blog
    1
    Par défaut
    je suis sous windows et j'ai globalement le même souci.
    en ligne de commande depuis le console cmd il me génère bien le fichier texte, mais pas moyen de le faire tourner depusi php et encore moins de recupérer le texte
    Ma page Developpez - Mon Blog Developpez
    Président du CCMPTP (Comité Contre le Mot "Problème" dans les Titres de Posts)
    Deux règles du succès: 1) Ne communiquez jamais à quelqu'un tout votre savoir...
    Votre post est résolu ? Alors n'oubliez pas le Tag

    Venez sur le Chat de Développez !

Discussions similaires

  1. Réponses: 7
    Dernier message: 21/11/2013, 16h00
  2. extraire du texte d'un pdf
    Par Nulenprogra dans le forum Langages de programmation
    Réponses: 0
    Dernier message: 25/01/2010, 21h33
  3. [FPDF] Extraire le texte d'un fichier PDF
    Par brune38 dans le forum Bibliothèques et frameworks
    Réponses: 3
    Dernier message: 13/10/2009, 10h26
  4. Extraire le texte d'un pdf avec PdfBox en C#
    Par nadabb dans le forum C#
    Réponses: 10
    Dernier message: 28/05/2009, 21h00
  5. Extraire du texte d'un PDF avec layout.
    Par zedtux dans le forum VB 6 et antérieur
    Réponses: 3
    Dernier message: 09/04/2008, 15h37

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo