IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Lire un pdf et extraire le texte


Sujet :

Python

  1. #1
    Membre régulier
    Homme Profil pro
    Chef de projet en SSII
    Inscrit en
    Novembre 2004
    Messages
    528
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Chef de projet en SSII

    Informations forums :
    Inscription : Novembre 2004
    Messages : 528
    Points : 99
    Points
    99
    Par défaut Lire un pdf et extraire le texte
    Bonjour à tous,

    Je débute à l'instant sur python. J'ai deja une question: peut-on lire et extraire le texte (et que le texte) d'un pdf? Si oui comment?
    J'ai lu sur un topic qu'il y a vait 2 alternative, une qui apparement personne n'ait arrivé à installer et une qui a l'air en beta et qu'ils n'ont pas reussi a faire fct non plus.

    Donc je lance un sos à vous tous amis du python.

    MERCI

  2. #2
    Membre expérimenté Avatar de pacificator
    Profil pro
    Inscrit en
    Août 2006
    Messages
    1 074
    Détails du profil
    Informations personnelles :
    Âge : 44
    Localisation : France

    Informations forums :
    Inscription : Août 2006
    Messages : 1 074
    Points : 1 728
    Points
    1 728
    Par défaut
    salut,

    j'ai trouvé ce lien. http://www.boddie.org.uk/david/Proje...thon/pdftools/

    tu as essayé?
    "Etre conscient de la difficulté permet de l'éviter.."
    Lao-Tseu.

  3. #3
    Membre régulier
    Homme Profil pro
    Chef de projet en SSII
    Inscrit en
    Novembre 2004
    Messages
    528
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Chef de projet en SSII

    Informations forums :
    Inscription : Novembre 2004
    Messages : 528
    Points : 99
    Points
    99
    Par défaut
    Merci,

    mais celui-ci fait parti des 2 dont j'ai parlé au dessus.

    Voici le lien de la discussion:

    http://www.developpez.net/forums/sho...&highlight=pdf

    Donc je cherche quelqu'un qui a deja utilisé l'un des deux (et qui a reussi) ou autre chose.

    D'avance merci

  4. #4
    Membre expérimenté Avatar de pacificator
    Profil pro
    Inscrit en
    Août 2006
    Messages
    1 074
    Détails du profil
    Informations personnelles :
    Âge : 44
    Localisation : France

    Informations forums :
    Inscription : Août 2006
    Messages : 1 074
    Points : 1 728
    Points
    1 728
    Par défaut
    salut,
    je l'ai installé et testé rapidement et ça ma l'air tout bon...
    "Etre conscient de la difficulté permet de l'éviter.."
    Lao-Tseu.

  5. #5
    Membre régulier
    Homme Profil pro
    Chef de projet en SSII
    Inscrit en
    Novembre 2004
    Messages
    528
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Chef de projet en SSII

    Informations forums :
    Inscription : Novembre 2004
    Messages : 528
    Points : 99
    Points
    99
    Par défaut
    Et comment faire pour l'installer?

    Je suis sous windows et j'utilise Eclipse

    MERCI

  6. #6
    Membre expérimenté Avatar de pacificator
    Profil pro
    Inscrit en
    Août 2006
    Messages
    1 074
    Détails du profil
    Informations personnelles :
    Âge : 44
    Localisation : France

    Informations forums :
    Inscription : Août 2006
    Messages : 1 074
    Points : 1 728
    Points
    1 728
    Par défaut
    1. telecharge et installe EasyInstall
    2. en invite de commande: easy_install http://www.boddie.org.uk/david/Proje...ls-0.33.tar.gz
    et voila ...
    "Etre conscient de la difficulté permet de l'éviter.."
    Lao-Tseu.

  7. #7
    Membre régulier
    Homme Profil pro
    Chef de projet en SSII
    Inscrit en
    Novembre 2004
    Messages
    528
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Chef de projet en SSII

    Informations forums :
    Inscription : Novembre 2004
    Messages : 528
    Points : 99
    Points
    99
    Par défaut
    je pige rien (désolé)

    je ne comprends meme pas la premiere etape!!!
    Apparement il l'a installé dans python/script car je vois easy-install
    Mais lorsque apres je mets la ligne que tu me donne, rien ne se passe, j'ai un erreu comme quoi la commande easy_Install n'existe pas

    Merci de ton aide

  8. #8
    Membre expérimenté Avatar de pacificator
    Profil pro
    Inscrit en
    Août 2006
    Messages
    1 074
    Détails du profil
    Informations personnelles :
    Âge : 44
    Localisation : France

    Informations forums :
    Inscription : Août 2006
    Messages : 1 074
    Points : 1 728
    Points
    1 728
    Par défaut
    http://peak.telecommunity.com/DevCen...#windows-notes
    il faut que tu rajoutes le path vers easy_install dans ton path windows
    "Etre conscient de la difficulté permet de l'éviter.."
    Lao-Tseu.

  9. #9
    Membre régulier
    Homme Profil pro
    Chef de projet en SSII
    Inscrit en
    Novembre 2004
    Messages
    528
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Chef de projet en SSII

    Informations forums :
    Inscription : Novembre 2004
    Messages : 528
    Points : 99
    Points
    99
    Par défaut
    Merci, j'ai fait tout ceci, mais je reçois le msg suivant: cannot find the python excecutable c:Application\python

    Apparement il y a un probleme car moi j'ai installé python dans:
    c:\application\python 25
    Et j'ai l'impression que l'espace est pas pris, comment faire?

    MERCI

  10. #10
    Membre expérimenté Avatar de pacificator
    Profil pro
    Inscrit en
    Août 2006
    Messages
    1 074
    Détails du profil
    Informations personnelles :
    Âge : 44
    Localisation : France

    Informations forums :
    Inscription : Août 2006
    Messages : 1 074
    Points : 1 728
    Points
    1 728
    Par défaut
    reinstaller...
    "Etre conscient de la difficulté permet de l'éviter.."
    Lao-Tseu.

  11. #11
    Membre régulier
    Homme Profil pro
    Chef de projet en SSII
    Inscrit en
    Novembre 2004
    Messages
    528
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Chef de projet en SSII

    Informations forums :
    Inscription : Novembre 2004
    Messages : 528
    Points : 99
    Points
    99
    Par défaut
    Réinstaller ca va etre dur dur car j'ai deja configuré eclipse pour qu'il prenne en compte python
    pas 'aures solution?

  12. #12
    Membre éclairé Avatar de LeXo
    Profil pro
    Inscrit en
    Janvier 2004
    Messages
    1 147
    Détails du profil
    Informations personnelles :
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations forums :
    Inscription : Janvier 2004
    Messages : 1 147
    Points : 868
    Points
    868
    Par défaut
    je sais que sur
    http://www.softinterface.com/

    ya des appli pour ouvrir les pdf et les transformer en txt ou en doc

    voila si ça peut t'aider

    Bon courage
    Plzzz pas de questions par MP.

  13. #13
    Membre régulier
    Homme Profil pro
    Chef de projet en SSII
    Inscrit en
    Novembre 2004
    Messages
    528
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Chef de projet en SSII

    Informations forums :
    Inscription : Novembre 2004
    Messages : 528
    Points : 99
    Points
    99
    Par défaut
    Mais je navigue sur la tendance "gratuit"...donc si c'est payant, c moins agérable
    Merci qd meme, j'attends d'autres avis

  14. #14
    Membre régulier
    Homme Profil pro
    Chef de projet en SSII
    Inscrit en
    Novembre 2004
    Messages
    528
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Chef de projet en SSII

    Informations forums :
    Inscription : Novembre 2004
    Messages : 528
    Points : 99
    Points
    99
    Par défaut
    Voila,
    j'ai pris mon courage à deux main et tout réinstallé (ce fut long qd meme)

    Apprement ca été installé d'pres tes 3 étapes (je t'en remercie)

    Mais je sais pas comment on l'utilise!!!
    J'ai vue que dans le pdffile.py y avait un exemple (tout en haut), mais je sais pas qi il faut l'utiliser tel quel?

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    from pdftools.pdffile import PDFDocument
     
        file = "MyFile.pdf"
        doc = PDFDocument(file)
     
        print "Document uses PDF format version", doc.document_version()
     
        pages = doc.count_pages()
        print "Document contains %i pages." % pages
     
        if pages > 123:
     
            page123 = doc.read_page(123)
            contents123 = page123.read_contents()
     
            print "The objects found in this page:"
            print
            print contents123.contents
    Apprement j'ai deja un erreur dans le from

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    from pdftools.pdffile import PDFDocument
        ^
    IndentationError: unexpected indent
    Ca doit etre un truc débile, mais comme je debute, j'ai vraiment du mal (je viens du monde Java)

    MERCI DE TON AIDE.

    PS: ce que je souhaite faire: lire par exmple une ligne dans un pdf et la mettre ds un string.

    MERCI

  15. #15
    Membre éclairé Avatar de LeXo
    Profil pro
    Inscrit en
    Janvier 2004
    Messages
    1 147
    Détails du profil
    Informations personnelles :
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations forums :
    Inscription : Janvier 2004
    Messages : 1 147
    Points : 868
    Points
    868
    Par défaut
    sur mon lien c gratuit

    sinon je te l'aurais dit
    Plzzz pas de questions par MP.

  16. #16
    Membre habitué
    Inscrit en
    Mars 2002
    Messages
    129
    Détails du profil
    Informations forums :
    Inscription : Mars 2002
    Messages : 129
    Points : 184
    Points
    184
    Par défaut
    J'ai utilisé dernièrement http://cheeseshop.python.org/pypi/pyPdf/1.9

    Je n'ai eu aucun problème avec la méthode .extractText()

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
     
    from pyPdf import PdfFileReader
     
    input1 = PdfFileReader(file("c:/1500motsGlobish.pdf", "rb"))
    page1 = input1.getPage(0)
    txt=page1.extractText()
    print txt
    "Un langage de programmation est sensé être une façon conventionnelle de donner des ordres à un ordinateur (...). Il n'est pas sensé être obscure, bizarre et plein de pièges subtils (ça, ce sont des attributs de la magie)." D.Small

  17. #17
    Membre expérimenté Avatar de pacificator
    Profil pro
    Inscrit en
    Août 2006
    Messages
    1 074
    Détails du profil
    Informations personnelles :
    Âge : 44
    Localisation : France

    Informations forums :
    Inscription : Août 2006
    Messages : 1 074
    Points : 1 728
    Points
    1 728
    Par défaut
    ton code est mal indenté à partir de la seconde ligne.

    J'ai essayé ça:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    from pdftools.pdffile import PDFDocument
    import pdftools
     
    file = "diveintopython.pdf"
    doc = PDFDocument(file)
     
    print "Document uses PDF format version", doc.document_version()
     
    pages = doc.count_pages()
    print "Document contains %i pages." % pages
     
    page123 = doc.read_page(123)
    contents123 = page123.read_contents()
     
    def iterer(sequence, fonction):
        try:
            for item in sequence:
                iterer(item, fonction)
        except:
            fonction(sequence)
     
    def afficher(texte):
        if isinstance(texte, pdftools.pdftext.Text):
            print texte.text
     
    for items in contents123.contents:
        iterer(items, afficher)
    Cela a fonctionné (pdf version: 1.2)
    J'ai essayé avec python_notes (pdf version 1.4) et j'ai eu une erreur....
    J'ai essayé avec un pdf generé par OOo (pdf version 1.4) et pareil, erreur..

    ça m'a l'air d'être une belle galère les pdf!!
    "Etre conscient de la difficulté permet de l'éviter.."
    Lao-Tseu.

  18. #18
    Membre régulier
    Homme Profil pro
    Chef de projet en SSII
    Inscrit en
    Novembre 2004
    Messages
    528
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Chef de projet en SSII

    Informations forums :
    Inscription : Novembre 2004
    Messages : 528
    Points : 99
    Points
    99
    Par défaut
    Lexo, merci pour ton lie, mais qd j'avais été voir hier, j'ai vu "download for free" et "buy" alors j'ai pensé que c'était payant avec une version d'évaluation.

    J'ai pris aujourd'hui "PDFconvertX" qui me permet de converit des prf en txt ou Html (ce qui encore mieux).

    Mais voila, ils parlent beaucoup de VB ou C/C++ (donc du developpement via des outils Microsoft). JE voudrais savoir (si tu le connais un peu plus) si il est possible de l'intégrer en Python?
    Autre question, ils parlent (ds la doc) d'avoir Word ou Excell sur la machine (est-ce réellement necessaire? car les utilisateurs finaux ne l'auront p-e pas tous)

    MERCI ENCORE

  19. #19
    Membre régulier
    Homme Profil pro
    Chef de projet en SSII
    Inscrit en
    Novembre 2004
    Messages
    528
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 39
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Chef de projet en SSII

    Informations forums :
    Inscription : Novembre 2004
    Messages : 528
    Points : 99
    Points
    99
    Par défaut
    J'ai aussi essayé le PyPDF qui me parait parfait car il fonctionne parfaitement.

    Mais voila, on sait extraire un page à la fois (j'ai pas trouvé comment exrtaire par exemple 5 pages ou la totale.
    Je vais p-e porsuivre sur cette voie

    MERCI A TOUS

    PS: je laisse cependant ce topic ouvert en cas de probleme ou si quelqu'un a une autre méthode

  20. #20
    Futur Membre du Club
    Profil pro
    Inscrit en
    Mars 2008
    Messages
    8
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2008
    Messages : 8
    Points : 6
    Points
    6
    Par défaut
    Je déterre ce topic (qui est le premier résultat à "python lire pdf" sous google).

    Cette liste de packages rassemble un paquet d'outils pour manipuler les PDFs. Après en avoir essayé 2 ou 3 j'ai choisi pdfminer car il rend correctement les PDFs qui m'intéressent.

Discussions similaires

  1. Réponses: 7
    Dernier message: 21/11/2013, 16h00
  2. [FPDF] Extraire le texte d'un fichier PDF
    Par brune38 dans le forum Bibliothèques et frameworks
    Réponses: 3
    Dernier message: 13/10/2009, 10h26
  3. [FPDF] Extraire le texte d'un pdf
    Par SandraG dans le forum Bibliothèques et frameworks
    Réponses: 13
    Dernier message: 08/10/2009, 14h48
  4. Extraire le texte d'un pdf avec PdfBox en C#
    Par nadabb dans le forum C#
    Réponses: 10
    Dernier message: 28/05/2009, 21h00
  5. Extraire du texte d'un PDF avec layout.
    Par zedtux dans le forum VB 6 et antérieur
    Réponses: 3
    Dernier message: 09/04/2008, 15h37

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo