IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Coupure de mot_extraction pdf via pypdf2


Sujet :

Python

  1. #1
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Février 2020
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Arts - Culture

    Informations forums :
    Inscription : Février 2020
    Messages : 2
    Par défaut Coupure de mot_extraction pdf via pypdf2
    Bonjour à tous,

    Je démarre avec Python depuis peu.
    J'essaie d'extraire et afficher chaque ligne d'un PDF.
    J'ai installé PyPDF2.

    Mon problème : la dernière lettre de chaque ligne est affiché sur une autre ligne.
    Les mots se coupent.

    Est-ce que vous avez une méthode s'il vous plait?

    Merci !!!!!



    Voici mon code :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    import PyPDF2 as module
    PDFfile = open("Text3page.pdf","rb")
    pdfread = module.PdfFileReader(PDFfile)
    print(pdfread.getIsEncrypted())
    print(pdfread.getDocumentInfo())
    if (pdfread.getNumPages() <= 2):
        print('Il y a', pdfread.getNumPages(),'page')
    else:
        print('Il y a', pdfread.getNumPages(),'pages')
     
        print("\n")
     
    i=0
    while (i<pdfread.getNumPages()):
        vartext = pdfread.getPage(i)
        print(vartext.extractText())
        i = i + 1
    Voici l'affichage :

    Pour être la vie et la mor
    t

    coucou

    P
    our rire des coups du sor
    t

    P
    our être les quatre saison
    s

    P

  2. #2
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 705
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 705
    Par défaut
    Salut,

    Citation Envoyé par LoganWayne Voir le message
    Est-ce que vous avez une méthode s'il vous plait?
    pyPDF2 fait ce qu'il peut pour extraire le texte du fichier.
    Et si vous chercher un peu sur Internet pour voir ce qu'il se fait sur le sujet, vous y trouverez des tas de bibliothèques qui se débrouillent plus ou moins suivant les documents PDF qu'on leur fait manger.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  3. #3
    Membre confirmé
    Homme Profil pro
    Étudiant
    Inscrit en
    Juillet 2016
    Messages
    132
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 27
    Localisation : France, Indre et Loire (Centre)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Industrie

    Informations forums :
    Inscription : Juillet 2016
    Messages : 132
    Par défaut
    Salut !

    Wiztricks a raison, en quelques clics j'ai trouvé ce code sur le net, je pense que tu pourrais l'adapter à ton problème.

    Stabilo.

  4. #4
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Février 2020
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Arts - Culture

    Informations forums :
    Inscription : Février 2020
    Messages : 2
    Par défaut
    Merci beaucoup à vous 2 pour vos réponses.
    J'ai réussi, je ne sais comment, à avoir un bon découpage de PyPD2.

    Mon nouveau problème est qu'il ne gère pas du tout les accents et autres caractères spéciaux.
    Je vais tenter de mettre le code ci-dessous au début de ma prog.

    -*- coding: utf-8 -*print


    Merci, je vous tiens au courant !

    LoganWayne

Discussions similaires

  1. Conversion en pdf via fichier postscript
    Par XENOPHON dans le forum Erreurs - Avertissements
    Réponses: 3
    Dernier message: 21/01/2006, 19h04
  2. impression pdf via asp
    Par flo456 dans le forum ASP
    Réponses: 2
    Dernier message: 16/01/2006, 14h58
  3. Réponses: 1
    Dernier message: 13/01/2006, 17h43
  4. Réponses: 9
    Dernier message: 04/03/2005, 13h58
  5. Réponses: 8
    Dernier message: 13/08/2004, 12h32

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo