Coupure de mot_extraction pdf via pypdf2

Version imprimable

Bonjour à tous,

Je démarre avec Python depuis peu.
J'essaie d'extraire et afficher chaque ligne d'un PDF.
J'ai installé PyPDF2.

Mon problème : la dernière lettre de chaque ligne est affiché sur une autre ligne.
Les mots se coupent.

Est-ce que vous avez une méthode s'il vous plait?

Merci !!!!!

Voici mon code :
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 import PyPDF2 as module PDFfile = open("Text3page.pdf","rb") pdfread = module.PdfFileReader(PDFfile) print(pdfread.getIsEncrypted()) print(pdfread.getDocumentInfo()) if (pdfread.getNumPages() <= 2): print('Il y a', pdfread.getNumPages(),'page') else: print('Il y a', pdfread.getNumPages(),'pages') print("\n") i=0 while (i<pdfread.getNumPages()): vartext = pdfread.getPage(i) print(vartext.extractText()) i = i + 1
Voici l'affichage :

Citation:

Pour être la vie et la mor
t

coucou

P
our rire des coups du sor
t

P
our être les quatre saison
s

P

12/02/2020, 09h04
wiztricks

Salut,

Citation:

Envoyé par LoganWayne

Est-ce que vous avez une méthode s'il vous plait?

pyPDF2 fait ce qu'il peut pour extraire le texte du fichier.
Et si vous chercher un peu sur Internet pour voir ce qu'il se fait sur le sujet, vous y trouverez des tas de bibliothèques qui se débrouillent plus ou moins suivant les documents PDF qu'on leur fait manger.

- W
12/02/2020, 09h47
StabiloHB

Salut ! :D

Wiztricks a raison, en quelques clics j'ai trouvé ce code sur le net, je pense que tu pourrais l'adapter à ton problème. :ccool:

Stabilo.
17/02/2020, 15h49
LoganWayne

Merci beaucoup à vous 2 pour vos réponses.
J'ai réussi, je ne sais comment, à avoir un bon découpage de PyPD2.

Mon nouveau problème est qu'il ne gère pas du tout les accents et autres caractères spéciaux.
Je vais tenter de mettre le code ci-dessous au début de ma prog.

-*- coding: utf-8 -*print

Merci, je vous tiens au courant !

LoganWayne