Coupure de mot_extraction pdf via pypdf2
Bonjour à tous,
Je démarre avec Python depuis peu.
J'essaie d'extraire et afficher chaque ligne d'un PDF.
J'ai installé PyPDF2.
Mon problème : la dernière lettre de chaque ligne est affiché sur une autre ligne.
Les mots se coupent.
Est-ce que vous avez une méthode s'il vous plait?
Merci !!!!!
Voici mon code :
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
| import PyPDF2 as module
PDFfile = open("Text3page.pdf","rb")
pdfread = module.PdfFileReader(PDFfile)
print(pdfread.getIsEncrypted())
print(pdfread.getDocumentInfo())
if (pdfread.getNumPages() <= 2):
print('Il y a', pdfread.getNumPages(),'page')
else:
print('Il y a', pdfread.getNumPages(),'pages')
print("\n")
i=0
while (i<pdfread.getNumPages()):
vartext = pdfread.getPage(i)
print(vartext.extractText())
i = i + 1 |
Voici l'affichage :
Citation:
Pour être la vie et la mor
t
coucou
P
our rire des coups du sor
t
P
our être les quatre saison
s
P