Coupure de mot_extraction pdf via pypdf2

**LoganWayne** · 11/02/2020, 22h38

Bonjour à tous,

Je démarre avec Python depuis peu.
J'essaie d'extraire et afficher chaque ligne d'un PDF.
J'ai installé PyPDF2.

Mon problème : la dernière lettre de chaque ligne est affiché sur une autre ligne.
Les mots se coupent.

Est-ce que vous avez une méthode s'il vous plait?

Merci !!!!!

Voici mon code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
import PyPDF2 as module
PDFfile = open("Text3page.pdf","rb")
pdfread = module.PdfFileReader(PDFfile)
print(pdfread.getIsEncrypted())
print(pdfread.getDocumentInfo())
if (pdfread.getNumPages() <= 2):
    print('Il y a', pdfread.getNumPages(),'page')
else:
    print('Il y a', pdfread.getNumPages(),'pages')
 
    print("\n")
 
i=0
while (i<pdfread.getNumPages()):
    vartext = pdfread.getPage(i)
    print(vartext.extractText())
    i = i + 1

Voici l'affichage :

Pour être la vie et la mor
t

coucou

P
our rire des coups du sor
t

P
our être les quatre saison
s

P

**wiztricks** · 12/02/2020, 08h04

Salut,

Envoyé par LoganWayne

Est-ce que vous avez une méthode s'il vous plait?

pyPDF2 fait ce qu'il peut pour extraire le texte du fichier.
Et si vous chercher un peu sur Internet pour voir ce qu'il se fait sur le sujet, vous y trouverez des tas de bibliothèques qui se débrouillent plus ou moins suivant les documents PDF qu'on leur fait manger.

- W

**StabiloHB** · 12/02/2020, 08h47

Salut !

Wiztricks a raison, en quelques clics j'ai trouvé ce code sur le net, je pense que tu pourrais l'adapter à ton problème.

Stabilo.

**LoganWayne** · 17/02/2020, 14h49

Merci beaucoup à vous 2 pour vos réponses.
J'ai réussi, je ne sais comment, à avoir un bon découpage de PyPD2.

Mon nouveau problème est qu'il ne gère pas du tout les accents et autres caractères spéciaux.
Je vais tenter de mettre le code ci-dessous au début de ma prog.

-*- coding: utf-8 -*print

Merci, je vous tiens au courant !

LoganWayne

Coupure de mot_extraction pdf via pypdf2

Python

Discussions similaires

Partager

Partager