extraire le contenu de documents pdf avec PyPDF2

**PipoWIL** · 20/09/2021, 14h30

Bonjour,

J'aimerais extraire des tableaux de nombres de documents pdf.
Candidement, je me suis dit que Python pourrait m'aider et je me mets donc à apprendre le language Python.
J'en suis arrivé à ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
import PyPDF2
from PyPDF2 import PdfFileReader
 
myfile = "mon_fichier.pdf"
with open(myfile, 'rb') as f:
    reader = PdfFileReader(f)
    print('Nombre de pages', reader.getNumPages())
    contents = reader.getPage(0).extractText().split('\n')
    print(contents)

Le module PyPDF permet d'extraire le texte de certains documents mais pas de tous.
Pour le moment, les tests que j'ai fait m'ont donné le nombre de pages et du blanc pour la plupart des fichiers. Pour certains pdf, j'ai le nombre de pages et le texte.
Pourquoi ne puis-je pas lire tous les pdf ?

Merci pour vos conseils.

**Arioch** · 20/09/2021, 14h46

Bonjour.

Le contenu de ces PDF est-il du caractère systématiquement ?

Un copié collé du texte présent dans ces PDF se colle-t-il dans un éditeur de texte ?

Quand le PDF est typé "PDF caractères", le texte qu'il renferme est sélectionnable. Quand le PDF est typé "PDF images", ça devient nettement plus délicat si les tableaux (exemple) présents dans le PDF sont en réalité des images et non du texte mis en forme.

Pour mon travail, j'ai dû assez récemment concevoir un script scannant des dizaines de milliers de PDF afin de déterminer ceux qui était d'un type ou de l'autre. J'utilisais moi aussi la lib PyPDF2 (il existe PyPDF4 désormais aussi) pour certaines manipulations de PDF mais pour ce qui est de récupérer le contenu de chaque page d'un PDF, j'utilisais un utilitaire externe nommé 'pdftotext.exe' issu d'un package gratuit, PDFtools.

Peut être qu'avec cet utilitaire, vous obtiendriez un résultat différent ?

**PipoWIL** · 20/09/2021, 14h56

Merci de partager votre expérience.
Les documents ont un logo en haut de page mais tout le reste est sélectionnable et permet un copy-paste.
Je vais jeter un coup d'oeil sur vos utilitaires.
Merci.

**Arioch** · 21/09/2021, 08h30

J'ajoute que j'ai testé hier la librairie PyPDF2 (obsolète et plus suivie) avec un PDF à moi dont je sais qu'il contient du texte.

Au mieux, via la méthode extractText() de PyPDF2.PdfFileReader, je n'ai récupéré qu'une liste ou un tuple de \n.

Avec l'utilitaire dont je parle et que j'utilise depuis des années (j'ai fait du Perl avec, puis du Python) pour faire de la capture de texte, j'obtiens toujours de très bons résultats.

Edit 2021-09-21 (08:45 GMT) :

Sur ce site PDF Text Extraction in Python, il est question d'extraire du texte de fichiers PDF, avec PyPDF2 pour récupérer certaines informations, mais aussi avec PDFminer.

Note : PyPDF2 et PDFminer ne sont plus maintenus. Pour le premier, voir PyPDF4 (en espérant qu'il soit toujours maintenu).

**PipoWIL** · 21/09/2021, 09h40

Bonjour,
Merci pour la référence à PDFMiner. J'ai vu qu'on en parle dans d'autre blogs mais je n'ai pas encore creusé cette mine.
Entretemps, hier soir, j'ai trouvé tabula qui donne aussi des résultats intéressants en extrayant le tableau du pdf pour le mettre dans un DataFrame Panda

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
import tabula
 
# Read pdf into list of DataFrame
df = tabula.read_pdf("MonFichier.pdf", pages='all')
 
# convert PDF into CSV file
tabula.convert_into("MonFichier.pdf", "Monfichier.csv", output_format="csv", pages='all')

Cela mérite d'y jetter un coup d'oeil plus approfondi.
Merci pour vos conseils.

**PipoWIL** · 30/09/2021, 13h26

Bonjour,
Merci pour votre aide. Grâce à vous et à pdfMiner + Tabula / tabula-py je parviens à extraire le contenu que je cherche.
Merci.

extraire le contenu de documents pdf avec PyPDF2 [Python 3.X]

Bibliothèques tierces Python

Discussions similaires

Partager

Partager