Bonjour,
J'aimerais extraire des tableaux de nombres de documents pdf.
Candidement, je me suis dit que Python pourrait m'aider et je me mets donc à apprendre le language Python.
J'en suis arrivé à ceci :
Le module PyPDF permet d'extraire le texte de certains documents mais pas de tous.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9 import PyPDF2 from PyPDF2 import PdfFileReader myfile = "mon_fichier.pdf" with open(myfile, 'rb') as f: reader = PdfFileReader(f) print('Nombre de pages', reader.getNumPages()) contents = reader.getPage(0).extractText().split('\n') print(contents)
Pour le moment, les tests que j'ai fait m'ont donné le nombre de pages et du blanc pour la plupart des fichiers. Pour certains pdf, j'ai le nombre de pages et le texte.
Pourquoi ne puis-je pas lire tous les pdf ?
Merci pour vos conseils.
Partager