Le module pyPdf4 pour traiter des fichiers PDF
Bonjour
Je commence à étudier ce module, dans l'espoir de parvenir à récupérer la mise en forme d'un texte (polices, couleurs, etc.) pour charger le texte dans une page html.
Première question : que sont les "indirectObect(x, y)" que getInfo() nous donne ? Et comment les exploiter ?
Deuxième : j'ai trouvé ce tuto :
https://pythoninoffice.com/split-and...-using-python/
je n'arrive pas à enregistrer un fichier pdf qui isole une page (c'est le début du tuto !) J'ai su instancier le reader et le writer, récupérer les infos, (avec ces mystérieux "indirectObject"), j'ai exécuté ce code de ma méthode .write pour enregistrer, mais rien n'apparaît sur mon disque dur.
Code:
1 2
| with open(r'C:\Users\JZ\Desktop\PythonInOffice\split_and_merge_pdf\page_1.pdf', 'wb') as f:
pdf_writer.write(f) |
Est-ce que c'est en lien avec le bug évoqué par l'auteur, qui contraint à recréer l'objet reader à chaque écriture ? Pourtant, je n'ai obtenu aucun enregistrement sur disque.