[PyPDF2] Ajouter une annotation à une page existante

**pfeuh** · 21/11/2022, 00h37

Bonjour,

J'utilise PyPDF2 pour collecter des partitions et les concaténer dans un "livre". J'utilise PdfFileWriter et PdfFileReader. J'écris chaque page lue de chaque fichier source, ça marche d'ailleurs très bien, mais j'aimerai ajouter de temps en temps une annotation (un petit texte supplémentaire). J'ai lu la doc de PyPDF2. La classe PageObject() (qui semble être celle de chaque page obtenue avec le reader) ne contient aucune méthode qui permettrait de faire ça... Ai-je raté quelque chose?

A+

Pfeuh

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
#!/usr/bin/python
# -*- coding: utf-8 -*-
 
from PyPDF2 import PdfFileReader
from PyPDF2 import PdfFileWriter
 
pdf_writer = PdfFileWriter()
 
for fname in ("./test/a1.pdf", "./test/a2.pdf", "./test/a3.pdf"):
    input_pdf = PdfFileReader(fname)
    nb_pages = input_pdf.getNumPages()
    for page_num in range(nb_pages):
        page = input_pdf.getPage(page_num)
        # --------------------------
        # ajouter ici une annotation
        # --------------------------
        pdf_writer.addPage(page)
 
with open("./test/book.pdf", mode="wb") as output_file:
    pdf_writer.write(output_file)

**wiztricks** · 21/11/2022, 08h34

Envoyé par pfeuh

Ai-je raté quelque chose?

La partie "comment font les autres?" en cherchant un peu sur Internet retourne ce genre d'article qui donne des tas des pistes.... qui devrait donner des pistes sur quoi chercher dans la documentation de pyPDF2 pour faire çà (si la question était juste de comment faire avec pypdf2)

- W

**pfeuh** · 21/11/2022, 12h52

Tu crois vraiment que je n'ai pas "fait comme les autres" et que je n'ai pas cherché avant de poster? L'article dont tu donnes le lien est pile le genre d'article que j'ai déjà visionné, mais ça reste de la magie noire... Très peu pédagogique et énormément de zones d'ombre, par exemple, au hasard, pourquoi faut-il deux librairies, pypdf et reportlab? Elles sont si mal faites que ça?

C'est sûr que dans l'absolu, ça peut résoudre le problème, mais au niveau compréhension, je ne suis pas plus avancé. Merci quand même. Je continue à chercher. Comme les autres.

**Arioch** · 21/11/2022, 13h27

Bonjour.

Avec la lib PyMuPDF, et particulièrement sa classe Page, il est possible d'insérer du texte dans une page de PDF.

Voir la méthode Page.add_freetext_annot.

**wiztricks** · 21/11/2022, 14h29

Salut,

Envoyé par pfeuh

L'article dont tu donnes le lien est pile le genre d'article que j'ai déjà visionné, mais ça reste de la magie noire...

Lorsque vous demandez de l'aide, on ne sait pas quelles pistes vous avez déjà sondé...
De plus, vous ne précisez pas si vous voulez absolument faire ça avec PyPDF2 ou si une solution qui fonctionne pourrait suffire.

Envoyé par pfeuh

Très peu pédagogique et énormément de zones d'ombre, par exemple, au hasard, pourquoi faut-il deux librairies, pypdf et reportlab? Elles sont si mal faites que ça?

Si on essaie de comprendre ce que fait le code, çà crée une page avec le Canvas de reportlab pour y placer le texte. Puis on lit le fichier avec pypdf et çà utilise la méthode .mergepage pour "coller" le texte par dessus.
C'est le même genre de méthode utilisée dans la documentation de pypdf2 (sans autre bibliothèque, mais pas testé).

Envoyé par pfeuh

C'est sûr que dans l'absolu, ça peut résoudre le problème, mais au niveau compréhension, je ne suis pas plus avancé.

Là j'ai du mal à vous suivre... car il faut pouvoir imaginer les contraintes à satisfaire pour effectuer la mise à jour d'une ou de plusieurs pages d'un PDF existant. L'équivalent en programmation serait ajouter une fonctionnalité à un programme sans pouvoir le reconstruire depuis le source.
Et ça sort largement du cadre de la question Python...

- W

**pfeuh** · 23/11/2022, 08h31

Merci messieurs pour ces pistes.

Envoyé par wiztricks

vous ne précisez pas si vous voulez absolument faire ça avec PyPDF2 ou si une solution qui fonctionne pourrait suffire.

Disons que la solution qui fonctionne, je l'avais déjà avant de poster. Ma vraie question (et je l'ai d'ailleurs explicitement posée) est "Pourquoi faut-il 2 bibliothèques pour le faire?" Je pense avoir compris maintenant pourquoi, je pense que PyPDF2 n'est pas prévu pour créer du contenu, mais je peux bien sûr me tromper.

N'ayant jamais mis les mains dans le cambouis en ce qui concerne le pdf, je n'ai pas compris que ce qu'on appelle "page" dans n'importe quelle bibliothèque, c'est du contenu "brut" qui du coup peut être généré par une bibliothèque quelconque et être importé dans une autre bibliothèque quelconque elle aussi.

N'hésitez pas a corriger, je suis demandeur.

**Arioch** · 23/11/2022, 10h28

Attention : si je vous ai conseillé PyMuPDF, c'est à la place de PyPDF2, pas en complément.

Dans cette libraire, Page est une classe qui contient des méthodes pour manipuler une page d'un fichier PDF.

Vous pouvez extraire la page du PDF, la rajouter à un autre PDF, la supprimer, récupérer les images qu'elle contient, le texte, apporter des annotations, faire de l'OCR dessus si le texte n'est pas exploitable par copié/collé, etc.

En revanche, si tu tiens à rester sur PyPDF2, tu peux fusionner 2 pages de PDF en une seule. L'une d'elle servira de calque et se superposera à l'autre. A toi de faire une page PDF de ton annotation en amont du traitement, puis de l'appliquer sur la page PDF concernée.

Ca fonctionne très bien avec PyPDF2.

**wiztricks** · 23/11/2022, 13h25

Envoyé par pfeuh

Ma vraie question (et je l'ai d'ailleurs explicitement posée) est "Pourquoi faut-il 2 bibliothèques pour le faire?"

Ce n'est pas dans le post initial.

Pour ce qui est de PyPDF2, je vous ai indiqué où ils ont documenté ça.

- W

**tyrtamos** · 24/11/2022, 17h13

Bonjour

Envoyé par pfeuh

N'ayant jamais mis les mains dans le cambouis en ce qui concerne le pdf, je n'ai pas compris que ce qu'on appelle "page" dans n'importe quelle bibliothèque, c'est du contenu "brut" qui du coup peut être généré par une bibliothèque quelconque et être importé dans une autre bibliothèque quelconque elle aussi.

En gros:

- pdf est un langage de description de pages. Il y a peut-être une définition officielle de ce qu'on appelle "page", mais le plus souvent, une page, c'est ce qui peut être imprimé sur une feuille de papier.

- La vocation principale de PyPDF2, c'est le "spilt and merge", c'est à dire convertir un fichier pdf multipages en plusieurs fichiers pdf de chacun 1 page, ou au contraire de rassembler plusieurs fichiers pdf en un seul. Et ça, il le fait très bien. Si pyPDF2 fait autre chose, c'est "en plus". Mais pour manipuler des contenus, il y a plus puissant, comme reportlab. Je ne connais pas PyMuPDF.

- ça, c'est pour piloter du pdf par programme, mais on peut aussi modifier des pdf à la main avec des éditeurs spécialisés comme Adobe Accrobat pro, ou (c'est ce que j'ai), Wondershare PDFElement. Mais ce sont des programmes payants "WYSIWYG" ("what you see is what you get"). Je ne sais pas s'il en existe de gratuits.