Besoin de parser un pdf venant d'un formulaire (pas de gestion de tables)

**Bayard** · 10/01/2023, 19h34

Bonsoir

Je ne parviens pas à trouve un module python (3.7) qui permet de parser un document pdf provenant d'un formulaire.

Je ne peux pas, pour des raisons de confidentialité poster le pdf, mais il faut imaginer comme une page HTML avec des cases ayant à chaque fois un titre et des valeurs.
Exemple : une case avec une titre "Entreprise" qui contient adresse : 12 Rue Victor Hugo, Tel : xxxxxx, puis une case avec un autre titre "Facture" et plein de sous champs.
Il ne s'agit pas de tables.

J'ai testé de nombreux modules: pdfminer, PyPDF2, voir des modules exotiques... Ils ne remontent qu'une chaîne de caractères sans prendre en compte l'aspect hiérarchique. Chaîne contenant des délimiteurs qui sont des "\n". Bref, si dans une case il y a des "\n" pour un champs (exemple adresse sur plusieurs lignes), c'est le chaos.

Voici un exemple de mes recherches :
https://stackoverflow.com/questions/...to-text-python

-> Bref, PyPDF2 retourne une chaîne (par page), je recherche un module qui retourne un dictionnaire ou une liste.

Belle soirée

**wiztricks** · 10/01/2023, 20h30

Salut,

Il y a longtemps j'avais utilisé pdfminer pour lire un document "structuré": des informations dans des boîtes (bbox). Les boites qui contiennent du texte sont des LTTextBox ou des LTTextLine... et ces bbox sont des rectangles qui ont position, hauteur, largeur dans la page qui permette de savoir quoi regrouper.

- W

**Bayard** · 10/01/2023, 21h30

Envoyé par wiztricks

Salut,

Il y a longtemps j'avais utilisé pdfminer pour lire un document "structuré": des informations dans des boîtes (bbox). Les boites qui contiennent du texte sont des LTTextBox ou des LTTextLine... et ces bbox sont des rectangles qui ont position, hauteur, largeur dans la page qui permette de savoir quoi regrouper.

- W

Oui, j'ai vu cela, cela me parait compliqué de paramétrer les hauteurs et largeurs.

**wiztricks** · 11/01/2023, 15h23

Envoyé par Bayard

Oui, j'ai vu cela, cela me parait compliqué de paramétrer les hauteurs et largeurs.

Pas besoin de les paramétrer, on génère le document en mémoire et on va pouvoir récupérer des informations "physiques" dedans.
Le design de tout ça est documenté ici : https://pdfminer-docs.readthedocs.io/programming.html

- W

**jurassic pork** · 11/01/2023, 17h59

Hello,
en pièce jointe un exemple de formulaire PDF remplie. Est-ce que c'est sur ce type de formulaire que tu veux récupérer des informations.

Nom : formulairePDF.png
Affichages : 533
Taille : 217,5 Ko

Nom : formulairePDF.png
Affichages : 533
Taille : 217,5 Ko

Ami calmant, J.P

**Beginner.** · 11/01/2023, 21h42

Salut,

Envoyé par jurassic pork

en pièce jointe un exemple de formulaire PDF remplie. Est-ce que c'est sur ce type de formulaire que tu veux récupérer des informations.

Le pauvre Jurassic Pork, il a eu un accident de travail... Mais il travaille encore alors qu'il a bientôt 120 ans ??? Trop fort...

Invité · 10/01/2023, 20h35

Bonsoir !

Tu as essayé ce genre de chose :
Extraire une table : https://www.thepythoncode.com/articl...python-camelot
PyPDF2 et formulaire : https://towardsdatascience.com/how-t...n-10b5e5f26f70
Version barbare (OCR de Google) : https://codelabs.developers.google.c...er-v1-python#0

Je suppose que tu as déjà vu ces sites auparavant ce sont les premiers que me propose Google.

**Bayard** · 10/01/2023, 21h34

Envoyé par LeNarvalo

Bonsoir !

Tu as essayé ce genre de chose :
Extraire une table : https://www.thepythoncode.com/articl...python-camelot
PyPDF2 et formulaire : https://towardsdatascience.com/how-t...n-10b5e5f26f70
Version barbare (OCR de Google) : https://codelabs.developers.google.c...er-v1-python#0

Je suppose que tu as déjà vu ces sites auparavant ce sont les premiers que me propose Google.

Extraire une table : https://www.thepythoncode.com/articl...python-camelot

-> J'ai testé. visiblement mon document ne contient aucune page.

PyPDF2 et formulaire : https://towardsdatascience.com/how-t...n-10b5e5f26f70

-> Cela peut me remonter une chaîne de caractère (voir on post originel) avec le mode acroform

Version barbare (OCR de Google) : https://codelabs.developers.google.c...er-v1-python#0

Heu, j'avoue que le terme AI me rebute.

**N_BaH** · 10/01/2023, 23h02

Bonjour,

est-ce que tu ne gagnerais pas à préalablement convertir le pdf dans un format qui pourra être parcouru plus facilement ?
si j'ai bien compris il s'agit de tableaux, donc
pdf (-> txt) -> csv
?

**Bayard** · 11/01/2023, 09h18

Envoyé par N_BaH

Bonjour,

est-ce que tu ne gagnerais pas à préalablement convertir le pdf dans un format qui pourra être parcouru plus facilement ?
si j'ai bien compris il s'agit de tableaux, donc
pdf (-> txt) -> csv
?

si j'ai bien compris il s'agit de tableaux,

Il ne s'agit pas de tableaux mais de formulaires.