Besoin de parser un pdf venant d'un formulaire (pas de gestion de tables)

Bonsoir

Je ne parviens pas à trouve un module python (3.7) qui permet de parser un document pdf provenant d'un formulaire.

Je ne peux pas, pour des raisons de confidentialité poster le pdf, mais il faut imaginer comme une page HTML avec des cases ayant à chaque fois un titre et des valeurs.
Exemple : une case avec une titre "Entreprise" qui contient adresse : 12 Rue Victor Hugo, Tel : xxxxxx, puis une case avec un autre titre "Facture" et plein de sous champs.
Il ne s'agit pas de tables.

J'ai testé de nombreux modules: pdfminer, PyPDF2, voir des modules exotiques... Ils ne remontent qu'une chaîne de caractères sans prendre en compte l'aspect hiérarchique. Chaîne contenant des délimiteurs qui sont des "\n". Bref, si dans une case il y a des "\n" pour un champs (exemple adresse sur plusieurs lignes), c'est le chaos.

Voici un exemple de mes recherches :
https://stackoverflow.com/questions/...to-text-python

-> Bref, PyPDF2 retourne une chaîne (par page), je recherche un module qui retourne un dictionnaire ou une liste.

Belle soirée

Besoin de parser un pdf venant d'un formulaire (pas de gestion de tables)

Python

Mode arborescent

Discussions similaires

Partager

Partager