-
Parser un fichier PDF
Bonjour.
J'aimerai pouvoir transformer un pdf en fichier json, contenant texte, liens images etc...
J'ai essayé pdfjs mais il est super lourd et propose toute une interface view dont je n'ai pas besoin.
Connaissez vous une librairie pour faire ça ?
Merci d'avance,
Maz
-
Bonjour,
Le PDF est un format de fichier binaire structuré avec un objectif spécifique en tête.
JSON est une sérialisation générale de tout type de données textuelles.
À quoi vous attendriez-vous en passant de l'un à l'autre (en particulier sans perte)?
Selon les informations que vous recherchez.
Pour la conversion du texte, prenez simplement quelques outils d'extraction de texte comme PyPDF2
Voir : forum python