Salut,

Envoyé par
Termirtau
Connaissez-vous PDFMiner ? Et une requête qui fonctionne pour obtenir le contenu textuel d'un PDF?
L'exemple que vous avez récupéré est pour Python2.7 qui fonctionne avec PDFMiner. Cette bibliothèque n'est pas supportée en Python3, vous avez certainement installé PDFMiner3k dont les interfaces prennent en compte les changements de Python3.
Ligne 6, virez codec:
device = TextConverter(rsrcmgr, retstr, laparams=laparams)
Python sera "content" mais pas sûr que le résultat vous plaise car çà va dépendre du contenu de vos PDF.
lire la documentation de PDFMiner:
PDF is evil. Although it is called a PDF "document", it's nothing like Word or HTML document. PDF is more like a graphic representation. PDF contents are just a bunch of instructions that tell how to place the stuff at each exact position on a display or paper. In most cases, it has no logical structure such as sentences or paragraphs and it cannot adapt itself when the paper size changes. PDFMiner attempts to reconstruct some of those structures by guessing from its positioning, but there's nothing guaranteed to work. Ugly, I know. Again, PDF is evil.
mais vous aurez peut être de la chance...
- W
Partager