Hello world !
j'ai fait un petit script me permettant d'extraire le contenu d'un .pdf vers un .txt en conservant le nom du .pdf de base, à l'aide de Textract:
Au début j'ai franchement galéré pour les caractères avec accents et spéciaux, mais je m'en suis sorti !
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11 import os, textract dossier = os.path.dirname(__file__) for file in os.listdir(dossier): if file.endswith(".pdf"): text = textract.process(os.path.join(dossier, file), encoding='ISO-8859-15') text = text.decode('cp1252') with open(os.path.abspath(os.path.join(dossier, f"{file}.doc")), "w", encoding='utf-8') as f: f.write(text)
Autre problèmatique maintenant, la gestion des tabulations et des tableaux..
Savez-vous comment conserver dans le .txt la même dispo que dans le .pdf ?
![]()
Partager