Tabulation sous TEXTRACT 1.6.3
Hello world !
j'ai fait un petit script me permettant d'extraire le contenu d'un .pdf vers un .txt en conservant le nom du .pdf de base, à l'aide de Textract:
Code:
1 2 3 4 5 6 7 8 9 10 11
| import os, textract
dossier = os.path.dirname(__file__)
for file in os.listdir(dossier):
if file.endswith(".pdf"):
text = textract.process(os.path.join(dossier, file), encoding='ISO-8859-15')
text = text.decode('cp1252')
with open(os.path.abspath(os.path.join(dossier, f"{file}.doc")), "w", encoding='utf-8') as f:
f.write(text) |
Au début j'ai franchement galéré pour les caractères avec accents et spéciaux, mais je m'en suis sorti !
Autre problèmatique maintenant, la gestion des tabulations et des tableaux..
Savez-vous comment conserver dans le .txt la même dispo que dans le .pdf ?
8O8O8O