Hello world !

j'ai fait un petit script me permettant d'extraire le contenu d'un .pdf vers un .txt en conservant le nom du .pdf de base, à l'aide de Textract:
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
import os, textract
 
dossier = os.path.dirname(__file__)
 
for file in os.listdir(dossier):
    if file.endswith(".pdf"):
        text = textract.process(os.path.join(dossier, file), encoding='ISO-8859-15')
        text = text.decode('cp1252')
 
        with open(os.path.abspath(os.path.join(dossier, f"{file}.doc")), "w", encoding='utf-8') as f:
            f.write(text)
Au début j'ai franchement galéré pour les caractères avec accents et spéciaux, mais je m'en suis sorti !

Autre problèmatique maintenant, la gestion des tabulations et des tableaux..
Savez-vous comment conserver dans le .txt la même dispo que dans le .pdf ?