On installe pdf-tools avec pip dans une console (cmd.exe avec Windows):
Lors de cette installation, il se crée plusieurs fichiers exécutables comme "pdf2html.exe" dans le répertoire de Python et son sous-répertoire Scripts.
La documentation de pdf-tools est nulle, mais son utilisation est tout de même super-simple. Par exemple, toujours dans une console:
répertoiredepython\Scripts\pdf2html.exe cheminvers\monfichierpdf > cheminvers\monfichierhtml
L'exécution crée le fichier html demandé. Attention: si le chemin contient des espaces, il faut entourer l'adresse avec des guillemets (mais ça, c'est du Windows et pas du Python).
Maintenant, si on veut lancer l'opération à partir d'un programme Python, voilà un petit code de principe:
1 2 3 4 5 6 7 8 9 10 11 12 13 14
| # -*- coding: utf-8 -*-
import os
from subprocess import call
prog = r"E:\Programmes\Python37\Scripts\pdf2html.exe" # <= remplacer par le bon chemin
fichierpdf = r"cheminvers\lefichier.pdf"
fichierhtml = r"cheminvers\lefichier.html"
# appel de pdf2html.exe
call(prog + " " + fichierpdf + " > " + fichierhtml, shell=True)
# affichage du fichier html dans le navigateur internet par défaut de l'OS
os.startfile(fichierhtml) |
Partager