IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Convertir des fichiers PDF en HTML avec une API


Sujet :

Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2015
    Messages
    42
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Mars 2015
    Messages : 42
    Par défaut Convertir des fichiers PDF en HTML avec une API
    Bonjour à tous,

    Je suis débutant en programmation Python et je souhaiterai pouvoir convertir des fichiers PDF en fichier HTML automatiquement.

    En faisant une recherche sur Google, je retrouve beaucoup de site qui propose la possibilité de convertir des fichiers.
    Mais lorsque j'essaye un code qu'il propose pour le faire avec une API, je n'arrive pas à le faire.

    Dans un premier temps, est-ce que vous connaîtriez un site qui fonctionne (sans forcément faire de la pub) et si vous pouvez m'aider dans l'utilisation du code ?

    Je vous remercie pour l'aide que vous pourriez m'apportez.

  2. #2
    Expert confirmé
    Avatar de tyrtamos
    Homme Profil pro
    Retraité
    Inscrit en
    Décembre 2007
    Messages
    4 486
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Décembre 2007
    Messages : 4 486
    Billets dans le blog
    6
    Par défaut
    Bonjour,

    Il y a un module externe proposé par pypi qui a l'air de faire ça, mais je ne l'ai jamais utilisé (seulement Python 3):

    https://pypi.org/project/pdf-tools/

    Voir en particulier son "pdf2html".

    Il y en a peut-être d'autres dans pypi: à voir.

  3. #3
    Membre averti
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2015
    Messages
    42
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Mars 2015
    Messages : 42
    Par défaut
    Merci beaucoup pour ta réponse.

    J'ai essayé de voir ce module mais étant un très grand débutant sur Python je ne suis pas parvenu à reproduire l'example.
    Je ne pensais pas que c'était aussi compliqué, j'avais réussi à convertir des fichiers PDF en TXT mais pour du HTML ça semble complexe.

    Si quelqu'un aurait la patience de m'expliquer comment reproduire l'exemple ça serait vraiment cool de votre part., ne serait-ce que comment installer les commandes et faire appel à une procédure.

  4. #4
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 741
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 741
    Par défaut
    Citation Envoyé par frutz Voir le message
    Si quelqu'un aurait la patience de m'expliquer comment reproduire l'exemple ça serait vraiment cool de votre part., ne serait-ce que comment installer les commandes et faire appel à une procédure.
    Si vous voulez programmer avec Python, il faudrait peut être avoir la patience d'apprendre les bases...

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  5. #5
    Expert confirmé
    Avatar de tyrtamos
    Homme Profil pro
    Retraité
    Inscrit en
    Décembre 2007
    Messages
    4 486
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Décembre 2007
    Messages : 4 486
    Billets dans le blog
    6
    Par défaut
    On installe pdf-tools avec pip dans une console (cmd.exe avec Windows):

    Lors de cette installation, il se crée plusieurs fichiers exécutables comme "pdf2html.exe" dans le répertoire de Python et son sous-répertoire Scripts.

    La documentation de pdf-tools est nulle, mais son utilisation est tout de même super-simple. Par exemple, toujours dans une console:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    répertoiredepython\Scripts\pdf2html.exe  cheminvers\monfichierpdf  >  cheminvers\monfichierhtml
    L'exécution crée le fichier html demandé. Attention: si le chemin contient des espaces, il faut entourer l'adresse avec des guillemets (mais ça, c'est du Windows et pas du Python).

    Maintenant, si on veut lancer l'opération à partir d'un programme Python, voilà un petit code de principe:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    # -*- coding: utf-8 -*-
     
    import os
    from subprocess import call
     
    prog = r"E:\Programmes\Python37\Scripts\pdf2html.exe" # <= remplacer par le bon chemin
    fichierpdf = r"cheminvers\lefichier.pdf"
    fichierhtml = r"cheminvers\lefichier.html"
     
    # appel de pdf2html.exe
    call(prog + " " + fichierpdf + " > " + fichierhtml, shell=True)
     
    # affichage du fichier html dans le navigateur internet par défaut de l'OS
    os.startfile(fichierhtml)

  6. #6
    Membre averti
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2015
    Messages
    42
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Mars 2015
    Messages : 42
    Par défaut
    Merci beaucoup @tyrtamos pour ces explications très claires.

    J'ai essayé de suivre les instructions à la lettre mais j'ai une erreur d'exécution.

    Voici l'erreur que j'obtiens
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    Acc�s refus�.
    Traceback (most recent call last):
      File "C:/Users/frutz/PycharmProjects/Loop _files/main.py", line 36, in <module>
        os.startfile(fichierhtml)
    FileNotFoundError: [WinError 2] Le fichier spécifié est introuvable: 'C:\\Users\\frutz\\Documents\\HTML Files\monfichier.html'

    Le code que j'ai utilisé :


    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    import os
    from subprocess import call
     
    prog = r"C:\Users\frutz\AppData\Local\Programs\Python\Python38\Scripts\pdf2html.exe"  # <= remplacer par le bon chemin
    fichierpdf =r"C:\Users\frutz\Documents\monfichier.pdf"
    fichierhtml = r"C:\Users\frutz\Documents\HTML Files\monfichier.html"
     
    # appel de pdf2html.exe
    call(prog + " " + fichierpdf + " > " + fichierhtml, shell=True)
     
    # affichage du fichier html dans le navigateur internet par défaut de l'OS
    os.startfile(fichierhtml)

    Peut-être que j'ai mal compris la procédure, mais je dois au préalable créer un fichier html ?

    J'ai essayé différentes possibilités en mettant \\, avec simple quote, avec guillemet, en enlevant le r.

Discussions similaires

  1. Librairie Java pour convertir un fichier PDF en HTML
    Par mohammed21 dans le forum API standards et tierces
    Réponses: 3
    Dernier message: 30/11/2012, 15h35
  2. [E-03] Insérer des fichiers pdf et tif dans une feuille excel
    Par Boby71C dans le forum Macros et VBA Excel
    Réponses: 9
    Dernier message: 24/11/2008, 21h17
  3. Réponses: 1
    Dernier message: 18/11/2008, 21h42

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo