IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

XML/XSL et SOAP Discussion :

Récupérer un pdf en html


Sujet :

XML/XSL et SOAP

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre confirmé Avatar de isaric
    Profil pro
    Inscrit en
    Janvier 2009
    Messages
    103
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2009
    Messages : 103
    Par défaut Récupérer un pdf en html
    Bonjour,
    Je souhaite transformer un fichier .pdf en html

    J'ai testé du côté de
    pdftohtml -c *.pdf
    , mais le résultat n'est pas satisfaisant à cause d'espaces apparents un peu partout sur une page de 3 colonnes.

    Y a t-il une chance avec une commande
    pdftohtml -xml *.pdf
    ?

    J'obtiens un fichier .xml auquel je rajoute au début la ligne 2. Il y a seulement 2 types de balises fontspec et text :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    <?xml version="1.0" encoding="UTF-8"?>
    <?xml-stylesheet type="text/xsl" href="5.xsl"?> 
    <!DOCTYPE pdf2xml SYSTEM "pdf2xml.dtd">
     
    <pdf2xml>
    <page>
       	<fontspec ....
    ...
    <text top="4...
    ...
    </page>
    </pdf2xml>
    Est-ce possible de retrouver le fichier de départ en html ? créer un fichier 5.xsl contenant :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    <?xml version="1.0" encoding="UTF-8"?>
    <xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
     
    <!--  -->
     
    <xsl:template match="text()"><xsl:value-of select="."/>
     
     
      <html>
        <head>
          <title>Exemple de sortie HTML</title>
          <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
        </head>
        <body>
    <xsl:value-of select="pdf2xml" />  
     
     
        </body>
      </html>
     
     
    </xsl:template>
     
    </xsl:stylesheet>
    Mais tout apparaît à la suite sans la mise en page originale ? est-ce possible de retrouver la mise en page originale ?
    d'avance merci.

  2. #2
    Membre expérimenté
    Profil pro
    Inscrit en
    Février 2005
    Messages
    351
    Détails du profil
    Informations personnelles :
    Localisation : Suisse

    Informations forums :
    Inscription : Février 2005
    Messages : 351
    Par défaut
    Salut isaric,

    As-tu essayé de créer un fichier XSLT permettant de transformer ton fichier Xml en html?

    Cédric

  3. #3
    Membre confirmé Avatar de isaric
    Profil pro
    Inscrit en
    Janvier 2009
    Messages
    103
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2009
    Messages : 103
    Par défaut
    Citation Envoyé par Cédric B. Voir le message
    As-tu essayé de créer un fichier XSLT permettant de transformer ton fichier Xml en html?
    Non, J'avoue que je suis un peu perdu dans la procédure à utiliser, j'ai juste essayé un .xsl noté au dessus.

    Pour info j'ai essayé
    pdfinfo *.pdf
    Producer: Python PDF Library - http://pybrary.net/pyPdf/
    Tagged: no
    Pages: 2
    Encrypted: no
    Page size: 595 x 842 pts (A4)
    File size: 226722 bytes
    Optimized: no
    PDF version: 1.3

  4. #4
    Membre confirmé Avatar de isaric
    Profil pro
    Inscrit en
    Janvier 2009
    Messages
    103
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2009
    Messages : 103
    Par défaut
    En exemple, voila le type de document.pdf que je souhaite convertir en xml (pdftohtml -xml *.pdf le fais - bien ?- ) puis en HTML ?

    D'avance merci pour votre aide.

Discussions similaires

  1. Convertir un PDF en HTML ou page WEB
    Par benyasla dans le forum Général JavaScript
    Réponses: 1
    Dernier message: 08/02/2007, 12h40
  2. [PDF] Récupérer texte pdf avec php
    Par nicerico dans le forum Bibliothèques et frameworks
    Réponses: 2
    Dernier message: 19/01/2007, 09h35
  3. Appel d'un fichier pdf ou html
    Par deepwrath dans le forum Prolog
    Réponses: 1
    Dernier message: 10/01/2007, 08h02
  4. [PDF to HTML ] Proposition "google like"
    Par NeHuS dans le forum ASP
    Réponses: 2
    Dernier message: 24/02/2006, 14h15
  5. PDF en HTML
    Par lebdenat dans le forum Modules
    Réponses: 1
    Dernier message: 18/08/2005, 14h21

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo