Précédent   Forum des professionnels en informatique > Autres langages > XML/XSL et SOAP
XML/XSL et SOAP Forum d'entraide sur XML et SOAP. Avant de poster -> FAQ XML, Sources XML
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 27/11/2011, 08h36   #1
Invité régulier
 
Inscription : janvier 2009
Messages : 40
Détails du profil
Informations forums :
Inscription : janvier 2009
Messages : 40
Points : 7
Points : 7
Par défaut Récupérer un pdf en html

Bonjour,
Je souhaite transformer un fichier .pdf en html

J'ai testé du côté de
Citation:
pdftohtml -c *.pdf
, mais le résultat n'est pas satisfaisant à cause d'espaces apparents un peu partout sur une page de 3 colonnes.

Y a t-il une chance avec une commande
Citation:
pdftohtml -xml *.pdf
?

J'obtiens un fichier .xml auquel je rajoute au début la ligne 2. Il y a seulement 2 types de balises fontspec et text :
Code :
1
2
3
4
5
6
7
8
9
10
11
12
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="5.xsl"?> 
<!DOCTYPE pdf2xml SYSTEM "pdf2xml.dtd">
 
<pdf2xml>
<page>
   	<fontspec ....
...
<text top="4...
...
</page>
</pdf2xml>
Est-ce possible de retrouver le fichier de départ en html ? créer un fichier 5.xsl contenant :
Code :
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
 
<!--  -->
 
<xsl:template match="text()"><xsl:value-of select="."/>
 
 
  <html>
    <head>
      <title>Exemple de sortie HTML</title>
      <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
    </head>
    <body>
<xsl:value-of select="pdf2xml" />  
 
 
    </body>
  </html>
 
 
</xsl:template>
 
</xsl:stylesheet>
Mais tout apparaît à la suite sans la mise en page originale ? est-ce possible de retrouver la mise en page originale ?
d'avance merci.
isaric est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 28/11/2011, 08h55   #2
Membre confirmé
 
Inscription : février 2005
Messages : 299
Détails du profil
Informations forums :
Inscription : février 2005
Messages : 299
Points : 266
Points : 266
Salut isaric,

As-tu essayé de créer un fichier XSLT permettant de transformer ton fichier Xml en html?

Cédric
Cédric B. est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 28/11/2011, 11h41   #3
Invité régulier
 
Inscription : janvier 2009
Messages : 40
Détails du profil
Informations forums :
Inscription : janvier 2009
Messages : 40
Points : 7
Points : 7
Citation:
Envoyé par Cédric B. Voir le message
As-tu essayé de créer un fichier XSLT permettant de transformer ton fichier Xml en html?
Non, J'avoue que je suis un peu perdu dans la procédure à utiliser, j'ai juste essayé un .xsl noté au dessus.

Pour info j'ai essayé
Citation:
pdfinfo *.pdf
Producer: Python PDF Library - http://pybrary.net/pyPdf/
Tagged: no
Pages: 2
Encrypted: no
Page size: 595 x 842 pts (A4)
File size: 226722 bytes
Optimized: no
PDF version: 1.3
isaric est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 29/11/2011, 19h47   #4
Invité régulier
 
Inscription : janvier 2009
Messages : 40
Détails du profil
Informations forums :
Inscription : janvier 2009
Messages : 40
Points : 7
Points : 7
En exemple, voila le type de document.pdf que je souhaite convertir en xml (pdftohtml -xml *.pdf le fais - bien ?- ) puis en HTML ?

D'avance merci pour votre aide.
isaric est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 07h43.


 
 
 
 
Partenaires

Hébergement Web