Récupérer un pdf en html

**isaric** · 27/11/2011, 09h36

Bonjour,
Je souhaite transformer un fichier .pdf en html

J'ai testé du côté de

pdftohtml -c *.pdf

, mais le résultat n'est pas satisfaisant à cause d'espaces apparents un peu partout sur une page de 3 colonnes.

Y a t-il une chance avec une commande

pdftohtml -xml *.pdf

?

J'obtiens un fichier .xml auquel je rajoute au début la ligne 2. Il y a seulement 2 types de balises fontspec et text :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="5.xsl"?> 
<!DOCTYPE pdf2xml SYSTEM "pdf2xml.dtd">
 
<pdf2xml>
<page>
   	<fontspec ....
...
<text top="4...
...
</page>
</pdf2xml>

Est-ce possible de retrouver le fichier de départ en html ? créer un fichier 5.xsl contenant :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
 
<!--  -->
 
<xsl:template match="text()"><xsl:value-of select="."/>
 
 
  <html>
    <head>
      <title>Exemple de sortie HTML</title>
      <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
    </head>
    <body>
<xsl:value-of select="pdf2xml" />  
 
 
    </body>
  </html>
 
 
</xsl:template>
 
</xsl:stylesheet>

Mais tout apparaît à la suite sans la mise en page originale ? est-ce possible de retrouver la mise en page originale ?
d'avance merci.

**Cédric B.** · 28/11/2011, 09h55

Salut isaric,

As-tu essayé de créer un fichier XSLT permettant de transformer ton fichier Xml en html?

Cédric

**isaric** · 28/11/2011, 12h41

Envoyé par Cédric B.

As-tu essayé de créer un fichier XSLT permettant de transformer ton fichier Xml en html?

Non, J'avoue que je suis un peu perdu dans la procédure à utiliser, j'ai juste essayé un .xsl noté au dessus.

Pour info j'ai essayé

pdfinfo *.pdf
Producer: Python PDF Library - http://pybrary.net/pyPdf/
Tagged: no
Pages: 2
Encrypted: no
Page size: 595 x 842 pts (A4)
File size: 226722 bytes
Optimized: no
PDF version: 1.3

**isaric** · 29/11/2011, 20h47

En exemple, voila le type de document.pdf que je souhaite convertir en xml (pdftohtml -xml *.pdf le fais - bien ?- ) puis en HTML ?

D'avance merci pour votre aide.

Récupérer un pdf en html

XML/XSL et SOAP

Vue hybride

Discussions similaires

Partager

Partager