Bonjour,
Je souhaite transformer un fichier .pdf en html

J'ai testé du côté de
pdftohtml -c *.pdf
, mais le résultat n'est pas satisfaisant à cause d'espaces apparents un peu partout sur une page de 3 colonnes.

Y a t-il une chance avec une commande
pdftohtml -xml *.pdf
?

J'obtiens un fichier .xml auquel je rajoute au début la ligne 2. Il y a seulement 2 types de balises fontspec et text :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="5.xsl"?> 
<!DOCTYPE pdf2xml SYSTEM "pdf2xml.dtd">
 
<pdf2xml>
<page>
   	<fontspec ....
...
<text top="4...
...
</page>
</pdf2xml>
Est-ce possible de retrouver le fichier de départ en html ? créer un fichier 5.xsl contenant :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
<?xml version="1.0" encoding="UTF-8"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
 
<!--  -->
 
<xsl:template match="text()"><xsl:value-of select="."/>
 
 
  <html>
    <head>
      <title>Exemple de sortie HTML</title>
      <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
    </head>
    <body>
<xsl:value-of select="pdf2xml" />  
 
 
    </body>
  </html>
 
 
</xsl:template>
 
</xsl:stylesheet>
Mais tout apparaît à la suite sans la mise en page originale ? est-ce possible de retrouver la mise en page originale ?
d'avance merci.