Bonjour,
Je souhaite transformer un fichier .pdf en html
J'ai testé du côté de, mais le résultat n'est pas satisfaisant à cause d'espaces apparents un peu partout sur une page de 3 colonnes.pdftohtml -c *.pdf
Y a t-il une chance avec une commande?pdftohtml -xml *.pdf
J'obtiens un fichier .xml auquel je rajoute au début la ligne 2. Il y a seulement 2 types de balises fontspec et text :
Est-ce possible de retrouver le fichier de départ en html ? créer un fichier 5.xsl contenant :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12 <?xml version="1.0" encoding="UTF-8"?> <?xml-stylesheet type="text/xsl" href="5.xsl"?> <!DOCTYPE pdf2xml SYSTEM "pdf2xml.dtd"> <pdf2xml> <page> <fontspec .... ... <text top="4... ... </page> </pdf2xml>
Mais tout apparaît à la suite sans la mise en page originale ? est-ce possible de retrouver la mise en page originale ?
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24 <?xml version="1.0" encoding="UTF-8"?> <xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"> <!-- --> <xsl:template match="text()"><xsl:value-of select="."/> <html> <head> <title>Exemple de sortie HTML</title> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> </head> <body> <xsl:value-of select="pdf2xml" /> </body> </html> </xsl:template> </xsl:stylesheet>
d'avance merci.
Partager