1 pièce(s) jointe(s)
Extraire un tableau d'un PDF
Bonjour tout le monde !
Je suis en train d'essayer de faire un truc assez simple... Extraire un tableau d'un fichier PDF.
Je suis sous Linux, et donc j'ai des outils comme pdftotext pour m'aider.
Et ça fonctionne... presque :calim2:.
Je mets en PJ une image impression écran d'un extrait du pdf, et voici ce que je peux générer :
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
| Foliotation Numéros et dates retenues dans Dates retenues par Dates retenues par Dates proposées par
l'éd. A de Courson A. de La Borderie W. Davies H. Guillotel
1 n° I 832 832, juin un jeudi avant juin 832 832, 5 juin. - Redon.
puis un mercredi de juin 832
1r-v n° II 832, 18 juin = = (jeudi) = - Redon.
1 v 2. n° III 834, 20 juin = = (samedi) =
2-3 n° IV 834, 17 juin = = (mercredi) = - Le Faux en Six-sur-Aff.
3r-v n° V 833, 15 mai = = (jeudi) = - Augan.
3v-4 n° VI 833, 10 décembre = = (mercredi) =
4r-v n° VII 833, 9 février = = (dimanche) = - Redon.
4v-5 n° VIII 833, 26 octobre = = (dimanche) = - Carentoir.
5r-v n° IX 833 - 834 833, 29 janvier à 834, 28 janvier = 833, après le 28 janvier
834, avant le 27 janvier. - Ruffiac.
5v-6 n° X 833, 28 décembre = = (dimanche) =
6r-v n° XI 834, 27 janvier = = (mardi) 835, 27 janvier ?
6v-7 n° XII 834, 18 janvier = = (dimanche) = - Ruffiac.
7v-v n° XIII 837, 1er décembre 834, 28 novembre = (samedi) = |
Problème : j'ai des espaces pour délimiter mes colonnes, visuellement ça fonctionne, mais ce n'est pas facile à intégrer ensuite dans un tableau type openoffice.
Donc, plusieurs questions : sur l'image on voit des traits qui délimitent les colonnes, est-ce qu'il est envisageable de les retrouver ?
Sinon, peut-on (avec python bien sûr) lire et extraire un pdf comme pdftotext mais en ayant la maîtrise complète des caractères lus ?
Dans l'idéal, j'aurais voulu un csv, ou un délimiteur pour les colonnes, mais je n'y arrive pas...
Merci d'avance pour votre aide !
solution en ligne de commande
Bonjour,
Je vais me faire taper sur les doigts:oops: car je m'écarte de python, mais la demande initiale de progfou concernant linux, on peut remplacer le script de rambc par ce petit bout de code bash.
Cela donne un convertisseur pdf2csv qui tient en une ligne de commande :
Code:
pdftotext -layout fichier.pdf - | sed 's/ */;/g'