Bonjour à vous tous en cette belle matinée
Voila j ai une petite question, evidement sinon je ne serai pas la.
Je dois, pour mon boulot, recuperer des informations contenues dans un pdf.On me demande de les extraire tout dabord en html, puis de les traiter pour pouvoir facilement acceder au données.
Pour etre plus precis, ce sont des tableaux avec des cases, beaucoup de cases.Et lors de la transformation pdf vers html, les données ne sont pas toujours bien "rangées".Pour peu que certaines cases soient margées, c est mort, la conversion decale toutes mes autres cases.
Le but est de pouvoir identifier facilement les données pertinentes, par exemple entre deux balises, et de pouvoir soit les mettre dans une base de donnée, soit en refaire un autre document.
Deux questions donc :
- Existe t il un logiciel qui "pdf to html" vraiment robuste ? ( de preference gratuit, ma boite n aime pas trop payer, mais si vous avez tester des payants je suis tout ouie quand meme)
- Avec quoi puis je traiter mon html ? ( feuille de style ? xml ou autre? je n y connais pas grand chose mais je m y pencherai avec joie pour peu que cela vaille le coup)
Merci de votre aide et de vos conseils
Delta07
Partager