Bonjour,
J'arrive sans trop de difficulté à extraire le texte d'un PDF grâce à PDFBox, mais tous les exposants produisent des retours à la ligne avant et après.
Exemple : "le 1er septembre" devient
"le 1
er
septembre".
Y a-t-il moyen d'empêcher cela ?
Peut-on également conserver les passages en gras/italique grâce à des balises HTML ?
Merci d'avance.