Bonjour,
pour extraire le text d'un fichier PDF j'utilise la librairie PDFBox qui me donne le texte en brut. Avant de sortir le texte j'aimerais le formater un peu plus pour par exemple mettre le texte d'un même paragraphe sur une seule ligne le souci c'est que le format PDF ajoute des retours chariots à chaque fin de ligne pour mettre en forme un paragraphe de la même manière que le fichier original (fichier word par exemple). Donc mon système de suppression de retours chariots ne fonctionne pas et je ne vois pas quoi mettre en oeuvre pour avoir une solution générique.
Il faut par exemple que pour l'exemple suivant :
que le fichier texte après formatage soit :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5 Ceci est un paragraphe dans lequel je souhaite supprimer les retours chariots pour pouvoir le mettre sur une ligne mais je dois également garder les énumérations de ce type : - enum 1 - enum 2...
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3 Ceci est un paragraphe dans lequel je souhaite supprimer les retours chariots pour pouvoir le mettre sur une ligne mais je dois également garder les énumérations de ce type : - enum 1 - enum 2...
Merci d'avance de votre aide....
Partager