Bonjour,
J'ai un problème qui s'agit de chercher des expression régulières (Regex) dans les fichiers PDF en utilisant les classes Regex de Java.
Au début, j'avais utilisé PDFbox d'apache pour convertir le fichier PDF en text et ensuite c'est facile de chercher les regex sur un fichier textuel.
Pourtant, les choses ne se facilitent pas !!! j'ai des Regex qui correspond aux textes formatés. Je m'explique, par exemple un Regex qui essaie de récupérer un tableau.
Dans ces cas la, quand on convertisse le pdf en txt, on perd les mise en page et du coup les regex qui était concu selon ce qu'on voit dans le pdf ne fonctionne plus.
Alors, est-ce qu'il y a un moyen pour chercher des Regex dans un PDF par Java ?
Ou, comment convertir un PDF en text en gardant les mises en page et le format de texte ??
Merci d'avance.
Hassan
Partager