IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Java Discussion :

Regex et PDF ou PDF to txt en gardant les mises en pages


Sujet :

Java

  1. #1
    Nouveau membre du Club
    Profil pro
    Inscrit en
    Avril 2008
    Messages
    61
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Avril 2008
    Messages : 61
    Points : 39
    Points
    39
    Par défaut Regex et PDF ou PDF to txt en gardant les mises en pages
    Bonjour,
    J'ai un problème qui s'agit de chercher des expression régulières (Regex) dans les fichiers PDF en utilisant les classes Regex de Java.

    Au début, j'avais utilisé PDFbox d'apache pour convertir le fichier PDF en text et ensuite c'est facile de chercher les regex sur un fichier textuel.

    Pourtant, les choses ne se facilitent pas !!! j'ai des Regex qui correspond aux textes formatés. Je m'explique, par exemple un Regex qui essaie de récupérer un tableau.
    Dans ces cas la, quand on convertisse le pdf en txt, on perd les mise en page et du coup les regex qui était concu selon ce qu'on voit dans le pdf ne fonctionne plus.

    Alors, est-ce qu'il y a un moyen pour chercher des Regex dans un PDF par Java ?
    Ou, comment convertir un PDF en text en gardant les mises en page et le format de texte ??

    Merci d'avance.
    Hassan

  2. #2
    Modérateur

    Profil pro
    Inscrit en
    Septembre 2004
    Messages
    12 551
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2004
    Messages : 12 551
    Points : 21 608
    Points
    21 608
    Par défaut
    Si tu veux mon avis, tu ferais mieux de concevoir des regex qui ne dépendent pas de la mise en forme. Après tout, du texte, c'est du texte.

    Ce que tu essaies de faire n'est pas impossible en théorie, mais ça commence à ressembler à de la reconnaissance de forme. Immensément plus compliqué que le problème ne le justifie.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java

Discussions similaires

  1. composants delphi convertion PDF,DOC,PPT .. en TXT ?
    Par pragmatique dans le forum Composants VCL
    Réponses: 6
    Dernier message: 15/10/2011, 20h02
  2. [FPDF] problème de mise en page pdf sur choix checkbox
    Par faucon54 dans le forum Bibliothèques et frameworks
    Réponses: 6
    Dernier message: 12/05/2007, 14h24
  3. [Pdf] Impression pdf
    Par Vrylx dans le forum Documents
    Réponses: 6
    Dernier message: 20/04/2007, 19h59
  4. Mise en page PDF vers html avec tableaux et images
    Par guyoms dans le forum Mise en page CSS
    Réponses: 4
    Dernier message: 28/03/2007, 00h14
  5. [Acrobat] Imprimer un PDF en PDF
    Par steps5ive dans le forum Général JavaScript
    Réponses: 1
    Dernier message: 20/06/2006, 08h28

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo