IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

EDI et Outils pour Java Discussion :

[Java] Convertir un fichier PDF en fichier texte


Sujet :

EDI et Outils pour Java

  1. #1
    Membre à l'essai
    Inscrit en
    Juin 2008
    Messages
    20
    Détails du profil
    Informations forums :
    Inscription : Juin 2008
    Messages : 20
    Points : 11
    Points
    11
    Par défaut [Java] Convertir un fichier PDF en fichier texte
    Bonjour à tous,

    J'ai utilisé la librairie itext de Lowalgie pour pouvoir créer et manipuler des fichiers PDF sur Eclipse, via les méthodes et les objets qu'elle propose.
    Mais maintenant est il possible que via cet librairie (ou une autre) de convertir un fichier PDF (avec plusieurs pages) en fichier texte (.txt, .doc, ou encore .rtf).

    J'ai trouvé quelques bribes de codes sur internet mais rien de très utiles. Un m'a aidé à pouvoir convertir une page, mais en utilisant des librairies que je ne connais pas (http://forum.java.sun.com/thread.jsp...sageID=9851731), mais le problème c'est qu'il converti qu'une page, je n'arrive pas à concaténer les autres pages en faisant une boucle (en récupérant le nombre de pages), car il écrase en mémoire ce que j'avais inscrit dans le fichier rtf et écrit la dernière page...

    J'ai regardé quelques logiciels, mais n'étant pas extrement fortiche en anglais et en programmation (plus déjà XD), j'ai eu du mal a comprendre leur fonctionnement (sur le site de pdf tools par exemple).

    Donc si jamais vous avez une idée, un code, ou une modification à faire dans le code que je vous ai montré ce serait excellent !

    Merci encore !

    Djinner

  2. #2
    Membre régulier
    Inscrit en
    Mars 2008
    Messages
    109
    Détails du profil
    Informations forums :
    Inscription : Mars 2008
    Messages : 109
    Points : 99
    Points
    99
    Par défaut
    meme probleme

  3. #3
    Futur Membre du Club
    Profil pro
    Inscrit en
    Juillet 2006
    Messages
    6
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juillet 2006
    Messages : 6
    Points : 5
    Points
    5
    Par défaut
    Bonjour,

    j'ai le même problème
    j'ai réussi à extraire les textes de mon document pdf (qui fait plusieurs pages) avec pdfbox mais le résultat est un peu "brut"
    si quelqu'un à des pistes, je prend

  4. #4
    Membre à l'essai
    Profil pro
    Inscrit en
    Décembre 2012
    Messages
    38
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2012
    Messages : 38
    Points : 23
    Points
    23
    Par défaut
    Citation Envoyé par diarbenn Voir le message
    Bonjour,

    j'ai le même problème
    j'ai réussi à extraire les textes de mon document pdf (qui fait plusieurs pages) avec pdfbox mais le résultat est un peu "brut"
    si quelqu'un à des pistes, je prend
    Logiciel http://www.verypdf.com/app/pdf-to-tx...ter/index.html 38$ fonctionne trés bien en local en mode ligne de commande m^me sur les fichiers PDF diffiilce à convertir

  5. #5
    Candidat au Club
    Profil pro
    Inscrit en
    Juin 2012
    Messages
    2
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2012
    Messages : 2
    Points : 2
    Points
    2
    Par défaut
    Bonjour,

    Dans DX ( un CMS java open source fait par Jahia ), nous utilisons TKA pour faire les extraction de texte de nos documents .. par contre je ne suis pas certain que ca garde la mise en forme.

    https://www.tutorialspoint.com/tika/...acting_pdf.htm

    C'est assez performant et pas trop compliqué a integrer

    David

  6. #6
    Membre expert

    Homme Profil pro
    Consultant informatique
    Inscrit en
    Janvier 2004
    Messages
    2 301
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Suisse

    Informations professionnelles :
    Activité : Consultant informatique
    Secteur : Finance

    Informations forums :
    Inscription : Janvier 2004
    Messages : 2 301
    Points : 3 675
    Points
    3 675
    Par défaut
    http://stackoverflow.com/questions/1...ile-using-java

    Avec PDFBox:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
     
    public class Test {
    public static void main(String args[]) {
        PDFParser parser = null;
        PDDocument pdDoc = null;
        COSDocument cosDoc = null;
        PDFTextStripper pdfStripper;
     
        String parsedText;
        String fileName = "myfile.pdf";
        File file = new File(fileName);
     
        try {
            parser = new PDFParser(new FileInputStream(file));
            parser.parse();
            cosDoc = parser.getDocument();
            pdfStripper = new PDFTextStripper();
            pdDoc = new PDDocument(cosDoc);
            parsedText = pdfStripper.getText(pdDoc);
            System.out.println(parsedText.replaceAll("[^A-Za-z0-9. ]+", ""));
        } catch (Exception e) {
            e.printStackTrace();
            try {
                if (cosDoc != null)
                    cosDoc.close();
                if (pdDoc != null)
                    pdDoc.close();
            } catch (Exception e1) {
                e.printStackTrace();
            }
        }
    }
    }
    Avec TIKA:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
     
    public class WebPagePdfExtractor {
     
    public Map<String, Object> processRecord(String url) {
        DefaultHttpClient httpclient = new DefaultHttpClient();
        Map<String, Object> map = new HashMap<String, Object>();
        try {
            HttpGet httpGet = new HttpGet(url);
            HttpResponse response = httpclient.execute(httpGet);
            HttpEntity entity = response.getEntity();
            InputStream input = null;
                    if (entity != null) {
                        try{
                            input = entity.getContent();
                            BodyContentHandler handler = new BodyContentHandler();
                            Metadata metadata = new Metadata();
                            AutoDetectParser parser = new AutoDetectParser();
                            ParseContext parseContext = new ParseContext();
                            parser.parse(input, handler, metadata, parseContext);
                            map.put("text", handler.toString().replaceAll("\n|\r|\t", " "));
                            map.put("title", metadata.get(TikaCoreProperties.TITLE));
                            map.put("pageCount", metadata.get("xmpTPg:NPages"));
                            map.put("status_code", response.getStatusLine().getStatusCode() + "");
                    } catch (Exception e) {                     
                        e.printStackTrace();
                    }finally{
                        if(input != null){
                            try {
                                input.close();
                            } catch (IOException e) {
                                e.printStackTrace();
                            }
                        }
                    }
                    }
                }catch (Exception exception) {
                    exception.printStackTrace();
                }
        return map;
    }
     
     public static void main(String arg[]){
        WebPagePdfExtractor webPagePdfExtractor = new WebPagePdfExtractor();
        Map<String, Object> extractedMap = webPagePdfExtractor.processRecord("http://math.about.com/library/q20.pdf");
        System.out.println(extractedMap.get("text"));
    }
     
    }
    Mais surtout.... Google
    "Le plug gros problème des citations trouvées sur internet, c'est qu'on ne peut jamais garantir leur authenticité"

    Confucius, 448 av. J-C

Discussions similaires

  1. Convertir un fichier PDF en fichier CSV ?
    Par chcheibani dans le forum API standards et tierces
    Réponses: 1
    Dernier message: 14/10/2014, 16h10
  2. Convertir un fichier HTML en fichier PDF en ligne de commande
    Par koKoTis dans le forum Autres Logiciels
    Réponses: 6
    Dernier message: 15/06/2009, 23h06
  3. Réponses: 26
    Dernier message: 03/11/2008, 16h29
  4. Création fichier PDF : problème insertion texte HTML
    Par isazazou dans le forum Documents
    Réponses: 2
    Dernier message: 21/11/2006, 15h13

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo