[Java] Convertir un fichier PDF en fichier texte

**Djinner²** · 17/06/2008, 16h58

Bonjour à tous,

J'ai utilisé la librairie itext de Lowalgie pour pouvoir créer et manipuler des fichiers PDF sur Eclipse, via les méthodes et les objets qu'elle propose.
Mais maintenant est il possible que via cet librairie (ou une autre) de convertir un fichier PDF (avec plusieurs pages) en fichier texte (.txt, .doc, ou encore .rtf).

J'ai trouvé quelques bribes de codes sur internet mais rien de très utiles. Un m'a aidé à pouvoir convertir une page, mais en utilisant des librairies que je ne connais pas (http://forum.java.sun.com/thread.jsp...sageID=9851731), mais le problème c'est qu'il converti qu'une page, je n'arrive pas à concaténer les autres pages en faisant une boucle (en récupérant le nombre de pages), car il écrase en mémoire ce que j'avais inscrit dans le fichier rtf et écrit la dernière page...

J'ai regardé quelques logiciels, mais n'étant pas extrement fortiche en anglais et en programmation (plus déjà XD), j'ai eu du mal a comprendre leur fonctionnement (sur le site de pdf tools par exemple).

Donc si jamais vous avez une idée, un code, ou une modification à faire dans le code que je vous ai montré ce serait excellent !

Merci encore !

Djinner

**tongo** · 19/06/2008, 14h53

meme probleme

**diarbenn** · 19/06/2008, 16h40

Bonjour,

j'ai le même problème
j'ai réussi à extraire les textes de mon document pdf (qui fait plusieurs pages) avec pdfbox mais le résultat est un peu "brut"
si quelqu'un à des pistes, je prend

**loupat456** · 14/01/2017, 09h31

Envoyé par diarbenn

Bonjour,

j'ai le même problème
j'ai réussi à extraire les textes de mon document pdf (qui fait plusieurs pages) avec pdfbox mais le résultat est un peu "brut"
si quelqu'un à des pistes, je prend

Logiciel http://www.verypdf.com/app/pdf-to-tx...ter/index.html 38$ fonctionne trés bien en local en mode ligne de commande m^me sur les fichiers PDF diffiilce à convertir

**davidgriffon** · 14/02/2017, 08h22

Bonjour,

Dans DX ( un CMS java open source fait par Jahia ), nous utilisons TKA pour faire les extraction de texte de nos documents .. par contre je ne suis pas certain que ca garde la mise en forme.

https://www.tutorialspoint.com/tika/...acting_pdf.htm

C'est assez performant et pas trop compliqué a integrer

David

**Pill_S** · 14/02/2017, 10h07

http://stackoverflow.com/questions/1...ile-using-java

Avec PDFBox:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
 
public class Test {
public static void main(String args[]) {
    PDFParser parser = null;
    PDDocument pdDoc = null;
    COSDocument cosDoc = null;
    PDFTextStripper pdfStripper;
 
    String parsedText;
    String fileName = "myfile.pdf";
    File file = new File(fileName);
 
    try {
        parser = new PDFParser(new FileInputStream(file));
        parser.parse();
        cosDoc = parser.getDocument();
        pdfStripper = new PDFTextStripper();
        pdDoc = new PDDocument(cosDoc);
        parsedText = pdfStripper.getText(pdDoc);
        System.out.println(parsedText.replaceAll("[^A-Za-z0-9. ]+", ""));
    } catch (Exception e) {
        e.printStackTrace();
        try {
            if (cosDoc != null)
                cosDoc.close();
            if (pdDoc != null)
                pdDoc.close();
        } catch (Exception e1) {
            e.printStackTrace();
        }
    }
}
}

Avec TIKA:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
 
public class WebPagePdfExtractor {
 
public Map<String, Object> processRecord(String url) {
    DefaultHttpClient httpclient = new DefaultHttpClient();
    Map<String, Object> map = new HashMap<String, Object>();
    try {
        HttpGet httpGet = new HttpGet(url);
        HttpResponse response = httpclient.execute(httpGet);
        HttpEntity entity = response.getEntity();
        InputStream input = null;
                if (entity != null) {
                    try{
                        input = entity.getContent();
                        BodyContentHandler handler = new BodyContentHandler();
                        Metadata metadata = new Metadata();
                        AutoDetectParser parser = new AutoDetectParser();
                        ParseContext parseContext = new ParseContext();
                        parser.parse(input, handler, metadata, parseContext);
                        map.put("text", handler.toString().replaceAll("\n|\r|\t", " "));
                        map.put("title", metadata.get(TikaCoreProperties.TITLE));
                        map.put("pageCount", metadata.get("xmpTPg:NPages"));
                        map.put("status_code", response.getStatusLine().getStatusCode() + "");
                } catch (Exception e) {                     
                    e.printStackTrace();
                }finally{
                    if(input != null){
                        try {
                            input.close();
                        } catch (IOException e) {
                            e.printStackTrace();
                        }
                    }
                }
                }
            }catch (Exception exception) {
                exception.printStackTrace();
            }
    return map;
}
 
 public static void main(String arg[]){
    WebPagePdfExtractor webPagePdfExtractor = new WebPagePdfExtractor();
    Map<String, Object> extractedMap = webPagePdfExtractor.processRecord("http://math.about.com/library/q20.pdf");
    System.out.println(extractedMap.get("text"));
}
 
}

Mais surtout.... Google

[Java] Convertir un fichier PDF en fichier texte

EDI et Outils pour Java

Discussions similaires

Partager

Partager