IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Documents Java Discussion :

Extraire le texte d'un PDF et le mettre dans Excel


Sujet :

Documents Java

  1. #1
    Membre actif Avatar de kalina
    Femme Profil pro
    Développeur Java
    Inscrit en
    Avril 2009
    Messages
    220
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Algérie

    Informations professionnelles :
    Activité : Développeur Java

    Informations forums :
    Inscription : Avril 2009
    Messages : 220
    Points : 293
    Points
    293
    Par défaut Extraire le texte d'un PDF et le mettre dans Excel
    Bonjour les développeurs,

    J'ai besoin de votre aide pour extraire le texte d'un certain nombre de documents PDF et l'enregistrer dans un fichier Excel ou une base de données.
    Quelle librairie dois-je utiliser? et par où il faut commencer?

    Merci de votre aide!

  2. #2
    Membre expert

    Homme Profil pro
    Consultant informatique
    Inscrit en
    Janvier 2004
    Messages
    2 301
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Suisse

    Informations professionnelles :
    Activité : Consultant informatique
    Secteur : Finance

    Informations forums :
    Inscription : Janvier 2004
    Messages : 2 301
    Points : 3 675
    Points
    3 675
    Par défaut
    Avec PDFBox pour extraire le texte:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    		<dependency>
    			<groupId>org.apache.pdfbox</groupId>
    			<artifactId>pdfbox</artifactId>
    			<version>1.8.9</version>
    		</dependency>
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    		PDFParser parser = null;
    		PDDocument pdDoc = null;
    		COSDocument cosDoc = null;
     
    		try {
    			parser = new PDFParser(new FileInputStream(new File(filename)));
    			parser.parse();
    			cosDoc = parser.getDocument();
    			PDFTextStripper pdfStripper = new PDFTextStripper();
    			pdDoc = new PDDocument(cosDoc);
    			return pdfStripper.getText(pdDoc);
    		} finally {
    			if (cosDoc != null) {
    				try {
    					cosDoc.close();
    				} catch (Exception e) {
    					e.printStackTrace();
    				}
    			}
    			if (pdDoc != null) {
    				try {
    					pdDoc.close();
    				} catch (Exception e) {
    					e.printStackTrace();
    				}
    			}
    		}
    pour injecter dans excel, tu as POI:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    		<dependency>
    			<groupId>org.apache.poi</groupId>
    			<artifactId>poi-ooxml</artifactId>
    			<version>3.11</version>
    		</dependency>
    et le tuto de base: http://poi.apache.org/spreadsheet/qu...ml#CreateCells

    "Le plug gros problème des citations trouvées sur internet, c'est qu'on ne peut jamais garantir leur authenticité"

    Confucius, 448 av. J-C

  3. #3
    Membre actif Avatar de kalina
    Femme Profil pro
    Développeur Java
    Inscrit en
    Avril 2009
    Messages
    220
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Algérie

    Informations professionnelles :
    Activité : Développeur Java

    Informations forums :
    Inscription : Avril 2009
    Messages : 220
    Points : 293
    Points
    293
    Par défaut
    Bonjour,

    Merci Pill_S pour ton aide, je vais explorer tout ça!

Discussions similaires

  1. Réponses: 7
    Dernier message: 21/11/2013, 16h00
  2. [Toutes versions] Extraire du texte d'un pdf et l'importer dans un tableau Excel (VBA)
    Par speedfree dans le forum Macros et VBA Excel
    Réponses: 5
    Dernier message: 06/12/2010, 09h03
  3. [FPDF] Extraire le texte d'un pdf
    Par SandraG dans le forum Bibliothèques et frameworks
    Réponses: 13
    Dernier message: 08/10/2009, 14h48
  4. Extraire le texte d'un pdf avec PdfBox en C#
    Par nadabb dans le forum C#
    Réponses: 10
    Dernier message: 28/05/2009, 21h00
  5. Extraire du texte d'un PDF avec layout.
    Par zedtux dans le forum VB 6 et antérieur
    Réponses: 3
    Dernier message: 09/04/2008, 15h37

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo