IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Dotnet Discussion :

Bibliothèque Pdf ?


Sujet :

Dotnet

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre expérimenté
    Profil pro
    Inscrit en
    Septembre 2007
    Messages
    240
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2007
    Messages : 240
    Par défaut Bibliothèque Pdf ?
    Bonjour à tous,
    Je cherche a récupérer de façon automatisée des informations présentes dans un document Pdf.
    Je ne suis pas franchement motivé pour me plonger dans les peut-être 800 pages du descriptif (le tout en anglais …)
    Je me demandais s’il n’existait pas de bibliothèques gratuites tournant autour du format Pdf

  2. #2
    Membre émérite
    Homme Profil pro
    Développeur / architecte
    Inscrit en
    Juillet 2009
    Messages
    473
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Développeur / architecte

    Informations forums :
    Inscription : Juillet 2009
    Messages : 473
    Par défaut
    J'ai trouvé cet article... (utilisation de pdfBox pour .NET)

  3. #3
    Membre expérimenté
    Profil pro
    Inscrit en
    Septembre 2007
    Messages
    240
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2007
    Messages : 240
    Par défaut
    Merci beaucoup Chris !
    Sur les 3 solutions évoquées, y en a bien une qui devrait faire mon bonheur.
    Je suis actuellement sur un autre projet mais je reposterais dans qlq temps après avoir testé ...

  4. #4
    Membre expérimenté
    Profil pro
    Inscrit en
    Septembre 2007
    Messages
    240
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2007
    Messages : 240
    Par défaut
    Résolu ... avec iTextSharp (PdfBox marche aussi)
    Pour ceux que ca intéresse, voici le petit bout de code qui isole chaque "groupe de mots" par un saut de ligne :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
        Private Function ExtractionTextePdf(ByVal CheminFichier As String) As String
     
            Dim Lecteur As New iTextSharp.text.pdf.PdfReader(CheminFichier)
            Dim Donnees() As Byte = Nothing
            Dim Infos As iTextSharp.text.pdf.PRTokeniser = Nothing
            Dim Resultat As String = String.Empty
     
            For Page As Integer = 1 To Lecteur.NumberOfPages
                Donnees = Lecteur.GetPageContent(Page)
                If Not IsNothing(Donnees) Then
                    Infos = New iTextSharp.text.pdf.PRTokeniser(Donnees)
                    While Infos.NextToken
                        Select Case Infos.TokenType
                            Case iTextSharp.text.pdf.PRTokeniser.TokType.STRING : Resultat &= Infos.StringValue
                            Case iTextSharp.text.pdf.PRTokeniser.TokType.NAME : Resultat &= vbCrLf
                        End Select
                    End While
                End If
            Next
     
            Return Resultat.Trim
     
        End Function

  5. #5
    Nouveau candidat au Club
    Homme Profil pro
    Administrateur systèmes et réseaux
    Inscrit en
    Janvier 2013
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Maroc

    Informations professionnelles :
    Activité : Administrateur systèmes et réseaux
    Secteur : Finance

    Informations forums :
    Inscription : Janvier 2013
    Messages : 2
    Par défaut
    J'ai essayé ton code-ci mais je n'obtiens que les 2 ou 3 premieres lignes du pdf en texte. Est ce que le code est complet? Sinon peux tu maider pour une fonction qui me permet d'avoir tout le texte de la page ?


    --------------------------------------------------------------------
    Citation Envoyé par Totanne Voir le message
    Résolu ... avec iTextSharp (PdfBox marche aussi)
    Pour ceux que ca intéresse, voici le petit bout de code qui isole chaque "groupe de mots" par un saut de ligne :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
        Private Function ExtractionTextePdf(ByVal CheminFichier As String) As String
     
            Dim Lecteur As New iTextSharp.text.pdf.PdfReader(CheminFichier)
            Dim Donnees() As Byte = Nothing
            Dim Infos As iTextSharp.text.pdf.PRTokeniser = Nothing
            Dim Resultat As String = String.Empty
     
            For Page As Integer = 1 To Lecteur.NumberOfPages
                Donnees = Lecteur.GetPageContent(Page)
                If Not IsNothing(Donnees) Then
                    Infos = New iTextSharp.text.pdf.PRTokeniser(Donnees)
                    While Infos.NextToken
                        Select Case Infos.TokenType
                            Case iTextSharp.text.pdf.PRTokeniser.TokType.STRING : Resultat &= Infos.StringValue
                            Case iTextSharp.text.pdf.PRTokeniser.TokType.NAME : Resultat &= vbCrLf
                        End Select
                    End While
                End If
            Next
     
            Return Resultat.Trim
     
        End Function

  6. #6
    Expert confirmé Avatar de Graffito
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    5 993
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 993
    Par défaut
    Il me semble que la version Trial de TallComponents PdfControls.net permet de récupérer directement les données dans l'attribut Text du document.
    http://www.tallcomponents.com/pdfcontrols2.aspx

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 2
    Dernier message: 08/04/2015, 21h47
  2. Génération Graphiques & PDF: QUelle bibliothèque choisir ?
    Par Samax dans le forum Général Java
    Réponses: 2
    Dernier message: 17/06/2013, 18h50
  3. Bibliothèque de pdf
    Par dekidec dans le forum Autres Logiciels
    Réponses: 1
    Dernier message: 04/02/2010, 02h35
  4. Scanner une bibliothèque de fichiers pdf
    Par SpaceFrog dans le forum Langage
    Réponses: 2
    Dernier message: 30/09/2009, 12h16
  5. Bibliothèque qui n'accepte que du pdf
    Par Kris33 dans le forum SharePoint
    Réponses: 1
    Dernier message: 29/09/2007, 15h19

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo