IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage PHP Discussion :

[Système] Lecture du contenu d'un PDF


Sujet :

Langage PHP

  1. #1
    Membre à l'essai
    Inscrit en
    Juin 2002
    Messages
    25
    Détails du profil
    Informations forums :
    Inscription : Juin 2002
    Messages : 25
    Points : 16
    Points
    16
    Par défaut [Système] Lecture du contenu d'un PDF
    Bonjour,

    La discussion a été maintes fois posée sur le forum, mais il ne semble pas avoir eu une reponse satisfaisante.

    Je reviens donc pour savoir s'il est possible de lire le contenu d'un fichier PDF quelconque et d'en extraire une ligne bien précise ?

    Je le fais bien quand il s'agit d'un .DOC, .HTM avec fopen() et fgets(). Mais quand j'utilise cette methode pour les PDF, le script me renvoie une ligne de caracteres bizares.

    Merci.

  2. #2
    Membre éclairé Avatar de nako
    Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Août 2003
    Messages
    577
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur développement logiciels

    Informations forums :
    Inscription : Août 2003
    Messages : 577
    Points : 663
    Points
    663
    Par défaut
    Salut,
    il existe des librairies spécialement conçues pour le PDF :
    as-tu regardé du côté de PDFLib et de FPDF ?
    Ces librairies sont capables de créer des documents PDF, donc j'imagine qu'elles sont aussi capables de les lire !?!
    a+

  3. #3
    Membre à l'essai
    Inscrit en
    Juin 2002
    Messages
    25
    Détails du profil
    Informations forums :
    Inscription : Juin 2002
    Messages : 25
    Points : 16
    Points
    16
    Par défaut
    Ok je vais voir encore, sinon j'avais déja fait un tour de ce coté

  4. #4
    Membre régulier
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Janvier 2006
    Messages
    48
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 55
    Localisation : Belgique

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : Administration - Collectivité locale

    Informations forums :
    Inscription : Janvier 2006
    Messages : 48
    Points : 72
    Points
    72
    Par défaut
    Tu peux toujours essayer de convertir ton pdf en texte avec un outil comme pdftotext et puis exploiter ce fichier texte.
    (voir tuto de cafeine, je pense de mémoire)

  5. #5
    Membre à l'essai
    Inscrit en
    Juin 2002
    Messages
    25
    Détails du profil
    Informations forums :
    Inscription : Juin 2002
    Messages : 25
    Points : 16
    Points
    16
    Par défaut
    Je crains que la conversion du fichier ralentisse le processus car il s'agit d'un script de moteur de recherche par mot clé sur un intranet, et cette recherche s'effectue sur un dossier contenant plus de 1000 fichiers.

  6. #6
    Membre éprouvé Avatar de FCYPBA
    Profil pro
    Inscrit en
    Novembre 2004
    Messages
    745
    Détails du profil
    Informations personnelles :
    Âge : 45
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Novembre 2004
    Messages : 745
    Points : 952
    Points
    952
    Par défaut
    Si c'est pour de la recherche de texte ( en francais je suppose ), alors tu peux essayer d'ouvrir les fichiers via fopen.
    Pierre
    1. Dans le manuel ( PHP, MySQL,..., rayez la mention inutile), tu te plongeras à deux fois plutôt qu'aucune.
    2. Dans la doc php, tu liras attentivement les sections Chaines de caractères, Tableaux et Système de fichiers
    3. Un code rapide c'est bien, un code maintenable c'est mieux
    ...

    Why was the font tag an orphan ? Because it didn't have a font-family.

  7. #7
    Membre à l'essai
    Inscrit en
    Juin 2002
    Messages
    25
    Détails du profil
    Informations forums :
    Inscription : Juin 2002
    Messages : 25
    Points : 16
    Points
    16
    Par défaut
    J'utilise bien fopen() et fgets() mais au lieu de me renvoyer une ligne normale, il affiche toute autre chose.

    Exemple :
    Si l'utilisateur demande d'afficher le nom des fichiers et une ligne du fichier dans lequel on retrouve la mot re on aura :

    Nom du fichier trouvé : UnFichier.pdf
    Ligne recupérée : << /Length 2 0 R

  8. #8
    Membre éprouvé Avatar de FCYPBA
    Profil pro
    Inscrit en
    Novembre 2004
    Messages
    745
    Détails du profil
    Informations personnelles :
    Âge : 45
    Localisation : France, Paris (Île de France)

    Informations forums :
    Inscription : Novembre 2004
    Messages : 745
    Points : 952
    Points
    952
    Par défaut
    Ah oui effectievement si tu veux afficher la ligne trouvé, cela devient un peu plus compliqué. Il faudrait que tu traites les caractères spécifiques au formatage PDF.

    Sinon, il me semble qu'avec une des librairies citées plus haut, tu peux ouvrir un pdf. Par contre, cela sera un peu plus long qu'un vulgaire fopen. Instanciation de l'objet et parcours des pages, etc...
    Pierre
    1. Dans le manuel ( PHP, MySQL,..., rayez la mention inutile), tu te plongeras à deux fois plutôt qu'aucune.
    2. Dans la doc php, tu liras attentivement les sections Chaines de caractères, Tableaux et Système de fichiers
    3. Un code rapide c'est bien, un code maintenable c'est mieux
    ...

    Why was the font tag an orphan ? Because it didn't have a font-family.

  9. #9
    Invité
    Invité(e)
    Par défaut
    Et est-ce que c'est envisageable pour toi d'indexer les fichiers (quand ils sont ajoutés, par exemple) afin d'aller plus vite dans les recherches futures ?

  10. #10
    Membre à l'essai
    Inscrit en
    Juin 2002
    Messages
    25
    Détails du profil
    Informations forums :
    Inscription : Juin 2002
    Messages : 25
    Points : 16
    Points
    16
    Par défaut
    On peut envisager d'indexer les fichiers à venir. Mais pour l'instant le probleme reside avec le millier de fichiers existants. Peut etre qu'en plongeant plus dans les librairies disponibles je trouverai quelque chose.

    En fait le dossier contient aussi quelques fichiers .DOC, mais je n'arrive pas a les ouvrir en lecture seule, voila pourquoi j'ai opté pour les PDF

Discussions similaires

  1. Piste pour lecture du contenu d'un PDF
    Par stegou dans le forum VB.NET
    Réponses: 5
    Dernier message: 26/11/2012, 23h44
  2. Réponses: 7
    Dernier message: 18/07/2011, 17h34
  3. [Système] Lecture de fichiers à travers PHP
    Par nicof3 dans le forum Langage
    Réponses: 6
    Dernier message: 23/05/2006, 10h08
  4. Réponses: 45
    Dernier message: 04/05/2006, 01h10
  5. [Système] Afficher le contenu d'un document word
    Par SandraG dans le forum Langage
    Réponses: 10
    Dernier message: 02/03/2006, 15h37

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo