IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bibliothèques et frameworks PHP Discussion :

[Word] Récupérer le contenu d'un document


Sujet :

Bibliothèques et frameworks PHP

  1. #1
    Membre expérimenté

    Profil pro
    Inscrit en
    Octobre 2002
    Messages
    1 138
    Détails du profil
    Informations personnelles :
    Âge : 44
    Localisation : France, Rhône (Rhône Alpes)

    Informations forums :
    Inscription : Octobre 2002
    Messages : 1 138
    Points : 1 504
    Points
    1 504
    Par défaut [Word] Récupérer le contenu d'un document
    Bonjour,
    Je ne sais pas trop ou poster ce sujet, alors je me lance
    J'ai un document Word (que je reçois depuis un tiers), ce document est organisé de manière assez logique et je souhaiterai récupérer le contenu de ce document en le parsant, pour pouvoir extraire le contenu du document et l'insérer dans ma base de données.

    Ce que j'ai déjà tenté:

    ->Enregistrer le .doc en .htm et le parcourir via mon appli web. Cependant, je me heurte à des incohérences dans le code html généré par word (oh que c'est étonnant). Par exemple, pour deux memes titres, je n'ai pas le meme code de mise en page, et donc je n'ai pas de moyens logiques pour récupérer ces titres.
    Par exemlpe dans un cas:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
     
    <p class=MsoHeading7 style='background:yellow'><span lang=EN-GB
    style='font-size:10.0pt;text-transform:uppercase'>titre1</span></p>
    et plus loin pour un titre de même nature:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    <p class=MsoHeading7 style='background:yellow'><span style='font-size:10.0pt'>titre2</span></p>
    Donc j'aimerais savoir si il n'y a pas d'outils existants ou une méthodologie pour faire ça au mieux.

    Sinon bon tant pis, je ferai une moulinette avec cinquante conditions pour arriver à mes fins )

    Merci d'avance et désolé si ce n'est pas le bon endroit pour poster ce message.

  2. #2
    Membre émérite
    Avatar de DelphiManiac
    Homme Profil pro
    Homme à tout faire
    Inscrit en
    Mars 2002
    Messages
    1 147
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 60
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Homme à tout faire
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mars 2002
    Messages : 1 147
    Points : 2 533
    Points
    2 533
    Par défaut
    Il est vrai que les lignes sont différentes, mais as tu besoin de gérer ces différences ?

    A priori, un titre, c'est une balise '<p' suivi d'un attribut 'class=MsoHeading7', l'attribut style tu l'ignores. La balise span, tu peux l'ignorer et récupérer le titre dans les deux cas.

    Donc tu parcours ton document à la recherche de balises 'p' de classe 'class=MsoHeading7' et tu as tes titres.
    Si ce message vous a semblé utile, il est possible qu'il soit utile à d'autres personnes. Pensez au . Et n'oubliez pas le le moment venu !

    On n'a pas à choisir si l'on est pour ou contre la décroissance, elle est inéluctable, elle arrivera qu'on le veuille ou non.

  3. #3
    Membre expérimenté

    Profil pro
    Inscrit en
    Octobre 2002
    Messages
    1 138
    Détails du profil
    Informations personnelles :
    Âge : 44
    Localisation : France, Rhône (Rhône Alpes)

    Informations forums :
    Inscription : Octobre 2002
    Messages : 1 138
    Points : 1 504
    Points
    1 504
    Par défaut
    Merci de ta réponse.
    C'est ce que j'ai fait et j'ai réussi à récupérer certaine partie du documet correctement. Cependant, il y a des parties où il est difficile de récupérer les infos car graphiquement, il n'y a que d'infimes différences qui diffèrent en plus, au fil du document.

    D'ailleurs, je suis sur le point de laisser tomber ce projet parce que je me rends compte que depuis le temps, je ferai presque aussi vite à la main.

Discussions similaires

  1. Récupérer le contenu du dossier documents
    Par Yepazix dans le forum Windows
    Réponses: 1
    Dernier message: 17/04/2013, 13h11
  2. Moyen rapide de récupérer le contenu d'un document sur le web?
    Par lysandre dans le forum Général Conception Web
    Réponses: 0
    Dernier message: 01/04/2008, 13h47
  3. [Word] Récupérer le contenu d'un doc Word (text/image) -> sauvegarder en HTML
    Par budylove dans le forum Bibliothèques et frameworks
    Réponses: 1
    Dernier message: 22/05/2006, 15h51
  4. [Système] Afficher le contenu d'un document word
    Par SandraG dans le forum Langage
    Réponses: 10
    Dernier message: 02/03/2006, 15h37
  5. [Word] Afficher le contenu d’un document Word
    Par Furius dans le forum Bibliothèques et frameworks
    Réponses: 14
    Dernier message: 30/11/2005, 15h39

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo