|
Publicité ' | |||||||||||||||||||||||
|
|
#1 | ||||
|
Membre Expert
![]() |
Bonjour,
Je ne sais pas trop ou poster ce sujet, alors je me lance J'ai un document Word (que je reçois depuis un tiers), ce document est organisé de manière assez logique et je souhaiterai récupérer le contenu de ce document en le parsant, pour pouvoir extraire le contenu du document et l'insérer dans ma base de données. Ce que j'ai déjà tenté: ->Enregistrer le .doc en .htm et le parcourir via mon appli web. Cependant, je me heurte à des incohérences dans le code html généré par word (oh que c'est étonnant). Par exemple, pour deux memes titres, je n'ai pas le meme code de mise en page, et donc je n'ai pas de moyens logiques pour récupérer ces titres. Par exemlpe dans un cas: Code :
Code :
Sinon bon tant pis, je ferai une moulinette avec cinquante conditions pour arriver à mes fins Merci d'avance et désolé si ce n'est pas le bon endroit pour poster ce message. |
||||
|
|
00
|
|
|
#2 |
|
Membre chevronné
![]() Inscription : mars 2002 Messages : 611 ![]() |
Il est vrai que les lignes sont différentes, mais as tu besoin de gérer ces différences ?
A priori, un titre, c'est une balise '<p' suivi d'un attribut 'class=MsoHeading7', l'attribut style tu l'ignores. La balise span, tu peux l'ignorer et récupérer le titre dans les deux cas. Donc tu parcours ton document à la recherche de balises 'p' de classe 'class=MsoHeading7' et tu as tes titres. |
|
|
00
|
|
|
#3 |
|
Membre Expert
![]() |
Merci de ta réponse.
C'est ce que j'ai fait et j'ai réussi à récupérer certaine partie du documet correctement. Cependant, il y a des parties où il est difficile de récupérer les infos car graphiquement, il n'y a que d'infimes différences qui diffèrent en plus, au fil du document. D'ailleurs, je suis sur le point de laisser tomber ce projet parce que je me rends compte que depuis le temps, je ferai presque aussi vite à la main. |
|
|
00
|
Copyright © 2000-2012 - www.developpez.com