Bonjour,
Je ne sais pas trop ou poster ce sujet, alors je me lance
J'ai un document Word (que je reçois depuis un tiers), ce document est organisé de manière assez logique et je souhaiterai récupérer le contenu de ce document en le parsant, pour pouvoir extraire le contenu du document et l'insérer dans ma base de données.
Ce que j'ai déjà tenté:
->Enregistrer le .doc en .htm et le parcourir via mon appli web. Cependant, je me heurte à des incohérences dans le code html généré par word (oh que c'est étonnant). Par exemple, pour deux memes titres, je n'ai pas le meme code de mise en page, et donc je n'ai pas de moyens logiques pour récupérer ces titres.
Par exemlpe dans un cas:
et plus loin pour un titre de même nature:
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3 <p class=MsoHeading7 style='background:yellow'><span lang=EN-GB style='font-size:10.0pt;text-transform:uppercase'>titre1</span></p>
Donc j'aimerais savoir si il n'y a pas d'outils existants ou une méthodologie pour faire ça au mieux.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2 <p class=MsoHeading7 style='background:yellow'><span style='font-size:10.0pt'>titre2</span></p>
Sinon bon tant pis, je ferai une moulinette avec cinquante conditions pour arriver à mes fins)
Merci d'avance et désolé si ce n'est pas le bon endroit pour poster ce message.
Partager