Précédent   Forum des professionnels en informatique > PHP > Bibliothèques et frameworks > Bureautique
Bureautique Forum d'entraide sur la gestion dynamique de documents de bureautique (Word, Excel, OpenOffice...) avec PHP. Avant de poster -> Cours Excel, FAQ OpenXML, FAQ OpenDocument
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 29/08/2007, 15h19   #1
Membre Expert
 
Inscription : octobre 2002
Messages : 1 141
Détails du profil
Informations personnelles :
Âge : 32
Localisation : France, Rhône (Rhône Alpes)

Informations forums :
Inscription : octobre 2002
Messages : 1 141
Points : 1 204
Points : 1 204
Envoyer un message via MSN à Raideman
Par défaut [Word] Récupérer le contenu d'un document WORD

Bonjour,
Je ne sais pas trop ou poster ce sujet, alors je me lance
J'ai un document Word (que je reçois depuis un tiers), ce document est organisé de manière assez logique et je souhaiterai récupérer le contenu de ce document en le parsant, pour pouvoir extraire le contenu du document et l'insérer dans ma base de données.

Ce que j'ai déjà tenté:

->Enregistrer le .doc en .htm et le parcourir via mon appli web. Cependant, je me heurte à des incohérences dans le code html généré par word (oh que c'est étonnant). Par exemple, pour deux memes titres, je n'ai pas le meme code de mise en page, et donc je n'ai pas de moyens logiques pour récupérer ces titres.
Par exemlpe dans un cas:
Code :
1
2
3
 
<p class=MsoHeading7 style='background:yellow'><span lang=EN-GB
style='font-size:10.0pt;text-transform:uppercase'>titre1</span></p>
et plus loin pour un titre de même nature:
Code :
1
2
 
<p class=MsoHeading7 style='background:yellow'><span style='font-size:10.0pt'>titre2</span></p>
Donc j'aimerais savoir si il n'y a pas d'outils existants ou une méthodologie pour faire ça au mieux.

Sinon bon tant pis, je ferai une moulinette avec cinquante conditions pour arriver à mes fins )

Merci d'avance et désolé si ce n'est pas le bon endroit pour poster ce message.
Raideman est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 04/09/2007, 17h05   #2
Membre chevronné
 
Inscription : mars 2002
Messages : 611
Détails du profil
Informations personnelles :
Âge : 48
Localisation : France, Var (Provence Alpes Côte d'Azur)

Informations forums :
Inscription : mars 2002
Messages : 611
Points : 761
Points : 761
Il est vrai que les lignes sont différentes, mais as tu besoin de gérer ces différences ?

A priori, un titre, c'est une balise '<p' suivi d'un attribut 'class=MsoHeading7', l'attribut style tu l'ignores. La balise span, tu peux l'ignorer et récupérer le titre dans les deux cas.

Donc tu parcours ton document à la recherche de balises 'p' de classe 'class=MsoHeading7' et tu as tes titres.
DelphiManiac est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 04/09/2007, 17h07   #3
Membre Expert
 
Inscription : octobre 2002
Messages : 1 141
Détails du profil
Informations personnelles :
Âge : 32
Localisation : France, Rhône (Rhône Alpes)

Informations forums :
Inscription : octobre 2002
Messages : 1 141
Points : 1 204
Points : 1 204
Envoyer un message via MSN à Raideman
Merci de ta réponse.
C'est ce que j'ai fait et j'ai réussi à récupérer certaine partie du documet correctement. Cependant, il y a des parties où il est difficile de récupérer les infos car graphiquement, il n'y a que d'infimes différences qui diffèrent en plus, au fil du document.

D'ailleurs, je suis sur le point de laisser tomber ce projet parce que je me rends compte que depuis le temps, je ferai presque aussi vite à la main.
Raideman est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 23h00.


 
 
 
 
Partenaires

Hébergement Web