IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Format d'échange (XML, JSON...) Java Discussion :

Conversion .doc => XML


Sujet :

Format d'échange (XML, JSON...) Java

  1. #1
    Membre du Club
    Inscrit en
    Juin 2008
    Messages
    8
    Détails du profil
    Informations forums :
    Inscription : Juin 2008
    Messages : 8
    Par défaut Conversion .doc => XML
    Bonjour à tous,

    Je fais appel àvotre aide car je suis étudiant en stage, et la boite ou je bosse me demande de faire une application Java qui permettrait de convertir des .doc en XML du type
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    <?xml version="1.0" encoding="UTF-8"?>
    <paragraphe>
    	<paragraphe align="LEFT">
    		<phrase><chunk font-name="Verdana" font-size="10" font-color="0x0B333C" font-style="normal">Relance n°1 pépé</chunk></phrase>
    	</paragraphe>
    	<paragraphe align="LEFT">
    		<phrase><chunk font-name="Verdana" font-size="10" font-color="0x0B333C" font-style="normal">Relance n°1 pépé</chunk></phrase>
    	</paragraphe>
    	<paragraphe align="LEFT">
    		<phrase><chunk font-name="Verdana" font-size="10" font-color="0x0B333C" font-style="normal">Relance n°1 pépé</chunk></phrase>
    	</paragraphe>
    	<paragraphe align="LEFT">
    		<phrase><chunk font-name="Verdana" font-size="10" font-color="0x0B333C" font-style="normal">Relance n°1 pépé</chunk></phrase>
    	</paragraphe>
    	<paragraphe align="LEFT">
    		<phrase><chunk font-name="Verdana" font-size="10" font-color="0x0B333C" font-style="normal">Relance n°1 pépé</chunk></phrase>
    	</paragraphe>
    	<paragraphe align="LEFT">
    		<phrase><chunk font-name="Verdana" font-size="10" font-color="0x0B333C" font-style="normal">Relance n°1 pépé</chunk></phrase>
    	</paragraphe>
    	<paragraphe align="LEFT">
    		<phrase><chunk font-name="Verdana" font-size="10" font-color="0x0B333C" font-style="normal">Relance n°1 pépé</chunk></phrase>
    	</paragraphe>
     
    </paragraphe>
    c'est à dire récupérer les paragraphes en conservant le style. Or j'ai commencé le Java cette année donc je ne possède que les bases et je n'ai jamais fait d'XML! Pouvais vous me donner des conseils sur les outils à utiliser, par où commencer etc etc Chaque conseil me sera utile au point où j'en suis! Merci d'avance

  2. #2
    Membre chevronné Avatar de djsnipe
    Inscrit en
    Mai 2008
    Messages
    440
    Détails du profil
    Informations forums :
    Inscription : Mai 2008
    Messages : 440
    Par défaut
    Citation Envoyé par thib57 Voir le message
    [...]je suis étudiant en stage, et la boite ou je bosse me demande de faire une application Java qui permettrait de convertir des .doc en XML [...]
    C'est une blague ? Déjà il te faudrait une librairie en Java capable de prendre en charge 100% de ce format de fichier propriétaire, le projet Apache POI souffre déjà .... ensuite les specs exactes du format XML de sortie, parce que tu vas rigoler avec les tableaux, les modes colonnes et autres joyeusetés !
    Limite, converti tes doc en docx (format word 2007), c'est déjà un XML, et au moins le format est documenté, enfin, pour celui qui à bien envie de se taper les specs du format .... Ensuite il faut adapter le XML à ton format, soit par programmation, soit par une belle (!!!) feuille de style avec une transformation XSLT.
    http://en.wikipedia.org/wiki/Office_Open_XML

    Non aller, sans rire, c'est un poisson d'avril ?

  3. #3
    Membre du Club
    Inscrit en
    Juin 2008
    Messages
    8
    Détails du profil
    Informations forums :
    Inscription : Juin 2008
    Messages : 8
    Par défaut
    J'aurai préféré que ce soit un poisson d'Avril Malheureusement ce n'en est pas un. Et je ne peu pas utiliser word puisque le but final de cette application est de traiter automatiquement des fichiers.doc pour les convertir en xml pour qu'il soient utilisables dans un enorme projet, donc pas de conversion en docx.
    Effectivement d'apre tout ce que j'ai lu POI n'a pas l'air très stable et sans parler de recupéré le style d'écriture. Je crois que j'ai plus qu'une seule chose a faire, leur montrer que c'est impossible ca craind. Si quelqu'un a une solution ou du moins un bout de solution je suis preneur! Merci pour ta réponse rapide tout de même!

  4. #4
    Membre chevronné Avatar de djsnipe
    Inscrit en
    Mai 2008
    Messages
    440
    Détails du profil
    Informations forums :
    Inscription : Mai 2008
    Messages : 440
    Par défaut
    Un gros système qui prend en entrée des documents Word pour les traiter, c'est toujours dangereux. Soit tu utilises un moteur d'indexation qui prend en charge et là c'est tranquille, mais faire à la main ...
    Attention à bien faire borner les fichiers à traiter en entrée : version des fichiers doc, structure des documents simples. Je te conseille de proposer de faire un prototype avec une librairie comme POI et de montrer les limites, en avertissant tout de suite du danger de traiter automatiquement du .doc. Qu'en penses le responsable technique de ton projet ???

  5. #5
    Membre du Club
    Inscrit en
    Juin 2008
    Messages
    8
    Détails du profil
    Informations forums :
    Inscription : Juin 2008
    Messages : 8
    Par défaut
    Ok de toutes façons les documents word sont tres simples, ce sont justes des paragraphes qu'il faudrait retranscrire en XML. J'ai vu qu'il était possible de recupéré du texte avec POI mais est-il possible de choppé le style aussi (police taille gras ou pas ...). Sinon pour la 2ieme partie du boulot quelqu'un pourrai m'indiquer avec quoi je peut générer un document XML?
    Merci d'avance

  6. #6
    Modérateur
    Avatar de dinobogan
    Homme Profil pro
    ingénieur
    Inscrit en
    Juin 2007
    Messages
    4 073
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France

    Informations professionnelles :
    Activité : ingénieur
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2007
    Messages : 4 073
    Par défaut
    Le XML est un ensemble de balises ouvrante/fermante. Toute balise ouverte doit être fermée, et il faut fermer les balises dans l'ordre inverse de leur ouverture. Et c'est tout
    Ensuite, c'est à toi de décider des balises, leurs attributs possibles, des imbrications. C'est du texte, tu es libre !
    Je te laisse fouiller dans la FAQ et les tutoriels pour les API.
    Bon courage !
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java
    Que la force de la puissance soit avec le courage de ta sagesse.

  7. #7
    Membre du Club
    Inscrit en
    Juin 2008
    Messages
    8
    Détails du profil
    Informations forums :
    Inscription : Juin 2008
    Messages : 8
    Par défaut
    Oui je commence a comprendre, donc en fait je peux générer un document XML comme un .txt sauf que j'écris du XML dedans? Et toujours la meme chose si quelqu'un sait comment on peut recupérer la font, l'alignement etc etc dans le .doc ce serait gentil de prendre 5 min pour m'expliquer!

  8. #8
    Membre chevronné Avatar de djsnipe
    Inscrit en
    Mai 2008
    Messages
    440
    Détails du profil
    Informations forums :
    Inscription : Mai 2008
    Messages : 440
    Par défaut
    Citation Envoyé par thib57 Voir le message
    Oui je commence a comprendre, donc en fait je peut générer un document XML comme un .txt sauf que j'écris du XML dedans?
    Non, il existe des API où tu peux directement dire ajouter un noeud "toto" au document et tu auras directement <toto></toto> en sortie.

    Citation Envoyé par thib57 Voir le message
    Et toujours la meme chose si quelqu'un sait comment on peut recupérer la font, l'alignement etc etc dans le .doc ce serait gentil de prendre 5 min pour m'expliquer!

    Là je ne sais pas, voir la doc POI si tu utilises cette lib.

  9. #9
    Modérateur
    Avatar de dinobogan
    Homme Profil pro
    ingénieur
    Inscrit en
    Juin 2007
    Messages
    4 073
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France

    Informations professionnelles :
    Activité : ingénieur
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2007
    Messages : 4 073
    Par défaut
    Citation Envoyé par djsnipe Voir le message
    Non, il existe des API où tu peux directement dire ajouter un noeud "toto" au document et tu auras directement <toto></toto> en sortie.
    Donc oui
    On peut passer par une API, mais on peux aussi écrire tout manuellement. Tout dépend des contraintes du projet et des préférences du réalisateur.
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java
    Que la force de la puissance soit avec le courage de ta sagesse.

  10. #10
    Membre du Club
    Inscrit en
    Juin 2008
    Messages
    8
    Détails du profil
    Informations forums :
    Inscription : Juin 2008
    Messages : 8
    Par défaut
    Hello et merci pour toutes ces réponses. Une petit poste pour vous dire que j'ai avancé je recupère le texte, j'ai la taille de la police, le style gras ou non italique ou non... il me reste juste la police a trouvé. Pour le fichier XML je crois que je vais l'ecrire comme un fichier texte etant donné qu'il n'est pas tres compliqué ca devrait passé. Donc si quelqu'un sais comment on recupère la police merci de me l'indiquer!

  11. #11
    Membre averti
    Inscrit en
    Février 2006
    Messages
    14
    Détails du profil
    Informations forums :
    Inscription : Février 2006
    Messages : 14
    Par défaut Merci de nous faire partager ta solution
    Hé oui. 1 an plus tard je rencontre pratiquement le même problème que toi.
    Si tu te souviens de la solution, merci de me venir en aide (et à d'autres personnes certainement par la même occasion).

  12. #12
    Membre Expert
    Profil pro
    Inscrit en
    Septembre 2006
    Messages
    1 466
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2006
    Messages : 1 466
    Par défaut
    Personnellement tous mes traitements passent par le format XML de Word, le WordML disponible depuis la version 2003.
    Par contre je n'ai jamais eu à faire de conversion massive de doc vers WordML. Si jamais je devais le faire, je pense que je le ferai en C# pour piloter MSWord, c'est peut être même faisable en macro VB.

Discussions similaires

  1. [DOM XML] Conversion formulaire en XML
    Par Badaboumpanpan dans le forum Bibliothèques et frameworks
    Réponses: 11
    Dernier message: 25/05/2006, 15h39
  2. Ouvrir un .doc ou .xml sur un lecteur réseau
    Par rteuteu55 dans le forum Balisage (X)HTML et validation W3C
    Réponses: 3
    Dernier message: 07/02/2006, 15h46
  3. [WORD-->XML]Transformation .doc en .xml
    Par Hoegaarden dans le forum XML/XSL et SOAP
    Réponses: 14
    Dernier message: 30/08/2005, 12h05

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo