IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Format d'échange (XML, JSON...) Java Discussion :

Conversion .doc => XML


Sujet :

Format d'échange (XML, JSON...) Java

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre du Club
    Inscrit en
    Juin 2008
    Messages
    8
    Détails du profil
    Informations forums :
    Inscription : Juin 2008
    Messages : 8
    Par défaut Conversion .doc => XML
    Bonjour à tous,

    Je fais appel àvotre aide car je suis étudiant en stage, et la boite ou je bosse me demande de faire une application Java qui permettrait de convertir des .doc en XML du type
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    <?xml version="1.0" encoding="UTF-8"?>
    <paragraphe>
    	<paragraphe align="LEFT">
    		<phrase><chunk font-name="Verdana" font-size="10" font-color="0x0B333C" font-style="normal">Relance n°1 pépé</chunk></phrase>
    	</paragraphe>
    	<paragraphe align="LEFT">
    		<phrase><chunk font-name="Verdana" font-size="10" font-color="0x0B333C" font-style="normal">Relance n°1 pépé</chunk></phrase>
    	</paragraphe>
    	<paragraphe align="LEFT">
    		<phrase><chunk font-name="Verdana" font-size="10" font-color="0x0B333C" font-style="normal">Relance n°1 pépé</chunk></phrase>
    	</paragraphe>
    	<paragraphe align="LEFT">
    		<phrase><chunk font-name="Verdana" font-size="10" font-color="0x0B333C" font-style="normal">Relance n°1 pépé</chunk></phrase>
    	</paragraphe>
    	<paragraphe align="LEFT">
    		<phrase><chunk font-name="Verdana" font-size="10" font-color="0x0B333C" font-style="normal">Relance n°1 pépé</chunk></phrase>
    	</paragraphe>
    	<paragraphe align="LEFT">
    		<phrase><chunk font-name="Verdana" font-size="10" font-color="0x0B333C" font-style="normal">Relance n°1 pépé</chunk></phrase>
    	</paragraphe>
    	<paragraphe align="LEFT">
    		<phrase><chunk font-name="Verdana" font-size="10" font-color="0x0B333C" font-style="normal">Relance n°1 pépé</chunk></phrase>
    	</paragraphe>
     
    </paragraphe>
    c'est à dire récupérer les paragraphes en conservant le style. Or j'ai commencé le Java cette année donc je ne possède que les bases et je n'ai jamais fait d'XML! Pouvais vous me donner des conseils sur les outils à utiliser, par où commencer etc etc Chaque conseil me sera utile au point où j'en suis! Merci d'avance

  2. #2
    Membre chevronné Avatar de djsnipe
    Inscrit en
    Mai 2008
    Messages
    440
    Détails du profil
    Informations forums :
    Inscription : Mai 2008
    Messages : 440
    Par défaut
    Citation Envoyé par thib57 Voir le message
    [...]je suis étudiant en stage, et la boite ou je bosse me demande de faire une application Java qui permettrait de convertir des .doc en XML [...]
    C'est une blague ? Déjà il te faudrait une librairie en Java capable de prendre en charge 100% de ce format de fichier propriétaire, le projet Apache POI souffre déjà .... ensuite les specs exactes du format XML de sortie, parce que tu vas rigoler avec les tableaux, les modes colonnes et autres joyeusetés !
    Limite, converti tes doc en docx (format word 2007), c'est déjà un XML, et au moins le format est documenté, enfin, pour celui qui à bien envie de se taper les specs du format .... Ensuite il faut adapter le XML à ton format, soit par programmation, soit par une belle (!!!) feuille de style avec une transformation XSLT.
    http://en.wikipedia.org/wiki/Office_Open_XML

    Non aller, sans rire, c'est un poisson d'avril ?

  3. #3
    Membre du Club
    Inscrit en
    Juin 2008
    Messages
    8
    Détails du profil
    Informations forums :
    Inscription : Juin 2008
    Messages : 8
    Par défaut
    J'aurai préféré que ce soit un poisson d'Avril Malheureusement ce n'en est pas un. Et je ne peu pas utiliser word puisque le but final de cette application est de traiter automatiquement des fichiers.doc pour les convertir en xml pour qu'il soient utilisables dans un enorme projet, donc pas de conversion en docx.
    Effectivement d'apre tout ce que j'ai lu POI n'a pas l'air très stable et sans parler de recupéré le style d'écriture. Je crois que j'ai plus qu'une seule chose a faire, leur montrer que c'est impossible ca craind. Si quelqu'un a une solution ou du moins un bout de solution je suis preneur! Merci pour ta réponse rapide tout de même!

  4. #4
    Membre chevronné Avatar de djsnipe
    Inscrit en
    Mai 2008
    Messages
    440
    Détails du profil
    Informations forums :
    Inscription : Mai 2008
    Messages : 440
    Par défaut
    Un gros système qui prend en entrée des documents Word pour les traiter, c'est toujours dangereux. Soit tu utilises un moteur d'indexation qui prend en charge et là c'est tranquille, mais faire à la main ...
    Attention à bien faire borner les fichiers à traiter en entrée : version des fichiers doc, structure des documents simples. Je te conseille de proposer de faire un prototype avec une librairie comme POI et de montrer les limites, en avertissant tout de suite du danger de traiter automatiquement du .doc. Qu'en penses le responsable technique de ton projet ???

  5. #5
    Membre du Club
    Inscrit en
    Juin 2008
    Messages
    8
    Détails du profil
    Informations forums :
    Inscription : Juin 2008
    Messages : 8
    Par défaut
    Ok de toutes façons les documents word sont tres simples, ce sont justes des paragraphes qu'il faudrait retranscrire en XML. J'ai vu qu'il était possible de recupéré du texte avec POI mais est-il possible de choppé le style aussi (police taille gras ou pas ...). Sinon pour la 2ieme partie du boulot quelqu'un pourrai m'indiquer avec quoi je peut générer un document XML?
    Merci d'avance

  6. #6
    Modérateur
    Avatar de dinobogan
    Homme Profil pro
    ingénieur
    Inscrit en
    Juin 2007
    Messages
    4 073
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France

    Informations professionnelles :
    Activité : ingénieur
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2007
    Messages : 4 073
    Par défaut
    Le XML est un ensemble de balises ouvrante/fermante. Toute balise ouverte doit être fermée, et il faut fermer les balises dans l'ordre inverse de leur ouverture. Et c'est tout
    Ensuite, c'est à toi de décider des balises, leurs attributs possibles, des imbrications. C'est du texte, tu es libre !
    Je te laisse fouiller dans la FAQ et les tutoriels pour les API.
    Bon courage !
    N'oubliez pas de consulter les FAQ Java et les cours et tutoriels Java
    Que la force de la puissance soit avec le courage de ta sagesse.

Discussions similaires

  1. [DOM XML] Conversion formulaire en XML
    Par Badaboumpanpan dans le forum Bibliothèques et frameworks
    Réponses: 11
    Dernier message: 25/05/2006, 15h39
  2. Ouvrir un .doc ou .xml sur un lecteur réseau
    Par rteuteu55 dans le forum Balisage (X)HTML et validation W3C
    Réponses: 3
    Dernier message: 07/02/2006, 15h46
  3. [WORD-->XML]Transformation .doc en .xml
    Par Hoegaarden dans le forum XML/XSL et SOAP
    Réponses: 14
    Dernier message: 30/08/2005, 12h05

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo