Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Interfaçage autre langage Python Discussion :

Récupérer les attributs d'un paragraphe de MS WORD, LibreOffice, OpenOffice


Sujet :

Interfaçage autre langage Python

  1. #1
    Membre actif
    Récupérer les attributs d'un paragraphe de MS WORD, LibreOffice, OpenOffice
    Bonjour à tous,

    Je cherche à lire un document (MS WORD ou autre en open source) afin de récupérer les différents contenus, paragraphes avec la mise en forme et les réinjecter dans ReportLab. Mes premières recherches m'ont orienté vers python-docx mais apparemment, la récupération des attributs (font, taille, couleur en particulier) sont difficiles à récupérer à cause d'une gestion d'héritage de style complexe ...
    Quelqu'un aurait-il une expérience sur le sujet ou des pistes.
    Merci pour vos aides.

  2. #2
    Membre actif
    Mes recherches m'ont emmené bien (trop) loin dont je vous ferai grâce mais je crois que la bonne piste est la transformation que je qualifierai presque de "magique" d'un fichier MS WORD en XML. J'ai trouvé çà sur le net. On remplace l'extension .docx en .zip et on extrait ce "nouveau" fichier et l'affaire est jouée ! On retrouve dans l'arborescence des fichiers un fichier :
    document.xml
    qui me semble contenir tout ce que je cherche. Reste à trouver un moyen de lire tout çà facilement, je suis nul en XML.
    Je continue à farfouiller ...

  3. #3
    Expert éminent sénior
    Salut,

    Citation Envoyé par Triton972 Voir le message
    Je continue à farfouiller ...
    Wikipedia explique ce qu'est un document docx, le format Open Office XML et donne un tas de lien vers les documentations plus techniques.

    Ceci dit, exporter un document au format PDF est déjà quelque chose que sait faire LibreOffice.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

###raw>template_hook.ano_emploi###