Parsing de word ?

Version imprimable

28/05/2014, 15h53
Invité

Parsing de word ?

Bonjour,

J'ai une demande de la part de mon manager et je ne sais pas si cela est réalisable et en combien de temps ?

1) Parsing de docx
Récupérer de façon automatique le contenu d'un fichier .docx, c'est à dire les tableaux, le texte avec la mise en forme (gras, surligné, police …) , les balises ainsi que les images.

Le texte récupéré devra ensuite être affiché dans une application en ligne et permettre l’affichage de ce contenu.
La fonctionnalité sera intégrée à une application qui sera mise en production.

2) Récupération à partir de fichier .docx
Récupération du contenu d’un fichier .docx par copier, c'est à dire les tableaux, le texte avec la mise en forme (gras, surligné, police …) , les balises ainsi que les images.
Puis collage de ses informations dans la fenêtre d’une application en ligne. Le texte, la mise-en-forme et le placement des images doit être sauvegardé.

Le texte récupéré devra ensuite être affiché dans une application en ligne et permettre l’affichage de ce contenu.
La fonctionnalité sera intégrée à une application qui sera mise en production.
28/05/2014, 17h29
sabotage

C'est possible, ça existe meme déjà :
http://word2cleanhtml.com/
21/06/2014, 09h06
Invité

Désolé pour le délai de réponse.

@sabotage
Je cherchais alors une bibliothèque.

La bibliothèque gratuite la plus riche est PHPWord. Elle permet de récupérer une variable dom du document *.docx et de récupérer les informations que l'on souhaite. La bibliothèque a été démarrée en 2008, elle n'est pas sortie en version release (1.x), le développement a même été interrompu pendant plusieurs année.

Fort heureusement, il a redémarré il y a peu grâce à un fork sur github. (https://github.com/PHPOffice/PHPWord). Elle reste cependant incomplète notamment vis-à-vis des traitements très spécifiques comme la récupération d'images dans un tableau, la génération de tableau avec des images, la récupération des styles dans des styles etc.

Néanmoins il s'agit d'une très bonne bibliothèque qui satisfera la plupart des usages simples comme récupérer du texte et quelques images.