Bonjour,
Voila, j'ai apparemment un problème de charset avec certain fichier XML que l'on reçoit d'un client. Les applications qui le traite utilise JAxp pour charger le fichier dans un Document (Jdom) et également Xalan pour y appliquer des transformation XSLT. Certains de ces fichiers ne sont pas traité avec comme exception une erreur comme quoi un caractère n'est pas UTF-8 (invalid byte 3 of 3 ou un message du genre) que ce soit pour le charger dans un object Dom ou pour le parser via xalan.
Le client de son coté nous affirme que l'XML, qui est généré via Word et Nuxeo est conforme au standard W3C et qu'un parser peut le lire.
Lorsque j'essaye de parser l'XML avec SAX, il n'y a effectivement aucun problème. De même, si je charge l'Xml dans un programme comme XML spy, je n'ai aucun problème de validation et la transformation XSLT, qui utilise également xalan, fonctionne aussi.
Je pense que le problème vient de caractère propre à Word comme le "beautifull quote" et autre.
Ou est donc l'erreur ? Est-ce que DOm n'est pas 100% comptabible W3C ? Est-ce qu'Xml Spy et sax sont plus complaisant ? Comment savoir si le document réponds effectivement aux normes W3C ?
j'avoue que je suis un peu perdus
Existe-t-il un moyen de vérifier que le fichier est conforme au stadnard W3C ? j'ai trouvé des validateur pour les schèma mais pas pour un fichier Xml![]()
Partager