Bonjour à tous

via un script bash utilisant des fonctions telles que SED ou AWK, je transforme un fichier CSV issu d'un export de BDD en fichier XML.

La plupart de ces champs sont des champs de méta données (Id, valeurs diverses), et le dernier champs est un champs de texte qui peut être TRES pollué (venant de l'OCRisation de documents)

J'ai déjà résolu pas mal de problèmes qui faisaient foirer le XML (suppression de tous les symboles de balises <> par exemple) mais il apparaît, que pour un document j'ai un End-of-File imprévu (cf image ci-jointe prise dans notepad++ qui détecte bien que le EOF est anormal puisqu'il affiche ce qui suit - le symbole EOF est le "FF" en noir)

http://zepload.com/images/1246269758_EOF.PNG

et l'équivalent sous VI (c'est le ^L en bleu foncé)

http://zepload.com/images/1246270467_EOFlinux.PNG

Code : Sélectionner tout - Visualiser dans une fenêtre à part
^ ;; ;ri- ; --^ ir^ -.-HP! ^} npr^uin^nar ont commencé à rape- JU^L LIClMJl
Lorsque j'indexe ensuite mon fichier XML dans une application, l'application pense que le fichier est terminé et s'arrête là

Auriez-vous une idée pour supprimer cet élément ? J'ai imaginé passer par le binaire, mais ça dépasse un peu mes compétences, peut être qu'il y a quelque chose de plus simple à faire..