Pollution d'un fichier texte par des caractères de contrôle ASCII

Bonjour à tous

Dans le cadre d'un projet, nous utilisons des exports de notre base de donnée pour les réinjecter dans une autre application

Hors j'ai un gros problème : le contenu que nous exportons provient de pages de journaux OCRisés (reconnaissance de caractères). Le fait de récupérer le contenu OCRisé stocké dans la base fait apparaître des caractères type EOT, NUL, etc... au beau milieu du texte (cf exemple ci-dessous capture d'écran du notepad). :

http://zepload.com/images/1246269758_EOF.PNG

et l'équivalent sous VI (c'est le ^L en bleu foncé, mais c'est parfois ^M, parfois autre chose)

http://zepload.com/images/1246270467_EOFlinux.PNG

Code :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
^ ;; ;ri- ; --^ ir^ -.-HP! ^} npr^uin^nar ont commencé à rape- JU^L LIClMJl
Lorsque j'indexe ensuite mon fichier XML construit à partir de cette export dans une autre application, l'application pense que le fichier est terminé et s'arrête là (enfin c'est également une supposition, dans tous les cas j'ai établi que l'application ne va pas plus loin dans le fichier XML que la ligne qui contient le caractère "aberrant")

Auriez-vous une idée pour les supprimer via un script pas trop complexe ? Je n'arrive pas à les rechercher sous VI, donc les supprimer me paraît pour l'instant difficile

Pollution d'un fichier texte par des caractères de contrôle ASCII

Linux

Mode arborescent

Discussions similaires

Partager

Partager