Extraire des fichiers XML et PDF d'un fichier les compilant (utilisation de "tr")
Bonjour,
j'ai un fichier test.bin qui est une compilation de fichiers XML et PDF et je dois les séparer. Exemple de début de fichier :
Code:
1 2 3 4 5 6 7
| <?xml version="1.0" encoding="UTF-8"?>
<infos>
Courriers administratifs dematerialises
</infos>%PDF-1.5
%M-5M-5M-5M-5
1 0 obj
... |
La commande "awk '/%PDF/{c++} {print > FILENAME"_"c }' /tmp/test.bin" permet de séparer comme en fonction de la ligne qui contient "%PDF" mais comme il y a d'autres données avant "%PDF" ça ne fonctionne pas. J'ai essayé de transformé au préalable "</infos>%PDF-1.5" par "</infos>\n%PDF-1.5" mais je n'y arrive pas (avec la commande : tr '%PDF' '\n%PDF' < test.bin > test2.bin) mais ça donne des choses imprévues : le "F" de "%PDF" a disparu, ainsi que le "%" de "%M" et une ligne blanche est ajoutée.
Code:
1 2 3 4 5 6 7 8 9
| <?xml version="1.0" encoding="UTD-8"?>
<infos>
Courriers administratifs dematerialises
</infos>
%PD-1.5
M-5M-5M-5M-5
1 0 obj
... |