Extraire des fichiers XML et PDF d'un fichier les compilant (utilisation de "tr")

**Christophe P.** · 03/06/2019, 14h44

Bonjour,

j'ai un fichier test.bin qui est une compilation de fichiers XML et PDF et je dois les séparer. Exemple de début de fichier :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
<?xml version="1.0" encoding="UTF-8"?>
<infos>
Courriers administratifs dematerialises
</infos>%PDF-1.5
%M-5M-5M-5M-5
1 0 obj
...

La commande "awk '/%PDF/{c++} {print > FILENAME"_"c }' /tmp/test.bin" permet de séparer comme en fonction de la ligne qui contient "%PDF" mais comme il y a d'autres données avant "%PDF" ça ne fonctionne pas. J'ai essayé de transformé au préalable "</infos>%PDF-1.5" par "</infos>\n%PDF-1.5" mais je n'y arrive pas (avec la commande : tr '%PDF' '\n%PDF' < test.bin > test2.bin) mais ça donne des choses imprévues : le "F" de "%PDF" a disparu, ainsi que le "%" de "%M" et une ligne blanche est ajoutée.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
<?xml version="1.0" encoding="UTD-8"?>
<infos>
Courriers administratifs dematerialises
</infos>
%PD-1.5
 
M-5M-5M-5M-5
1 0 obj
...

**Flodelarab** · 03/06/2019, 15h54

Bonjour

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

awk '/%PDF/{$0=gensub(/.*(%PDF.*)/,"\\1","1",$0); c++} {print > FILENAME"_"c; }' fichier

**Christophe P.** · 03/06/2019, 16h29

Merci pour la réponse mais j'ai l'erreur suivante : awk: Function gensub is not defined.

J'ai une autre piste la commande "dd skip=1 count=98 if=/tmp/test.bin of=/tmp/test1.bin bs=1" permet de découper précisément (de 1 à 98 ici). Je peux donc l'utiliser dans un script, malheureusement je n'arrive pas à trouver de commande me donnant les positions d'une chaîne de caractères dans un fichier.

**Flodelarab** · 03/06/2019, 16h39

C'est un problème de version de awk.

Same player shoot again.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

awk '/%PDF/{sub(/.*%PDF/,"%PDF",$0); c++} {print > FILENAME"_"c; }'

**Christophe P.** · 03/06/2019, 16h48

La nouvelle commande passe mais elle fait disparaitre ce qu'il y a devant le "%PDF".
Premier fichier :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
<?xml version="1.0" encoding="UTF-8"?>
<infos>
Courriers administratifs dematerialises

Il manque "</infos>" à la fin.

Deuxième fichier (OK) :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
%PDF-1.5
%M-5M-5M-5M-5
1 0 obj
...

La chaîne de caractères "</infos>" précédant "%PDF" a donc disparu.

**Flodelarab** · 03/06/2019, 17h14

Ben oui, évidemment. Tu peux sauver le début avec un substr() et un index().

Sinon, autre idée : changer le séparateur d'enregistrement.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

awk 'BEGIN{RS="%PDF";} {print ((NR>1)?"%PDF":"")$0 >FILENAME"_"NR}' fichier

Extraire des fichiers XML et PDF d'un fichier les compilant (utilisation de "tr")

Shell et commandes GNU

Vue hybride

Discussions similaires

Partager

Partager