Extraire des fichiers XML et PDF d'un fichier les compilant (utilisation de "tr")

Version imprimable

03/06/2019, 15h44
Christophe P.

Extraire des fichiers XML et PDF d'un fichier les compilant (utilisation de "tr")
Bonjour,

j'ai un fichier test.bin qui est une compilation de fichiers XML et PDF et je dois les séparer. Exemple de début de fichier :
Code:

1 2 3 4 5 6 7 <?xml version="1.0" encoding="UTF-8"?> <infos> Courriers administratifs dematerialises </infos>%PDF-1.5 %M-5M-5M-5M-5 1 0 obj ...
La commande "awk '/%PDF/{c++} {print > FILENAME"_"c }' /tmp/test.bin" permet de séparer comme en fonction de la ligne qui contient "%PDF" mais comme il y a d'autres données avant "%PDF" ça ne fonctionne pas. J'ai essayé de transformé au préalable "</infos>%PDF-1.5" par "</infos>\n%PDF-1.5" mais je n'y arrive pas (avec la commande : tr '%PDF' '\n%PDF' < test.bin > test2.bin) mais ça donne des choses imprévues : le "F" de "%PDF" a disparu, ainsi que le "%" de "%M" et une ligne blanche est ajoutée.
Code:

1 2 3 4 5 6 7 8 9 <?xml version="1.0" encoding="UTD-8"?> <infos> Courriers administratifs dematerialises </infos> %PD-1.5 M-5M-5M-5M-5 1 0 obj ...
03/06/2019, 16h54
Flodelarab

Bonjour :coucou:

Code:

awk '/%PDF/{$0=gensub(/.*(%PDF.*)/,"\\1","1",$0); c++} {print > FILENAME"_"c; }' fichier
03/06/2019, 17h29
Christophe P.

Merci pour la réponse mais j'ai l'erreur suivante : awk: Function gensub is not defined.

J'ai une autre piste la commande "dd skip=1 count=98 if=/tmp/test.bin of=/tmp/test1.bin bs=1" permet de découper précisément (de 1 à 98 ici). Je peux donc l'utiliser dans un script, malheureusement je n'arrive pas à trouver de commande me donnant les positions d'une chaîne de caractères dans un fichier.
03/06/2019, 17h39
Flodelarab

C'est un problème de version de awk.

Same player shoot again.

Code:

awk '/%PDF/{sub(/.*%PDF/,"%PDF",$0); c++} {print > FILENAME"_"c; }'
03/06/2019, 17h48
Christophe P.
La nouvelle commande passe mais elle fait disparaitre ce qu'il y a devant le "%PDF".
Premier fichier :
Code:

1 2 3 <?xml version="1.0" encoding="UTF-8"?> <infos> Courriers administratifs dematerialises
Il manque "</infos>" à la fin.

Deuxième fichier (OK) :
Code:

1 2 3 4 %PDF-1.5 %M-5M-5M-5M-5 1 0 obj ...
La chaîne de caractères "</infos>" précédant "%PDF" a donc disparu.
03/06/2019, 18h14
Flodelarab

Ben oui, évidemment. Tu peux sauver le début avec un substr() et un index().

Sinon, autre idée : changer le séparateur d'enregistrement.

Code:

awk 'BEGIN{RS="%PDF";} {print ((NR>1)?"%PDF":"")$0 >FILENAME"_"NR}' fichier
03/06/2019, 18h26
Christophe P.

La dernière commande génère 1311 fichiers au lieu de 6. :aie: Je vais chercher pour récupérer ce qui précède "%PDF".

dd + trouver position ?

J'ai vraiment du mal avec awk. :aie: Et je ne suis pas sûr que awk puisse faire simplement ce que je veux (et que j'ai mal exprimé dans mon premier message).
J'ai des fichiers concaténant plusieurs fichiers (XML et PDF, cf. couleurs ci-dessous) que je souhaite extraire :
---
<?xml version="1.0" encoding="UTF-8"?>
<infos>
...
</infos>%PDF-1.5
%M-5M-5M-5M-5
1 0 obj
...
79562
%%EOF<?xml version="1.0" encoding="UTF-8"?>
<infos>
...
</infos>%PDF-1.5
%µµµµ
79046
%%EOF

---
La commande dd fait ce que je veux mais j'ai besoin de connaître la position de "%PDF" et "<?xml".
Exemple avec dd permettant de récupérer les 4 fichiers ci-dessus :
Code:

1 2 3 4 dd skip=1 count=98 if=/tmp/test.bin of=/tmp/test_toc/fichiers/A123Abcd-1.xml bs=1 dd skip=98 count=79740 if=/tmp/test.bin of=/tmp/test_toc/fichiers/A123Abcd-1.pdf bs=1 dd skip=79838 count=98 if=/tmp/test.bin of=/tmp/test_toc/fichiers/A123Abcd-2.xml bs=1 dd skip=79936 count=79740 if=/tmp/test.bin of=/tmp/test_toc/fichiers/A123Abcd-2.pdf bs=1
J'ai trouvé une commande awk qui donne la ligne et la position sur la ligne mais j'ai besoin de la position dans le fichier. Comment puis-je avoir ces positions ?

salut,

une solution gawk :

Code:

$ awk 'BEGIN{RS=""} {split(gensub(/(<\/infos>|%%EOF)/, "\\1\n\n", "g", $0), tab, /\n\n/); for (i=1; i<length(tab); i++) {print tab[i] > "extract" i}}' fichier

et son résultat :
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 $ ls extract1 extract2 extract3 extract4 fichier $ cat extract1 <?xml version="1.0" encoding="UTF-8"?> <infos> ... </infos> $ cat extract2 %PDF-1.5 %M-5M-5M-5M-5 1 0 obj ... 79562 %%EOF $ cat extract3 <?xml version="1.0" encoding="UTF-8"?> <infos> ... </infos> $ cat extract4 %PDF-1.5 %µµµµ 79046 %%EOF

04/06/2019, 18h54
Christophe P.

Merci. Ca a l'air de faire ce qu'il me faut. Par contre, quel shell / version faut-il pour avoir gensub ? J'ai le message d'erreur suivant :

Citation:

awk: Function gensub is not defined.

Citation:

Envoyé par Christophe P.

quel shell / version faut-il pour avoir gensub ?

un ~~shell~~ Awk GNU (donc Linux), d'où le nom de GAwk ;)

l'avantage de gawk ici ce sont les backreferences qu'on utilise pour réécrire ce qu'on match (\1\n\n)

on peut aussi vouloir envisager Perl ou Python et ainsi s'abstraire de la question GNU/pas GNU (c'est ce que je ferais) :
Code:

1 2 3 4 5 6 7 8 import sys, re with open(sys.argv[1], 'r') as f: data = f.read() for i,j in enumerate(re.findall(r'%PDF.+?%%EOF|<\?xml .+?</infos>', data, re.DOTALL)): with open('extract'+str(i+1), 'w') as f: f.write(j)

Je ne connais(sais) pas Python (seulement de nom). J'ai donc passé une bonne partie de la matinée sur https://docs.python.org/fr/3/tutorial/index.html. L'idée d'utiliser vraiment l'indentation est excellente, et il y a plein de bonnes idées dans ce langage.
Le code fonctionne bien (et comme un changement d'OS est prévu sur le serveur, c'est parfait), cependant je me suis permis d'ajouter deux "closed" (j'ai bon ?).
Merci.
Code:

1 2 3 4 5 6 7 8 9 10 import sys, re with open(sys.argv[1], 'r') as f: data = f.read() f.closed for i,j in enumerate(re.findall(r'%PDF.+?%%EOF|<\?xml .+?</infos>', data, re.DOTALL)): with open('extract'+str(i+1), 'w') as f: f.write(j) f.closed

05/06/2019, 15h11
Christophe P.

Après un test sur d'autres fichiers, je me suis apperçu que les fichiers XML commencent bien par "<?xml" mais ne finissent pas tous par "</infos>", mais sont tous avant un PDF. Voyez-vous une expression régulière qui permettrait de récupérer les données jusqu'avant "%PDF". Si ce n'est pas possible avec une expression régulière, je le ferai en deux passes et je supprimerai des fichiers fichiers XML le "%PDF" en trop.
05/06/2019, 17h34
BufferBob
Citation:

Envoyé par Christophe P.

je me suis permis d'ajouter deux "closed" (j'ai bon ?)

en fait la fermeture du fichier est implicite avec la construction with open() ;) à la fin du bloc le fichier est automatiquement fermé, pas besoin de le rajouter. (PEP 343)

Citation:

Envoyé par Christophe P.

une expression régulière qui permettrait de récupérer les données jusqu'avant "%PDF"

essaye voir en modifiant avec r'%PDF.+?%%EOF|<\?xml .+?(?:</infos>|(?=%PDF))'
- (?:...) est un groupe non-capturant
- (?=...) est un lookahead
06/06/2019, 11h09
Christophe P.

Merci !