Amelioration script de merge avec awk

Version imprimable

Bonjour,
j'ai le script suivant qui me sert à partir d'un fichier source, à concaténer les lignes qui sont découpées par erreur.
Exemple en entrée :
Code:

1 2 3 4 5 EMP1,S1,123, H1W,BOX1 EMP2,S2,456,3R9,BOX2 EMP4,S4,789 ,H9F,BOX3
Je dois avoir en sortie :
Code:

1 2 3 EMP1,S1,123,,H1W,BOX1 EMP2,S2,456,3R9,BOX2 EMP4,S4,789,,H9F,BOX3
Notez au passage qu'une ligne peut être tronquée avant ou après la virgule.

Le script que j'ai développé fonctionne bien mais j'aimerais l'améliorer (réduire le nombre d'étapes). Voici ce que j'ai fait :
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 #!/bin/sh echo "Input file : " $1 echo # 1. Ecriture dans text2.txt des lignes avec ajout de "badline" pour les lignes incompletes (moins de 5 champs) cat $1 | awk -F',' '{if (NF < 5 ) print "badline "$0; else print $0}' > test2.txt # 2. Concatenation des lignes "badline" avec suppression du \n. cat test2.txt | grep badline | sed 'N;s/\n/,/' | sed 's/badline //g' > testout_bad.txt # 3. Redirection des lignes completes dans testout_good.txt cat test2.txt | sed -n '/badline/!p' > testout_good.txt # 4. Fusion des lignes incompletes et completes dans testout.txt cat testout_good.txt testout_bad.txt | sort > testout.txt cat testout.txt
J'ai tenté de jouer avec awk (next, ...) mais sans succès. Merci d'avance si vous avez une idée ! :ccool:

Bonjour,
Code:

1 2 3 4 5 6 7 8 9 10 cat fichier.in EMP1,S1,123, H1W,BOX1 EMP2,S2,456,3R9,BOX2 EMP4,S4,789 ,H9F,BOX3 awk -F',' '{if( NF < 5 ){ badline=$0; getline; print badline""$0 } else {print} }' fichier.in EMP1,S1,123,H1W,BOX1 EMP2,S2,456,3R9,BOX2 EMP4,S4,789,H9F,BOX3
edit:
en un petit peu plus court :

Code:

awk -F',' '( NF < 5 ){ printf("%s",$0); getline} {print}' fichier.in

Citation:
Envoyé par N_BaH
Bonjour,
Code:

1 2 3 4 5 6 7 8 9 10 cat fichier.in EMP1,S1,123, H1W,BOX1 EMP2,S2,456,3R9,BOX2 EMP4,S4,789 ,H9F,BOX3 awk -F',' '{if( NF < 5 ){ badline=$0; getline; print badline""$0 } else {print} }' fichier.in EMP1,S1,123,H1W,BOX1 EMP2,S2,456,3R9,BOX2 EMP4,S4,789,H9F,BOX3
edit:
en un petit peu plus court :

Code:

awk -F',' '( NF < 5 ){ printf("%s",$0); getline} {print}' fichier.in
Merci bien !
j'avais pourtant fait un truc similaire mais ça ne marchait pas, je ne sais pas pourquoi.

22/11/2011, 19h24
ctiguidou

Juste une question : je souhaite faire quelque chose de plus générique et donc je passe en paramètre le fichier source ainsi que le nombre de champs à trouver.
Mais en sortie le résultat n'est pas bon, alors que l'affichage de ma variable (pour le nombre de champs) est bon.

Citation:

declare -r c_INPUT_FILE=$1
declare -r c_OUTPUT_FILE="ffoutput.txt"
declare -i c_NB_FIELDS=$2

echo "Input file :" $c_INPUT_FILE
echo "Nb fields :" $c_NB_FIELDS
echo

awk -F',' '( NF < $c_NB_FIELDS ){ printf("%s",$0); getline} {print}' $c_INPUT_FILE > $c_OUTPUT_FILE

Sortie :

Citation:

Input file : test1.txt
Nb fields : 5

EMP1,S1,123,H1W,BOX1
EMP2,S2,456,3R9,BOX2EMP4,S4,789
,H9F,BOX3

EMP1 est bien reconstruit mais EMP2 est concaténé avec EMP4 alors qu'il est complet. On dirait qu'il y a un décalage... :calim2:
23/11/2011, 04h28
N_BaH

c'est parce que les variables ne sont pas développées entre guillemets simples.

Code:

awk -v nbFields="$c_NB_FIELDS" -F',' '( NF < nbFields ){ printf("%s",$0); getline} {print}' $c_INPUT_FILE > $c_OUTPUT_FILE
23/11/2011, 16h44
ctiguidou

Citation:

Envoyé par N_BaH

c'est parce que les variables ne sont pas développées entre guillemets simples.

Code:

awk -v nbFields="$c_NB_FIELDS" -F',' '( NF < nbFields ){ printf("%s",$0); getline} {print}' $c_INPUT_FILE > $c_OUTPUT_FILE

Ok, donc je ne peux pas utiliser de variable dans la fonction alors, du moins entre les guillemets simples ?
23/11/2011, 17h02
N_BaH

Citation:

je ne peux pas utiliser de variable dans la fonction alors, du moins entre les guillemets simples ?

Si, tu peux les passer à awk en utilisant l'option -v -v var="valeur", ou --assign --assign=var="valeur".
23/11/2011, 17h11
ctiguidou
Citation:

Envoyé par N_BaH

c'est parce que les variables ne sont pas développées entre guillemets simples.

Code:

awk -v nbFields="$c_NB_FIELDS" -F',' '( NF < nbFields ){ printf("%s",$0); getline} {print}' $c_INPUT_FILE > $c_OUTPUT_FILE

Bon, je m'en suis sorti mais il y a sûrement plus simple :
Code:

1 2 3 echo "awk -F',' '( NF < $c_NB_FIELDS ){ printf(\"%s\","'$0'"); getline} {print}' $c_INPUT_FILE > $c_OUTPUT_FILE" > exec_cmd.sh chmod +x ./exec_cmd.sh ./exec_cmd.sh
23/11/2011, 17h23
N_BaH

quel horreur !
23/11/2011, 17h52
ctiguidou

Citation:

Envoyé par N_BaH

quel horreur !

Merci du compliment ! :lol:

Bon alors quelle serait la bonne syntaxe ?
23/11/2011, 18h06
N_BaH

celle que je t'ai montrée plus haut, au #7.
23/11/2011, 18h53
ctiguidou

Citation:

Envoyé par N_BaH

celle que je t'ai montrée plus haut, au #7.

Ah j'avais pas vu ! oui c'est vrai j'aurais du penser à cette solution de variables.
Merci encore !