[KSH][AWK] Suppression de lignes si doublon d'un champ

**Proxy** · 25/10/2013, 11h05

Bonjour,

Voici la situation.

Nous recevons régulièrement un fichier sur un serveur.
Il y a un script qui le formate avant de rediriger le résultat.

Voici une ébauche du fichier reçu.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
...
23456987452;20130529172547;A;|P;UO;|490000000;|252525478987452;002...
12145214756;20130529172550;A;|P;UO;4908500001|490000001;|20258746987412;006...
51025412541;20130529172550;A;|P;UO;|490000000;|203687445212112;006...
...

Le champs qui nous intéresse est en gras [numéro de téléphone]
Séparateur primaire ';' [6ème champs]
Séparateur secondaire '|' [à droite du pipe]

Il faut faire évoluer le script pour ne plus avoir de doublons de numéro de téléphone en ne gardant que le plus neuf (le plus bas dans la liste), ne pas traiter les autres.

Je pensais donc à faire un nettoyage à l'aide d'un AWK. J'ai trouvé quelques fonctions qui permettent de gérer les doublons de lignes, mais pas d'éviter les traitements d'une ligne complète si un champ est en doublon. (De plus, je pense qu'il faudra lire le fichier à l'envers pour ce nettoyage, non?).

Merci!

Invité · 25/10/2013, 11h33

Bonjour,

c'est pas hyper clair

on peut avoir plus de lignes d'exemple, et la sortie attendue correspondante ?

tu précises KSH... est-ce que tu es sur GNU/Linux ?

**disedorgue** · 25/10/2013, 12h09

Bonjour,

Si tu remplis un tableau de hash dont chaque clé est le numéro de téléphone, au final tu auras l'unicité des lignes par rapport a son numéro de téléphone et dans ce cas pas besoin de lire le fichier à l'envers.

**Proxy** · 25/10/2013, 13h09

N_BaH :
Oui, sous Linux.
Voici quelques lignes supplémentaire :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
...
23456987452;20130529172547;A;|P;UO;|490000000;|252525478987452;002...
12145214756;20130529172550;A;|P;UO;4908500001|490000001;|20258746987412;006...
51025412541;20130529172550;A;|P;UO;|490000000;|203687445212112;006...
51522411541;20130529172552;A;|P;UO;|490000520;|203687445212151;006...
74556852541;20130529172558;A;|P;UO;490000520|490000530;|203687448512112;006...
51025411254;20130529172559;A;|P;UO;|490000450;|203687445212222;006...
44425412415;20130529172300;A;|P;UO;|490000530;|203687445212142;006...
...

Dans notre cas, il faut supprimer les lignes suivante :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
23456987452;20130529172547;A;|P;UO;|490000000;|252525478987452;002...
74556852541;20130529172558;A;|P;UO;490000520|490000530;|203687448512112;006...

Qui sont les 2 plus vieilles avec le même numéro de téléphone à droite du pipe du 6ème champ.

disedorgue
Quelle serait la commande? Je débute avec le awk...

Merci.

Invité · 25/10/2013, 13h32

Quelle serait la commande?

on n'a pas encore décidé; on peut avoir la carte s'il vous plaît ?

Code pseudo-code awk :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
SI 6èmeChamp contient "|"
ALORS
   splitter le 6èmeChamp
   indice = 2émePartieDu6èmeChamp
SINON
   indice= 6èmeChamp
FINSI
tableau[indice] = ligneEntière

**Proxy** · 25/10/2013, 13h47

Le 6ème champs contient toujours un pipe, et c'est toujours la valeur après ce pipe qui doit être unique (elle ne sera jamais nulle dans notre fichier).

Je sais déjà qu'on peut utiliser ceci dans notre awk -F";"

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
split($6,list_num,"|");
new_num=gsmnum[2];

Il faut maintenant que cette valeur soit unique, et surtout, garder la plus récente, nous avons pour cela la date dans le champ $2 au format YYYYMMDDHHmmSS. (Mais de base le fichier est trié du plus ancien au plus récent).

...

Merci.

Et désolé, pas de carte ici, on ne sert que du café.

[KSH][AWK] Suppression de lignes si doublon d'un champ

Shell et commandes GNU

Vue hybride

Discussions similaires

Partager

Partager