Traitements sur doublons

Version imprimable

Bonjour à tous, je suis nouveau sur ce forum
J'utilise des fonctions basique de linux/unix sous mac, mais ne pense pas avoir assez de connaissance pour resoudre une requete
J'ai fait divers requetes de croisement et filtrage de donnees pour arriver à l'enoncée suivante simplifiée
Ce qui m'interesse ce sont les champs n°2 et n°4 comme element de requete
On remarque des doublons sur le champs n°4 (52KTM...) et c'est ce qui m'interesse! Je veux travailler sur les doublons
Je veux supprimer de cette liste les lignes contenant les ref de champ n°5 qui sont uniques et garder les lignes de doublons, ou plutôt
en finalité, je voudrais garder les lignes avec une seule des reference n°5 de doublon où la ligne gardée serait celle qui a le champs n°2 avec le chiffre le plus élevé
donc supprimer les lignes où il y a qu'une occurence en champs n°5
et garder par exemple id 263787 nom 52KTM75B MOTOR et pas id 262111 nom 52KTM75B MOTOR qui est plus ancien (263787>262111, et commun: 52KTM75B), et ainsi de suite
awk? sort? condition?
j'ai commencé avec des essai awk, mais ne suis pas sur d'avoir tous compris, j'ai testé 'uniq' j'ai reussi à enlever uniquement la premiere ligne avec champs n°5 unique et pas la 8, ce ne doit pas etre la bonne expression
Si quelqu'un peut m'aider à resoudre ce pb, et m'orienter, pour les fois suivantes car j'aurais d'autres requetes un peu de ce type a realiser
je vous remercie d'avance
ian
Ma liste:
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 id 263786 nom 52KTM75A MOTOR id 262111 nom 52KTM75B MOTOR id 263787 nom 52KTM75B MOTOR id 262112 nom 52KTM78F MOTOR id 263788 nom 52KTM78F MOTOR id 262113 nom 52KTM78B MOTOR id 263789 nom 52KTM78B MOTOR id 263790 nom 52KTM96C MOTOR id 262114 nom 52KTM96G MOTOR id 263791 nom 52KTM96G MOTOR id 262115 nom 52KTM99B MOTOR id 263792 nom 52KTM99B MOTOR id 262116 nom 52KTM99F MOTOR id 263793 nom 52KTM99F MOTOR

Bonjour,

Un exemple avec gawk:

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
$ cat /tmp/f1.txt 
id 263786 nom 52KTM75A MOTOR
id 262111 nom 52KTM75B MOTOR
id 263787 nom 52KTM75B MOTOR
id 262112 nom 52KTM78F MOTOR
id 263788 nom 52KTM78F MOTOR
id 262113 nom 52KTM78B MOTOR
id 263789 nom 52KTM78B MOTOR
id 263790 nom 52KTM96C MOTOR
id 262114 nom 52KTM96G MOTOR
id 263791 nom 52KTM96G MOTOR
id 262115 nom 52KTM99B MOTOR
id 263792 nom 52KTM99B MOTOR
id 262116 nom 52KTM99F MOTOR
id 263793 nom 52KTM99F MOTOR

Code:

1
2
3
4
5
6
7
8
9
$ awk 'BEGIN{PROCINFO["sorted_in"]="@ind_num_asc"};A[$4] {if(B[$4] < $2){C[$4]=$0};A[$4]++;next}{A[$4]++;B[$4]=$2;C[$4]=$0};END{for (i in A){print C[i]}}' /tmp/f1.txt 
id 263786 nom 52KTM75A MOTOR
id 263787 nom 52KTM75B MOTOR
id 263789 nom 52KTM78B MOTOR
id 263788 nom 52KTM78F MOTOR
id 263790 nom 52KTM96C MOTOR
id 263791 nom 52KTM96G MOTOR
id 263792 nom 52KTM99B MOTOR
id 263793 nom 52KTM99F MOTOR

re bonsoir, c'est hyper gentil à vous, merci
par contre dans le résultat je vois que les deux lignes ayant une seule occurrence en champs n°4 sont gardées, et il ne les faut pas dans le résultat, uniquement la ligne la plus récente quand il y a deux occurrences sur le champs n°4
je ne veux pas abuser, mais si vous pouviez m'aider à finaliser, ou est ce moi qui suit une pipe et qui n'est pas compris?

dans votre exemple toutes les réponses sont bonne, issue du champs N°4 quand il est double
sauf :id 263786 nom 52KTM75A MOTOR et id 263790 nom 52KTM96C MOTOR qui n'avait qu'une occurrence au champs n°4, et que je ne veux pas garder dans mon élément de résultat puisque que rien à comparer en antécédent !

votre formulation, la liste c'est bien l résultat ? Si oui 263786 nom 52KTM75A MOTOR et id 263790 nom 52KTM96C MOTOR en trop car une occurrence en champs n°4 et pas 2 occurrences
Code:

1 2 3 4 5 6 7 8 9 $ awk 'BEGIN{PROCINFO["sorted_in"]="@ind_num_asc"};A[$4] {if(B[$4] < $2){C[$4]=$0};A[$4]++;next}{A[$4]++;B[$4]=$2;C[$4]=$0};END{for (i in A){print C[i]}}' /tmp/f1.txt id 263786 nom 52KTM75A MOTOR id 263787 nom 52KTM75B MOTOR id 263789 nom 52KTM78B MOTOR id 263788 nom 52KTM78F MOTOR id 263790 nom 52KTM96C MOTOR id 263791 nom 52KTM96G MOTOR id 263792 nom 52KTM99B MOTOR id 263793 nom 52KTM99F MOTOR
En vous remerciant beaucoup, car je me débrouille mais pas à ce point !
A très vite
Amicalement

Yann

05/10/2016, 23h19
ianSolo_66

rebonsoir Disedorgue
Merci beaucoup, pour la syntaxe, le awk est encore compliqué pour moi, je n'ai pas toutes les notions de paramètre et option!?

J'ai rejoué votre script awk, c'est trop balaise pour moi, cela me donne bien le résultat.
Par contre il faudrait enlevé en premier, je pense, les lignes où il y a une seule occurrence dans le champs n°4 qui du coup n'ont rien à comparer, puisqu'une seule occurrence, et ceci avant de comparer ligne au champ n°4 doublé
Les lignes en trop dans le résultat car initialement qu'une occurrence et pas deux sur le champs n°4, et ces lignes ne m' 'intéresse pas, sont:
Code:

1 2 id 263786 nom 52KTM75A MOTOR id 263790 nom 52KTM96C MOTOR
où le champs n°4 n’apparaît qu'une fois dans la liste initiale, il ne me les faut pas dans la liste finale, car en fait, si je garde l’occurrence la plus récente quand le champs n°4 comporte un doublon, c'est que je travaille que sur le plus récent et uniquement s'il y a deux versions, donc quand l’occurrence du champs n°4 n'y est qu'une fois la ligne ne m’intéresse pas!
Ce que je vais faire avec cette liste à la fin c'est ne garder que le champs n°2 pour construire un script automatiquement pour aller chercher ces données sur un serveur, afin de les contrôler, ce script je lai déjà fait, me manque juste la partie de trie par rapport au doublon à garder pour le contrôle, c'est pourquoi je ne veux pas en résultat les lignes qui ont une seule occurrence initialement car je n'ai pas de données de comparaison pour la suite contrairement au lignes aux champs n°4 doublé

S'il vous plaît, pouvez vous modifier vote syntaxe pour se faire, et en vous remerciant, pour que les occurrence uniques initiales sur champs n°4 ne soit pas en résultat final, le reste est parfait par rapport à mon attente

J'adore UNIX, je suis un peu autodidacte, pour l'ensemble des requêtes, mais je ne comprend pas tous le cheminement des paramétrages du awk, j’espère que cela viendra.
Je sais extraire des bouts de lignes de fichier pour constituer un script pour récupérer des données a traiter, à contrôler ou à recontrôler géométriquement, stat, , et images par exemple
Mais je suis un peu frustrer de buter là dessus, car le résultat de requête initiale provient de plusieurs xml, avec multitude de données similaires imbriquées, malgré cela j'ai bien récupérer la liste que je voulais.
Et là cela me semble tellement pas grand chose, ce que je veux: deux champs en référence garder que le plus récent du doublon, et pas la ligne unique, et quand je vois votre awk, j'ai l'impression que c'est insurmontable.
Pouvez vous retravailler le script pour qu'il ne ramasse pas non plus donc les lignes où initialement le champs n°4 est unique
Merci à vous
Sinon y a t'il un bon endroit ou on explique bien le awk et le uniq?
Amicalement
Yann

Pas de souci, pour corriger le awk, en fait il ne manque qu'une condition à vérifier (en rouge) avant d'afficher les données et dans le même temps, corrigeons un oubli qui poserait problème en cas de triplés (en orange) .

Code:

awk 'BEGIN{PROCINFO["sorted_in"]="@ind_num_asc"};A[$4] {if(B[$4] < $2){C[$4]=$0;B[$4]=$2};A[$4]++;next}{A[$4]++;B[$4]=$2;C[$4]=$0};END{for (i in A){if(A[i]>1) print C[i]}}' /tmp/f1.txt

Ici, l'algo est quelque peu différent de celui que tu proposes:
On stocke dans le tableau A le nombre d'occurences du champs 4 que l'on rencontre.
Dans le tableau B on stocke pour chaque occurences différentes du champs 4 la plus grande valeur du champs 2.
Dans le tableau C on stocke pour chaque occurences différentes du champs 4 la ligne complète si la valeur du champs 2 est plus grande.
Une fois que l'on a traité tout le fichier, on n'affiche que les lignes stocké dans C par rapport au tableau A qui comprend le décompte du nombre d'occurence pour chaque champs 4.
Une écriture plus compréhensible du prog awk:
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 awk ' BEGIN{ PROCINFO["sorted_in"]="@ind_num_asc" } A[$4] { if(B[$4] < $2){ C[$4]=$0 B[$4]=$2 } A[$4]++ next } { A[$4]++ B[$4]=$2 C[$4]=$0 } END{ for (i in A){ if(A[i]>1) print C[i] } }' /tmp/f1.txt

06/10/2016, 00h07
ianSolo_66

rebonsoir Disedorgue, un grand merci ;-)

re bonsoir, c'est super, cela marche super sur le bon fichier complet, trop genial
faut vraiment que j'approndisse ce awk, il y a beaucoup de parametre qui me pertube pour l'instant mais cela va venir, je m'en sors beaucoup pour l'utilisation des grep, sed, cut, etc... j'en decouvre de jour en jour pour ces derniers.
Mais le awk, et je suppose les choses un peu conditionneles ce n'est pas encore cela!

Mais j'adore, donc j'y arriverai!

En tout cas un grand merci! :P:)
Bien à vous

Amicalement

Yann

Salut,

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
$ cat liste.txt 
id 263786 nom 52KTM75A MOTOR
id 262111 nom 52KTM75B MOTOR
id 263787 nom 52KTM75B MOTOR
id 262112 nom 52KTM78F MOTOR
id 263788 nom 52KTM78F MOTOR
id 262113 nom 52KTM78B MOTOR
id 263789 nom 52KTM78B MOTOR
id 263790 nom 52KTM96C MOTOR
id 262114 nom 52KTM96G MOTOR
id 263791 nom 52KTM96G MOTOR
id 262115 nom 52KTM99B MOTOR
id 263792 nom 52KTM99B MOTOR
id 262116 nom 52KTM99F MOTOR
id 263793 nom 52KTM99F MOTOR

Code:

1
2
3
4
5
6
7
$ sort -k 4,4 -k 2r,2 liste.txt | uniq -d -f 3
id 263787 nom 52KTM75B MOTOR
id 263789 nom 52KTM78B MOTOR
id 263788 nom 52KTM78F MOTOR
id 263791 nom 52KTM96G MOTOR
id 263792 nom 52KTM99B MOTOR
id 263793 nom 52KTM99F MOTOR

;)

06/10/2016, 17h43
disedorgue

Au début, j'avais pensé (oui, ça m'arrive des fois :) ) à une solution avec uniq, mais j'ai pris comme hypothèse supplémentaire que la dernière colonne pouvait être autre chose que MOTOR et comme l'on doit considérer que les doublons de la quatrième colonne...
06/10/2016, 19h43
ianSolo_66

rebonsoir Disedorgue

Oui effectivement, MOTOR est un exemple, ce peut etre autre chose et pas forcement un unique mot, donc bien vu
Merci
Encore
Amicalement
Yann
06/10/2016, 20h02
ianSolo_66

rebonsoir Disedorgue

Effectivement c'est bien votre solution la meilleure, je viens de tester le coup de la derniere colonne, on ne recupere les lignes que j'attends qu'avec le awk!
car J'ai eu aussi une reponse avec un sort et uniq, cela marche tres bien aussi, sauf si les noms sont effectivement differents dans le dernier champs!

Encore chapeau et un grand merci

A tres vite
Bien à vous
Amicalement
Yann

Citation:

Envoyé par ianSolo_66

je viens de tester le coup de la derniere colonne, on ne recupere les lignes que j'attends qu'avec le awk!

Qu'à cela ne tienne…

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
$ cat autre.txt 
id 263786 nom 52KTM75A MOTUS
id 262111 nom 52KTM75B MOTOR
id 263787 nom 52KTM75B ROTOR
id 262112 nom 52KTM78F BOTOR
id 263788 nom 52KTM78F MOTIF
id 262113 nom 52KTM78B MOKOR
id 263789 nom 52KTM78B MOTAR
id 263790 nom 52KTM96C MOTOS
id 262114 nom 52KTM96G MATAR
id 263791 nom 52KTM96G MITAR
id 262115 nom 52KTM99B LOLOL
id 263792 nom 52KTM99B COTON
id 262116 nom 52KTM99F XOTOR
id 263793 nom 52KTM99F FOTOR

Code:

1
2
3
4
5
6
7
$ sort -r -k4,4 autre.txt | uniq -d -w 9 -f 3
id 263793 nom 52KTM99F FOTOR 
id 263792 nom 52KTM99B COTON
id 263791 nom 52KTM96G MITAR
id 263788 nom 52KTM78F MOTIF
id 263789 nom 52KTM78B MOTAR
id 263787 nom 52KTM75B ROTOR

;)

07/10/2016, 16h14
disedorgue

Bien trouvé,
Après, certains cas ne passeraient pas mais je ne pense pas qu'il puisse les rencontrer...
07/10/2016, 18h02
ianSolo_66

Bonjour zipe31

J'ai essayé votre syntaxe le problème est que le -w ne passe pas dans ma fenetre terminal Mac
il me repond illegal option -- w
Je ne sais pourquoi, mais quand je fais un man uniq l'option w ne fait pas partie des option pour uniq, peu etre cela?
Merci pour vos lumieres d'eclairicissement
Amicalement
Yann
07/10/2016, 18h13
zipe31

Effectivement, la version pour MacOS est un peu restreinte comparée à la version coreutils :(
07/10/2016, 18h16
ianSolo_66

re bonsoir zipe31

re bonsoir zipe31, ce n'est pas grave, merci quand meme à vous pour votre implication
Un sort cela me parle plus qu'un awk, mais je buttais sur la meme chose, l'option w que je ne connais pas aurait ete bien, mais tant pis!
Amicalement
Yann
07/10/2016, 19h29
disedorgue

En fait, il suffirait de retirer le dernier champs, puis de faire le sort et l'uniq et ensuite de retrouver la ligne complète dans le fichier...
Ce qui donnerait un cut|sort|uniq|grep...

Mais je trouve que ce n'est pas assez court, après tout, c'est le week-end, et ça peut être un bon défi, de trouver la ligne de code la plus courte (en nombre de caractère)...:mrgreen:
07/10/2016, 20h21
ianSolo_66

rebonsoir Disedorgue

Comme j'ai dit hier soir votre script fonctionne tres bien, je repondais par rapport à la premiere formulation où effectivement il pouvait y avoir un problème avec le dernier champs, mais la derniere formule proposee me convient tres bien et fonctionne tres bien

c'est a dire celle ci:

Citation:

awk 'BEGIN{PROCINFO["sorted_in"]="@ind_num_asc"};A[$4] {if(B[$4] < $2){C[$4]=$0;B[$4]=$2};A[$4]++;next}{A[$4]++;B[$4]=$2;C[$4]=$0};END{for (i in A){if(A[i]>1) print C[i]}}' /tmp/f1.txt

C'est impeccable, merci encore
Amicalement
Yann

Citation:

Envoyé par disedorgue

En fait, il suffirait de retirer le dernier champs, puis de faire le sort et l'uniq et ensuite de retrouver la ligne complète dans le fichier...
Ce qui donnerait un cut|sort|uniq|grep...

Mais je trouve que ce n'est pas assez court, après tout, c'est le week-end, et ça peut être un bon défi, de trouver la ligne de code la plus courte (en nombre de caractère)...:mrgreen:

Je me lance…
Code:

1 2 3 4 5 6 7 $ grep -f <(cut -d ' ' -f 1-4 liste.txt | sort -r -k4,4 | uniq -d -f 3) liste.txt id 263787 nom 52KTM75B ROTOR id 263788 nom 52KTM78F MOTIF id 263789 nom 52KTM78B MOTAR id 263791 nom 52KTM96G MITAR id 263792 nom 52KTM99B COTON id 263793 nom 52KTM99F FOTOR
;)

09/10/2016, 10h14
ianSolo_66

Bonjour zipe31

Bonjour, merci, et c'est super de voir les possibilités qui existent pour y arriver, cette formulation, fonctionne tres bien également! Super!
Merci encore
Amicalement
Yann

Une autre solution proche de celle de zipe31, un peu plus longue aussi mais peut-être plus rapide...:

Code:

1
2
3
4
5
6
7
$ a='s/\(\S*\) \(\S*\)$/\2 \1/' ; sed "$a" liste.txt | sort -r -k5,5 | uniq -d -f4 | sed "$a"
id 263793 nom 52KTM99F FOTOR
id 263792 nom 52KTM99B COTON
id 263791 nom 52KTM96G MITAR
id 263788 nom 52KTM78F MOTIF
id 263789 nom 52KTM78B MOTAR
id 263787 nom 52KTM75B ROTOR