Bonjour à tous,
Je cherche à supprimer des doublons sur même ligne dans un fichier csv.
Je m'explique :
Dans le fichier test.csv j'ai des lignes
Je voudrais à l'aide de awk (qui est fait pour cela d'aprés les nombreuses pages web que je viens de lire), rechercher l'ensemble des lignes qui contiennent un doublon et si c'est le cas, supprimer la ligne.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3 1;toto;arthur 2;tata;tata 3;tata;robert
La demande est aussi possible avec la commande sed
J'ai trouvé déja la commande pour sélectionner les lignes en double :
Info trouvé ici : https://unix.stackexchange.com/quest...n-without-sort
Code : Sélectionner tout - Visualiser dans une fenêtre à part %awk% -F ";" "!seen[$2]++" test.csv
Et enfin pour sed :
Info trouvé ici : https://stackoverflow.com/questions/...uplicate-words
Code : Sélectionner tout - Visualiser dans une fenêtre à part %sed% -rn "/(\b\w+\b).*\b\1\b/ p" test.csv
Par contre comment supprimer les lignes maintenant ... Là, ché pas faire. En résumé mon /d je n'arrive pas à savoir ou je dois le placer. (si d'ailleurs c'est cela que l'on doit faire)
Merci pour votre coup de main
Au plaisir de vous lire
Tof
Partager