AWK ou SED : Chercher doublon sur même ligne et supprimer la ligne

Version imprimable

Voir 40 message(s) de cette discussion en une page

19/11/2020, 11h37
Tofdu31

AWK ou SED : Chercher doublon sur même ligne et supprimer la ligne
Bonjour à tous,

Je cherche à supprimer des doublons sur même ligne dans un fichier csv.
Je m'explique :
Dans le fichier test.csv j'ai des lignes
Code:

1 2 3 1;toto;arthur 2;tata;tata 3;tata;robert
Je voudrais à l'aide de awk (qui est fait pour cela d'aprés les nombreuses pages web que je viens de lire), rechercher l'ensemble des lignes qui contiennent un doublon et si c'est le cas, supprimer la ligne.

La demande est aussi possible avec la commande sed

J'ai trouvé déja la commande pour sélectionner les lignes en double :

Code:

%awk% -F ";" "!seen[$2]++" test.csv

Info trouvé ici : https://unix.stackexchange.com/quest...n-without-sort

Et enfin pour sed :

Code:

%sed% -rn "/(\b\w+\b).*\b\1\b/ p" test.csv

Info trouvé ici : https://stackoverflow.com/questions/...uplicate-words

Par contre comment supprimer les lignes maintenant ... Là, ché pas faire. En résumé mon /d je n'arrive pas à savoir ou je dois le placer. (si d'ailleurs c'est cela que l'on doit faire)

Merci pour votre coup de main

Au plaisir de vous lire

Tof
19/11/2020, 12h31
balkany

Les doublons c'est les lignes où les champs 2 et 3 sont identiques ?
Si c'est ça, il te suffit de faire

Code:

awk -F';' '$2 != $3' fichier
19/11/2020, 13h09
Tofdu31

Merci pour ton aide,

Par contre mon fichier a plusieurs lignes (50 environ)
Et je ne n'arrive pas, malgré ta commande, supprimer le deuxième et troisième champs, si et uniquement si, ils sont les mêmes.

Etant sous windows (pas le choix malheureusement...) voici ta commande :

Code:

%awk% -F';' '$2 != $3' test.csv

Comment faire du coup, non pas pour sélectionner puisque déja maitrisé, mais supprimer mes doublons. Sed serait pas la solution ?

Merci pour votre aide.

Tof
19/11/2020, 13h20
balkany
La commande que je t'ai donnée supprime les lignes dont les deuxième et troisième champs sont identiques.
Avec l'exemple que tu as donné en introduction, voici ce que j'obtiens :
Code:

1 2 3 4 $ awk -F';' '$2 != $3' test.csv 1;toto;arthur 3;tata;robert $
Si ça n'est pas ce que tu demandes, alors j'ai mal compris.
Si c'est ce que tu veux mais que ça ne marche pas sous windows, alors je ne sais pas.
19/11/2020, 14h28
Tofdu31
RE,

Effectivement, sous windows, je suis obligé de remplacer les ' par les "

Toutefois avec cette version :

Code:

%awk% -F';' "$2 != $3" test.csv

J'ai aucune erreur et dans mon fichier, rien n'a été effectué sur le fichier

Et si j'ajoute mes guillemets autour du ;

Code:

%awk% -F";" "$2 != $3" test.csv

j'ai à l'écran l'affichage de :
Code:

1 2 1;toto;arthur 3;tata;robert
19/11/2020, 14h37
Flodelarab

Bonjour :coucou:

Citation:

Etant sous windows (pas le choix malheureusement...)

On a toujours le choix d'installer cygwin.

Citation:

J'ai aucune erreur et dans mon fichier, rien n'a été effectué sur le fichier

La différence entre ' ' et " ", c'est que les " " laissent la place à l'interprétation. En l'occurrence, j'ai bien dans l'idée que $2 et $3 sont interprétés comme les paramètres positionnels de ton script bash, et non comme les champs de ta ligne dans awk.
19/11/2020, 14h48
Tofdu31
Citation:

Envoyé par Flodelarab

. En l'occurrence, j'ai bien dans l'idée que $2 et $3 sont interprétés comme les paramètres positionnels de ton script bash, et non comme les champs de ta ligne dans awk.

Je pense qu'il y a une mauvaise interprétation effectivement. Surtout quand j'integre ma commande dans mon fichier .bat, la commande n'est meme plus reconnu.

En fait en résumé, pour mieux expliquer, j'ai une liste de noms DNS de serveur avec la correspondance IP. Le tout dans un csv.
Toutefois, il y a pleins de ligne qui ont dans le champ 2 et champ 3 le nom DNS (2 fois donc)

Exemple :
Code:

1 2 3 4 champ1;champ2,champ3 1;google.com;8.8.8.8 2;google.com;google.com 3;home.com;192.9.3.1
As-tu une idée ?
19/11/2020, 15h29
Flodelarab

Pour un Linuxien, la réponse de Balkany est excellente.
Il faut chercher ton bonheur dans l'adaptation à Windows. Et là, sans cygwin, je ne peux pas t'aider. Le sous-forum batch est plus indiqué, n'est-ce pas ?

Bonsoir,

ALors j'ai déja mis à jour awk, installer aussi gawk et mis la derniere version de sed

J'ai beau chercher, je ne trouve pas la solution.

Alors exactement, j'ai un fichier nommé nslookup_results.csv

Extrait de son contenu :
Code:

1 2 3 4 5 6 7 8 9 10 ;NOM DNS;ADRESSE IP 1;play.google.com;play.google.com 1;play.google.com;142.250.74.238 2;android.com;android.com 2;android.com;142.250.74.228 3;googleanalytics.com;googleanalytics.com 3;googleanalytics.com;216.58.198.196 4;googleusercontent.com;googleusercontent.com 5;gstatic.com;gstatic.com 5;gstatic.com;172.217.19.227
On peut constater que j'ai des lignes avec des DNS en doublons sur la meme ligne. Et c'est cela que je que je veux supprimer.

Voici les lignes de commandes testés fonctionnelles qui m'affiche à l'écran le bon résultat. Mais uniquement là... Je n'ai aucun action de suppression sur mon fichier nslookup_results.csv

Pour AWK
Code:

1 2 3 4 5 %awk% -F ";" "{ if (a[$1]++ == 0) print $0; }" nslookup_results.csv %awk% -F ";" "a !~ $1; {a=$1}" nslookup_results.csv %awk% -F ";" "!_[$1]++" nslookup_results.csv %awk% -F ";" "!seen[$2]++" nslookup_results.csv %awk% -F ";" "!a[$1]++" nslookup_results.csv
Pour GAWK
Code:

1 2 3 4 5 %gawk% -F ";" "{ if (a[$1]++ == 0) print $0; }" nslookup_results.csv %gawk% -F ";" "a !~ $1; {a=$1}" nslookup_results.csv %gawk% -F ";" "!_[$1]++" nslookup_results.csv %gawk% -F ";" "!seen[$2]++" nslookup_results.csv %gawk% -F ";" "!a[$1]++" nslookup_results.csv
Pour SED

Code:

%sed% -rn "/(\b\w+\b).*\b\1\b/ p" nslookup_results.csv

Malheureusement, je suis contraint de faire un script sous Windows. Et je vous rejoins que la solution la plus simple est bien linux...

19/11/2020, 23h22
N_BaH

il serait utile que tu donnes la sortie attendue correspondant au fichier donné en exemple dans ton dernier message.
ce serait plus clair.

Oups, désolé

Alors le fichier original :

Code:

1
2
3
4
5
6
7
8
9
10
;NOM DNS;ADRESSE IP 
1;play.google.com;play.google.com 
1;play.google.com;142.250.74.238 
2;android.com;android.com 
2;android.com;142.250.74.228 
3;googleanalytics.com;googleanalytics.com 
3;googleanalytics.com;216.58.198.196 
4;googleusercontent.com;googleusercontent.com 
5;gstatic.com;gstatic.com 
5;gstatic.com;172.217.19.227

Et l'attente à la sortie :

Code:

1
2
3
4
5
;NOM DNS;ADRESSE IP  
1;play.google.com;142.250.74.238 
2;android.com;142.250.74.228 
3;googleanalytics.com;216.58.198.196 
5;gstatic.com;172.217.19.227

Les doublons comme ceci doivent étre supprimé :

Code:

1
2
3
4
5
1;play.google.com;play.google.com
2;android.com;android.com
3;googleanalytics.com;googleanalytics.com
4;googleusercontent.com;googleusercontent.com
5;gstatic.com;gstatic.com

19/11/2020, 23h52
Flodelarab
:lol:

Si ton fichier est conforme à ce que tu as posté, c'est normal. J'ai le même résultat que toi. Car tu as des espaces à la fin des lignes. ;)

Soit tu les supprimes à la main, soit tu utilises cette commande sed : (attention, l'option -i veut dire "inplace" et change le fichier directement)

Code:

sed -i 's/ *$//' nslookup_results.csv

Puis tu fais ton script awk :
Code:

1 2 3 4 5 6 awk -F';' '$2!=$3' nslookup_results.csv ;NOM DNS;ADRESSE IP 1;play.google.com;142.250.74.238 2;android.com;142.250.74.228 3;googleanalytics.com;216.58.198.196 5;gstatic.com;172.217.19.227
Si ton fournisseur est un script, il faut le modifier pour qu'il arrête de mettre des espaces à la fin des lignes. Car le délimiteur est ";" et on ne touche plus aux espaces.

[edit]
D'ailleurs, autre idée, la fin de ligne avec Windows est \r\n (CRLF) alors que avec Linux \n (LF). Il faudrait vérifier, le cas échéant, que sed ou awk ne prennent pas \r pour un caractère du dernier champ de la ligne.
[/edit]

Déja un trés grand merci à toi ! Un vrai coup de pousse !

Alors déjà, pour commencer, voici mon script pour créer mon fichier nslookup_results.csv Pour rappel, suis sous WIndows.
Dans le fichier nslookup_input.txt j'ai mes DNS listé pour obtenir les adresses IP correspondantes. J'ai vérifié, il n'y a pas d'éspace à la fin.

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
@echo off
cls
setlocal enabledelayedexpansion enableextensions
set me=%~n0
set parent=%~dp0
set outputfile=%parent%nslookup_results.csv
set inputfile=%parent%nslookup_input.txt
set fichier_final=%parent%fichier_final.csv
 
rem on ajoute une premiere ligne avec les titres
@echo #;NOM DNS;ADRESSE IP >> %outputfile%
 
rem Obtention adresse IP des noms DNS
echo Obtention adresse IP des noms DNS
echo.
 
FOR /F %%G in (%inputfile%) do (
 set /a resultcount+=1
 FOR /F "skip=3 tokens=2 delims=: " %%J in ('echo(^|nslookup %%G') do @echo !resultcount!;%%G;%%J >> %outputfile%
)
 
 
echo extraction des doublons noms de domaine
echo creation du fichier doublousDNS
rem creation du fichier doublousDNS.csv
%sed% -rn "/(\b\w+\b).*\b\1\b/ p" %outputfile% > %doublonsDNS%
echo fichier doublonsDNS.csv cree
echo.
 
echo Supression des espaces à la fin des lignes du fichier nslookup_results.csv
%sed% -i "s/ *$//" %outputfile%
 
echo suppression des doublons dans %outputfile%
pause
%awk% -F';' "$2!=$3" %outputfile%
echo fait
pause

J'ai testé dans une fenêtre CMD ta commande pour la suppression des espaces. Cela fonctionne bien et merci encore d'avoir trouvé cette erreur.

Par contre pour la commande

Code:

%awk% -F';' "$2!=$3" nslookup_results.csv

Çà ne marche pas. Pour rappel suis sous WIndows. Du coup, ta commande :

Code:

awk -F';' '$2!=$3' nslookup_results.csv

et devenu

Code:

%awk% -F';' "$2!=$3" nslookup_results.csv

Et au final, c'est toujours pareil (testé pas en script mais dans une fenetre CMD)

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
#;NOM DNS;ADRESSE IP
1;play.google.com;play.google.com
1;play.google.com;172.217.18.206
2;android.com;android.com
2;android.com;142.250.74.228
3;googleanalytics.com;googleanalytics.com
3;googleanalytics.com;216.58.198.196
4;googleusercontent.com;googleusercontent.com
5;gstatic.com;gstatic.com
5;gstatic.com;172.217.19.227
6;ggpht.com;ggpht.com
7;dl.google.com;dl.google.com
7;dl.google.com;172.217.22.142
8;dl-ssl.google.com;dl-ssl.l.google.com
8;dl-ssl.google.com;64.233.184.93
8;dl-ssl.google.com;64.233.184.136
8;dl-ssl.google.com;64.233.184.190
8;dl-ssl.google.com;64.233.184.91
8;dl-ssl.google.com;dl-ssl.google.com
9;android.clients.google.com;android.l.google.com
9;android.clients.google.com;142.250.74.238
9;android.clients.google.com;216.58.213.142
9;android.clients.google.com;216.58.213.174
9;android.clients.google.com;216.58.204.142
9;android.clients.google.com;172.217.19.238
9;android.clients.google.com;172.217.22.142
9;android.clients.google.com;216.58.215.46
9;android.clients.google.com;216.58.213.78
9;android.clients.google.com;216.58.198.206
9;android.clients.google.com;216.58.204.110
9;android.clients.google.com;216.58.209.238
9;android.clients.google.com;216.58.201.238
9;android.clients.google.com;216.58.206.238
9;android.clients.google.com;172.217.18.206
9;android.clients.google.com;216.58.214.78
9;android.clients.google.com;android.clients.google.com
10;ns1.google.com;ns1.google.com
10;ns1.google.com;216.239.32.10
11;ns2.google.com;ns2.google.com
11;ns2.google.com;216.239.34.10
12;ns3.google.com;ns3.google.com
12;ns3.google.com;216.239.36.10
13;ns4.google.com;ns4.google.com
13;ns4.google.com;216.239.38.10
14;ns-cloud-c1.googledomains.com;ns-cloud-c1.googledomains.com
14;ns-cloud-c1.googledomains.com;216.239.32.108
15;ns-cloud-c2.googledomains.com;ns-cloud-c2.googledomains.com
15;ns-cloud-c2.googledomains.com;216.239.34.108
16;ns-cloud-c3.googledomains.com;ns-cloud-c3.googledomains.com
16;ns-cloud-c3.googledomains.com;216.239.36.108
17;ns-cloud-c4.googledomains.com;ns-cloud-c4.googledomains.com
17;ns-cloud-c4.googledomains.com;216.239.38.108

J'ai mis un max d'info pour que tu puisses connaitre ce que j'ai effectué.

Tof

20/11/2020, 00h50
Flodelarab

Essaie ça :

Code:

%awk% -F ";" "/\r$/{t++;} END{print \"Il y a\",int(t),\"retours chariot, en fin de ligne, dans ce fichier de\",NR,\"lignes.\";}" nslookup_results.csv

Et dis-nous le résultat.

Conseil: Tu devrais ajouter un point virgule après ton dernier champ.

Voici le retour :

Code:

1
2
c:\SCRIPT>%awk% -F ";" "/\r$/{t++;} END{print \"Il y a\",t,\"retours chariot, en fin de ligne, dans ce fichier de\",NR,\"lignes.\";}" nslookup_results.csv
Il y a  retours chariot, en fin de ligne, dans ce fichier de 52 lignes.

Pour l'ajout du ; je fais comment ?

Mon niveau n'est pas trés top...

20/11/2020, 00h55
Flodelarab

Wow, déjà. :)

Et le point-virgule après %%J ? Cela règle-t-il le problème ?

RE,

Effectivement pas encore couché... :)

Voici ce que ça donne au niveau du fichier :

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
#;NOM DNS;ADRESSE IP
1;play.google.com;play.google.com;
1;play.google.com;142.250.74.238;
2;android.com;android.com;
2;android.com;142.250.74.228;
3;googleanalytics.com;googleanalytics.com;
3;googleanalytics.com;216.58.198.196;
4;googleusercontent.com;googleusercontent.com;
5;gstatic.com;gstatic.com;
5;gstatic.com;172.217.19.227;
6;ggpht.com;ggpht.com;
7;dl.google.com;dl.google.com;
7;dl.google.com;172.217.22.142;
8;dl-ssl.google.com;dl-ssl.l.google.com;
8;dl-ssl.google.com;64.233.184.93;
8;dl-ssl.google.com;64.233.184.190;
8;dl-ssl.google.com;64.233.184.136;
8;dl-ssl.google.com;64.233.184.91;
8;dl-ssl.google.com;dl-ssl.google.com;
9;android.clients.google.com;android.l.google.com;
9;android.clients.google.com;216.58.213.142;
9;android.clients.google.com;142.250.74.238;
9;android.clients.google.com;216.58.214.78;
9;android.clients.google.com;172.217.18.206;
9;android.clients.google.com;216.58.206.238;
9;android.clients.google.com;216.58.201.238;
9;android.clients.google.com;216.58.209.238;
9;android.clients.google.com;216.58.204.110;
9;android.clients.google.com;216.58.198.206;
9;android.clients.google.com;216.58.213.78;
9;android.clients.google.com;216.58.215.46;
9;android.clients.google.com;172.217.22.142;
9;android.clients.google.com;172.217.19.238;
9;android.clients.google.com;216.58.204.142;
9;android.clients.google.com;216.58.213.174;
9;android.clients.google.com;android.clients.google.com;
10;ns1.google.com;ns1.google.com;
10;ns1.google.com;216.239.32.10;
11;ns2.google.com;ns2.google.com;
11;ns2.google.com;216.239.34.10;
12;ns3.google.com;ns3.google.com;
12;ns3.google.com;216.239.36.10;
13;ns4.google.com;ns4.google.com;
13;ns4.google.com;216.239.38.10;
14;ns-cloud-c1.googledomains.com;ns-cloud-c1.googledomains.com;
14;ns-cloud-c1.googledomains.com;216.239.32.108;
15;ns-cloud-c2.googledomains.com;ns-cloud-c2.googledomains.com;
15;ns-cloud-c2.googledomains.com;216.239.34.108;
16;ns-cloud-c3.googledomains.com;ns-cloud-c3.googledomains.com;
16;ns-cloud-c3.googledomains.com;216.239.36.108;
17;ns-cloud-c4.googledomains.com;ns-cloud-c4.googledomains.com;
17;ns-cloud-c4.googledomains.com;216.239.38.108;

Mais toujours pareil (en fenetre CMD) ça marche toujours pas :

Code:

%awk% -F';' "$2!=$3" nslookup_results.csv

Testé auss avec :

Code:

%awk% -F';' "$2 != $3" nslookup_results.csv

20/11/2020, 01h17
Flodelarab

Allez, une dernière idée :

Code:

%awk% -F ";" "\$2 != \$3" nslookup_results.csv
20/11/2020, 09h06
Tofdu31
Arfff,

J'ai une erreur avec les backslash
Code:

1 2 3 c:\SCRIPT>%awk% -F ";" "\$2 != \$3" nslookup_results.csv awk: \$2 != \$3 awk: ^ backslash not last character on line
Je vais chercher mais si quelqu'un peu tester aussi c'est avec plaisir d'avoir votre retour.

Tof
20/11/2020, 10h57
Tofdu31

Résolu !!!

Allez super merci !!! J'ai trouvé la solution avec ton aide !!!
Je passe par sed et ça fonctionne !

Code:

%sed% -r "/(;[^;]*)\1/d" < %outputfile_Apple_temp% > %outputfile_Apple%

Merci encore et longue vie au site !!!

Tof

Voir 40 message(s) de cette discussion en une page