Isoler et supprimer les doublons

Version imprimable

22/11/2013, 15h28
Taxan

Isoler et supprimer les doublons
Bonjour,

J'ai un fichier du type
Code:

1 2 3 4 5 AAAAAA AA AAAAA BBBBBB BB BBBBB CCCCCC CC CCCCC DDDDDD DD DDDDD BBBBBB BB BBBBB
Ce fichier contient une ligne en double parfait (seconde et cinquième). Je souhaite faire ceci :
1- Isoler ces deux lignes dans un nouveau fichier
2- Préfixer les deux lignes isolées par ERR suivi du numéro de ligne dans le fichier source
3- Supprimer ces deux lignes dans le fichier d'origine

Nouveau fichier
Code:

1 2 3 ERR 2 BBBBBB BB BBBBB ERR 5 BBBBBB BB BBBBB
Fichier origine devient
Code:

1 2 3 AAAAAA AA AAAAA CCCCCC CC CCCCC DDDDDD DD DDDDD
Pour identifier les enregistrements en double, je voulais utiliser la commande

Code:

uniq -d

mais la version Linux de la machine sur laquelle je suis ne veut rien savoir.
Avez-vous une idée?

Je viens de vérifier, la commande

Code:

sort fichier | uniq -d

renvoie bien les deux lignes. Reste maintenant à mettre en place le reste du traitement.
22/11/2013, 15h36
disedorgue

Bonjour,

C'est un peu plus compliqué que ça, la commande uniq ne fonctionne que sur des fichiers triés.

Bonjour

Une console:

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
$ cat doublons.txt
AAAAAA AA AAAAA
BBBBBB BB BBBBB
CCCCCC CC CCCCC
DDDDDD DD DDDDD
BBBBBB BB BBBBB
$ awk '{Qte[$0]++;ligne[NR]=$0;} END{for (i=1;i<=NR;i++) if (Qte[ligne[i]]<2) print ligne[i] > "resultat.txt"; else print "ERR",i,ligne[i] > "erreurs.txt";}' doublons.txt 
$ cat resultat.txt 
AAAAAA AA AAAAA
CCCCCC CC CCCCC
DDDDDD DD DDDDD
$ cat erreurs.txt 
ERR 2 BBBBBB BB BBBBB
ERR 5 BBBBBB BB BBBBB
$

25/11/2013, 09h27
Taxan

Impressionnant ! merci. :ccool: