-
Extraction donnée csv
Bonjour,
j'ai beau essayer je n'arrive pas à créer un script linux capable d'extraire les données en double (ou plus) d'un csv contenant une seule colonne, j'ai plus d'1 million de lignes à traiter, et en passant par excel plantage immédiat.
Si vous avez une piste, j'arrive à lire le fichier mais j'ai un problème pour ce qui est de la de la comparaison entre champs.
Cordialement
-
Bonjour,
Citation:
j'ai beau essayer
on peut voir ?
"une seule colonne", donc un seul champ
alors, ce sont les enregistrements qu'il faut comparer.
utilise un tableau associatif avec le champ en tant qu'index : si l'élément du tableau existe, le champ est au moins en double.
-
Au vu des indications que tu donnes, voici à peu près se que tu as besoin:
Tri d'un fichier:
Tri d'un fichier en ne sortant qu'une seule fois la même ligne:
Tri d'un fichier qui ne donne que les lignes unique:
Code:
sort fichier | uniq -u
Tri d'un fichier qui ne donne que les lignes au moins doublons:
Code:
sort fichier | uniq -d
-
Bonjour :coucou:
Code:
awk '!vu[$1]++' fichier
Dit sans tri.
:dehors: