[bash] Comparer deux fichiers csv

**ripat** · 03/05/2013, 09h08

Envoyé par Flodelarab

Non. FNR et NR ne sont égaux que pour le premier fichier en entrée. Pour le second, NR retombe à 0 et FNR poursuit sa route.

C'est pour cela que next est inutile et que la seconde accolade n'a pas besoin de condition. En effet, l'instruction "for i in ..." s'applique aux indices et pas aux valeurs. Aucun indice du tableau n'est un port puisque ce sont les adresses.

Les indices sont précisément les numéros de port.($2 deuxième champ du premier fichier lu par awk).

La condition de la deuxième instruction est indispensable. C'est elle qui permet d'imprimer les adresses (valeur du tableau a) ayant un numéro de port comme indice. La condition proposée par N_BaH était correcte. Elle pouvait aussi simplement s'écrire a[$1] qui s'évalue à TRUE si cet indice (port) existe dans le premier fichier.

Enfin, l'instruction next est également indispensable pour "boucler" sur la première instruction et sa condition FNR==NR et d'ainsi rester sur le premier fichier. Sans elle, la deuxième instruction serait inutilement exécutée pour toutes les lignes du premier fichier. C'est la raison pour laquelle ok.Idriss a dû supprimer les doublons dans son test plus haut.

Quant à la rapidité d'exécution, tout dépend du contexte et de la taille des fichiers. Y-a-t-il plusieurs lignes dans le fichier port? Risque t'on de retrouver des numéros de port dans les adresses mac (grep inutilisable)?

**disedorgue** · 03/05/2013, 12h43

Pourquoi grep serait-il inutilisable ???
Rien n'empêche de réécrire à la volée le fichier de port pour créer le bon pattern et de dire au grep de prendre comme fichier de pattern, l'entrée standard (voir l'une des solution de flodelarab)

**ripat** · 03/05/2013, 13h16

Envoyé par disedorgue

Pourquoi grep serait-il inutilisable ???
Rien n'empêche de réécrire à la volée le fichier de port pour créer le bon pattern et de dire au grep de prendre comme fichier de pattern, l'entrée standard (voir l'une des solution de flodelarab)

Certes mais à quel coût? Combien de pipe ou sous-process? Ça me rappelle une réponse un brin humoristique d'un modérateur du forum unix.com

Also, whenever you're doing grep | grep | awk | kitchen | sink, you should just replace it all with one simple awk command.

**disedorgue** · 03/05/2013, 13h59

On est d'accord sur le fond, ici, on aurait:

sed | grep | cut

Techniquement, on ne parserait qu'une seule fois le fichier mac_port.
Pour le fichier port, on le parse au moins une fois pour la mise en forme. puis formatage de la sorti par cut. Bizarrement, un grep+cut est aussi rapide qu'un sed qui fait la même chose (tout au moins sur des fichiers de mille lignes environ).

En awk, on est a peu près équivalent, car il est obligé de lire au moins un fois chaque fichier, il y a donc au moins une mise en forme (donnée de parsing) et les données à parser + la mise en forme pour la sortie.

Après, selon la regex, il n'est pas impossible que la méthode par le grep puisse prendre la main...

**Flodelarab** · 03/05/2013, 14h27

Envoyé par ripat

Les indices sont précisément les numéros de port.($2 deuxième champ du premier fichier lu par awk).

Levons l'ambiguïté: quand on se trouve dans la deuxième accolade pour le premier fichier, a[$1] utilise pour indice les adresses (00.1F.FF.5H.66) et n'a aucune chance de correspondre.

Envoyé par ripat

La condition de la deuxième instruction est indispensable.

Elle est inutile. Que la confrontation ait lieu dans l'accolade ou avant l'accolade ne m'empêche pas de dormir.

Envoyé par ripat

La condition proposée par N_BaH était correcte. Elle pouvait aussi simplement s'écrire a[$1] qui s'évalue à TRUE si cet indice (port) existe dans le premier fichier.

Elle est incorrecte car elle est toujours vraie alors que a[$1] n'est pas toujours vraie. Tu le dis toi-même

Envoyé par ripat

Sans elle, la deuxième instruction serait inutilement exécutée pour toutes les lignes du premier fichier.

D'accord.

Envoyé par ripat

Quant à la rapidité d'exécution, tout dépend du contexte et de la taille des fichiers.

On ne peut parler que de la vitesse algorithmique....
Si tu commences à comparer le nombre de lignes, les microprocesseurs, etc, on n'est pas arrivé.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

Also, whenever you're doing grep | grep | awk | kitchen | sink, you should just replace it all with one simple awk command.

awk sait tout faire mais il le fait mal. grep ne sait que filtrer mais il le fait bien.
Cf les temps que j'ai indiqué plus haut.

Toutes ces choses étant dites, la méthode awk donnée ici est mauvaise car elle présuppose qu'il n'y a qu'une adresse par port. Ce qui paraît douteux. (L'inverse serait tout aussi douteux)

**Flodelarab** · 03/05/2013, 15h23

Non seulement il ne marche pas car l'association est douteuse, mais en plus, il y a un espace entre le ";" et le port qui fait que les deux ne correspondront jamais. Il faut proposer une solution du style:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
$ awk -F';' '(FNR==NR){plouf=" "$1;a[plouf]++} (FNR>NR){if ($2 in a) print $1}' filtre.txt initial.txt
00.1F.FF.5H.66

ou

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
$ awk -F'; ' '(FNR==NR){a[$1]++} (FNR>NR){if ($2 in a) print $1}' filtre.txt initial.txt
00.1F.FF.5H.66

**ripat** · 05/05/2013, 00h57

Envoyé par Flodelarab

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
$ awk -F'; ' '(FNR==NR){a[$1]++} (FNR>NR){if ($2 in a) print $1}' filtre.txt initial.txt
00.1F.FF.5H.66

Tu pourrais te passer de la condition de la deuxième instruction en utilisant l'instruction next dans la lecture du premier fichier. De plus cette condition n'est pas correcte. FNR>NR s'évaluera toujours à FALSE. FNR ne sera jamais supérieur à NR dans la lecture de fichiers multiples. Impossible.

La construction:awk 'FNR==NR{instruction pour fichier1; next} {instruction pour fichier2}' fichier1 fichier2 est un grand classique de lecture de fichier multiple.

Un peu de lecture:
http://www.unix.com/shell-programmin...oduce-3rd.html
http://www.staff.science.uu.nl/~oost...k/nawk_77.html
http://www.catonmat.net/blog/ten-awk...k_be_idiomatic

**Flodelarab** · 05/05/2013, 01h46

Oui FNR<NR et pas FNR>NR

T'as trouvé la bonne faute pour une méthode qui de toute façon ne marche pas. (cf plus haut plusieurs adresses pour un seul port)

**ripat** · 05/05/2013, 11h28

Envoyé par Flodelarab

Oui FNR<NR et pas FNR>NR

T'as trouvé la bonne faute pour une méthode qui de toute façon ne marche pas. (cf plus haut plusieurs adresses pour un seul port)

Si, si, c'est possible en aménageant un peu le code awk:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

awk -F' ; ' 'FNR==NR{a[$2]=a[$2] "\n" $1;next}a[$1]{printf a[$1]}' mac port

**disedorgue** · 05/05/2013, 13h11

Alors plusieurs remarques:

-Les méthodes avec le sed ne fonctionnent pas correctement, car l'expression régulière n'est pas tout à fait correcte, elle confont au niveau des ports la valeur 1 avec 10 à 19, 2 avec 20 à 29, etc...

-Dans toutes les méthodes awk proposées, chez moi il n'y a que celle de N_BaH qui fonctionne où d'ailleurs on peut se passer de FNR==NR puisque le 2éme champs étant inexistant dans le fichier port, on ne risque pas d'écrasement de valeur et c'est d'ailleurs pour cela qu'elle fonctionne aussi avec l'erreur FNR=NR

Pas testé les méthodes avec join, car potentiellement trop lente.

Sinon, après correction de la regex coté sed (ou grep), la méthode awk à l'air plus rapide d'environ 25%... (mais bon, chez moi, je suis en cygwin, donc difficile à bien juger)

[bash] Comparer deux fichiers csv

Shell et commandes GNU

Discussions similaires

Partager

Partager