Comparaison de deux fichiers avec awk

**hycar33** · 10/08/2017, 11h25

Bonjour , je souhaite comparer deux fichiers sur un champ bien précis . Les deux fichiers sont structurés avec des champs fixes pas de séparateur entre chaque champ.

Sur le premier fichier ( par ex fichier1.txt) le champ qui m 'intéresse se trouve en position suivante : colonne de 1 à 8 .

Sur le deuxième fichier ( par ex fichier2.txt) le champ qui m 'intéresse se trouve en position suivante : colonne de 13 à 21 .

je souhaite donc comparer ces deux champ et afficher le résultat dans un fichier . comment je dois procéder merci de votre aide .

j'ai fait un truc comme ça , ça ne marche pas très bien , une idée

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
awk ' { cle1=substr($0,1,8);   
                          if (cle1==cle2)
                {
                                               print $0
                }
                while  ((getline < "fichier2.txt") > 0) {
                              cle2=substr($0,13,8);
                                              if (cle1==cle2) 
                               {
                                               print $0
                               }
                             } 
}'  fichier1.txt. > res.txt

**becket** · 10/08/2017, 11h54

Salut,
En supposant que le séparateur est un point-virgule quelque chose comme ceci devrait faire l'affaire.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 
 awk -F';' '{ getline Fichier2 < "/path/to/second-file" ; split(Fichier2,F2s,";") ; SF2=F2s[5]F2s[6]F2s[7] ; SF1=$5$6$7 ; if( SF1 !~ SF2 ) { print "DONT MATCH - " SF1 "#--##" SF2  } }' /path/to/first-file

**N_BaH** · 10/08/2017, 15h29

Bonjour,

Les deux fichiers sont structurés avec des champs fixes

gawk possède une variable FIELDWIDTHS.

ça ne marche pas très bien

c'est-à-dire ?
quel est le comportement attendu ?
quel est le comportement observé ?
un échantillon représentatif des fichiers à traiter et la sortie correspondante seraient appréciés.

**hycar33** · 10/08/2017, 21h41

Re,
voici un échantillon pour chaque fichier

structure premier Fichier : aucun séparateur que des champs fixes, les valeurs sont tjs à la même position

ex des données :

00000001 0100122223
00000002 0100122224
00000003 0100122226

le champ que je souhaite comparer avec le deuxième fichier est positionnée en gras se sont les 8 premiers caractères du fichier

Struture du deuxième fichier : aucun séparateur que des champs fixes les valeurs sont tjs à la même position

ex de données :

L2204 01001 L ABERGEMENT CLEMENCIAT 0 101400L ABERGEMENT CLEMENCIAT
V2204 0100100000001 CLEMENCIAT CLEMENCIAT N 000014000000 0000 0000 0000 00000
V2204 0100100000002 BOIS LIEU DIT AU BOIS LD VVAN 000014000000 0000 0000 0000 00002
V2204 0100100000003 CHAMAUDRY CHAMAUDRY N 000014000000 0000 0000 0000 00000

Le champ que je souhaite comparer avec le premier fichier est tjs positionné de la colonne 13 à la colonne 20( taille 8)

Donc ma demande , si le champ du premier fichier identifié en gras position de 1 à 8( ci-dessus) est présent dans le deuxième fichier(colonne13 à 20) , alors créer un fichier de résultat on y rajoutant la ligne du premier fichier
Merci de votre aide

**BufferBob** · 10/08/2017, 22h20

salut,

~~la fonction substr() est ton amie, sur le même principe décrit par becket plus haut~~
une façon de faire assez simple :

Code script.awk :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
#!/usr/bin/awk -f
 
NR == FNR {  # on traite le 1er fichier, on rempli un tableau
   tab[substr($0, 1, 8)] = $0;
   next;
}
 
tab[substr($0, 12, 8)] { # on traite le 2nd fichier, pour chaque valeur on cherche dans le tableau
   print tab[substr($0, 12, 8)];
}

et le résultat :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
$ ./script.awk fichier1.txt fichier2.txt > res.txt
$ cat res.txt
00000001 0100122223
00000002 0100122224
00000003 0100122226

**hizoka** · 11/08/2017, 14h36

Salut,

perso je ferai un truc du genre :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
# Traite le 1er fichier ligne par ligne
while read LigneFichier1
do
  # Traite le second fichier ligne par ligne pour chaque ligne du 1er fichier
  while read LigneFichier2
  do
    # Compare les valeurs des 2 fichiers et rempli le fichier de retour
    [[ ${LigneFichier1:0:8} == ${LigneFichier2:11:8} ]] && echo "${LigneFichier}" >> reply.txt
  done < fichier2.txt
done < fichier1.txt

ce qui me renvoie :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
cat reply.txt
00000001 0100122223
00000002 0100122224
00000003 0100122226

mais bon ça ne répond pas vraiment à la question qui évoquait awk :p

**BufferBob** · 11/08/2017, 18h46

Envoyé par hizoka

mais bon ça ne répond pas vraiment à la question qui évoquait awk :p

surtout c'est beaucoup moins efficace

étant donné que pour chaque ligne du fichier1 tu relis l'intégralité du fichier2

**hizoka** · 11/08/2017, 18h48

Oui oui, tout à fait, mais pour un fichier de 3 lignes ça va :p

Mais sinon j'aurais fait la même chose que toi en python.

Après rien n’empêche de le faire en bash aussi.

Une boucle sur le fichier 2 pour remplir une liste avec les valeurs.
Puis une boucle sur le fichier qui recherche sa valeur dans la liste.

Enfin c'était plus pour le plaisir de faire un petit code en bash

**BufferBob** · 11/08/2017, 19h08

Envoyé par hizoka

c'était plus pour le plaisir de faire un petit code en bash

yep j'avais compris, j'ai mis un

for fun une version bash :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
#!/bin/bash
declare -A tab  # tableau associatif
 
while read line; do
   tab[${line%% *}]="$line"
done < fichier1.txt
 
while read line; do
   tmp=${tab[${line:11:8}]}
   if [ -n "$tmp" ]; then
      echo "$tmp"
   fi
done < fichier2.txt > res.txt

**hizoka** · 11/08/2017, 19h58

J'aime lire ce genre de code, clair et bien pensé

**disedorgue** · 12/08/2017, 16h27

Pour le fun:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
$ cat /tmp/fic1
00000001 0100122223 
00000002 0100122224 
00000003 0100122226 
$ cat /tmp/fic2
L2204 01001 L ABERGEMENT CLEMENCIAT 0 101400L ABERGEMENT CLEMENCIAT 
V2204 0100100000001 CLEMENCIAT CLEMENCIAT N 000014000000 0000 0000 0000 00000 
V2204 0100100000002 BOIS LIEU DIT AU BOIS LD VVAN 000014000000 0000 0000 0000 00002 
V2204 0100100000003 CHAMAUDRY CHAMAUDRY N 000014000000 0000 0000 0000 00000 
 
$ sed 's/\(.\{8\}\).*/^.\\{11\\}\1/' /tmp/fic1 | grep -v -f - /tmp/fic2  #ligne de fic2 avec champs non présent dans fic1
L2204 01001 L ABERGEMENT CLEMENCIAT 0 101400L ABERGEMENT CLEMENCIAT 
 
$ sed 's/\(.\{8\}\).*/^.\\{11\\}\1/' /tmp/fic1 | grep  -f - /tmp/fic2  #ligne de fic2 avec champs présent dans fic1
V2204 0100100000001 CLEMENCIAT CLEMENCIAT N 000014000000 0000 0000 0000 00000 
V2204 0100100000002 BOIS LIEU DIT AU BOIS LD VVAN 000014000000 0000 0000 0000 00002 
V2204 0100100000003 CHAMAUDRY CHAMAUDRY N 000014000000 0000 0000 0000 00000

**hizoka** · 12/08/2017, 16h33

J'aurais vraiment pas pensé à foutre des commandes via le sed pour que le grep les utilise dans ses recherches...

Le tout en une ligne même si niveau temps ça doit être un peu plus longs vu qu'il boucle sur tout le fichier (comme dans ma proposition).

J'adore ce genre de topic !

**disedorgue** · 13/08/2017, 11h54

Pas vraiment, il est vrai que c'est plus lent que la proposition awk de BufferBob, mais je ne lis qu'une fois le fichier 2 et disons, pour faire simple, 2 fois le fichier 1: pour le transformer via sed, et cette transformation n'est lu qu'une seule fois par grep qui l'utilise pour sa recherche.
Tu peux voir ça comme un grep avec une énorme expression régulière de type A|B|C.

**hizoka** · 13/08/2017, 12h25

OK, j'avais mal compris, merci pour l'info

Comparaison de deux fichiers avec awk

Shell et commandes GNU

Discussions similaires

Partager

Partager