Remplacer une colonne par ses numéros correspondants dans une liste

**freestyler** · 23/04/2008, 02h42

Bonjour,
J'ai un fichier My_file à 3 colonnes:
col1: de 1 à 8, col2: de 9 à 17,col3:de 18 à 48
(Typiquement: Nom, Prénom, Adresse)
Je cherche à avoir 2 fichiers : $Adr_file contenant la liste des adresses avec des numeros (Ids), et $Id_Adr_file contenant Nom, Prénom, et le Numéro (Id) correspondant.

Ce code marche à merveille, sauf que ça prend beacoup de temps(45 min) pour 17000 lignes

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
 
awk ' {var1=substr($0,17,30);
	printf("%s",var1)
	printf( "\n" )
} ' $My_file > TEMP1
 
# remove duplicates
sort -o $Adr_file TEMP1
uniq $Adr_file > TEMP
 
if [ -f TEMP2 ]
then
	rm TEMP2
fi
 
#Cette partie est celle qui consomme beacoup de temps
while read line
do
adresse=`expr substr "$line" 17 30`
p_id=`grep -x -n "$adresse" TEMP | cut -f1 -d ":"`
 
printf "%-3s %s" $p_id >> TEMP2 
echo $line >> TEMP2
 
done < $My_file
 
if [ -f $Adr_file ]
then
	rm $Adr_file
fi
 
i=1
while read line
do
printf "%-3s %s" $i>> $Adr_file 
echo $line >> $Adr_file
i=$(expr $i + 1 )
done < TEMP
 
#ce awk file va simplement virer la colonne adresses du fichier final
awk -f adresse.awk TEMP2 > $Id_Adr_file

Quelqu'un a une idée pour améliorer la logique??

Merci

**freestyler** · 23/04/2008, 03h11

Je me rends compte que j'ai peut etre posé le problème d'une mauvaise façon.

Si j'ai une liste (non triée) de strings :

Barry
Adrien
John
Barry
Adrien
Barry
John

Je veux numéroter cette liste ainsi:
1 Adrien
1 Adrien
2 Barry
2 Barry
2 Barry
3 John
3 John

puis revenir à l'ordre initial :
2 Barry
1 Adrien
3 John
2 Barry
1 Adrien
2 Barry
3 John

Cela résoudrait mon problème je pense par un simple awk script derrière

J'apprécierai tous les tuyaux, merci

**freestyler** · 23/04/2008, 12h53

Des idées ??

Est ce si difficile que ça ?

**tuxcoin** · 23/04/2008, 14h03

Salut freestyler,

suis en train de voir ( sur tout le code ) ..

Si je comprends bien, ton fichier My_file ( contient 3 champs concaténés et sans espace reprenant le nom prenom et adresse. )

Question simple les champs ID des fichiers representés par $Adr_file et $Id_Adr_file n'ont aucun rapport ?? ( dumoins je ne crois pas ) .. petite question afin de ne pas partir sur quelques chose de faux ..

**frp31** · 23/04/2008, 14h33

Envoyé par freestyler

Bonjour,
J'ai un fichier My_file à 3 colonnes:
col1: de 1 à 8, col2: de 9 à 17,col3:de 18 à 48
(Typiquement: Nom, Prénom, Adresse)
Je cherche à avoir 2 fichiers : $Adr_file contenant la liste des adresses avec des numeros (Ids), et $Id_Adr_file contenant Nom, Prénom, et le Numéro (Id) correspondant.

Ce code marche à merveille, sauf que ça prend beacoup de temps(45 min) pour 17000 lignes

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
 
awk ' {var1=substr($0,17,30);
	printf("%s",var1)
	printf( "\n" )
} ' $My_file > TEMP1
 
# remove duplicates
sort -o $Adr_file TEMP1
uniq $Adr_file > TEMP
 
if [ -f TEMP2 ]
then
	rm TEMP2
fi
 
#Cette partie est celle qui consomme beacoup de temps
while read line
do
adresse=`expr substr "$line" 17 30`
p_id=`grep -x -n "$adresse" TEMP | cut -f1 -d ":"`
 
printf "%-3s %s" $p_id >> TEMP2 
echo $line >> TEMP2
 
done < $My_file
 
if [ -f $Adr_file ]
then
	rm $Adr_file
fi
 
i=1
while read line
do
printf "%-3s %s" $i>> $Adr_file 
echo $line >> $Adr_file
i=$(expr $i + 1 )
done < TEMP
 
#ce awk file va simplement virer la colonne adresses du fichier final
awk -f adresse.awk TEMP2 > $Id_Adr_file

Quelqu'un a une idée pour améliorer la logique??

Merci

deja tu fais un expr avec substr meiux vaut remplacer ça par une seule commande sed
de meme pour le grep + cut

et n'oublies pas pour sed
s/$toto/titi/
/$toto/s/$toto/titi/ sont la même chose mais le second indexe avant action ce qui le rend hyper performant.

un exemple d'utilisation de sed pour un cas comme ça :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

sed '/'$toto'/s/'$toto':.*/'$toto'/' fichier > newfile

ce qui = à

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

grep $toto fichier | cut -d":" -f1 > newfile

de read est à exclure aussi pour le remplacer par

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
for truc in $( cat fichier) 
do
...
done

de plus tu as 2 fois read dans ton script

et bien sur le plus grave de tout
remplaces ton

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

adresse=`expr substr "$line" 17 30`

par

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
adresse=$(echo $line | cut -c 18-30)
#pour une fois qu'on peut utiliser le cut plus vite que l'expr faut le faire :)

tu devrais rien qu'avec ça, sans même toucher à l'algo, descendre vers les 35/40 minutes si tu dis que tu tournes actuellement en ~45~minutes.

si tu veux descendre encore plus bas là il faut "casser" l'algo et voir si on peut faire mieux, et/ou changer de shell à awk ou a autre chose.

**ripat** · 23/04/2008, 14h35

Suivant ton fichier exemple, que donne un timing de ceci:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
#!/bin/bash
 
FICHIER=$1
 
# numérotation des lignes
cat -n $FICHIER | sort -k2 > /tmp/${FICHIER}-apres-tri
 
# affectation numérotation perso 
awk 'BEGIN {
        previous = ""
        n=0
}
 
{        
    if ( $2 != previous) {
        n++
    }
    print n, $1, $2
    previous = $2
}
' /tmp/${FICHIER}-apres-tri  | sort -k2 | cut -d' ' -f1,3

Appeler le script:
$ script.sh <nom-du-fichier-a-traiter>

**freestyler** · 23/04/2008, 18h25

merci a tous pour vos réponses

Cependant, j'ai quelques remarques à ajouter :

tuxoin: L'idée est d'avoir une correspondance entre les Ids de $Adr_file et $Id_Adr_file. donc c'est effectivement les mêmes. Tout le challenge est de remplacer une colonne par l'Id correspondant dans une liste!
1 adresse1
2 adresse2
3 adresse3
...
puis dans $Adr_file, remplacer adresse1 par 1, adresse2 par2, ..sachant que le champ adresse se situe TOUJOURS à la colonne 17 de $My_file et que nom se situe toujours au début et prend TOUJOURS 8 caractéres, et que prénom suit nom sur 8 caractéres aussi
donc : (n pour non, p pour prenom, a pour adresse)
nnnnnnnnppppppppaaaaaaaaaaaaaaaaaa..
n prend un espace si length(nom) < 8 .. ainsi de suite

frp31:
le for line in $(cat fichier) n'est pas adapté.
comment faire sir j'ai des espaces dans $line ??
sinon, je ne suis pas pro sed

j'ai jamais bien saisi son fonctionnement. donc je ne sais pas amélirer ceci:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
adresse=$(echo $line | cut -c 18-30)
adr_id=`grep -x -n "$adresse" TEMP | cut -f1 -d ":"`

si tu penses que ca va améliorer mes performances en temps, merci de me dire comment faire en sed (le grep -x c'est pour avoir un match de toute la ligne car il se peut que j'ai dans ma liste des adresses comme Paris, Paris-sud et que pour des raisons evidentes, le grep sur paris donnera plusieurs matchs inutiles)

ripat:
je ne vois pas ou tu veux en venir ??
tu essaies sur quel fichier exemple?
sinon, cat -n ne marche pas !! mauvais usage

Merci

**freestyler** · 23/04/2008, 18h53

ripat
je commence à voir où tu veux en venir sauf que mom fichier exemple n'est pas exactement cà:

20051023 3681FROMAGE
20051023 48385VIANDE BOVINE
20051023 48408VIANDE BOVINE
20051023 79891CONSERVE 4
20051023 79907VIANDE BOVINE
20051023 90223VOLAILLE
20051023 111652PATES
20051023 350600VIANDE ROUGE
20051023 551694VIANDE BOVINE
20051023 1078954RIZ
20051030 1111385CONSERVE 1
20051030 1139501CONSERVE 1
20051030 1167351CONSERVE 1
20051030 1248173CONSERVE 4
20051030 1248197CONSERVE 4

voici les 15 premiéres lignes de mon fichier
colonne 1 = JOUR (8 caracteres)
colonne 2 = ARTICLE (8 caracteres)
colonne 3 = CATEGORIE (end of line)
j'ai pas pu effectuer le tri sur la colonne 17 (debut de categorie) a cause des espaces.

merci d'adapter ton bout de code, je pense que c'est exactement ce que je veux.

sinon, pour rendre les choses plus évidentes pour tout le monde, je cherche a obtenir à partir de ça:
Liste1
------
1 CONSERVE 1
2 CONSERVE 4
3 FROMAGE
4 PATES
5 RIZ
6 VIANDE BOVINE
7 VIANDE ROUGE
8 VOLAILLE

puis. Liste 2
------------
20051023 3681 3
20051023 48385 6
20051023 48408 6
20051023 79891 2
20051023 79907 6
20051023 90223 8
20051023 111652 4
20051023 350600 7
20051023 551694 6
20051023 1078954 5
20051030 1111385 1
20051030 1139501 1
20051030 1167351 1
20051030 1248173 2
20051030 1248197 2

Les espaces sont trompeurs, mais col1(8: se termine à la colonne 8), col2(8: se termine à la colonne 16), col3 (4: se termine à la colonne 20) : se termine c'est à dire justifié à droite (col3=" 1", " 2" par ex)

**ripat** · 23/04/2008, 19h08

Je vois mieux. Il y a d'abord un travail de séparation à faire dans le champs "categorie". Je regarde ça. Mais je t'annonce dès à présent que le traitement final ne devrait pas prendre plus de quelques secondes. Sauf si tu l'exécutes sur un 386 avec 512K de ram.

D'après ton msg précédent, les colonnes n'ont pas de position fixe contrairement à ce que tu sembles dire. Mets nous ton fichier tel qu'il apparaît avec un cat. Y compris les espaces. Utilise les balises "CODE" de l'éditeur de message pour conserver les espaces.

**ripat** · 23/04/2008, 19h26

Envoyé par freestyler

Les espaces sont trompeurs, mais col1(8: se termine à la colonne 8), col2(8: se termine à la colonne 16), col3 (4: se termine à la colonne 20) : se termine c'est à dire justifié à droite (col3=" 1", " 2" par ex)

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
         1         2         3
123456789012345678901234567890
20051023 3681FROMAGE
20051023 48385VIANDE BOVINE
20051023 48408VIANDE BOVINE
20051023 79891CONSERVE 4
20051023 79907VIANDE BOVINE
20051023 90223VOLAILLE
20051023 111652PATES
20051023 350600VIANDE ROUGE
20051023 551694VIANDE BOVINE

La colonne 3 ne commence pas toujours au même endroit. Faut-il "splitter" la colonne qui va de 10 à la fin de ligne?

Remplacer une colonne par ses numéros correspondants dans une liste

Shell et commandes GNU

Vue hybride

Discussions similaires

Partager

Partager