[sed] Extraire les lignes d'un fichier en fonction de leur position

**al1_24** · 26/06/2015, 13h02

Bonjour,

J'ai un programme qui vérifie le contenu d'un fichier (chargement en base de données avec transformations et conversions - le contenu originel n'est pas conservé dans l'application) et retourne une liste des numéros de lignes qui comportent une anomalie.
Ce que je souhaiterais faire, c'est à partir de cette liste extraire du fichier de départ les lignes identifiées.

J'ai écrit ça, mais je me dis qu'on doit pouvoir mieux faire :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
#Le fichier .dat est le fichier d'origine, le fichier .lst celui qui liste les lignes en anomalie.
sed -ne "$(sed -ne '/^\([^0-9]\|$\)/d;s/\(^[0-9]*\)\([^0-9]\|$\)/\1 p/' ${fichier_lst})" ${fichier_dat}

Qu'en pensez-vous ?

**Flodelarab** · 26/06/2015, 14h27

Bonjour

Imaginons que ton fichier lst soit un fichier texte avec un numéro par ligne.
Est-ce le numéro écrit en début de ligne dans le fichier dat ? Le numero de ligne réel ?

Dans le premier cas, un filtre suffit:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
$ cat texte.dat
#Commentaire 6
 
1 toto 5
2 tata 4
3 titi 3
4 toto 2
5 tutu 1
6 tete 0
$ cat debut.lst
1
3
$ sed 's/^/^/' debut.lst|grep -f - texte.dat
1 toto 5
3 titi 3
$ sed 's/^/^/' debut.lst|grep -vf - texte.dat
#Commentaire 6
 
2 tata 4
4 toto 2
5 tutu 1
6 tete 0

Pour le second cas,

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
$ while read ligne; do sed -n $ligne'p' texte.dat;done <debut.lst
#Commentaire 6
1 toto 5

**al1_24** · 26/06/2015, 15h25

Merci de ta réponse rapide.

Je suis dans le second cas.
Pour le premier cas, j'aurais certainement utilisé join.

Mon problème est au niveau des volumes à gérer. On parle ici d'extraire une bonne centaine de lignes d'un fichier qui en comporte plusieurs centaines de milliers, voire plusieurs millions.
Dans la soluton que tu proposes, on lit tout le fichier autant de fois qu'il y a de lignes à extraire ; tu comprendras que j'aurais préféré le faire en une seule passe.

Merci de m'avoir rappelé l'usage de -f - qui pourrait m'aider à résoudre d'autres problèmes

**disedorgue** · 26/06/2015, 15h57

Bonjour,

Une autre solution si j'ai bien compris (pas testé):

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

sed 's/^[0-9][0-9]*$/&p/' ${fichier_lst} | sed -nf - ${fichier.dat}

**Flodelarab** · 26/06/2015, 15h59

Tu as tout à fait raison pour l'ouverture multiple du même fichier: ce n'est pas bon.

Et puisque tu aimes "-f -", on en remet une couche:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
$ sed 's@$@p@' debut.lst | sed -n -f - texte.dat
#Commentaire 6
1 toto 5

**disedorgue** · 26/06/2015, 16h17

Dans le cas de ligne vide dans fichier_lst, tu afficheras tout le fichier.dat

**al1_24** · 26/06/2015, 16h36

J'étais bien parti dans la bonne direction mais j'avais un peu compliqué inutilement.
Je ne pense pas qu'on puisse faire plus efficace.

Merci beaucoup de votre aide à tous les deux.

**disedorgue** · 26/06/2015, 16h48

Peut-être que si

:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

awk 'NR == FNR {X[$1]=1;next};X[FNR]' fichier_lst fichier.dat

**al1_24** · 26/06/2015, 17h49

Alors là... j'ai besoin d'une explication de texte.

Je ne parle pas courament awk et, le peu que j'ai utilsé c'est avec un seul fichier en entrée

**Flodelarab** · 26/06/2015, 17h59

Pour chaque ligne, on répond toujours à "quand?" (condition ou non) et "quoi?" (quelles instructions à exécuter, entre accolades).

NR == FNR assure que seul le premier fichier exécutera le code entre accolades.
next assure que le premier fichier n'exécutera rien d'autre. awk passe à la ligne suivante.

X[FNR] est une condition. L'action sous-entendue (car absente) est {print $0;} donc l'affichage simple de la ligne.
1 (ou plus) est vrai et 0 est faux. Et toute valeur non définie est nulle par défaut.

**al1_24** · 26/06/2015, 18h06

Je connais NR qui est le numéro de la ligne en cours de lecture mais que représente FNR ?
Et comment savoir que la condition X[FNR] s'applique au second fichier ?

**disedorgue** · 26/06/2015, 19h26

NR => Number Record
FNR => File Number Record

En gros, le NR est le n° de record tous fichier en entrée compris et FNR est le n° de record du fichier en cours.

Ici, je parle de record et non de ligne car par défaut un record est une ligne mais en fait cela peut-être autre chose.

**Flodelarab** · 26/06/2015, 20h51

Envoyé par al1_24

Et comment savoir que la condition X[FNR] s'applique au second fichier ?

Tu n'en sais rien. Il s'applique à tous. Même au 3ème, 4ème, 8ème fichier...
Mais comme la première accolade mets fin au traitement de l'enregistrement par "next", le premier fichier ne va pas plus loin et ne verra jamais la suite.

Tu peux empiler autant de blocs que tu veux:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
$ awk '(NR%3==0){$0="toto "$0;} (NR%3==1){$0="tata "$0;} (NR%3==2){$0="titi "$0;} ($2 ~ /zozo/){$0="zozo->"$0;} 1 ' <<<"Mais 
que
veut
dire
ce
zozo
appelé
zozo"
tata Mais 
titi que
toto veut
tata dire
titi ce
zozo->toto zozo
tata appelé
zozo->titi zozo

**al1_24** · 26/06/2015, 23h01

Merci de ces éclaircissements.
J'aurai appris des choses aujourd'hui

[sed] Extraire les lignes d'un fichier en fonction de leur position

Shell et commandes GNU

Discussions similaires

Partager

Partager