Délimiter un champ pour faire des opérations avec AWK

**Shyma** · 26/06/2017, 17h22

Je voudrais faire cette opération pour chaque classe [((20-17)+1)+((19-16)+1)+((19-14)+1)] ensuite faire l'addition de tout (a+b+c), et l'enregistrer dans une variable pour l'utiliser après dans un calcul, comment faire pour délimiter le champ entre les classes, pour faire justement cette addition (a+b+c) ?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
   
##classe
premier          abc    12 09 6            personne=nom1 17 20; 
premier          abc     11 9  6            personne=nom1 16 19 ;
premier         abc     30 9 15           personne=nom1 14 19 ;
##classe
 
deuxième       abc     5 7 9            personne=nom2 15 17  ;
deuxième       abc     56 5 9          personne=nom2 10 20  ;
deuxième      abc     8 9 4           personne=nom2  8 13;
deuxième     abc    1 56 7           personne=nom2 5 12 ;

Invité · 26/06/2017, 19h58

Bonjour,
s'il vous plaît,
merci.

et je t'ai déjà demandé d'illustrer tes propos par un exemple de sortie attendue correspondant aux données présentées !

**jack-ft** · 26/06/2017, 20h44

Je serais très curieux de savoir comment est Shyma dans la vraie vie... une fois de plus, j'ai beaucoup de mal à comprendre ce qu'elle demande.

(dans la conversation précédente, j'ai un peu abandonné

)

Sérieusement, quand on souhaite écrire un programme qui manipule des données (pléonasme?), c'est une bonne idée de décrire le fonctionnement du programme de manière algorithmique, c'est-à-dire écrire un algorithme avec des variables, des boucles ou d'autres machins du même genre.

Shyma, peux-tu me dire si l'interprétation que je propose ci-dessous transcrit bien ce que tu voulais dire?

1) Concernant le modèle de données

On a un fichier qui contient des informations (d'une certaine nature) pour un certain nombre de classes.
Le nombre de classes n'est pas connu à l'avance.

Chaque classe contient des données sur une ligne. (à quoi correspond concrètement une ligne?)
Le nombre de lignes pour une classe donnée n'est pas connu à l'avance.
Chaque ligne de données d'une classe est identifiée soit par le 1er champ de la ligne, soit par la chaine suivant la chaine "personne=".

Ainsi, dans le fichier d'exemple, on a 2 classes:
- la classe "premier", correspondant à la personne nommée "nom1"
- la classe "deuxième", correspondant à la personne nommée "nom2"

Ces 2 identifications sont-elles toujours corrélées?
Ou, en d'autres termes, quel est l'identifiant d'une classe? "premier" ou "nom1"?

De plus, il semble que chaque ligne contienne 8 champs.
Peut-on savoir la sémantique de ces champs?
(merci de ne pas répondre "champ1, champ2, ... champ8"!)

Peut-on savoir pourquoi le 6ème champ semble avoir une syntaxe différente des autres?
Le 6ème champ semble être composé d'un nom de champ personne suivi du signe égal = suivi de la valeur du champ nom1 (probablement le nom de la personne) alors que les 7 autres champs ne semblent pas nommés, mais être juste positionnels, non?

2) Concernant le modèle des traitements

Supposons que les 7ème et 8ème champs soient nommés "x" et "y".

Pour chaque classe, on veut récupérer et traiter toutes les lignes de données de la classe de la manière suivante:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
Pour chaque classe "une_classe" (associée à une personne "un_nom")
    Pour chaque ligne de données attachée à cette classe
        Calculer delta = y - x + 1 pour cette ligne de données
        Cumuler ce delta, c''est-à-dire effectuer: cumul_delta := cumul_delta + delta

Est-ce bien ça?
Et, le cas échéant, que fait-on avec le "cumul_delta" de chaque classe?

Doit-on juste afficher le nom de la classe suivi du cumul_delta?

**Shyma** · 27/06/2017, 00h55

@jack_ft Dans la vraie vie, je ne suis pas informaticienne, donc je ne réfléchis pas comme une informaticienne

1- Classe : c'est juste une variable, mon fichier il est volumineux (2.1M), donc il y a plusieurs classes.
2- Le nombre de classe par ligne est variable (de 1 à une vingtaine)
3-"premier" ou "deuxième" n'est pas un repère, car plus loin certaines classes les contiennent aussi
4-Pour l'identifiant de la classe, "nom1", "nom2" ... est propre pour chaque classe, quoi que, je ne pourrais les prendre comme identifiant, car mon fichiers est volumineux, et il y en a plusieurs, il n y a aucune corrélation entre les identifiants
5-Le seul identifiant que j'utilise c'est classe, que j'ai changé pour classe1, classe2, classe3 ...(c'est le seul critère qui délimite le champs que je veux pour mes calculs)
6-Chaque ligne contient plusieurs champs, et cela differt d'une ligne à une autre, cela peut aller jusqu'à 30, voir plus, mais cela ne m’intéresse pas .
7- Pour faire simple, voici un fichier qui lui ressemble, j'ai partagé un exemple de fichier que j'ai préalablement traité et simplifié, là c'est un fichier brut.

Donc,

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
     
 ##sequence-region       Lsta_scaffold1 1 7106496
Lsta_scaffold1  ALN     mRNA    324960  737636  183     +       .       ID=mRNA00001;Parent=gene00001;Name=Lsta_scaffold1_531
Lsta_scaffold1  ALN     cds     324960  325525  32      +       0       ID=cds00001;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 84 271 +
Lsta_scaffold1  ALN     cds     713852  713918  87      +       0       ID=cds00002;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 272 293 +
Lsta_scaffold1  ALN     cds     730004  730015  36      +       2       ID=cds00003;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 294 297 +
Lsta_scaffold1  ALN     cds     730455  730456  24      +       2       ID=cds00004;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 298 298 +
Lsta_scaffold1  ALN     cds     731459  731461  24      +       0       ID=cds00005;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 299 299 +
Lsta_scaffold1  ALN     cds     733509  733520  33      +       0       ID=cds00006;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 300 303 +
Lsta_scaffold1  ALN     cds     733617  733628  26      +       0       ID=cds00007;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 304 307 +
Lsta_scaffold1  ALN     cds     733725  733736  24      +       0       ID=cds00008;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 308 309 +
Lsta_scaffold1  ALN     cds     737499  737636  124     +       0       ID=cds00009;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 310 351 +
##sequence-region       Lsta_scaffold1 1 7106496
Lsta_scaffold1  ALN     gene    325413  325703  55      +       .       ID=gene00002;Name=Lsta_scaffold1_325
Lsta_scaffold1  ALN     mRNA    325413  325703  55      +       .       ID=mRNA00002;Parent=gene00002;Name=Lsta_scaffold1_325
Lsta_scaffold1  ALN     cds     325413  325703  55      +       0       ID=cds00010;Parent=mRNA00002;Name=Lsta_scaffold1_325;Target=5HTR_LYMST 403 500 +
##sequence-region       Lsta_scaffold1 1 7106496
Lsta_scaffold1  ALN     gene    1063865 1063933 58      +       .       ID=gene00003;Name=Lsta_scaffold1_1063
Lsta_scaffold1  ALN     mRNA    1063865 1063933 58      +       .       ID=mRNA00003;Parent=gene00003;Name=Lsta_scaffold1_1063
Lsta_scaffold1  ALN     cds     1063865 1063933 58      +       0       ID=cds00011;Parent=mRNA00003;Name=Lsta_scaffold1_1063;Target=ACHC_ACHFU 1 23 +
##sequence-region       Lsta_scaffold1 1 7106496
Lsta_scaffold1  ALN     gene    2291887 2291907 40      +       .       ID=gene00004;Name=Lsta_scaffold1_2291
Lsta_scaffold1  ALN     mRNA    2291887 2291907 40      +       .       ID=mRNA00004;Parent=gene00004;Name=Lsta_scaffold1_2291
Lsta_scaffold1  ALN     cds     2291887 2291907 40      +       0       ID=cds00012;Parent=mRNA00004;Name=Lsta_scaffold1_2291;Target=ACHP_LYMST 219 225 +

J'ai besoin de ce cumul_delta pour chaque ligne pour le stocker dans une variable et l'utiliser pour un calcul d'un score, pour chaque identifiant (en vert), comparer avec le fichier 2 (en bas) récupérer la valeur qui lui correspond, puis faire l'opération ( cumul_delta / valeur du fichier 2)
Exemple : Pour l'identifiant "5HTB2_APLCA" ça donne ça :
1-Pour la région "sequence-region_1 jusqu'à sequence-region_2"
2- les champs 18 (x)et 17 (y) (après traitement, ( ; ) (=) en espace )===>cumul=(x-y)+1
3- Faire la somme de ce cumul (somme_cumul)
4-Comparer avec le fichier 2 l'identifiant "5HTB2_APLCA", ensuite faire l'opération [(somme_cumul/219)*100]
5-l'afficher dans la ligne avec "sequence-region_1", dans le deuxième champs, chaque région avec un score. (les autres champs j'en ai pas besoin)

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
  
219 5HTB2_APLCA
85 5HTR_LYMST
91 ACHC_ACHFU
970 ACHP_LYMST

Voilà, j'espère que ce n'est pas pire pour le coup

**jack-ft** · 27/06/2017, 08h52

Envoyé par Shyma

@jack_ft Dans la vraie vie, je ne suis pas informaticienne, donc je ne réfléchis pas comme une informaticienne

Ouf! J'espère ne pas t'avoir blessée avec mes remarques!

1- Classe : c'est juste une variable, mon fichier il est volumineux (2.1M), donc il y a plusieurs classes.

Ok. Je pense que l'outil le mieux adapté est "awk", même si c'est faisable avec d'autres.

2- Le nombre de classe par ligne est variable (de 1 à une vingtaine)

Je suppose que tu voulais dire "le nombre de lignes par classe"...

3-"premier" ou "deuxième" n'est pas un repère, car plus loin certaines classes les contiennent aussi

Ok.

4-Pour l'identifiant de la classe, "nom1", "nom2" ... est propre pour chaque classe, quoi que, je ne pourrais les prendre comme identifiant, car mon fichiers est volumineux, et il y en a plusieurs, il n y a aucune corrélation entre les identifiants

5-Le seul identifiant que j'utilise c'est classe, que j'ai changé pour classe1, classe2, classe3 ...(c'est le seul critère qui délimite le champs que je veux pour mes calculs)

Je reformule (pour le pauvre informaticien que je suis (avec mon cerveau formaté...)):

Les données d'une classe sont:
- un groupe de lignes consécutives,
- séparées par une ligne de commentaire commençant par "##sequence-region",
- et partageant le même identifiant "local" (par exemple: "Target=5HTB2_APLCA"), mais cet identifiant peut se retrouver ailleurs dans le même fichier pour une autre classe.

C'est bien ça?

6-Chaque ligne contient plusieurs champs, et cela differt d'une ligne à une autre, cela peut aller jusqu'à 30, voir plus, mais cela ne m’intéresse pas .

du verbe "différer", mais ok.

7- Pour faire simple, voici un fichier qui lui ressemble, j'ai partagé un exemple de fichier que j'ai préalablement traité et simplifié, là c'est un fichier brut.

Donc,

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
     
 ##sequence-region       Lsta_scaffold1 1 7106496
Lsta_scaffold1  ALN     mRNA    324960  737636  183     +       .       ID=mRNA00001;Parent=gene00001;Name=Lsta_scaffold1_531
Lsta_scaffold1  ALN     cds     324960  325525  32      +       0       ID=cds00001;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 84 271 +
Lsta_scaffold1  ALN     cds     713852  713918  87      +       0       ID=cds00002;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 272 293 +
Lsta_scaffold1  ALN     cds     730004  730015  36      +       2       ID=cds00003;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 294 297 +
Lsta_scaffold1  ALN     cds     730455  730456  24      +       2       ID=cds00004;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 298 298 +
Lsta_scaffold1  ALN     cds     731459  731461  24      +       0       ID=cds00005;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 299 299 +
Lsta_scaffold1  ALN     cds     733509  733520  33      +       0       ID=cds00006;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 300 303 +
Lsta_scaffold1  ALN     cds     733617  733628  26      +       0       ID=cds00007;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 304 307 +
Lsta_scaffold1  ALN     cds     733725  733736  24      +       0       ID=cds00008;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 308 309 +
Lsta_scaffold1  ALN     cds     737499  737636  124     +       0       ID=cds00009;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 310 351 +
##sequence-region       Lsta_scaffold1 1 7106496
Lsta_scaffold1  ALN     gene    325413  325703  55      +       .       ID=gene00002;Name=Lsta_scaffold1_325
Lsta_scaffold1  ALN     mRNA    325413  325703  55      +       .       ID=mRNA00002;Parent=gene00002;Name=Lsta_scaffold1_325
Lsta_scaffold1  ALN     cds     325413  325703  55      +       0       ID=cds00010;Parent=mRNA00002;Name=Lsta_scaffold1_325;Target=5HTR_LYMST 403 500 +
##sequence-region       Lsta_scaffold1 1 7106496
Lsta_scaffold1  ALN     gene    1063865 1063933 58      +       .       ID=gene00003;Name=Lsta_scaffold1_1063
Lsta_scaffold1  ALN     mRNA    1063865 1063933 58      +       .       ID=mRNA00003;Parent=gene00003;Name=Lsta_scaffold1_1063
Lsta_scaffold1  ALN     cds     1063865 1063933 58      +       0       ID=cds00011;Parent=mRNA00003;Name=Lsta_scaffold1_1063;Target=ACHC_ACHFU 1 23 +
##sequence-region       Lsta_scaffold1 1 7106496
Lsta_scaffold1  ALN     gene    2291887 2291907 40      +       .       ID=gene00004;Name=Lsta_scaffold1_2291
Lsta_scaffold1  ALN     mRNA    2291887 2291907 40      +       .       ID=mRNA00004;Parent=gene00004;Name=Lsta_scaffold1_2291
Lsta_scaffold1  ALN     cds     2291887 2291907 40      +       0       ID=cds00012;Parent=mRNA00004;Name=Lsta_scaffold1_2291;Target=ACHP_LYMST 219 225 +

J'ai besoin de ce cumul_delta pour chaque ligne pour le stocker dans une variable et l'utiliser pour un calcul d'un score, pour chaque identifiant (en vert), comparer avec le fichier 2 (en bas) récupérer la valeur qui lui correspond, puis faire l'opération ( cumul_delta / valeur du fichier 2)
Exemple : Pour l'identifiant "5HTB2_APLCA" ça donne ça :
1- Pour la région "sequence-region_1 jusqu'à sequence-region_2"
2- les champs 18 (x)et 17 (y) (après traitement, ( ; ) (=) en espace )===>cumul=(x-y)+1
3- Faire la somme de ce cumul (somme_cumul)
4- Comparer avec le fichier 2 l'identifiant "5HTB2_APLCA", ensuite faire l'opération [(somme_cumul/219)*100]
5- l'afficher dans la ligne avec "sequence-region_1", dans le deuxième champs, chaque région avec un score. (les autres champs j'en ai pas besoin)

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
219 5HTB2_APLCA
85 5HTR_LYMST
91 ACHC_ACHFU
970 ACHP_LYMST

Je reformule:
Dans un premier temps:
pour chaque classe (comme "5HTB2_APLCA") du fichier 2, on stocke son, disons, "dénominateur" (ici, "219").

Ensuite, on parcourt le fichier 1:
Pour chaque groupe de lignes séparé par "##sequence-region":
- on initialise cumul à 0
- pour chaque ligne de données contenant "Target="
- - on récupère le nom de la classe (par exemple, "Target=5HTB2_APLCA" donne "5HTB2_APLCA")
- - on repère les champs x et y (les 2 qui suivent le nom de la classe ou bien les 17ème et 18ème)
- - on calcule delta = y - x + 1 pour cette ligne de données
- - on cumule ce delta, aux précédents de la même classe: cumul := cumul + delta.
- après la dernière ligne de la classe (avant le prochain "##sequence-region"):
- - on divise le cumul par le dénominateur de la classe (précédemment trouvé dans le fichier 2), par exemple "219"
- - et on le stocke dans une variable "awk", par exemple "score"
- on affiche le résultat pour la classe, d'une certaine manière...
- - par exemple, à la suite de la ligne de commentaire "##sequence-region Lsta_scaffold1 1 7106496" débutant le groupe de lignes de la classe.

Peux-tu nous montrer précisément comment tu veux l'afficher?

Veux-tu "enrichir" le fichier 1 ou bien ne conserver que les lignes "##sequence-region"?

Voilà, j'espère que ce n'est pas pire pour le coup

Non, non! C'est beaucoup mieux!

même s'il reste quelques petits détails à régler...

**Shyma** · 27/06/2017, 10h41

Oups ! Désolée pour le verbe du premier groupe ! J'étais à moitié endormie quand j'ai répondu.

et partageant le même identifiant "local" (par exemple: "Target=5HTB2_APLCA"), mais cet identifiant peut se retrouver ailleurs dans le même fichier pour une autre classe.

Non, cet identifiant par contre il est propre à chaque classe.

Voici un exemple de fichier de sortie :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
  sequence-region_1     score  
Lsta_scaffold1  ALN     mRNA    324960  737636  183     +       .     Parent gene00001
Lsta_scaffold1  ALN     cds     324960  325525  32      +       0       Parent=mRNA00001 5HTB2_APLCA 84 271 +
Lsta_scaffold1  ALN     cds     713852  713918  87      +       0      Parent=mRNA00001  5HTB2_APLCA 272 293 +
Lsta_scaffold1  ALN     cds     730004  730015  36      +       2      Parent=mRNA00001  5HTB2_APLCA 294 297 +
Lsta_scaffold1  ALN     cds     730455  730456  24      +       2       Parent=mRNA00001  5HTB2_APLCA 298 298 +
Lsta_scaffold1  ALN     cds     731459  731461  24      +       0      Parent=mRNA00001  5HTB2_APLCA 299 299 +
Lsta_scaffold1  ALN     cds     733509  733520  33      +       0       Parent=mRNA00001  5HTB2_APLCA 300 303 +
Lsta_scaffold1  ALN     cds     733617  733628  26      +       0       Parent=mRNA00001  5HTB2_APLCA 304 307 +
Lsta_scaffold1  ALN     cds     733725  733736  24      +       0       Parent=mRNA00001  5HTB2_APLCA 308 309 +
Lsta_scaffold1  ALN     cds     737499  737636  124     +       0       Parent=mRNA00001  5HTB2_APLCA 310 351 +
sequence-region_2      score 
Lsta_scaffold1  ALN     mRNA    325413  325703  55      +       .       Parent=gene00002
Lsta_scaffold1  ALN     cds     325413  325703  55      +       0         Parent=mRNA00002 5HTR_LYMST 403 500 +
sequence-region_3       score
Lsta_scaffold1  ALN     mRNA    1063865 1063933 58      +       .       Parent=gene00003
Lsta_scaffold1  ALN     cds     1063865 1063933 58      +       0       Parent=mRNA00003 ACHC_ACHFU 1 23 +
sequence-region_4      score 
Lsta_scaffold1  ALN     mRNA    2291887 2291907 40      +       .      Parent=gene00004 
Lsta_scaffold1  ALN     cds     2291887 2291907 40      +       0       Parent=mRNA00004 ACHP_LYMST 219 225 +

Délimiter un champ pour faire des opérations avec AWK

Shell et commandes GNU

Vue hybride

Discussions similaires

Partager

Partager