7- Pour faire simple, voici un fichier qui lui ressemble, j'ai partagé un exemple de fichier que j'ai préalablement traité et simplifié, là c'est un fichier brut.
Donc,
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
|
##sequence-region Lsta_scaffold1 1 7106496
Lsta_scaffold1 ALN mRNA 324960 737636 183 + . ID=mRNA00001;Parent=gene00001;Name=Lsta_scaffold1_531
Lsta_scaffold1 ALN cds 324960 325525 32 + 0 ID=cds00001;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 84 271 +
Lsta_scaffold1 ALN cds 713852 713918 87 + 0 ID=cds00002;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 272 293 +
Lsta_scaffold1 ALN cds 730004 730015 36 + 2 ID=cds00003;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 294 297 +
Lsta_scaffold1 ALN cds 730455 730456 24 + 2 ID=cds00004;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 298 298 +
Lsta_scaffold1 ALN cds 731459 731461 24 + 0 ID=cds00005;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 299 299 +
Lsta_scaffold1 ALN cds 733509 733520 33 + 0 ID=cds00006;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 300 303 +
Lsta_scaffold1 ALN cds 733617 733628 26 + 0 ID=cds00007;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 304 307 +
Lsta_scaffold1 ALN cds 733725 733736 24 + 0 ID=cds00008;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 308 309 +
Lsta_scaffold1 ALN cds 737499 737636 124 + 0 ID=cds00009;Parent=mRNA00001;Name=Lsta_scaffold1_531;Target=5HTB2_APLCA 310 351 +
##sequence-region Lsta_scaffold1 1 7106496
Lsta_scaffold1 ALN gene 325413 325703 55 + . ID=gene00002;Name=Lsta_scaffold1_325
Lsta_scaffold1 ALN mRNA 325413 325703 55 + . ID=mRNA00002;Parent=gene00002;Name=Lsta_scaffold1_325
Lsta_scaffold1 ALN cds 325413 325703 55 + 0 ID=cds00010;Parent=mRNA00002;Name=Lsta_scaffold1_325;Target=5HTR_LYMST 403 500 +
##sequence-region Lsta_scaffold1 1 7106496
Lsta_scaffold1 ALN gene 1063865 1063933 58 + . ID=gene00003;Name=Lsta_scaffold1_1063
Lsta_scaffold1 ALN mRNA 1063865 1063933 58 + . ID=mRNA00003;Parent=gene00003;Name=Lsta_scaffold1_1063
Lsta_scaffold1 ALN cds 1063865 1063933 58 + 0 ID=cds00011;Parent=mRNA00003;Name=Lsta_scaffold1_1063;Target=ACHC_ACHFU 1 23 +
##sequence-region Lsta_scaffold1 1 7106496
Lsta_scaffold1 ALN gene 2291887 2291907 40 + . ID=gene00004;Name=Lsta_scaffold1_2291
Lsta_scaffold1 ALN mRNA 2291887 2291907 40 + . ID=mRNA00004;Parent=gene00004;Name=Lsta_scaffold1_2291
Lsta_scaffold1 ALN cds 2291887 2291907 40 + 0 ID=cds00012;Parent=mRNA00004;Name=Lsta_scaffold1_2291;Target=ACHP_LYMST 219 225 + |
J'ai besoin de ce cumul_delta pour chaque ligne pour le stocker dans une variable et l'utiliser pour un calcul d'un score, pour chaque identifiant (en vert), comparer avec le fichier 2 (en bas) récupérer la valeur qui lui correspond, puis faire l'opération ( cumul_delta / valeur du fichier 2)
Exemple : Pour l'identifiant "5HTB2_APLCA" ça donne ça :
1- Pour la région "sequence-region_1 jusqu'à sequence-region_2"
2- les champs 18 (x)et 17 (y) (après traitement, ( ; ) (=) en espace )===>cumul=(x-y)+1
3- Faire la somme de ce cumul (somme_cumul)
4- Comparer avec le fichier 2 l'identifiant "5HTB2_APLCA", ensuite faire l'opération [(somme_cumul/219)*100]
5- l'afficher dans la ligne avec "sequence-region_1", dans le deuxième champs, chaque région avec un score. (les autres champs j'en ai pas besoin)
1 2 3 4
| 219 5HTB2_APLCA
85 5HTR_LYMST
91 ACHC_ACHFU
970 ACHP_LYMST |
Partager