Trouver une séquence et la rallonger

**crazyarno** · 13/12/2008, 23h02

Bonjour,
je me tourne à nouveau vers vous car je souhaiterai un avis.

Dans un premier fichier fasta, j'ai des séquences entières de mRNA.
Dans un deuxième fichier fasta, j'ai des séquences tronquées des mêmes mRNA.
Mon intention est de rallonger les mRNA tronqués de 500 nucléotides à l'avant et de 500 à l'arrière.

Je pensai donc retrouver la séquence tronquée dans le mRNA entier pour ensuite extraire ma séquence rallongée.

A votre avis est-ce possible de réalisr un tel script?

Si oui, auriez vous quelques pistes sur lesquels me lancer car je suis totalement dans le flou?
Si non, comment puis-je procéder pour arriver à mes fins?

Merci beaucoup pour votre précieuse aide.

**MaliciaR** · 13/12/2008, 23h26

Salut,

Voudrais-tu expliquer pourquoi tu voudrais les rallonger et d'ou tu prendras les 500nt en avant et en arriere? J'avoue avoir un pitit souci de comprehension

Merci

**crazyarno** · 13/12/2008, 23h35

Bonjour,

En fait, un alignement à déjà été fait sur les séquences tronqués et il se trouvent qu'elles sont interessantes.

Je cherche à mettre en évidence s'il existe des motifs intéressants en amont et/ou en aval de ces séquences. De ce fait, j'ai récupéré les séquences entières correspondantes pour pouvoir extraire une séquence plus importante.
Le chiffre de 500 nucléotides étant totalement arbitraire.

Merci

**MaliciaR** · 14/12/2008, 00h15

Envoyé par crazyarno

Je cherche à mettre en évidence s'il existe des motifs intéressants en amont et/ou en aval de ces séquences. De ce fait, j'ai récupéré les séquences entières correspondantes pour pouvoir extraire une séquence plus importante.
Le chiffre de 500 nucléotides étant totalement arbitraire.

Merci

Je ne comprends toujours pas trop

Tu as des motifs reveles par les fragments de sequences.
Quelle est la nature des nucleotides que tu souhaites rajouter? Dans le sens, est-ce que tu cherches a rajouter des nucleotides des sequences originales de maniere a extendre les fragments interessants? Si c'est ca, tu peux tout betement aligner differents fragments de tes sequences de depart.
Si tu cherches des motifs en amont ou en aval de tes fragments, pourquoi ne pas tout simplement creer des fichiers contenant les parties qui t'interessent et les aligner entre elles?

Bref, j'essaie de voir un peu le sens biologique derriere tes manoeuvres

Merci pour tes explications

**Jasmine80** · 14/12/2008, 00h33

Dans un premier fichier fasta, j'ai des séquences entières de mRNA.
Dans un deuxième fichier fasta, j'ai des séquences tronquées des mêmes mRNA.
Mon intention est de rallonger les mRNA tronqués de 500 nucléotides à l'avant et de 500 à l'arrière.

Si $truncate_seq est ta sous-séquence (sans espace) et $total_seq ta séquence entière (sans espace) afin de récupérer ses 2 extrémités, tu peux faire :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
if($total_seq =~ /([a-z]{500})$truncate_seq([a-z]{500})/i){
  my $start_500 = $1;
  my $end_500 = $2;
}

Et tu ouvres tes 2 fichiers fasta en utilisant le module Bio:SeqIO
http://search.cpan.org/~birney/bioperl-1.4/Bio/SeqIO.pm

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
#!/usr/bin/perl
 
 
 
use warnings;
use strict;
 
 
 
use Bio::SeqIO;
 
# key : id      value = sequence
my %total_seq;
my %truncate_seq;
 
 
 
my $in_tot  = Bio::SeqIO->new(-file => "chemin/infile_total.fsa" , '-format' => 'Fasta');
 
while ( my $seq = $in->next_seq() ) {
    $total_seq{$seq->primary_id} = $seq->seq;
}
 
my $in_tot  = Bio::SeqIO->new(-file => "chemin/infile_truncate.fsa" , '-format' => 'Fasta');
 
while ( my $seq = $in->next_seq() ) {
    $truncate_seq{$seq->primary_id} = $seq->seq;
}
 
 
foreach my $id (keys %truncate_seq){
 
  # sequences
  my $total_seq = $total_seq{$id};
  my $truncate_seq = $truncate_seq{$id};
 
  ...
 
  # expreg
 
  ...
 
  # to write informations in the output file
  print $outfile ">$id\n$seq_1000\n";
}

**crazyarno** · 14/12/2008, 00h37

Merci beaucoup, je vais essayer ce que tu me propose.

**Jasmine80** · 14/12/2008, 00h47

désolée, j'ai allongé le message entre temps.

**iblis** · 14/12/2008, 00h47

Je peux essayer de répondre à ta question hors contexte bio-informatique: utilise les index sur le début et la fin des derniers matchs d'une regex (@- et @+).

Supposons que tu veuilles rechercher les occurrences d'une séquence de caractères (une de tes séquences tronquées) dans une liste données de séquences (tes séquences complètes) et que pour chaque séquence trouvée, tu veuilles l'extraire avec les 5 caractères avant et les 5 caractères après.

Voici un exemple simplifié :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
my $seq = 'aabbdbac';
while (<>) {
	if (/$seq/) {
		print substr $_, $-[0], -5;
		print $seq;
		print substr $_, $+[0], 5;
		print "\n";
	}
}

Tu peux aussi utiliser les variables $`, $& et $' contenant respectivement la séquence précédant le match, celle du match et celle suivant le match, mais la doc de perl prévient d'éventuelles baisses de performance.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
my $seq = 'aabbdbac';
while (<>) {
	if (/$seq/) {
		print substr $`, -5;
		print $&;
		print substr $', 0, 5;
		print "\n";
	}
}

Si ta séquence tronquée peu apparaître à plusieurs positions de ta séquence complète et que tu veux tous les contextes change if (/$seq/) { par while (/$seq/g) { dans le code qui précède.

**iblis** · 14/12/2008, 00h50

Bon entre-temps Jasmine t'a fait une vraie réponse de bio-informaticienne...

Je te conseille quand même de jeter un oeil à perlreref et perlvar, à l'occasion.

**Jasmine80** · 14/12/2008, 01h57

Une petite remarque
Si tu as l'intention de concaténer tes morceaux de séquences

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
if($total_seq =~ /([a-z]{500})$truncate_seq([a-z]{500})/i){
  my $start_500 = $1;
  my $end_500 = $2;
  my $sequence_1000 = $start_500.$truncate_seq.$end_500;
}

N'utilise qu'un couple de parenthèses et récupère directement

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
if($total_seq =~ /([a-z]{500}$truncate_seq[a-z]{500})/i){
  my $sequence_1000 = $1;
}

**Jasmine80** · 16/01/2009, 14h29

Envoyé par crazyarno

Bonjour,
désolé de te déranger. Je voulais juste avoir une petite précision par rapport au script que tu m'as aider à faire.

Il ya une partie dont je n'arrive pas à "traduire", voulant m'améliorer et devenir autonome en perl, pourrais-tu me dire à quoi cela correspond?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
while ( my $seq = $in->next_seq() ) {
    $truncate_seq{$seq->primary_id} = $seq->seq;
}
 
 
foreach my $id (keys %truncate_seq){
 
  # sequences
  my $total_seq = $total_seq{$id};
  my $truncate_seq = $truncate_seq{$id};
 
  ...

Petites corrections ... quand j'ai écrit cela à 0h33, je devais être fatiguée

my $in_tot = Bio::SeqIO->new(-file => "chemin/infile_total.fsa" , '-format' => 'Fasta');

while ( my $seq = $in_tot->next_seq() ) {
$total_seq{$seq->primary_id} = $seq->seq;
}

my $in_trunc = Bio::SeqIO->new(-file => "chemin/infile_truncate.fsa" , '-format' => 'Fasta');

while ( my $seq = $in_trunc->next_seq() ) {
$truncate_seq{$seq->primary_id} = $seq->seq;
}

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

my $in_tot  = Bio::SeqIO->new(-file => "chemin/infile_total.fsa" , '-format' => 'Fasta');

Récupération des séquences dans $in_tot via le module Bio::SeqIO

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
while ( my $seq = $in_tot->next_seq() ) {
    $total_seq{$seq->primary_id} = $seq->seq;
}

récupération séquence par séquence dans $seq
$seq->primary_id contient l'identifiant et $seq->seq ta séquence

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

$total_seq{$seq->primary_id} = $seq->seq;

mise dans le tableau %total_seq des informations : clé = id, valeur = $seq
$table{clé}=valeur;

Tu fais de même pour le second fichier et récupères les identifiants dans %total_seq. Cela te permet donc de comparer les valeurs de tes deux tableaux possédant une même clé. Donc dans ton cas, comparer la séquence entière et la séquence tronquée ayant le même identifiant.

Parcours des tableaux

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
foreach my $id (keys %truncate_seq){
 
  # sequences
  my $total_seq = $total_seq{$id};
  my $truncate_seq = $truncate_seq{$id};

Est-ce plus clair? N'hésite pas à poser des questions plus précises.

Trouver une séquence et la rallonger

Bioinformatique Perl

Discussions similaires

Partager

Partager