Extraire une sous-séquence d'un fasta

**pontarose** · 13/06/2012, 14h36

Bonjour,

Je possède la séquence au format fasta.
Je souhaiterai extraire une région de cette séquence, connaissant les positions de début et de fin de la région à extraire.
Je pensais à substring mais j'ai une grande séquence 30Mb, ce qui risque de prendre du temps.

Existe t-il quelque chose au niveau de bioperl?

Merci par avance

**Philou67430** · 13/06/2012, 15h07

A déplacer dans le forum "bioinformatique"... (voir avec Djibril).

**pontarose** · 14/06/2012, 12h12

Désolé, manque d'attention

now, to actually get at the sequence object, use the standard Bio::Seq
methods (look at Bio::Seq if you don't know what they are)

use Bio::SeqIO;

$in = Bio::SeqIO->new(-file => "inputfilename" , '-format' => 'genbank');

while ( my $seq = $in->next_seq() ) {
print "Sequence ",$seq->id," first 10 bases ",$seq->subseq(1,10),"\n";
}

**Quantactique** · 20/06/2012, 02h43

Il me semble que tu peux utiliser la fonction subseq.

Je crois qu'elle s'utilise comme ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

$sous_seq = $obj -> subseq(position initiale, nombre de bases à extraire);

Sachant qu'il considère que la première base est la N°1.

Ainsi

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

$sous_seq = $obj->subseq(1,5);

Renvoie les 5 premières bases.

Je ne la connais pas bien et ne connais absolument pas ses performances mais bon, à tester. Tu pourra indiquer si elle semble rapide si tu t'en sert ? C'est toujours bon à savoir ^^

Extraire une sous-séquence d'un fasta

Bioinformatique Perl

Discussions similaires

Partager

Partager