Extraction de séquences nucléotidiques des CDS d'un fichier Genbank

**mathgon** · 29/06/2010, 18h20

Bonjour,

Je suis souvent venu sur ce forum pour trouver des solutions. Après quelques heures de recherche c'est mon tour de vous poser un problème (certainement tout bête) que je n'arrive pas à résoudre.

Je souhaite extraire les séquences nucléotidiques de tous les CDS d'un fichier Genbank afin de réaliser un fichier fasta. J'ai lu avec attention la notice écrite par Jasmine80 concernant le traitement de ces fichiers mais je ne trouve pas de solution. Il existe un tag permettant d'extraire les traductions protéiques des CDS mais je vois rien concernant les séquences nucléotidiques. Je vois bien la solution de récupérer la localisation de ces CDS et de se servir des coordonnées pour extraire la portion de séquence correspondante mais il doit bien y avoir plus simple (scrogneugneu!)?

**Jasmine80** · 29/06/2010, 20h37

Je ne travaille pas avec des fichiers genbank mais je récupère directement les séquences en me connectant sur NCBI. En ce qui concerne les tags des séquences nucléiques, j'utilise la fonction has_tag du module :
Bio::SeqFeatureI - Abstractinterface of a Sequence Feature
Peut_être peux-tu l'adapter avec tes fichiers.

Si ce tag est bien 'CDS', je récupère les positions de départ et de fin et je recoupe la séquence d'origine... Il y a peut-être plus simple, mais je ne connais pas d'autres solutions.

**mathgon** · 30/06/2010, 11h08

Envoyé par Jasmine80

Je ne travaille pas avec des fichiers genbank mais je récupère directement les séquences en me connectant sur NCBI.

J'ai testé aussi bien avec fichiers genbank locaux qu'en faisant appel à ceux du NCBI. Ces objets étant identiques, je n'ai pas de problème pour parser l'un ou l'autre.

En ce qui concerne les tags des séquences nucléiques, j'utilise la fonction has_tag du module : Bio::SeqFeatureI - Abstractinterface of a Sequence Feature
Peut_être peux-tu l'adapter avec tes fichiers.
Si ce tag est bien 'CDS', je récupère les positions de départ et de fin et je recoupe la séquence d'origine... Il y a peut-être plus simple, mais je ne connais pas d'autres solutions.

Apparemment, je n'étais pas complètement à l'ouest, j'avais eu cette intuition pour arriver à mes fins.
As-tu, s'il te plait, un morceau de code sous la main que je pourrai adapter à ma sauce?

Merci

**mathgon** · 30/06/2010, 15h48

J'ai au final trouvé un solution ne passant pas l'utilisation des coordonnées. Je poste le code en dessous. Il permet de parser un Genbank afin d'obtenir un fichier fasta multiséquence contenant dans les identifiants: locus_tag, product et position

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
 
#--------------------------- Gb_parser.pl -----------------------------#
#       recherche une séquence dans GenBank à partir de Gi ou d'Acc    #
#	parse le résultat des features en un fichier fasta détaillé    #
#	nommé Gb_parser.fasta                                          #
#--------------------------- Gb_parser.pl -----------------------------#
 
use warnings;
use Bio::DB::GenBank;
use Bio::SeqIO;
use Bio::SeqFeatureI;
 
open (OUTFILE, ">Gb_parser.fasta");
 
my $gb = new Bio::DB::GenBank;
 
# Récupération dans $seq de l'objet Genbank contenant de nombreuses informations
# Gi, Acc, séquence, Annotations, Organisme, Espèce, Genre ...
 
my $Acc = 'AE000783'; #Accession number de la séquence à traiter
my $seq1 = $gb->get_Seq_by_acc($Acc);
my $Sequence = $seq1->seq();
my $Description = $seq1->desc();
print "Acc = $Acc\nDescription = $Description\n"; #ecrit le num d'accession et sa description associée
my $seqio_object = $seq1;
 
for my $feat_object ($seqio_object->get_SeqFeatures) {
	#print "\n", $feat_object->primary_tag, "\n";
 
		for my $tag ($feat_object->get_all_tags){
			#print $tag." ";
			for my $value ($feat_object->get_tag_values($tag)){
				#print $value."\n"		
			}
		}
}
 
foreach $feat ( $seqio_object->get_SeqFeatures() ) {
	if ($feat->primary_tag() eq "CDS"){ # ne s'intéresse qu'aux tags "CDS"
		foreach $tag ( $feat->get_all_tags() ) {	
			if ($tag eq "locus_tag"){
				print OUTFILE  ">", join(' ',$feat->get_tag_values($tag)); #ecrit le locus
			}
			elsif ($tag eq "product"){
				print OUTFILE  " ", join(' ',$feat->get_tag_values($tag)); #ecrit le nom du CDS
			}
		}
		print OUTFILE " ", $feat->start, "..", $feat->end,"\n";;# " on strand ", $feat->strand, "\n";
		$out = $feat->seq; #out est un Primary::Seq
		$string = $out->seq(); #recupère la séquence
		print OUTFILE $string."\n";
	}
}

Mon code n'est certainement pas très propre mais ça fonctionne

Merci en tous cas Jasmine... de toutes façons je risque de repasser dans les jours, semaines, mois à venir

**Jasmine80** · 06/07/2010, 15h35

Envoyé par mathgon

Mon code n'est certainement pas très propre mais ça fonctionne

Merci en tous cas Jasmine... de toutes façons je risque de repasser dans les jours, semaines, mois à venir

Désolée de répondre si tardivement et de ne pas avoir donné de code ... tu as dû en trouver facilement sur ce forum via l'option de recherche. Ma petite fille aura 4 semaines jeudi, mes nuits sont courtes et mes journées très chargées

.

Un conseil, utilise le pragma strict, ça t'aidera à améliorer ton code.

au lieu de

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

open (OUTFILE, ">Gb_parser.fasta");

utilise de préférence

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

open  my $outfile, '>',  "Gb_parser.fasta";

... et n'oublie pas de fermer le fichier

Pour ce qui est du fichier de sortie, ne peux-tu pas utiliser Bio::SeqIO? Ce serait plus propre mais je ne sais pas si la fonction 'join' sera acceptée. lien

Extraction de séquences nucléotidiques des CDS d'un fichier Genbank

Bioinformatique Perl

Discussions similaires

Partager

Partager