Bonjour a tous,

Chez Genbank et RefSeq, il y a toujours deux niveaux d'identifiants pour un enregistrement :

Le genbank identifier pour la proteine
et un autre genbank identifer pour sa sequence nucloetidique associee.

Et officiellement dans les fichiers genbank dans la partie FEATURES dans la sous partie protein, il y a normalement le mot cle protein_id ou deuxieme possibilite dans la partie db_xref.

Cependant ce n'est pas le cas comme vous pouvez le voir dans la fiche ici http://www.ncbi.nlm.nih.gov/protein/CAF05992.1


Le genbank id proteique est CAF05992.1, le nucleotidique est BX908808.1
(accessible via DBSOURCE ) Il est possible de recuperer la valeur nucleotidique certes mais il y a beaucoup de variabilites au niveau de cette balise.

J'essaye de trouver la paire gb id proteique/gb id nucleotide en passant ma eutils http://eutils.ncbi.nlm.nih.gov/ Mais ya pas a tortiller du luc, c'est incomprehensible cet outil !

le module Bio:B::Genbank ne semble pas m'aider plus !

Auriez vous une idee un bout de code, de l'aide quoi

Merci d'avance a tous !