IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bioinformatique Perl Discussion :

Récupérer une séquence à partir de ses bornes


Sujet :

Bioinformatique Perl

  1. #1
    Futur Membre du Club
    Profil pro
    Inscrit en
    Mars 2009
    Messages
    9
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2009
    Messages : 9
    Points : 7
    Points
    7
    Par défaut Récupérer une séquence à partir de ses bornes
    Bonjour à tous,

    Je m'excuse par avance si ma question a déjà été posée ou si la réponse est évidente.

    Je cherche à récupérer une séquence complète (pour plusieurs organismes différents) à partir de ses bornes (start et end).
    Jusqu'ici, j'ai essayé par Ensembl, mais le fichier de résultat se présente sous la forme de transcrits mis bout à bout, et je me perds dans UCSC.

    Auriez vous une solution simple à me proposer, uniquement à partir des bornes de début et de fin de ma séquence ? (pas d'accession ...)

    Merci !

  2. #2
    Membre confirmé
    Avatar de MaliciaR
    Inscrit en
    Juillet 2008
    Messages
    513
    Détails du profil
    Informations personnelles :
    Âge : 41

    Informations forums :
    Inscription : Juillet 2008
    Messages : 513
    Points : 600
    Points
    600
    Par défaut
    Salut,

    Je n'ai pas l'impression de comprendre ce que tu veux faire
    Ca veut dire quoi pour toi "le début et la fin d'une séquence" ? Tu parles de quelles tailles? Donne plus de détails.
    Le tact dans l'audace c'est de savoir jusqu'où on peut aller trop loin. Cocteau
    L'abjection la plus totale, ce n'est pas de trahir, c'est de ne jamais donner un commencement de réalité à ses rêves les plus fous. M. Moreau


    Les indispensables : Les règles, , FAQ et tutos avant de poster, et !
    Traduction de Linux Device Drivers 3 : venez participer
    membre de l'April - Promouvoir et défendre les logiciels libres

  3. #3
    Futur Membre du Club
    Profil pro
    Inscrit en
    Mars 2009
    Messages
    9
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2009
    Messages : 9
    Points : 7
    Points
    7
    Par défaut
    En fait, j'avais besoin de sortir la séquence (pas les contigs, ni les transcrits à la suite) format fasta, pour, par exemple, le chromosome 2 entre la base numéro 45265498 et 78456123 (=start et end).

    En fait j'ai trouvé mon bonheur sur Ensembl tout de même, dans "export data", qui prenait les bornes et me donnait le fichier de mes rêves.

    Mais je m'étonne de ne pas trouver de méthode dans BioPerl style getsequence(), qui prenne en argument les bornes de début et de fin....

  4. #4
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 499 184
    Points
    499 184
    Par défaut
    Ah non, je pense que ça existe, je ne me souviens plus, mais j'ai déjà vu pas mal de modules BioPerl où tu peux spécifier les bornes et récupérer la séquence adéquate.

  5. #5
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Bio::Seq

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
     Title   : subseq
     Usage   : $substring = $obj->subseq(10,40);
     Function: Returns the subseq from start to end, where the first base
               is 1 and the number is inclusive, ie 1-2 are the first two
               bases of the sequence
     
               Start cannot be larger than end but can be equal
     
     Returns : A string
    -- Jasmine --

  6. #6
    Futur Membre du Club
    Profil pro
    Inscrit en
    Mars 2009
    Messages
    9
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2009
    Messages : 9
    Points : 7
    Points
    7
    Par défaut
    Merci,

    J'avais déjà vu cette fonction, mais elle s'applique à un objet de type séquence, c'est à dire avec une séquence associée.

    Ma question était comment peut-on récupérer simplement une séquence dans une base de données à partir des bornes, sachant que ces bornes ne sont pas forcément comprises dans une séquence "connue" (cad pas forcément comprises dans un gène)?

    Par exemple, on sait qu'on a une mutation entre la position 2035 et la position 10005 sur le chromosome 3. On veut donc récupérer cette séquence pour la confronter à la référence.
    Donc le but est de récupérer toute la séquence, introns, exons, non codante ...

    J'espère que c'est un peu plus clair, au moins pour la démarche.

  7. #7
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Citation Envoyé par picopom
    Par exemple, on sait qu'on a une mutation entre la position 2035 et la position 10005 sur le chromosome 3. On veut donc récupérer cette séquence pour la confronter à la référence.
    Donc le but est de récupérer toute la séquence, introns, exons, non codante ...
    ... je ne comprends pas ... dans cet exemple tu as quand même la séquence du chromosome 3 en entier? Qu'as-tu concrètement?



    NB : Si tu veux éviter de devoir créer un objet de ta séquence tu peux simplement utiliser un substring
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    $portion = substr($string_variable, start number, length);
    -- Jasmine --

  8. #8
    Futur Membre du Club
    Profil pro
    Inscrit en
    Mars 2009
    Messages
    9
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2009
    Messages : 9
    Points : 7
    Points
    7
    Par défaut
    Citation Envoyé par Jasmine80 Voir le message
    ... je ne comprends pas ... dans cet exemple tu as quand même la séquence du chromosome 3 en entier? Qu'as-tu concrètement?
    Non, je n'ai que les bornes et le chromosome ... Aucune séquence.
    J'ai cherché ce genre de choses dans biomaRt, mais les requêtes sont du style de celle de l'interface sur le site ... donc ce n'est pas ce qui m'interesse ..

  9. #9
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Citation Envoyé par picopom Voir le message
    Non, je n'ai que les bornes et le chromosome ... Aucune séquence.
    J'ai cherché ce genre de choses dans biomaRt, mais les requêtes sont du style de celle de l'interface sur le site ... donc ce n'est pas ce qui m'interesse ..

    NCBI : Eukaryotae Complete Chromosomes


    Si tu travailles sur l'humain, pour le chromosomes 5, tu peux utiliser les accessions NC_000005, AC_000048 et AC_000137 ... il y a beaucoup de N dans la séquence, c'est pas le top mais je n'ai pas mieux. Si tu arrives à y repérer le nom du gène contenant la mutation, tu peux rechercher des séquences sur GenBank en l'utilisant comme mot clé.


    Utilise le module Bio::DB::GenBank
    -- Jasmine --

  10. #10
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Paramètre à utiliser pour le programme.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    use Bio::DB::GenBank;
     
     
    my $db = 'genome';
    my $query_string = 'homo sapiens [organism] chromosome 5';
     
    my $query = Bio::DB::Query::GenBank->new(-db=>$db,
                                        -query=>$query_string );
     
     
    my $stream = $gb->get_Stream_by_query($query);
     
    while ( my $data = $stream->next_seq ){
            my $acc = $data->accession_number();
            my $seq = $data->seq();
    }
    Nb : si tu dois souvent utiliser ce chromosome, il vaudrait mieux le stocker dans une DB (voire à la limite un fichier texte).
    -- Jasmine --

  11. #11
    Futur Membre du Club
    Profil pro
    Inscrit en
    Mars 2009
    Messages
    9
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2009
    Messages : 9
    Points : 7
    Points
    7
    Par défaut
    Très bien !!

    Effectivement, ça peut aider. Dans mon cas, je jongle avec des locus sur plusieurs chromosomes donc la DB c'est pour plus tard.

    J'ajoute juste pour ceux que ça intéresse qu'on peut ajouter d'autres options (telles que les bornes) :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    my $gb = Bio::DB::GenBank->new(-format     => 'Fasta',
                                       -seq_start  => 100,
                                       -seq_stop   => 200,
                                       -strand     => 1,
                                       -complexity => 4);
        my $seqi = $gb->get_Stream_by_query($query);
    Merci !

  12. #12
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 499 184
    Points
    499 184
    Par défaut
    Juste pour ton information, Si tu parses un très gros fichier genbank (comme certains chromosomes, tu pourras avoir des souci de mémoire car si je prend l'exemple du chromosome 1 NC00001, la séquence est très très grande, ainsi, le module a un peu de mal à tout charger en mémoire. Donc il faudra se creuser la tête pour concevoir un algo plus adéquat .

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Récupérer une animation à partir fichier SWF
    Par ouadie99 dans le forum Flash
    Réponses: 1
    Dernier message: 07/04/2008, 09h54
  2. Réponses: 2
    Dernier message: 06/06/2007, 16h41
  3. Récupérer une image à partir de SQL server
    Par programmationc dans le forum Accès aux données
    Réponses: 5
    Dernier message: 19/02/2007, 13h48
  4. Réponses: 11
    Dernier message: 13/07/2006, 16h15
  5. Récupérer une variable à partir de son nom ...
    Par CynO dans le forum Général JavaScript
    Réponses: 3
    Dernier message: 13/10/2005, 16h59

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo