IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bioinformatique Perl Discussion :

HGNC récupération automatique de données


Sujet :

Bioinformatique Perl

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Inscrit en
    Avril 2009
    Messages
    44
    Détails du profil
    Informations forums :
    Inscription : Avril 2009
    Messages : 44
    Par défaut HGNC récupération automatique de données
    Bonjour,

    C'est encore moi... je n'arrive vraiment pas à résoudre mon problème avec BioMart, et comme personne ne sait apparemment me répondre, j'aimerais vous demandé si vous connaissiez une autre façon de récupérer des informations de la bases de données HUGO (HGNC) directement à partir d'un symbole d'un gène.
    Ou en tout cas une façon qui à partir du symbole d'un gène me permet de récupérer HGNC_ID de ce même gène, j'ai regardé du côté de SOAP et REST, mais apparemment ils n'offrent pas cette "option".

    Encore merci, je prends toute idée, ou tout script ou bout de script qui vous a déjà servi à faire quelque chose de similaire.

    Merci

  2. #2
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 822
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 822
    Par défaut
    Quel est le but de ta démarche ? Concevoir une appli ? Si c'est le cas, pourquoi tu ne télécharges pas la base de données HGNC. Ce sont des fichiers plats je crois si mes souvenir sont bons. Ensuite tu auras juste à parser les fichiers plats. Je trouve ça plutôt propre non ?

    Sinon, tu as aussi le module : WWW::Search::HGNC, jette y un coup d'oeil.

  3. #3
    Membre averti
    Inscrit en
    Avril 2009
    Messages
    44
    Détails du profil
    Informations forums :
    Inscription : Avril 2009
    Messages : 44
    Par défaut
    oui dans un premier temps c'est pour réaliser un outils de concentration de donnée dont le sujet est : "les gènes et les cancers". J'ai bien pensé à télécharger et parser les fichiers HGNC, mais vu que je n'ai besoin des données que de certains gènes, j'ai peur que ce soit plus long, je voudrais optimiser.

    J'ai déjà regarder le module que tu me conseilles mais je n'avais malheureusement pas réussi à le faire fonctionner, mon script ne renvoyer pas d'erreur mais pas de résultat non plus. Mais je vais me re-pencher dessus.

    Merci

    Au cas où : (j'avais essayé de faire quelque chose de simple, mais sans résultat )
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    #!/usr/bin/perl -w 
    use strict; use warnings;
    use WWW::Search;
     
    my $search = new WWW::Search('HGNC');
    my @hgnc_ids = [1097, 1245, 12589];
    $search->native_query( \@hgnc_ids );
    while(my $prot = $search->next_result ) {
      print "Approved symbol: %s\n", $prot->{approved_symbol};
      print "Approved name: %s\n", $prot->{approved_name}; 
      print "HGNC ID: %s\n", $prot->{hgnc_id}; 
    }

  4. #4
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 822
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 822
    Par défaut
    Bon, le code fonctionne bien après quelques modifications

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    #!/usr/bin/perl
    use strict;
    use warnings;
    use WWW::Search;
     
    my $search = new WWW::Search('HGNC');
    my @hgnc_ids = ( 1097, 1245, 12589 );
    $search->native_query( \@hgnc_ids );
    while ( my $prot = $search->next_result ) {
        print "==============\n\n";
        print "Approved symbol : ", $prot->{approved_symbol}, "\n";
        print "Approved name : ",   $prot->{approved_name},   "\n";
        print "HGNC ID : ",         $prot->{hgnc_id},         "\n";
     
        print "==============\n\n";
    }
    résultat :
    ==============

    Approved symbol : BRAF
    Approved name : v-raf murine sarcoma viral oncogene homolog B1
    HGNC ID : HGNC:1097
    ==============

    ==============

    Approved symbol : C1QC
    Approved name : complement component 1, q subcomponent, C chain
    HGNC ID : HGNC:1245
    ==============

    ==============

    Approved symbol : UQCRFSL2~withdrawn
    Approved name : entry withdrawn
    HGNC ID : HGNC:12589
    ==============

  5. #5
    Rédactrice

    Avatar de stoyak
    Profil pro
    Inscrit en
    Juin 2005
    Messages
    408
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Juin 2005
    Messages : 408
    Par défaut
    Pour essayer de faire simple, tu peux également télécharger par ftp des fichiers d'intérêt depuis le NCBI.
    Si tu choisis le fichier adéquat, il ne sera pas lourd ...
    Les fichiers plats du NCBI sont simples à parser. Ta base peut contenir une table avec l'ensemble des gènes (description, symbole officiel, accession number, ...) de ton espèce et une table qui fait le lien entre 'gène et cancers'.

    Cela te permet d'avoir l'ensemble des informations disponibles dans ta base et de pouvoir ensuite l'updater de façon assez simple.

    Regarde le lien ftp suivant ... lis le README, et vois si ces informations te permettent de construire les bases d'une base () solide!

  6. #6
    Membre averti
    Inscrit en
    Avril 2009
    Messages
    44
    Détails du profil
    Informations forums :
    Inscription : Avril 2009
    Messages : 44
    Par défaut
    Merci djibril

    Saurais-tu par hasard, comment avoir les mêmes informations mais en ayant comme arguments : les approaved_symbol et non pas les ids ?

    Merci Stoyak pour tes conseils mais j'ai déjà la structure de la base de données, j'aurais plusieurs tables, dont évidemment une qui "décrit" les gènes, une autre pour les cancers et une autre qui fait le lien. Là n'est pas vraiment mon problème.

    Je n'ai besoin des informations approuvé HGNC, pour pouvoir faire d'éventuel recoupement d'informations lors d'une recherche dans ma future base de données locale entre des données de différentes bases de données sources, qui ne serait pas forcément à jour avec le "HGNC Approaved Symbol" par exemple...
    Je ne sais pas si je m'explique bien, mais c'est mon objectif.

    Merci quand même pour le ftp, cela pourra peut-être apporter quelques informations.

    EDIT : merci stoyak, le fichier sur l'Homme va surement bien me servir, vu que l'HGNC_id est présent et que le NCBI est aussi sûr que la base HUGO. De plus, il est (je pense) facilement téléchargeable automatiquement et assez simple à parser.

Discussions similaires

  1. Réponses: 23
    Dernier message: 15/06/2015, 21h54
  2. récupération automatique de données à partir du web
    Par harrat dans le forum Général JavaScript
    Réponses: 7
    Dernier message: 02/01/2011, 20h35
  3. Récupération automatique des données d'une feuille de saisie
    Par vieri dans le forum Macros et VBA Excel
    Réponses: 10
    Dernier message: 08/01/2009, 17h21
  4. Réponses: 2
    Dernier message: 14/10/2005, 10h11
  5. Réponses: 4
    Dernier message: 11/06/2004, 16h27

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo