|
Publicité ' | |||||||||||||||||||||||
|
|
#1 |
|
Nouveau Membre du Club
![]() Nolwenn LavielleIngénieur d'études Inscription : mars 2009 Messages : 43 ![]() |
Bonjour,
je suis actuellement face à un problème de taille, je cherche à récupérer, pour un gène donné (dont je connais le GeneID), les données brutes de ses GEO Profiles afin de pouvoir les analyser à coup de scripts. J'ai bien trouvé via le site du NCBI comment accéder aux profils pour un gène, malheureusement je ne vois pas comment récupérer les informations de façon automatisée et en données brutes de préférence. Apparemment, d'après les CPAN, le module Bio:: DB::Expression devrait me permettre de trouver les GEO, mais je ne vois pas du tout comment cela fonctionne ni si il s'agit bien de ce que je cherche à réaliser ! A moins que je ne doive passer par la récupération de la banque de données GEO et par des scripts pour extraire les informations dont j'ai besoin... L'un de vous a-t-il déjà rencontré cette problématique ? Si oui, comme a-t-il résolu l'affaire ? Merci d'avance à la ou les personnes qui saura me venir en aide. Cordialement, Norore. |
|
|
00
|
|
|
#2 | |
|
Membre éprouvé
![]() Inscription : novembre 2009 Messages : 347 ![]() |
Bonjour,
Je pratique depuisun moment le site du NCBI mais les GEO, je ne connaissais pas. J'ai regardé d'un peu plus près à quoi cela ressemblait mais j'avoue que ce n'est pas du tout ma branche donc je ne vois pas très bien ce que tu veux récupérer qudn tu parles de "données brutes" : les profils ? les datasets ? Pour obtenir ce que tu veux via le site tu mets une query du style en recherche de profils? Citation:
Sinon, le module Bio::DB::Expression peut peut être faire l'affaire mais au vue de la documentation du module ca fait un peu peur... J'ai vu qu'il y avait un autre module Bio::DB::Expression::geo mais là, la doc est cette fois-ci inexistante... Vu les exemples du premier module, je ne vois même pas comment faire des requêtes : on a l'impression que le module récupère tout ... Donc là perso, je ne vois pas vraiment comment arriver à tes fins (sans plus de précisions sur les données brutes etc.) à l'aide de ce ou ces modules. Peut être via une construction de requêtes comme mentionné sur le site ou après téléchargement mais bon je ne connais le volume de données que cela représente... Désolé de ne pas faire plus pour le moment |
|
|
|
00
|
|
|
#3 |
|
Nouveau Membre du Club
![]() Nolwenn LavielleIngénieur d'études Inscription : mars 2009 Messages : 43 ![]() |
Bonjour.
Mince, je pensais que les GEO Profiles étaient utilisés de façon régulière en bioinfo. Soit, je ne me laisse pas abattre, je vais tâcher de m'expliquer plus clairement et plus abondamment. Si l'on se réfère à cette page sur le gène 119 (ADD2), en regardant le menu de droite, on peut repérer, au niveau des Links un lien pointant sur les GEO Profiles relatifs à ce gène. Ce qui intéresse le biologiste avec lequel je travaille (et donc moi aussi par extension), ceux sont les profils sous forme de graphique. Ce que j'entends donc par les données brutes, ceux sont les données relatives à ce graphique, qui me permettront ainsi de repérer les données intéressantes à récupérer (down regulation, grandes différences entre les différentes barres du graphique). Le problème qui se pose donc est le suivant : comment récupérer ces données sachant que je pars du fichier XML du gène, dont j'extrais certaines données d'intérêt, et que je n'ai aucune idée du numéro d'accession pour les GEO Profiles de ce gène ? J'ai beau lire attentivement le fichier XML, je ne vois aucun numéro d'accession correspondant aux GEO Profiles et j'ai bien peur que ce soit ce qui me bloque le plus à l'heure actuelle... Merci pour le lien vers le tutoriel de la construction des requêtes sur GEO, je vais tâcher de voir si je ne peux pas passer par une requête via un autre numéro d'accession ! Oui, la méthode est un peu sioux et tirée par les cheveux, mais je n'ai pas toujours le choix ...Cordialement. Edit : je précise juste que je récupère le fichier XML en le téléchargeant via les Eutils grâce à un script Perl. |
|
|
00
|
|
|
#4 | ||
|
Nouveau Membre du Club
![]() Nolwenn LavielleIngénieur d'études Inscription : mars 2009 Messages : 43 ![]() |
Bon, à force de chercher et de tâtonner, je crois que j'ai trouvé ce que je souhaite faire. Je vais encore faire grossir mon disque dur mais dans l'immédiat je ne vois pas de meilleure solution (c'est l'administrateur du serveur qui va être content
!). Voici la solution que j'ai trouvé, ça pourra peut-être servir à quelqu'un d'autre, à coup de script Perl et grâce aux Eutils :Code perl :
|
||
|
|
00
|
|
|
#5 |
|
Membre éprouvé
![]() Inscription : novembre 2009 Messages : 347 ![]() |
C'est vrai que la méthode du "télécharger tout puis analyser" est un bon moyen à court terme. En plus, une fois que les données sont en local on peut faire plein de choses en plus.
Par contre, juste une mise en garde vu que cela m'est déjà arrivé : quelle est la pérennité de tes données ? Quid des mises à jour ? Durée de vie des analyses qui en résultent ? Je dis cela parce que dans les bases de données bio (gènes ou SNPs par exemple) sont mises à jour périodiquement,ce qui est bien mais le problème vient que certaines entrées sont supprimées (ca ca va), plusieurs entrées sont "mergées" en 1 seule, d'autres changent carrément d'identifiant etc. et j'en passe. Et ce, sans historique des modifications comme ca l'est dans certaines bases. Du coup, c'est assez difficile de mettre à jour ses données locales. On garde alors plusieurs versions. Ou alors peut être utiliser des logiciels comme biomaj ... Donc voilà, c'était juste pour préciser ce point qui me paraît important quand on utilise des données locales que l'on télécharge. |
|
|
00
|
|
|
#6 |
|
Nouveau Membre du Club
![]() Nolwenn LavielleIngénieur d'études Inscription : mars 2009 Messages : 43 ![]() |
Oui, je suis au courant de ces difficultés majeures, le problème principal réside dans le fait que j'utilise plusieurs bases de données, récupérées en local, que je fais correspondre les unes aux autres, du coup certaines bases de données sont mise à jour quotidiennement, quand c'est précisé ce qui est exceptionnel, d'autres sont vieilles de plusieurs jours à mois (quand elles n'ont pas carrément 2 ans).
Bref, c'est encore un casse-tête de plus sans lequel nous serions au chômage Merci de me prévenir pour les pertes de données suite aux mises à jour, je vais tâcher d'y prêter attention |
|
|
00
|
|
|
#7 | |
|
Membre éprouvé
![]() Inscription : novembre 2009 Messages : 347 ![]() |
Citation:
|
|
|
|
00
|
|
|
#8 | ||
|
Nouveau Membre du Club
![]() Nolwenn LavielleIngénieur d'études Inscription : mars 2009 Messages : 43 ![]() |
Bon, j'ai laissé tomber la première solution que j'ai trouvé, en voyant la tête des fichiers, mes yeux ont failli sortir de leurs orbites
Je garde le script sous le coude mais j'en ai réécrit un qui lui est plus proche de ce que je cherche à obtenir et qui, je pense, devrait plaire au biologiste. Ce sera un peu plus léger, pas très optimal parce que du coup je vais avoir plein de petits fichiers, mais je devrais m'y retrouver plus facilement Ma fonction a maintenant cette tête là à peu près : Code perl :
Il ne me reste plus qu'à trouver comment comparer les dates des fichiers et ça devrait rouler !
|
||
|
|
00
|
|
|
#9 | ||
|
Membre éprouvé
![]() Inscription : novembre 2009 Messages : 347 ![]() |
Ok.
Sinon une précision en regardant ton script : lorsque tu récupères à la fin tes fichiers avec le wget, cela utilise les eutils ? Code :
Je peux me tromper mais vérifie quand même : ce serait dommage de se faire bloquer son IP parce qu'on a abusé un tout petit peu |
||
|
|
00
|
|
|
#10 |
|
Nouveau Membre du Club
![]() Nolwenn LavielleIngénieur d'études Inscription : mars 2009 Messages : 43 ![]() |
Je ne pense pas que cette commande passer par les Eutils, je n'ai trouvé cet URL qu'à force de fouiner (et en regardant un peu leur source HTML qui insère un tableau par iframe) et de trouver comment leur système fonctionne pour afficher ces données.
J'ai eu beau fouiller les informations concernant les Eutils, je n'ai rien trouvé de concluant pour cette méthode, ou alors je suis passée à côté... Je vais continuer de chercher mais je crains de devoir leur demander par Email s'ils ont une solution à me proposer. A moins que je ne passe par leur module R, puis que je trouve comment convertir un fichier R afin de l'utiliser en Perl...
|
|
|
00
|
|
|
#11 |
|
Nouveau Membre du Club
![]() Nolwenn LavielleIngénieur d'études Inscription : mars 2009 Messages : 43 ![]() |
Finalement je vais laisser tomber la seconde méthode, ça évitera les râleries (à raison) du NCBI. De plus, j'aurais bien plus d'informations et je pourrais donc parcourir plus aisément les fichiers récupérés.
Seul défaut, découvert ce matin, si le NCBI fait une maintenance sur les Eutils, le script plante !En tout cas, merci pour le renseignement Beniou |
|
|
00
|
Copyright © 2000-2012 - www.developpez.com