IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bioinformatique Perl Discussion :

[Mascot] Filtre taxonomique sur BDD non redondante


Sujet :

Bioinformatique Perl

  1. #1
    Membre du Club
    Inscrit en
    Septembre 2010
    Messages
    109
    Détails du profil
    Informations forums :
    Inscription : Septembre 2010
    Messages : 109
    Points : 61
    Points
    61
    Par défaut [Mascot] Filtre taxonomique sur BDD non redondante
    Bonjour,

    On me demande s'il est possible d'utiliser le filtre d'espèces du logiciel Mascot (Matrixscience) les bases NCBInr et Uniref100. Pour info, Mascot, est utilisé pour la spectrométrie de masse et les séquences utilisées sont protéiques.
    Or, d'après ce que j'ai lu, ces bases sont non redondantes, c'est à dire qu'elles clusturisent sous une seule séquence de référence toutes les séquences identiques.

    Par exemple (toujours si j'ai bien compris) si la même séquence est présente chez l'humain et la souris, une seule de ces 2 entrées sera présente dans la base (mettons la souris pour l'exemple).

    Dans ce contexte, je me demande l'intérêt d'avoir un filtre d'espèces. Est-ce si on positionne le filtre de Mascot sur Humain, la séquence précédente va remonter? Mascot fait-il un lien externe à la base de donnée pour retrouver cette information ou l'information est-elle tout bonnement perdue?

    Merci d'avance à ceux qui pourraient m'aider.

    Pierre

  2. #2
    Membre éprouvé Avatar de Gardyen
    Homme Profil pro
    Bio informaticien
    Inscrit en
    Août 2005
    Messages
    637
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Bio informaticien

    Informations forums :
    Inscription : Août 2005
    Messages : 637
    Points : 1 050
    Points
    1 050
    Par défaut
    ça dépend de la base choisie.
    uniref100 est une base de clusters, donc plusieurs espèces peuvent être rassemblées sous un seul id, ensuite je ne sais pas si mascot donne la possibilité d'accéder à chaque membre du cluster. Dans ce cas-là, un filtre espèce n'a pas de sens.

    par contre nr résume les infos de GenBank en supprimant les doublons, les séquences partielles, etc sous un seul id. donc 2 séquences identiques venant de 2 organismes différents seront toujours séparées. ici le filtre espèce prend tout son sens
    Nous les geeks, c'est pas qu'on a une case en moins, c'est juste qu'on compte à partir de zéro.
    Plus les choses changent, plus elles restent les mêmes

  3. #3
    Membre du Club
    Inscrit en
    Septembre 2010
    Messages
    109
    Détails du profil
    Informations forums :
    Inscription : Septembre 2010
    Messages : 109
    Points : 61
    Points
    61
    Par défaut
    Bonjour Gardyen,

    Et merci pour ta réponse. Je crois comprendre que Uniref100 permet réinterroger Uniprot avec l'identifiant choisi et que de là tu peux remonter aux différents organismes derrière la séquence en terme de "documentation".

    Mais j'avoue que je me demandais si Mascot, avait prévu un mécanisme interrogation de la base par je ne sais quel moyen au moment d'utiliser le filtre d'espèce. Mais c'est vrai que ça me parait peu plausible.

  4. #4
    Futur Membre du Club
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2015
    Messages
    4
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 56
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Service public

    Informations forums :
    Inscription : Avril 2015
    Messages : 4
    Points : 7
    Points
    7
    Par défaut
    Bonsoir,

    Je tombe par hasard sur cette question et je me permets donc d'apporter ma pierre.

    UniRef100 est construite par similarité de séquences, mais au seuil de 100%. Donc les séquences sont en fait identiques. Le détail, c'est sur quoi est mesurée la similarité. Il me semble que c'est la partie chevauchante, mais à vérifier. http://www.uniprot.org/help/uniref. Donc à 100%, beaucoup de séquences seront disponibles, toute espèce mélangées ensemble, et en fait des séquences ne seront pas regroupées même si elles proviennent du même gène, puisqu'un seul acide aminé dans la zone chevauchante suffirait à ne pas obtenir 100% de similarité.

    D'autre part, l'identifiant du cluster en général (maintenant) une espèce "largement étudiée" (ie homme, puis souris...) mais on peut très bien trouver un identifiant de boeuf dans une recherche sur un extrait protéique humain. Cela perturbe en général l'utilisateur "biologiste" final. Mascot n'a rien prévu pour cela (me semble-t-il) parce qu'il n'y a pas de toute façon de taxonomie associé à la séquence représentant un cluster.

    Il est possible de filtrer UniRef100 pour ne retenir que l'homme par exemple. Ceci donne 267 716 séquences... énorme !

    En comparaison le protéome de référence est bien moins redondant : seulement 68 511 séquences.

    http://www.uniprot.org/help/reference_proteome
    http://www.uniprot.org/help/human_proteome

    Le choix de la banque de séquence (et de sa redondance) n'est pas anodin : il va influencer le calcul de la probabilité d'obtenir une "bonne" identification ou encore le False Discovery Rate.

    Quant à NCBInr, il faut faire attention à la définition de "non redondant". Pour NCBInr, un seul acide aminé de différence et ce sont deux séquences différentes. Donc le compte est très grand aussi. Pour être exact, il faudrait lancer une recherche sur le serveur de MatrixScience, éditeur de Mascot. Par contre, une taxonomie est gérée par Mascot, et donc on peut filtrer par espèce.

    Donc une banque réellement compacte, je conseillerai une recherche sur UnProt avec le mot clé "complete proteome" ou encore que les entrées "reviewed" de UniProt si l'espèce est homme, souris...

    MAIS, il faut bien définir la question que l'on pose et évaluer la pertinence de la redondance en fonction (voire en tenant compte de la simplicité de l'interprétation...) :

    a) je cherche à identifier les séquences dans un extrait complexe protéique => "complete proteome" de l'espèce considérée chez UniProt, c'est le bon compromis entre exhaustivité et compacité ; c'est en général le standard.

    b) je cherche à détecter la présence de différentes formes de certaines protéines => NCBInr comportera plus de représentants d'un même gène ; des séquences légèrement différentes seront disponibles alors qu'elles ne le seront pas dans "complete proteome" : en fait la modification d'un acide aminé est par exemple une simple annotation dans la fiche UniProt, mais n'est pas disponible simplement en tant que séquence : donc Mascot (ou autre) ne la trouvera pas.

    Si la question est autre... il faut la préciser, et surtout l'espèce.
    HTH

  5. #5
    Membre du Club
    Inscrit en
    Septembre 2010
    Messages
    109
    Détails du profil
    Informations forums :
    Inscription : Septembre 2010
    Messages : 109
    Points : 61
    Points
    61
    Par défaut
    Bonjour SamGG,

    Merci pour ta réponse très fournie et désolé de mon manque de réactivité, j'ai eu un autre sujet à traiter.
    En fait, je ne suis pas utilisateur final de Mascot, je cherche simplement à mettre en place les bases Uniref100 et NCBInr pour les utilisateurs sur une instance de Mascot installée en local. Comme je dois également faire en sorte que le filtre d'espèce fonctionne, je joue également un peu le rôle de conseil.

    D'après ce que tu me dis: "Mascot n'a rien prévu pour [Uniref100] (me semble-t-il) parce qu'il n'y a pas de toute façon de taxonomie associé à la séquence représentant un cluster." Pourtant, lorsque l'on met en place la base en local, il y a bien moyen de choisir une "parsing rule" pour la taxonomie spécifique de Uniref. J'avoue que je ne comprends pas l'intérêt de pouvoir mettre ce filtre si on a un cluster représenté par exemple par la séquence de la souris et que l'on filtre sur l'Homme. Dans ce cas, on ne remontera pas la séquence alors qu'elle est tout aussi valable pour l'Homme. A moins que quelque chose m'échappe.

    Donc si tu as des précisions sur ce qui peut m'échapper, je suis preneur.

    D'avance merci.

    Pierre

  6. #6
    Futur Membre du Club
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2015
    Messages
    4
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 56
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Service public

    Informations forums :
    Inscription : Avril 2015
    Messages : 4
    Points : 7
    Points
    7
    Par défaut
    Bonjour,

    Pas de souci pour la réactivité.

    En fait pour UniRef100, je pense que tout tu as tout compris. Cela n'a pas de sens de définir un filtre de taxonomie puisque c'est un mélange. Et ce même si l'interface de Mascot le permet. L'interface est faite pour offrir des possibilités, à l'humain de les utiliser intelligemment.

    Comme je le signalais, je ne suis pas fan de UniRef100 : c'est plus gros qu'un proteome reference qui allie un bon compromis entre représentativité et faible redondance. En général, on ne travaille que sur peu d'espèces à la fois, donc je n'y vois aucun intérêt, autant partir sur NCBInr.

    NCBInr est utile pour cibler des formes spécifiques que l'on ne trouvera pas dans un proteome reference ou UniProt. Cela permettra par exemple de trouver un bio-marqueur dans le cas d'un cancer.

    Donc, je me permets de vraiment t'inciter à bien définir les recherches/objectifs des chercheurs (ou clients si tu es dans une boite de service) pour réellement choisir les banques de séquences pertinentes. Cela évitera de perdre du temps humain à analyser des rapports sans utilité.

    HTH

  7. #7
    Membre du Club
    Inscrit en
    Septembre 2010
    Messages
    109
    Détails du profil
    Informations forums :
    Inscription : Septembre 2010
    Messages : 109
    Points : 61
    Points
    61
    Par défaut
    Je te remercie pour ta réponse. Je vais effectivement transmettre le fait qu'il n'y a pas d'intérêt à paramétrer un filtre d'espèce sur Uniref100.
    Par contre, je ne comprends pas pourquoi une forme serait plus présente dans NCBInr que dans Uniref100 puisque 1 AA change dans cette dernière, il y aura 2 entrées.

    Pierre

  8. #8
    Futur Membre du Club
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2015
    Messages
    4
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 56
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Service public

    Informations forums :
    Inscription : Avril 2015
    Messages : 4
    Points : 7
    Points
    7
    Par défaut
    Citation Envoyé par pierregr Voir le message
    Par contre, je ne comprends pas pourquoi une forme serait plus présente dans NCBInr que dans Uniref100 puisque 1 AA change dans cette dernière, il y aura 2 entrées.
    Je me suis mal fait comprendre. Tu as entièrement juste. Je comparais NCBInr à UniProt ou un proteome reference. Il est clair que NCBInr est équivalent à UniRef100... mais propose utilement la taxonomie ;-)

  9. #9
    Membre du Club
    Inscrit en
    Septembre 2010
    Messages
    109
    Détails du profil
    Informations forums :
    Inscription : Septembre 2010
    Messages : 109
    Points : 61
    Points
    61
    Par défaut
    Merci beaucoup pour tes réponses très éclairantes. J'ai toutes mes réponses à présent, je vais donc clôturer la discussion.

    Pierre

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [UI] Sortable - UPDATE sur BDD non fonctionnel
    Par Ghostly dans le forum jQuery
    Réponses: 0
    Dernier message: 21/08/2013, 15h17
  2. Créations filtre multicritères sur grosse BDD
    Par saluts92 dans le forum Requêtes
    Réponses: 7
    Dernier message: 23/04/2013, 15h05
  3. [WD16] Filtre dynamique sur BDD Hyperfile
    Par JustineJ dans le forum WinDev
    Réponses: 2
    Dernier message: 08/08/2011, 14h31
  4. Pb enreg UTF-8 sur BDD non UTF-8
    Par RobinNono dans le forum ASP
    Réponses: 4
    Dernier message: 09/09/2008, 15h48
  5. erreur sur un non filtre
    Par nico.chev dans le forum Access
    Réponses: 1
    Dernier message: 20/09/2005, 13h16

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo