IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bioinformatique Perl Discussion :

alignements multiples de séquences d'ADN


Sujet :

Bioinformatique Perl

  1. #1
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut alignements multiples de séquences d'ADN
    Bonjour à tous,


    J'ai une centaine de fichiers fasta contenant un nombre variable de séquences d'ADN de taille variable toutes dans le même sens. J'aimerais les aligner afin d'obtenir une séquence consensus par fichier. J'ai donc utiliser ClustalW sur chaque fichier. Le probléme est qu'étant de taille variable, les séquences ne s'alignent pas correctement et généralement, j'obtiens 2 blocs distincts de séquences correctement alignées mais les 2 blocs sont décalés et non alignés. Je ne sais pas comment résoudre ce problème, je vois plusieurs possibilités.

    Clustal, qui est un programme d'alignement global, ne fait pas de bons alignements quand il y a beaucoup de séquences de taille variable par contre quand il n'y en a que deux, une courte et une longue, l'alignement est correct.

    Fonctionnement de ClustalW
    The basic alignment method

    The basic multiple alignment algorithm consists of three main stages: 1) all pairs of sequences are aligned separately in order to calculate a distance matrix giving the divergence of each pair of sequences; 2) a guide tree is calculated from the distance matrix; 3) the sequences are progressively aligned according to the branching order in the guide tree.
    1) écrire un programme qui pour un fichier crée des sous-groupes selon la taille, effectue un alignement par sous-groupe, crée un consensus par sous-groupe et calcule le consensus final par alignement des sous-consensus.

    2) un programme qui aligne les séquences 2 à 2 aléatoirement, crée un consensus par alignement pairé puis continue l'alignement des consensus 2 à 2 jusqu'à ce qu'il n'y en ai plus qu'un.

    3) alignement de 2 séquences aléatoirement, puis on en rajoute une à une, en calculant pour chaque alignement pairé un consensus.

    Vu l'agorithme ClustalW, je ne sais pas si ces 2 dernières approches pourraient être utiles. Je sais que quand on travaille avec des alignements pairés on peut utiliser une option permettant aux extrémités des 2 séquences de ne pas se chevaucher, d'être flottantes ce qui résout les problèmes d'un alignement de 2 séquences de taille différente.

    4) trouver un autre programme que ClustalW mais je pense que le problème restera le même.

    Que me conseillez-vous?


    Merci,
    -- Jasmine --

  2. #2
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    J'ai trouvé un module intéressant :dpAlign

    Ends-free Alignment is a special case of Global Alignment. There are no gap penalty imposed for the gaps that extended from the end points of two sequences. Therefore it will be a good application when you think one sequence is contained by the other or when you think two sequences overlap each other.
    -- Jasmine --

  3. #3
    Membre confirmé
    Avatar de MaliciaR
    Inscrit en
    Juillet 2008
    Messages
    513
    Détails du profil
    Informations personnelles :
    Âge : 41

    Informations forums :
    Inscription : Juillet 2008
    Messages : 513
    Points : 600
    Points
    600
    Par défaut
    Salut,

    Perso, je créerais un script qui les regroupe par tailles, quitte a avoir plusieurs sous-groupes. Sinon, le choix d'un paramètre gap-end free est assez bien.
    Tu peux comparer les deux façons de faire et voir laquelle fonctionne mieux avec tes données
    Le tact dans l'audace c'est de savoir jusqu'où on peut aller trop loin. Cocteau
    L'abjection la plus totale, ce n'est pas de trahir, c'est de ne jamais donner un commencement de réalité à ses rêves les plus fous. M. Moreau


    Les indispensables : Les règles, , FAQ et tutos avant de poster, et !
    Traduction de Linux Device Drivers 3 : venez participer
    membre de l'April - Promouvoir et défendre les logiciels libres

  4. #4
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Oui, je suis justement entrain d'écrire le code :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    	my $in  = Bio::SeqIO->new(-file => $file_in, '-format' => 'Fasta');
     
    	my @sequences;
     
     
    	while ( my $seq = $in->next_seq()){
     
    		my $id = $seq->primary_id ;
    		my $sequence = $seq->seq ;
    		my $length_seq = length($sequence);
     
    		${$sequences[$length_seq]}{$id} = $sequence;
    	}
     
    	my @ind = indexes { defined $_} @sequences;
     
    	for my $l (0..$#ind){
    		print "$ind[$l]\n";
     
    		while (my ($id, $seq) = each %{$sequences[$ind[$l]]}){
     
    		}
     
    	}

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    1)	on supprime les séquences trop dégénérées
    2)	on travaille avec des séquences dans un ordre croissant de taille
    3)	on l’aligne les 2 séquences et on calcule le consensus
    4)	progressivement on aligne le consensus avec les autres séquences une à une
    5)	à chaque fois, on calcule la dégénérescence du consensus SUR LA PARTIE COMMUNE
              a.	inférieur au seuil => on rejette cette nouvelle séquence
              b.	supérieur au seuil => on garde le consensus et on prend la séquence suivante

    ... mais ça parait bien compliqué et je doute que cela ne fonctionne
    -- Jasmine --

  5. #5
    Membre confirmé
    Avatar de MaliciaR
    Inscrit en
    Juillet 2008
    Messages
    513
    Détails du profil
    Informations personnelles :
    Âge : 41

    Informations forums :
    Inscription : Juillet 2008
    Messages : 513
    Points : 600
    Points
    600
    Par défaut
    En fait, vu ton algo, tu es en train de refaire un Clustal... Dans mon idée, c'était plutôt : je ressemble les séquences entre 30 et 50 pb dans un sous-groupe; celles entre 80 et 100 dans un autre; etc. (les chiffres sont au hasard, hein). Puis, j'aligne chaque groupe avec Clustal. Ainsi, tu as des tailles proches, donc il ne va pas distendre à fond les pitites pour les coller aux grandes. Tu peux aussi cocher le paramètre gap-end free : si tu alignes une de 30 avec une de 50, c'est clair qu'il va y avoir besoin.

    Ou encore, mais je ne connais pas l'objectif de ton alignement, tu fais de l'alignement local.
    Le tact dans l'audace c'est de savoir jusqu'où on peut aller trop loin. Cocteau
    L'abjection la plus totale, ce n'est pas de trahir, c'est de ne jamais donner un commencement de réalité à ses rêves les plus fous. M. Moreau


    Les indispensables : Les règles, , FAQ et tutos avant de poster, et !
    Traduction de Linux Device Drivers 3 : venez participer
    membre de l'April - Promouvoir et défendre les logiciels libres

  6. #6
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Citation Envoyé par MaliciaR Voir le message
    En fait, vu ton algo, tu es en train de refaire un Clustal... Dans mon idée, c'était plutôt : je ressemble les séquences entre 30 et 50 pb dans un sous-groupe; celles entre 80 et 100 dans un autre; etc. (les chiffres sont au hasard, hein). Puis, j'aligne chaque groupe avec Clustal. Ainsi, tu as des tailles proches, donc il ne va pas distendre à fond les pitites pour les coller aux grandes. Tu peux aussi cocher le paramètre gap-end free : si tu alignes une de 30 avec une de 50, c'est clair qu'il va y avoir besoin.

    Ou encore, mais je ne connais pas l'objectif de ton alignement, tu fais de l'alignement local.

    Le problème est que
    1) je ne sais pas comment cocher se paramètre gap-end free, je ne sais même pas si il est disponible avec ClustalW.
    2) les 2 fois où j'ai entendu parlé du gap-end free, il n'était disponible que pour les alignements pairés.
    -- Jasmine --

  7. #7
    Membre confirmé
    Avatar de MaliciaR
    Inscrit en
    Juillet 2008
    Messages
    513
    Détails du profil
    Informations personnelles :
    Âge : 41

    Informations forums :
    Inscription : Juillet 2008
    Messages : 513
    Points : 600
    Points
    600
    Par défaut
    Hum, si je ne m'abuse, c'est par défaut dans ClustalW. C'est ClustalV qui ne l'avait pas.
    Cela dit, je n'ai pas le temps de lire le papier (soutenance de stage lundi...). Ce que tu peux faire, c'est le faire sur le site de Pasteur : http://mobyle.pasteur.fr/cgi-bin/por...alw-multialign
    Tu as un paramètre No end gaps separation penalty :
    End gap separation treats end gaps just like internal gaps for the purposes of avoiding gaps that are too close (set by GAP SEPARATION DISTANCE above). If you turn this off, end gaps will be ignored for this purpose. This is useful when you wish to align fragments where the end gaps are not biologically meaningful.
    Ca te permettrait de voir si ton ClustalW local le fait par défaut ou non.

    Cela dit, si tu donnais l'objectif de ton alignement, ça éclaircirait ta question et surtout permettrait de voir plus clair pour te répondre, je pense
    Le tact dans l'audace c'est de savoir jusqu'où on peut aller trop loin. Cocteau
    L'abjection la plus totale, ce n'est pas de trahir, c'est de ne jamais donner un commencement de réalité à ses rêves les plus fous. M. Moreau


    Les indispensables : Les règles, , FAQ et tutos avant de poster, et !
    Traduction de Linux Device Drivers 3 : venez participer
    membre de l'April - Promouvoir et défendre les logiciels libres

  8. #8
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Merci beaucoup de prendre la peine d'essayer de m'aider et bonne chance pour lundi.


    Citation Envoyé par MaliciaR Voir le message
    Hum, si je ne m'abuse, c'est par défaut dans ClustalW. C'est ClustalV qui ne l'avait pas.
    Cela dit, je n'ai pas le temps de lire le papier (soutenance de stage lundi...). Ce que tu peux faire, c'est le faire sur le site de Pasteur : http://mobyle.pasteur.fr/cgi-bin/por...alw-multialign
    Tu as un paramètre No end gaps separation penalty :
    J'ai essayé en ajoutant à @params du module Bio::Tools::Run::Alignment::Clustalw :

    -endgaps => 1,
    puis -endgaps => 0,

    Pour
    seq total Nuc[0 à 700]
    sous-seq A Nuc[10 à 300]
    sous-seq B Nuc[500 à 650]
    Les alignements sont les mêmes et sont tous deux incorrects avec les séquences A et B (mal) alignées ensembles.

    Citation Envoyé par MaliciaR Voir le message
    Cela dit, si tu donnais l'objectif de ton alignement, ça éclaircirait ta question et surtout permettrait de voir plus clair pour te répondre, je pense
    J'aimerais avoir une séquence consensus par fichier ... d'où la nécessité d'un alignement correct.
    -- Jasmine --

  9. #9
    Membre confirmé
    Avatar de MaliciaR
    Inscrit en
    Juillet 2008
    Messages
    513
    Détails du profil
    Informations personnelles :
    Âge : 41

    Informations forums :
    Inscription : Juillet 2008
    Messages : 513
    Points : 600
    Points
    600
    Par défaut
    Citation Envoyé par Jasmine80 Voir le message
    Merci beaucoup de prendre la peine d'essayer de m'aider et bonne chance pour lundi.
    C'est normal

    Pour lundi, ça se dessine tendu


    Citation Envoyé par Jasmine80 Voir le message
    J'ai essayé en ajoutant à @params du module Bio::Tools::Run::Alignment::Clustalw :

    -endgaps => 1,
    puis -endgaps => 0,

    Pour
    seq total Nuc[0 à 700]
    sous-seq A Nuc[10 à 300]
    sous-seq B Nuc[500 à 650]
    Les alignements sont les mêmes et sont tous deux incorrects avec les séquences A et B (mal) alignées ensembles.
    Hum, 10 à 300 pb représente un écart énorme...


    Citation Envoyé par Jasmine80 Voir le message
    J'aimerais avoir une séquence consensus par fichier ... d'où la nécessité d'un alignement correct.
    Oui, je vois. Il te faut une séquence consensus pour la totalité de tes séquences? Ou splus mieux d'en faire plusieurs en fonction des tailles?
    Sinon, une autre solution aux séquences consensus serait de faire des profils HMM. Mais ils demandent également un alignement correct en entrée.
    Le tact dans l'audace c'est de savoir jusqu'où on peut aller trop loin. Cocteau
    L'abjection la plus totale, ce n'est pas de trahir, c'est de ne jamais donner un commencement de réalité à ses rêves les plus fous. M. Moreau


    Les indispensables : Les règles, , FAQ et tutos avant de poster, et !
    Traduction de Linux Device Drivers 3 : venez participer
    membre de l'April - Promouvoir et défendre les logiciels libres

  10. #10
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Citation Envoyé par MaliciaR Voir le message
    C'est normal

    Pour lundi, ça se dessine tendu
    La soutenance de stage est-ce la défense de ton TFE?


    Citation Envoyé par MaliciaR Voir le message
    Hum, 10 à 300 pb représente un écart énorme...
    non, non j'ai simplement testé un alignement de 3 séquences dont une séquence totale de 701 mères et 2 sous-séquences de celle-ci ne se chevauchant pas entre elles. Le problème est que l'alignement les regroupe et les font toutes les 3 se chevaucher.



    Citation Envoyé par MaliciaR Voir le message
    Oui, je vois. Il te faut une séquence consensus pour la totalité de tes séquences? Ou splus mieux d'en faire plusieurs en fonction des tailles?
    L'avantage de travailler en ajoutant les séquence une à une est qu'en cas de pourcentage de dégénérescence très élevé du consensus, on sait quelle séquence en est la cause et on peut l'enlever de l'alignement. J'ai récupéré ces séquences sur GenBank, certaines sont parfois erronées et ne collent pas du tout au reste du groupe rendant un 'beaux' consensus impossible. Il faut donc pouvoir repérer les séquences provoquant trop de dégénérescences dans le consensus.
    -- Jasmine --

  11. #11
    Membre confirmé
    Avatar de MaliciaR
    Inscrit en
    Juillet 2008
    Messages
    513
    Détails du profil
    Informations personnelles :
    Âge : 41

    Informations forums :
    Inscription : Juillet 2008
    Messages : 513
    Points : 600
    Points
    600
    Par défaut
    Citation Envoyé par Jasmine80 Voir le message
    La soutenance de stage est-ce la défense de ton TFE?
    Qu'est-ce le TFE?



    Citation Envoyé par Jasmine80 Voir le message
    non, non j'ai simplement testé un alignement de 3 séquences dont une séquence totale de 701 mères et 2 sous-séquences de celle-ci ne se chevauchant pas entre elles. Le problème est que l'alignement les regroupe et les font toutes les 3 se chevaucher.
    Hum, ça me semble normal quand même... Il cherchera à les aligner quand même et ce, de façon globale, càd qu'il cherche des bouts qui se ressemblent sur la totalité des séquences et en fait des espèces d'îlots. J'ai vu pire Si tu faisais un alignement local, ça se présenterait différemment.
    Essaie 3 séquences de tailles différentes, toujours les mêmes.


    Citation Envoyé par Jasmine80 Voir le message
    L'avantage de travailler en ajoutant les séquence une à une est qu'en cas de pourcentage de dégénérescence très élevé du consensus, on sait quelle séquence en est la cause et on peut l'enlever de l'alignement. J'ai récupéré ces séquences sur GenBank, certaines sont parfois erronées et ne collent pas du tout au reste du groupe rendant un 'beaux' consensus impossible. Il faut donc pouvoir repérer les séquences provoquant trop de dégénérescences dans le consensus.
    Oui, bien sûr. Mais justement, si tu fais les alignements par taille, tu es au moins sûre que le biais de l'alignement ne sera pas dû à ces tailles différentes.
    Après, si tu veux, tu peux carrément faire des clusters de séquences proches. Sinon, les profils HMM, c'est cool aussi : tu installes hmmer2, tu lui donnes un .aln à manger et il te recrache un .hmm Si tu veux des infos, hésite pas
    Le tact dans l'audace c'est de savoir jusqu'où on peut aller trop loin. Cocteau
    L'abjection la plus totale, ce n'est pas de trahir, c'est de ne jamais donner un commencement de réalité à ses rêves les plus fous. M. Moreau


    Les indispensables : Les règles, , FAQ et tutos avant de poster, et !
    Traduction de Linux Device Drivers 3 : venez participer
    membre de l'April - Promouvoir et défendre les logiciels libres

  12. #12
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Citation Envoyé par MaliciaR Voir le message
    Qu'est-ce le TFE?
    Un travail de fin d'études, après le stage, tu fais un rapport et une présentation devant un jury de ton école.




    Citation Envoyé par MaliciaR Voir le message
    Hum, ça me semble normal quand même... Il cherchera à les aligner quand même et ce, de façon globale, càd qu'il cherche des bouts qui se ressemblent sur la totalité des séquences et en fait des espèces d'îlots. J'ai vu pire Si tu faisais un alignement local, ça se présenterait différemment.
    Essaie 3 séquences de tailles différentes, toujours les mêmes.
    Le problème est que si j'utilise un alignement local (BLAST), ma longue séquence sera coupée en petits bouts et je ne pourrai pas avoir de consensus.




    Citation Envoyé par MaliciaR Voir le message
    Oui, bien sûr. Mais justement, si tu fais les alignements par taille, tu es au moins sûre que le biais de l'alignement ne sera pas dû à ces tailles différentes.
    Après, si tu veux, tu peux carrément faire des clusters de séquences proches. Sinon, les profils HMM, c'est cool aussi : tu installes hmmer2, tu lui donnes un .aln à manger et il te recrache un .hmm Si tu veux des infos, hésite pas
    Non je vais essayer par alignements pairés et calculs de consensus à chaque fois.
    -- Jasmine --

  13. #13
    Expert confirmé

    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2009
    Messages
    3 577
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 58
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Avril 2009
    Messages : 3 577
    Points : 5 753
    Points
    5 753
    Par défaut
    Pour ma culture personnelle, ça représente quoi, physiquement, un consensus d'une paire de séquence ?
    - un sous-ensemble commun des deux séquences,
    - autre chose
    et à quoi ça sert en biologie ?
    Plus j'apprends, et plus je mesure mon ignorance (philou67430)
    Toute technologie suffisamment avancée est indiscernable d'un script Perl (Llama book)
    Partagez vos problèmes pour que l'on partage ensemble nos solutions : je ne réponds pas aux questions techniques par message privé
    Si c'est utile, say

  14. #14
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Citation Envoyé par Philou67430 Voir le message
    Pour ma culture personnelle, ça représente quoi, physiquement, un consensus d'une paire de séquence ?
    - un sous-ensemble commun des deux séquences,
    - autre chose
    et à quoi ça sert en biologie ?
    par exemple pour les séquences
    ATCGTTGTCA
    ATCGATGGCA
    ATCGCTGTCA
    ---------------
    ATCGHTGKCA (consensus selon le code IUPAC)

    Je dois trouver une zone conservée afin de placer des amorces dans plus de mille séquences. Je passe donc par un consensus étant donné qu'il y a trop de séquences que pour travailler directement sur leur alignement.
    -- Jasmine --

  15. #15
    Membre confirmé
    Avatar de MaliciaR
    Inscrit en
    Juillet 2008
    Messages
    513
    Détails du profil
    Informations personnelles :
    Âge : 41

    Informations forums :
    Inscription : Juillet 2008
    Messages : 513
    Points : 600
    Points
    600
    Par défaut
    Citation Envoyé par Philou67430 Voir le message
    et à quoi ça sert en biologie ?
    Une séquence consensus sert à donner une indication de positions particulières. Si l'on prend le cas d'une bactos, tu auras un taux de mutation spontanée d'environ 10^-8 à 10^-9 par position (ie, par caractère de la chaîne) et par génération. Donc, sachant que par exemple le génome de cette bactos fait 5*10^6 de paires de bases (des caractères du type A, T, G, C) et et qu'elle donne des pitits toutes les 30 min, tu peux avoir une idée de la variation que ça peut subir. L'idée est qu'il y a énormément de trucs qui peuvent faire muter (ie, transformer un caractère en un autre des 4 cités plus haut). Or, il se trouve que certaines séquences même si elles ont une composition différente en général, on des parties conservées. Càd que certaines positions sont les mêmes ou presque d'un organisme à un autre. On dit que ces positions sont contraintes : il y a une fonction qu'elles remplissent dans l'état et toute modification grave risquerait d'entraver ça. On les aime beaucoup en bio, les séquences avec des bouts conservés Vu les probas auxquelles ça arrive, ça nous intéresse pas mal. Donc, vu que ces positions sont les mêmes ou presque, c'est cool pour sortir des séquences consensus, càd calculer le nombre d'occurrences du caractère A à la position n dans 1000 séquences, etc.

    Dans le cas des séquences ADN, une fonction biologique de ces zones conservées peut être qu'elles servent de liaison avec d'autres molécules régulatrices. Dans le cas des séquences protéiques, une zone conservée peut être un site actif d'une enzyme par exemple : il s'agira que grâce à ces quelques positions conservées une réaction biochimique a lieu et transforme un composé tartampion en un composé machin-chouette.

    J'espère que c'est un peu plus clair
    Le tact dans l'audace c'est de savoir jusqu'où on peut aller trop loin. Cocteau
    L'abjection la plus totale, ce n'est pas de trahir, c'est de ne jamais donner un commencement de réalité à ses rêves les plus fous. M. Moreau


    Les indispensables : Les règles, , FAQ et tutos avant de poster, et !
    Traduction de Linux Device Drivers 3 : venez participer
    membre de l'April - Promouvoir et défendre les logiciels libres

  16. #16
    Membre confirmé
    Avatar de MaliciaR
    Inscrit en
    Juillet 2008
    Messages
    513
    Détails du profil
    Informations personnelles :
    Âge : 41

    Informations forums :
    Inscription : Juillet 2008
    Messages : 513
    Points : 600
    Points
    600
    Par défaut
    Citation Envoyé par Jasmine80 Voir le message
    Un travail de fin d'études, après le stage, tu fais un rapport et une présentation devant un jury de ton école.
    Oki, vu. Comme je suis en filière recherche, ils appellent ça un projet de recherche...


    Citation Envoyé par Jasmine80 Voir le message
    Le problème est que si j'utilise un alignement local (BLAST), ma longue séquence sera coupée en petits bouts et je ne pourrai pas avoir de consensus.
    Oui, oui, bien sûr. Mais je te disais que si tu utilisais un alignement local, tu n'aurais pas eu ce résultat de ton test.
    Cela dit, un alignement local n'est pas adapté à ce que tu veux faire, c'est clair depuis le début.


    Citation Envoyé par Jasmine80 Voir le message
    Non je vais essayer par alignements pairés et calculs de consensus à chaque fois.
    Ca reste une méthode qui fonctionnera, oui

    Bon courage!
    Le tact dans l'audace c'est de savoir jusqu'où on peut aller trop loin. Cocteau
    L'abjection la plus totale, ce n'est pas de trahir, c'est de ne jamais donner un commencement de réalité à ses rêves les plus fous. M. Moreau


    Les indispensables : Les règles, , FAQ et tutos avant de poster, et !
    Traduction de Linux Device Drivers 3 : venez participer
    membre de l'April - Promouvoir et défendre les logiciels libres

  17. #17
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Je veux donc une séquence unique contenant toutes les possibilités de nucléotides de mes x séquences alignées. Le code IUPAC permet de représenter plusieurs nucléotides (A, T, C, G) par une seule lettre (exemple A ou G se représente par R).
    -- Jasmine --

  18. #18
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Citation Envoyé par MaliciaR Voir le message
    Bon courage!
    ^^ ça fonctionne pour les fichiers contenant des séquences conservées, reste à gérer les cas où certaines séquences du fichier sont trop différentes des autres que pour être gardées dans le consensus.
    -- Jasmine --

  19. #19
    Membre confirmé
    Avatar de MaliciaR
    Inscrit en
    Juillet 2008
    Messages
    513
    Détails du profil
    Informations personnelles :
    Âge : 41

    Informations forums :
    Inscription : Juillet 2008
    Messages : 513
    Points : 600
    Points
    600
    Par défaut
    Citation Envoyé par Jasmine80 Voir le message
    ^^ ça fonctionne pour les fichiers contenant des séquences conservées, reste à gérer les cas où certaines séquences du fichier sont trop différentes des autres que pour être gardées dans le consensus.
    Hum... Ca fait un pitit bout de temps que je n'ai pas refait de manips Mais dis, les oligos dégénérés pourraient-ils être une solution? Ainsi, au lieu que tu t'embêtes à faire des séquences consensus, tu pourrais juste designer des oligos du genre.
    C'est juste une idée comme ça, hein, à voir si elle est intéressante dans ton cas
    Le tact dans l'audace c'est de savoir jusqu'où on peut aller trop loin. Cocteau
    L'abjection la plus totale, ce n'est pas de trahir, c'est de ne jamais donner un commencement de réalité à ses rêves les plus fous. M. Moreau


    Les indispensables : Les règles, , FAQ et tutos avant de poster, et !
    Traduction de Linux Device Drivers 3 : venez participer
    membre de l'April - Promouvoir et défendre les logiciels libres

  20. #20
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Citation Envoyé par MaliciaR Voir le message
    Hum... Ca fait un pitit bout de temps que je n'ai pas refait de manips Mais dis, les oligos dégénérés pourraient-ils être une solution? Ainsi, au lieu que tu t'embêtes à faire des séquences consensus, tu pourrais juste designer des oligos du genre.
    C'est juste une idée comme ça, hein, à voir si elle est intéressante dans ton cas
    Oui, le labo commande parfois des oligo dégénérés mais dans ce cas-ci on préfère éviter ^^ enfin si ça doit s'avérer impossible on envisagera de dégénérer mais à priori on préfère rater quelques séquences.
    -- Jasmine --

Discussions similaires

  1. Aligner deux lignes (séquences d'ADN)
    Par bouky dans le forum Mise en forme
    Réponses: 2
    Dernier message: 27/06/2015, 20h55
  2. Réponses: 4
    Dernier message: 06/11/2010, 17h11
  3. Package pour étude des séquences d'ADN
    Par murielgb38 dans le forum R
    Réponses: 3
    Dernier message: 22/03/2009, 20h39
  4. recuperer la séquence consensus d'un alignement multiple
    Par Jasmine80 dans le forum Bioinformatique
    Réponses: 0
    Dernier message: 18/06/2008, 12h09
  5. [Système] PHP traducteur de séquences d'ADN
    Par maryach dans le forum Langage
    Réponses: 11
    Dernier message: 29/03/2007, 13h48

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo