alignements multiples de séquences d'ADN

**Jasmine80** · 18/06/2009, 09h13

Bonjour à tous,

J'ai une centaine de fichiers fasta contenant un nombre variable de séquences d'ADN de taille variable toutes dans le même sens. J'aimerais les aligner afin d'obtenir une séquence consensus par fichier. J'ai donc utiliser ClustalW sur chaque fichier. Le probléme est qu'étant de taille variable, les séquences ne s'alignent pas correctement et généralement, j'obtiens 2 blocs distincts de séquences correctement alignées mais les 2 blocs sont décalés et non alignés. Je ne sais pas comment résoudre ce problème, je vois plusieurs possibilités.

Clustal, qui est un programme d'alignement global, ne fait pas de bons alignements quand il y a beaucoup de séquences de taille variable par contre quand il n'y en a que deux, une courte et une longue, l'alignement est correct.

Fonctionnement de ClustalW

The basic alignment method

The basic multiple alignment algorithm consists of three main stages: 1) all pairs of sequences are aligned separately in order to calculate a distance matrix giving the divergence of each pair of sequences; 2) a guide tree is calculated from the distance matrix; 3) the sequences are progressively aligned according to the branching order in the guide tree.

1) écrire un programme qui pour un fichier crée des sous-groupes selon la taille, effectue un alignement par sous-groupe, crée un consensus par sous-groupe et calcule le consensus final par alignement des sous-consensus.

2) un programme qui aligne les séquences 2 à 2 aléatoirement, crée un consensus par alignement pairé puis continue l'alignement des consensus 2 à 2 jusqu'à ce qu'il n'y en ai plus qu'un.

3) alignement de 2 séquences aléatoirement, puis on en rajoute une à une, en calculant pour chaque alignement pairé un consensus.

Vu l'agorithme ClustalW, je ne sais pas si ces 2 dernières approches pourraient être utiles. Je sais que quand on travaille avec des alignements pairés on peut utiliser une option permettant aux extrémités des 2 séquences de ne pas se chevaucher, d'être flottantes ce qui résout les problèmes d'un alignement de 2 séquences de taille différente.

4) trouver un autre programme que ClustalW mais je pense que le problème restera le même.

Que me conseillez-vous?

Merci,

**Jasmine80** · 18/06/2009, 10h54

J'ai trouvé un module intéressant :dpAlign

Ends-free Alignment is a special case of Global Alignment. There are no gap penalty imposed for the gaps that extended from the end points of two sequences. Therefore it will be a good application when you think one sequence is contained by the other or when you think two sequences overlap each other.

**MaliciaR** · 18/06/2009, 11h21

Salut,

Perso, je créerais un script qui les regroupe par tailles, quitte a avoir plusieurs sous-groupes. Sinon, le choix d'un paramètre gap-end free est assez bien.
Tu peux comparer les deux façons de faire et voir laquelle fonctionne mieux avec tes données

**Jasmine80** · 18/06/2009, 11h28

Oui, je suis justement entrain d'écrire le code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
	my $in  = Bio::SeqIO->new(-file => $file_in, '-format' => 'Fasta');
 
	my @sequences;
 
 
	while ( my $seq = $in->next_seq()){
 
		my $id = $seq->primary_id ;
		my $sequence = $seq->seq ;
		my $length_seq = length($sequence);
 
		${$sequences[$length_seq]}{$id} = $sequence;
	}
 
	my @ind = indexes { defined $_} @sequences;
 
	for my $l (0..$#ind){
		print "$ind[$l]\n";
 
		while (my ($id, $seq) = each %{$sequences[$ind[$l]]}){
 
		}
 
	}

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
1)	on supprime les séquences trop dégénérées
2)	on travaille avec des séquences dans un ordre croissant de taille
3)	on l’aligne les 2 séquences et on calcule le consensus
4)	progressivement on aligne le consensus avec les autres séquences une à une
5)	à chaque fois, on calcule la dégénérescence du consensus SUR LA PARTIE COMMUNE
          a.	inférieur au seuil => on rejette cette nouvelle séquence
          b.	supérieur au seuil => on garde le consensus et on prend la séquence suivante

... mais ça parait bien compliqué et je doute que cela ne fonctionne

**MaliciaR** · 18/06/2009, 12h12

En fait, vu ton algo, tu es en train de refaire un Clustal... Dans mon idée, c'était plutôt : je ressemble les séquences entre 30 et 50 pb dans un sous-groupe; celles entre 80 et 100 dans un autre; etc. (les chiffres sont au hasard, hein). Puis, j'aligne chaque groupe avec Clustal. Ainsi, tu as des tailles proches, donc il ne va pas distendre à fond les pitites pour les coller aux grandes. Tu peux aussi cocher le paramètre gap-end free : si tu alignes une de 30 avec une de 50, c'est clair qu'il va y avoir besoin.

Ou encore, mais je ne connais pas l'objectif de ton alignement, tu fais de l'alignement local.

**Jasmine80** · 18/06/2009, 13h10

Envoyé par MaliciaR

En fait, vu ton algo, tu es en train de refaire un Clustal... Dans mon idée, c'était plutôt : je ressemble les séquences entre 30 et 50 pb dans un sous-groupe; celles entre 80 et 100 dans un autre; etc. (les chiffres sont au hasard, hein). Puis, j'aligne chaque groupe avec Clustal. Ainsi, tu as des tailles proches, donc il ne va pas distendre à fond les pitites pour les coller aux grandes. Tu peux aussi cocher le paramètre gap-end free : si tu alignes une de 30 avec une de 50, c'est clair qu'il va y avoir besoin.

Ou encore, mais je ne connais pas l'objectif de ton alignement, tu fais de l'alignement local.

Le problème est que
1) je ne sais pas comment cocher se paramètre gap-end free, je ne sais même pas si il est disponible avec ClustalW.
2) les 2 fois où j'ai entendu parlé du gap-end free, il n'était disponible que pour les alignements pairés.

**MaliciaR** · 18/06/2009, 13h58

Hum, si je ne m'abuse, c'est par défaut dans ClustalW. C'est ClustalV qui ne l'avait pas.
Cela dit, je n'ai pas le temps de lire le papier (soutenance de stage lundi...). Ce que tu peux faire, c'est le faire sur le site de Pasteur : http://mobyle.pasteur.fr/cgi-bin/por...alw-multialign
Tu as un paramètre No end gaps separation penalty :

End gap separation treats end gaps just like internal gaps for the purposes of avoiding gaps that are too close (set by GAP SEPARATION DISTANCE above). If you turn this off, end gaps will be ignored for this purpose. This is useful when you wish to align fragments where the end gaps are not biologically meaningful.

Ca te permettrait de voir si ton ClustalW local le fait par défaut ou non.

Cela dit, si tu donnais l'objectif de ton alignement, ça éclaircirait ta question et surtout permettrait de voir plus clair pour te répondre, je pense

alignements multiples de séquences d'ADN

Bioinformatique Perl

Vue hybride

Discussions similaires

Partager

Partager