Bonjour à tous,
J'ai une centaine de fichiers fasta contenant un nombre variable de séquences d'ADN de taille variable toutes dans le même sens. J'aimerais les aligner afin d'obtenir une séquence consensus par fichier. J'ai donc utiliser ClustalW sur chaque fichier. Le probléme est qu'étant de taille variable, les séquences ne s'alignent pas correctement et généralement, j'obtiens 2 blocs distincts de séquences correctement alignées mais les 2 blocs sont décalés et non alignés. Je ne sais pas comment résoudre ce problème, je vois plusieurs possibilités.
Clustal, qui est un programme d'alignement global, ne fait pas de bons alignements quand il y a beaucoup de séquences de taille variable par contre quand il n'y en a que deux, une courte et une longue, l'alignement est correct.
Fonctionnement de ClustalW
1) écrire un programme qui pour un fichier crée des sous-groupes selon la taille, effectue un alignement par sous-groupe, crée un consensus par sous-groupe et calcule le consensus final par alignement des sous-consensus.The basic alignment method
The basic multiple alignment algorithm consists of three main stages: 1) all pairs of sequences are aligned separately in order to calculate a distance matrix giving the divergence of each pair of sequences; 2) a guide tree is calculated from the distance matrix; 3) the sequences are progressively aligned according to the branching order in the guide tree.
2) un programme qui aligne les séquences 2 à 2 aléatoirement, crée un consensus par alignement pairé puis continue l'alignement des consensus 2 à 2 jusqu'à ce qu'il n'y en ai plus qu'un.
3) alignement de 2 séquences aléatoirement, puis on en rajoute une à une, en calculant pour chaque alignement pairé un consensus.
Vu l'agorithme ClustalW, je ne sais pas si ces 2 dernières approches pourraient être utiles. Je sais que quand on travaille avec des alignements pairés on peut utiliser une option permettant aux extrémités des 2 séquences de ne pas se chevaucher, d'être flottantes ce qui résout les problèmes d'un alignement de 2 séquences de taille différente.
4) trouver un autre programme que ClustalW mais je pense que le problème restera le même.
Que me conseillez-vous?
Merci,
Partager