[bioinfo ]Clustering Sequences

**Leoberos** · 14/05/2010, 01h25

Bonsoir,
Je recherche un moyen de faire du clustering sur des séquences de petites protéines
ex:
VLYLQRK
VLYLQKK
ELLVLLE
SLLVLLE
ELLVLLS
SLLVLLS
DLLVLLE
ELLVLLD
DLLVLLD
AELLVLL
APLLVLL
ELLVLLR
AKLLVLL
KLLVLLK
afin d'éliminer les protéines de séquences trop similaires et d'avoir un sample le plus diversifié.

Je ne sais pas trop si je suis au bon endroit mais bon, je poste aussi dans le forum bioinfo

Merci d'avance.

**koala01** · 14/05/2010, 08h32

Salut, et bienvenue sur le forum.

Ben, bonne chance, et bon courage.

Il est difficile de répondre autre chose car tu ne donnes aucune indication quant à ce que tu as déjà fait ou aux problèmes que tu rencontres...

As tu des problèmes au niveau de la conception

au niveau de l'algorithme

au niveau de l'implémentation

La règle d'or de ce forum est "aide nous à t'aider". Il ne faut pas oublier que près de cinquante pourcent de la réponse résident bien souvent dans la question et la manière de la poser.

Mais en gros, comment apporter une réponse à une question inexistante

**Leoberos** · 14/05/2010, 13h25

Bonjour,
et bien il y a bien une question :
je recherche un moyen pour faire du clustering sur base des séquences du premier post (un extrait de 64 séquences ici en fait), donc un algo déjà implémenté dans une librairie c++ ou un conseil pour le faire.

je dois conserver au maximum 90% d'identité, soit 6 caractères identiques sur 7 de manière générale.

Je pensais le faire en R, mais j'ai pas saisi comment je pouvais faire cela sur base de séquences et non de chiffres :-/

Au pire, j'implémente l'algo "con" qui consiste à rassembler en premier les 2 plus proches, et ainsi de suite.

Des idées ?

**Leoberos** · 14/05/2010, 13h36

j'oubliais, le but est ici de conserver les séquences les plus représentatives afin d'éviter la redondance lors de l'apprentissage par mon HMM...

Ha, oui, autre question, si j'ai pas de réponse j'irais faire un nouveau thread :
Je dois concevoir un profile HMM, est ce qui me pose problème c'est ici pas vrm l'apprentissage, mais plutot une fois que l'apprentissage aura été fait, quel algo utiliser pour la reconnaissance :-/
Pour l'apprentissage, je me sers de Baum-Welch (combinaison entre l'algo forward et backward pour ajuster les probas : http://www.cs.tau.ac.il/~rshamir/alg...c06/node5.html), cependant, une fois que j'aurai ajuster tout ces brols, comment vais-je concrètement faire pour reconnaitre une séquence inconnue. Le but est ici de calculer un classificateur qui dira si la séquence inconnue est d'un type X ou non.

merci

[bioinfo ]Clustering Sequences

C++

Discussions similaires

Partager

Partager