Bonsoir,
Je recherche un moyen de faire du clustering sur des séquences de petites protéines
ex:
VLYLQRK
VLYLQKK
ELLVLLE
SLLVLLE
ELLVLLS
SLLVLLS
DLLVLLE
ELLVLLD
DLLVLLD
AELLVLL
APLLVLL
ELLVLLR
AKLLVLL
KLLVLLK
afin d'éliminer les protéines de séquences trop similaires et d'avoir un sample le plus diversifié.
Je ne sais pas trop si je suis au bon endroit mais bon, je poste aussi dans le forum bioinfo
Merci d'avance.
Partager