Clustering Séquences Protéique

Bonsoir,
Je recherche un moyen de faire du clustering sur des séquences de petites protéines
ex:
VLYLQRK
VLYLQKK
ELLVLLE
SLLVLLE
ELLVLLS
SLLVLLS
DLLVLLE
ELLVLLD
DLLVLLD
AELLVLL
APLLVLL
ELLVLLR
AKLLVLL
KLLVLLK
afin d'éliminer les protéines de séquences trop similaires et d'avoir un sample le plus diversifié pour donner à mon HMM.

Soit une procédure en c++ soit un programme sur un serveur web qui pourrait le faire.

Merci d'avance.