Bonjour,
J'aimerais trier une banque de BES en multifasta pour enlever certaines redondances. Mais ce tri est un peu particulier: (1) je souhaiterais enlever complètement de la banque les séquences qui sont redondantes plus de 10x, car je pars de l'hypothèse que ces BES contiennent des éléments répétés du génome que je n'ai pas réussi à enlever après un premier filtre sur les bases d'éléments répétés existantes.
(2) Sur les séquences restantes, je vais donc avoir des lots de BACends en partie redondants jusqu'à 9x, que je suppose provenir de BACs chevauchant, ou de régions dupliquées du génome. Et pour ceux ci je souhaite ne garder qu'un seul exemplaire de chaque lot, et éliminer les autres.
Je ne peut pas utiliser un outil comme nrdb car il élimine les séquences qui sont 100% similaires, or moi je voudrais pouvoir jouer avec ce pourcentage.
Est ce quelqu'un connaît un outil pour régler l'un de ces problèmes?
J'étais partie pour faire un blast de la base sur elle même, et de parser ensuite les résultats en format m8, pour compter le nombre de fois qu'une séquence apparaît comme query par exemple, mais je suis bloquée là dessus, mes connaissances en perl étant encore limitées. Quelqu'un aurait il une idée?
JulieJ
Partager