Bonjour,
J'aimerais faire des statistiques sur des séquences ADN. Je voudrais retrouver des sous-séquences (amorces) y étant les plus fréquentes tout en restant spécifiques. J'entrerais donc deux groupes de séquences celles d'intérêt et celles ne l'étant pas. Connaissez-vous des modules Perl pouvant m'être utiles? Je dois trouver énormément de sous-séquences et pas seulement deux (un peu comme une "random PCR" mais ciblée et favorisant un des groupes afin d'amplifier tout le génome).
Ca parait impossible mais vu que le pourcentage G-C varie très fort entre ces deux groupes y aurait-il moyen sans être 100% spécifique de favoriser l'amplification d'un de ces deux groupes?
L'idée: mélange de l'ADN d'un des organismes du groupe A faible en GC et d'un des organismes du groupe B riche en GC. Amplifier ces 2 génomes mais en favorisant celui du groupe B.
Voila donc pourquoi je recherche des fonctions Perl me permettant d'analyser la composition de séquences ADN afin d'y retrouver des sous-séquences spécifiques.
Peut être un HMM
http://search.cpan.org/~sendu/bioper...o/Tools/HMM.pm
ou une chaîne de Markov
http://search.cpan.org/~rclamp/Algor...MarkovChain.pm
Merci,
Jasmine,
Partager