Bonjour,
J'ai plusieurs séquences du même gène mais dont certaines sont dans le sens 5'->3' et d'autres dans le sens 3'->5'. Il faudrait un algorithme qui me permette de classer ces séquences en 2 groupes pour ensuite pouvoir effectuer la fonction revcom sur l'un d'eux. Quelle approche pourrais-je utiliser? A l'oeil, on voit clairement qu'il y a un mélange de 2 types de séquences mais existe-t'il un module capable de distinguer ces 2 groupes?
Une approche naive, serait de prendre la première séquence et de calculer le pourcentage d'identité qu'elle possède avec toutes les autres séquences. Au deçà d'un certain seuil, la séquence analysée serait considérée comme prise dans le mauvais sens et retournée.
Voyez-vous plus intelligent comme approche?
Merci,
Partager