Bonjour à tous,
je suis sur un projet bio-informatique depuis quelques semaines, le but étant de blaster 82.000.000 de reads sur un megatranscriptome de 200.000 références. Jusqu'à présent, je faisais un Regex Match (on prend un read, on boucle 200.000X pour toutes les références et ainsi de suite), mais il s'avère qu'il me fait un read / secondes. Autant dire que le résultat est ridicule compte tenu de la masse d'informations à traiter.
Donc je suis en pleine réflexion pour effectuer de nouvelles approches, notamment l'implémentation d'une regex global travaillant directement sur tout le fichier (sans la perte de temps du bouclage), la gestion du multithreading ou tout simplement un nouvel algorithme d'arbre pour le match. Mais j'aimerais éviter de perdre trop de temps.
A moins que vous connaissiez une meilleur méthode, je reste ouvert à d'autres solutions.
Merci.
Partager