Bonjour,
Ma question n'est pas strictement liée à Perl, mais comme la section "Bioinformatique" est une sous-section de Perl, me voici...
J'ai quelques soucis de performance concernant BLAT. J'arrive à le faire tourner sur ma machine (Mac Intel ou Linux via VirtualBox). En revanche, je suis perplexe devant les performances mesurées: pour la même requête, le site de l'UCSC prend quelques secondes alors que mon ordinateur met plusieurs minutes pour atteindre le même résultat. Précisons que l'analyse doit se faire sur le génome humain dans sa totalité. Je veux bien croire en des capacités plus importantes du côté de l'UCSC (les moyens mis en oeuvre ne sont pas les mêmes), mais de là à avoir un facteur 24...
Dans un premier temps, j'ai rabouté tous les chromosomes dans un unique fichier fasta. Puis, ce fichier a été divisé en 2 (pour qu'il prenne moins de place en stockage dans la mémoire lors de l'utilisation de BLAT). Dans les 2 cas, les performances ont été identiques. De même, changer le format du fichier d'entrée par .nib (via les outils proposés dans la suite BLAT) n'a rien changé non plus. L'utilisation du fichier des 11-mers n'a pas été concluant au niveau des performances.
Y a-t-il quelque chose que j'aurai manqué? Faut-il passer par une vraie base de données qui serait interrogée par BLAT (je ne vois rien de tel dans la documentation de ce logiciel)? Si oui, comment faire?
Enfin, je tiens à préciser qu'un très grand nombre de séquences devant être recherchées (chacune de quelques centaines de nucléotides maximum), je ne peux pas me satisfaire des quotas proposés sur le site de l'UCSC (cette solution ne me convient pas), mais je dois disposer d'un BLAT en local (d'abord sur ma machine, puis certainement ensuite sur un serveur interne).
Auriez-vous des idées pour éclairer ma lanterne? Parce que je suis un peu à cours pour le moment...
D'avance, merci.
Partager