regrouper et compter les séquences identiques

**Kawaccino** · 20/03/2013, 10h20

Bonjour,
j'ai besoin d'un conseil pour un gros fichier de données en Fastq. Pour mes analyses, afin de ne pas relancer 50 fois la même séquence, je voudrais créer un nouveau fichier qui ne contiendrait que les séquences uniques de mon fichier Fastq et qui en même temps indique combien de fois ces séquences sont présentes dans le fastq. Mon problème: comment faire cela sous Perl (je n'ai malheureusement que peu de maîtrise de ce langage, juste les exercices de base que l'on trouve sur le net et dans quelques livres). Ce que je ne comprends pas c'est comment on fait pour indiquer qu'il faut regrouper les séquences uniques. Est-ce qu'il faut déjà connaître les dites séquences et les placer une par une en paramètre ou y a-t-il un script qui trouve de lui-même les séquences identiques? Et comment peut-on faire en sorte qu'un comptage soit associé à ces séquences?
Je vous remercie par avance,
K

**Gardyen** · 20/03/2013, 10h42

je te conseille de regarder du côté de bioperl, et en particulier Bio::SeqIO::fastq pour commencer

ensuite il y a la

où tu pourras compléter tes connaissances

ça devrait être suffisant pour écrire un script comptant les séquences et les écrivant dans un autre fichier, mais si tu as des problèmes, n'hésite pas

**Kawaccino** · 20/03/2013, 13h00

Merci, je vais donc regarder cela avec attention et si je n'y arrive vraiment pas d'ici demain, je reviendrai demander conseil.

regrouper et compter les séquences identiques

Bioinformatique Perl

Discussions similaires

Partager

Partager