'downsampling' de sequences

**AntoineUCSD** · 10/02/2015, 19h39

Bonjour
Comme vous allez le constater, je ne suis pas un expert dans le domaine mais je pense que ma question devrait trouver facilement une solution pour la majorité d'entre vous.
Je travaille des gros sets de sequences d'ADN viral organisée comme cela (format fasta):
>Name_date_location_x_y_z
ATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGC
>Name2_date2_location_x_y_z
ATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGC

Je mets en PJ un exemple avec une vingtaine de seq.

J'ai differents sets de données de taille variable allant de 100 à plus de 5000 sequences et je souhaiterais faire un 'down-sampling' pour avoir 100 sequences de chaque dataset.
Mon souhait initial serait de faire ce 'downsampling' de telle manière que j'ai un panel avec une qqté ± equivalente de sequences de chaque année (la date est au format numerique comme ceci: 2000.4; 2004.6; 2012.1...)
Dans l'identifiant de la sequence (ligne commencant par '>'), la date est toujours après le premier '_'.

Si cela n'est pas possible, un downsampling 'aleatoire' pourrait faire l'affaire.

Merci beaucoup d'avoir pris le temps de me lire et merci pour votre aide et vos conseils.
Amicalement,

**Julien N** · 12/02/2015, 09h25

Salut!

Visiblement la question ne déchaine pas les foules... Je me suis penché dessus, mais je ne comprends pas bien ce que tu veux. En regardant l'exemple donné en pièce jointe, je note 23 sets de 326 sequences (si ma mémoire ne me joue pas des tours une sequence est composée 4 bases comme ATGC). Deux dates différentes sont presents: 2012.1 et 2014.2.

Bien à partir de là je ne comprends pas ce que tu souhaite faire (le downsampling en fait). Est-ce que tu pourrais nous donner plus de précsion? Du type (au hasard):

Je regroupe par année
Je découpe en set de taille fixe
...

Si le problème est propre à ton domaine d'activité (ici analyse ADN?), ou purement scientifique, tu risques d'avoir du mal à trouver une réponse. Il faut plutôt montrer ce que tu cherches concrètement à faire d'un point vue programmation, et ce sur quoi tu bloques.

Ju

**AntoineUCSD** · 13/02/2015, 03h05

Merci beaucoup du temps que vous avez consacré à essayer de me comprendre et m'aider.
Je vais essayer de trouver une réponse dans mon domaine.
J'ai une autre question plus adaptée à ce forum mais je vais la poser dans un nouveau sujet (generation de matrix)

Amicalement,

'downsampling' de sequences

Calcul scientifique Python

Discussions similaires

Partager

Partager