Bonjour
Comme vous allez le constater, je ne suis pas un expert dans le domaine mais je pense que ma question devrait trouver facilement une solution pour la majorité d'entre vous.
Je travaille des gros sets de sequences d'ADN viral organisée comme cela (format fasta):
>Name_date_location_x_y_z
ATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGC
>Name2_date2_location_x_y_z
ATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGC
Je mets en PJ un exemple avec une vingtaine de seq.
J'ai differents sets de données de taille variable allant de 100 à plus de 5000 sequences et je souhaiterais faire un 'down-sampling' pour avoir 100 sequences de chaque dataset.
Mon souhait initial serait de faire ce 'downsampling' de telle manière que j'ai un panel avec une qqté ± equivalente de sequences de chaque année (la date est au format numerique comme ceci: 2000.4; 2004.6; 2012.1...)
Dans l'identifiant de la sequence (ligne commencant par '>'), la date est toujours après le premier '_'.
Si cela n'est pas possible, un downsampling 'aleatoire' pourrait faire l'affaire.
Merci beaucoup d'avoir pris le temps de me lire et merci pour votre aide et vos conseils.
Amicalement,
Partager