IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Calcul scientifique Python Discussion :

'downsampling' de sequences


Sujet :

Calcul scientifique Python

  1. #1
    Futur Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Janvier 2013
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2013
    Messages : 12
    Points : 9
    Points
    9
    Par défaut 'downsampling' de sequences
    Bonjour
    Comme vous allez le constater, je ne suis pas un expert dans le domaine mais je pense que ma question devrait trouver facilement une solution pour la majorité d'entre vous.
    Je travaille des gros sets de sequences d'ADN viral organisée comme cela (format fasta):
    >Name_date_location_x_y_z
    ATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGC
    >Name2_date2_location_x_y_z
    ATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGC

    Je mets en PJ un exemple avec une vingtaine de seq.

    J'ai differents sets de données de taille variable allant de 100 à plus de 5000 sequences et je souhaiterais faire un 'down-sampling' pour avoir 100 sequences de chaque dataset.
    Mon souhait initial serait de faire ce 'downsampling' de telle manière que j'ai un panel avec une qqté ± equivalente de sequences de chaque année (la date est au format numerique comme ceci: 2000.4; 2004.6; 2012.1...)
    Dans l'identifiant de la sequence (ligne commencant par '>'), la date est toujours après le premier '_'.

    Si cela n'est pas possible, un downsampling 'aleatoire' pourrait faire l'affaire.


    Merci beaucoup d'avoir pris le temps de me lire et merci pour votre aide et vos conseils.
    Amicalement,
    Fichiers attachés Fichiers attachés

  2. #2
    Membre éprouvé

    Homme Profil pro
    Ingénieur
    Inscrit en
    Août 2010
    Messages
    654
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Août 2010
    Messages : 654
    Points : 1 150
    Points
    1 150
    Par défaut
    Salut!

    Visiblement la question ne déchaine pas les foules... Je me suis penché dessus, mais je ne comprends pas bien ce que tu veux. En regardant l'exemple donné en pièce jointe, je note 23 sets de 326 sequences (si ma mémoire ne me joue pas des tours une sequence est composée 4 bases comme ATGC). Deux dates différentes sont presents: 2012.1 et 2014.2.

    Bien à partir de là je ne comprends pas ce que tu souhaite faire (le downsampling en fait). Est-ce que tu pourrais nous donner plus de précsion? Du type (au hasard):
    1. Je regroupe par année
    2. Je découpe en set de taille fixe
    3. ...


    Si le problème est propre à ton domaine d'activité (ici analyse ADN?), ou purement scientifique, tu risques d'avoir du mal à trouver une réponse. Il faut plutôt montrer ce que tu cherches concrètement à faire d'un point vue programmation, et ce sur quoi tu bloques.

    Ju

  3. #3
    Futur Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Janvier 2013
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Santé

    Informations forums :
    Inscription : Janvier 2013
    Messages : 12
    Points : 9
    Points
    9
    Par défaut
    Merci beaucoup du temps que vous avez consacré à essayer de me comprendre et m'aider.
    Je vais essayer de trouver une réponse dans mon domaine.
    J'ai une autre question plus adaptée à ce forum mais je vais la poser dans un nouveau sujet (generation de matrix)

    Amicalement,

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. programmation corba: le type "sequence"
    Par Kali dans le forum CORBA
    Réponses: 4
    Dernier message: 28/08/2005, 16h09
  2. listage de triggers/sequences avec sql plus
    Par stross dans le forum Oracle
    Réponses: 52
    Dernier message: 20/04/2004, 15h41
  3. peut-on savoir si un champ a une sequence??
    Par e11137 dans le forum PostgreSQL
    Réponses: 3
    Dernier message: 09/01/2004, 14h54
  4. voir les sequences existantes ?
    Par soniaSQL dans le forum PostgreSQL
    Réponses: 6
    Dernier message: 25/06/2003, 16h33
  5. Réponses: 2
    Dernier message: 05/06/2002, 12h29

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo