IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bioinformatique Perl Discussion :

énorme fichier multi-fasta


Sujet :

Bioinformatique Perl

  1. #1
    Membre à l'essai
    Profil pro
    Inscrit en
    Mars 2009
    Messages
    17
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Mars 2009
    Messages : 17
    Points : 21
    Points
    21
    Par défaut énorme fichier multi-fasta
    Salut,

    J'ai un fichier multi-fasta avec beaucoup de séquences assez courtes ( > 100_000, des SNPs).

    Je dois récupérer une séquence précise grâce à une expression régulière qui décrit son en-tête. (ou à défaut, avec le début de l'en-tête).

    Je voulais savoir si l'un de vous connait un module qui fait ça vite.
    Par vite j'entends plus vite qu'une recherche de regexp sur les en-têtes seuls.

    Est-ce que Bioperl gère les très gros fichiers ?

    merci,
    KooK

  2. #2
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    Que tu utilises bioperl ou non, le principe sera un peu le même. Tu lis ton fichier ligne à ligne et au fur et à mesure, effectue une recherche dans ton entête.

    L'avantage de bioperl est qu'il s'occupe de te lire ton fichier fasta entrée par entrée.

    Voici un exemple de code :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    #!/usr/bin/perl
    use warnings;
    use strict;
    use Carp;
     
    use Bio::SeqIO;
     
    my $regex = qr/human/;
    my $in = Bio::SeqIO->new(
          -file     => 'C/FICHIER.fasta',
          -format => 'fasta'
    );
     
    while ( my $seq = $in->next_seq() ) {
      my $entete = $seq->display_name . $seq->desc;
      if ( $entete =~ m{$regex }i ) {
        print ">$entete\n$seq\n";
      }
    }

  3. #3
    Membre confirmé Avatar de Beniou
    Homme Profil pro
    Inscrit en
    Novembre 2009
    Messages
    357
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Nord (Nord Pas de Calais)

    Informations forums :
    Inscription : Novembre 2009
    Messages : 357
    Points : 515
    Points
    515
    Par défaut
    Citation Envoyé par djibril Voir le message
    Que tu utilises bioperl ou non, le principe sera un peu le même. Tu lis ton fichier ligne à ligne et au fur et à mesure, effectue une recherche dans ton entête.

    L'avantage de bioperl est qu'il s'occupe de te lire ton fichier fasta entrée par entrée.
    Je suis tout à fait d'accord. Que l'on passe par Bioperl ou non, ca sera basé sur des expressions régulières. L'avantage de Bioperl est d'utiliser déjà des routines toutes faites pour parser ton fichier.
    J'ajouterai donc seulement que si tes besoins sont justes basiques, utiliser Bioperl est souhaitable (surtout si tu n'as pas envie de faire tes expressions régulières personelles). Le seul inconvénient est que si tes besoins sont vraiment particuliers, il est, je trouve, préférable de parser soi-même son fichier pour extirper les infos voulus : tu maîtriseras mieux ta sortie et peut être gagneras-tu en performances et en (ré-)utilisabilité.

Discussions similaires

  1. SORT d'un énorme fichier
    Par union dans le forum Linux
    Réponses: 1
    Dernier message: 21/11/2007, 12h14
  2. [Upload] Upload énormes fichiers PHP
    Par taffMan dans le forum Langage
    Réponses: 4
    Dernier message: 18/07/2007, 16h31
  3. [EXCEL] Lire les données d'un fichier multi-feuilles
    Par FeydRautha dans le forum WinDev
    Réponses: 4
    Dernier message: 28/05/2007, 13h32
  4. [Properties] normes fichier de properties
    Par frouge dans le forum Collection et Stream
    Réponses: 4
    Dernier message: 07/02/2006, 12h06
  5. execution d'un prog avec des fichiers multi-class
    Par Ice-B dans le forum Général Java
    Réponses: 2
    Dernier message: 05/08/2004, 11h43

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo