énorme fichier multi-fasta

**dev_KooK** · 29/09/2009, 17h59

Salut,

J'ai un fichier multi-fasta avec beaucoup de séquences assez courtes ( > 100_000, des SNPs).

Je dois récupérer une séquence précise grâce à une expression régulière qui décrit son en-tête. (ou à défaut, avec le début de l'en-tête).

Je voulais savoir si l'un de vous connait un module qui fait ça vite.
Par vite j'entends plus vite qu'une recherche de regexp sur les en-têtes seuls.

Est-ce que Bioperl gère les très gros fichiers ?

merci,
KooK

**djibril** · 30/09/2009, 09h34

Que tu utilises bioperl ou non, le principe sera un peu le même. Tu lis ton fichier ligne à ligne et au fur et à mesure, effectue une recherche dans ton entête.

L'avantage de bioperl est qu'il s'occupe de te lire ton fichier fasta entrée par entrée.

Voici un exemple de code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
#!/usr/bin/perl
use warnings;
use strict;
use Carp;
 
use Bio::SeqIO;
 
my $regex = qr/human/;
my $in = Bio::SeqIO->new(
      -file     => 'C/FICHIER.fasta',
      -format => 'fasta'
);
 
while ( my $seq = $in->next_seq() ) {
  my $entete = $seq->display_name . $seq->desc;
  if ( $entete =~ m{$regex }i ) {
    print ">$entete\n$seq\n";
  }
}

**Beniou** · 03/11/2009, 10h26

Envoyé par djibril

Que tu utilises bioperl ou non, le principe sera un peu le même. Tu lis ton fichier ligne à ligne et au fur et à mesure, effectue une recherche dans ton entête.

L'avantage de bioperl est qu'il s'occupe de te lire ton fichier fasta entrée par entrée.

Je suis tout à fait d'accord. Que l'on passe par Bioperl ou non, ca sera basé sur des expressions régulières. L'avantage de Bioperl est d'utiliser déjà des routines toutes faites pour parser ton fichier.
J'ajouterai donc seulement que si tes besoins sont justes basiques, utiliser Bioperl est souhaitable (surtout si tu n'as pas envie de faire tes expressions régulières personelles). Le seul inconvénient est que si tes besoins sont vraiment particuliers, il est, je trouve, préférable de parser soi-même son fichier pour extirper les infos voulus : tu maîtriseras mieux ta sortie et peut être gagneras-tu en performances et en (ré-)utilisabilité.

énorme fichier multi-fasta

Bioinformatique Perl

Discussions similaires

Partager

Partager