Lire un fichier fasta

**pontarose** · 22/11/2010, 11h37

Bonjour,

comment récupérer TOUTES mes clés et valeur?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
while (my $line = <DATA>) {
    chomp($line);
    if($line =~ /^>/){
	$nom=$line;
	$count ++;
	#print("$nom\n");
    }
    else{
	$sequence=$line;
	#print("$sequence\n");
    }
    %hash=($nom=>$sequence);
 
}
 print("nb count: $count\n");
 
 
foreach my $t (keys%hash){
    print  "clé: $t\nvaleur: $hash{$t}\n";#verif
}
 
 
close(DATA);

merci par avance

**Jasmine80** · 22/11/2010, 11h46

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
foreach my $t (keys%hash){
    print  "clé: $t\nvaleur: $hash{$t}\n";#verif
}

C'est la bonne méthode. Il faut néanmoins savoir que si 2 valeurs ont la même clé, tu écraseras la valeur précédente. Est-ce cela le problème?

Pour remplir le tableau j'utilise plutôt

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

$hash{$nom} = $sequence;

**Jasmine80** · 22/11/2010, 11h49

Si tu travailles avec un fichier fasta, il vaut mieux utiliser le module Bio::SeqIO

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#!/usr/local/bin/perl
 
use strict;
use warnings;
 
use Bio::SeqIO;
 
# fichier d'entrée
my $in  = Bio::SeqIO->new(-file => "P:/.../fichier", '-format' => 'Fasta');
 
# récupération des séquences et des identifiants
while ( my $seq = $in->next_seq()){
    my $id = $seq->primary_id ;
    my $sequence = $seq->seq ;
}

**pontarose** · 22/11/2010, 11h52

Désolé, j'ai fait le mauvais copié-collé

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
while (my $line = <DATA>) {
    chomp($line);
    if($line =~ /^>/){
	$nom=$line;
	$count ++;
	#print("$nom\n");
    }
    else{
	$sequence=$line;
	#print("$sequence\n");
    }
    %hash=($nom=>$sequence);
 
}
 print("nb count: $count\n");
 
foreach my $t (keys%hash){
    print  "clé: $t\nvaleur: $hash{$t}\n";#verif
}

en fait, deux clés différentes peuvent avoir la même valeur. Et du coup je veux conserver la premières clé et la valeur associé.

**Jasmine80** · 22/11/2010, 11h55

Voici le code à utiliser :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
#!/usr/local/bin/perl
 
use strict;
use warnings;
 
use Bio::SeqIO;
 
# fichier d'entrée
my $in  = Bio::SeqIO->new(-file => "P:/fichier", '-format' => 'Fasta');
 
my %hash;
 
# récupération des séquences et $id
while ( my $seq = $in->next_seq()){
    $hash{$seq->primary_id} = $seq->seq ;   
}
 
# affichage
foreach my $t (keys %hash){
    print  "clé: $t\nvaleur: $hash{$t}\n";#verif
}

Est-ce bien un fichier fasta?

**pontarose** · 22/11/2010, 12h20

Merci mais cela ne génère pas ce que je veux, je me suis mal exprimé: le nom de mes seq fini par .1, .2, .3 et je veux conserver même si elles ont des séquences un seul représentant

>seqA.1
MSSAAG
>seqA.2
MSSAAG
>seqB.1
MEEAGE
>seqC.1
MDSIRR
>seqD.1
MACTAA
>seqD.2
MACTAA
>seqD.3
MACTAA
>seqD.4
DIFFER

au final, j'aimerais avoir
>seqA.1
MSSAAG
>seqB.1
MEEAGE
>seqC.1
MDSIRR
>seqD.1
MACTAA

**pontarose** · 22/11/2010, 12h30

J'ai essayé ceci mais j'obtiens ce messgae:
"exists argument is not a HASH or ARRAY element"

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
my %test;
foreach my $t (keys %hash{
    if(exists substr("$hash{$t}","0",2){
	$exist++;
    }
    else{
	%test=( "$hash{$t}"=>"$t");
    }	
}

**djibril** · 22/11/2010, 12h54

Envoyé par pontarose

Merci mais cela ne génère pas ce que je veux, je me suis mal exprimé: le nom de mes seq fini par .1, .2, .3 et je veux conserver même si elles ont des séquences un seul représentant

>seqA.1
MSSAAG
>seqA.2
MSSAAG
>seqB.1
MEEAGE
>seqC.1
MDSIRR
>seqD.1
MACTAA
>seqD.2
MACTAA
>seqD.3
MACTAA
>seqD.4
DIFFER

au final, j'aimerais avoir
>seqA.1
MSSAAG
>seqB.1
MEEAGE
>seqC.1
MDSIRR
>seqD.1
MACTAA

Pouvez vous écrire proprement et en français, car je ne comprends pas ce que vous dites. Merci !!

**Jasmine80** · 22/11/2010, 12h57

Voila comment je ferais :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
#!/usr/local/bin/perl
 
use strict;
use warnings;
 
use Bio::SeqIO;
 
# fichier d'entrée
my $in  = Bio::SeqIO->new(-file => "P:/fichier", '-format' => 'Fasta');
 
my %hash;
 
# récupération des séquences et $id
while ( my $seq = $in->next_seq()){
 
    # on ne récupère que les séquences .1
    if ($seq->primary_id =~ /\.1/){
        $hash{$seq->primary_id} = $seq->seq ;   
    }
 
}
 
# affichage
foreach my $t (keys %hash){
    print  "clé: $t\nvaleur: $hash{$t}\n";#verif
}

Qu'obtiens-tu avec ce script?

**Jasmine80** · 22/11/2010, 13h42

Voici ton script corrigé ;

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
#!/usr/local/bin/perl
 
use strict;
use warnings;
 
 
open my $data, '<', 'sequences.txt' or die;
 
 
my %hash;
my $count;
 
my $nom;
my $sequence;
 
while (my $line = <$data>) {
 
    chomp($line);
 
 
    if($line =~ /^>/){
 
	$nom=$line;
	$count ++;
    }
    else{
 
	$sequence=$line;
    }
 
    $hash{$nom} = $sequence;
 
}
 print("nb count: $count\n");
 
 
 
foreach my $t (keys %hash){
 
    if ($t =~ /\.1/){
	print  "$t\n$hash{$t}\n";
    }
}

Et ici une façon plus optimale d'obtenir ce que tu veux

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
 
#!/usr/local/bin/perl
 
use strict;
use warnings;
 
 
open my $data, '<', 'sequences.txt' or die;
 
 
my $count;
 
my $nom;
my $sequence;
 
while (my $line = <$data>) {
 
    chomp($line);
 
 
    if($line =~ /^>/){
 
		$nom=$line;
		$count ++;
    }
    else{
 
	    $sequence=$line;
 
	    if ($nom =~ /\.1/){
		print  "$nom\n$sequence\n";
	    }
    }
 
}
 print("nb count: $count\n");

Je te conseille quand même d'utiliser le module Bio::SeqIO c'est plus propre

**pontarose** · 22/11/2010, 14h19

un grand merci Jasmine, les deux script fonctionne.

Une question subsidiare le nom de ma séquence est longue et du coup dans mon résultat final, le nom de celle-ci est est tronqué. Connais-tu un moyen de remedier à cela?

>LOCUS_xxxxxxx.1|xxxxxxxxxxxx|proteinxxx xxxxxx xxxxxxxx xxxxxxx, xxxxxxxxx

**Jasmine80** · 22/11/2010, 14h24

Ce n'est pas perl qui tronque ton identifiant, il prend l'entièreté de la 1ère ligne.

**pontarose** · 22/11/2010, 14h57

Je viens de comprendre le problème vient des espaces contenues dans ma ligne:

Dans mon fichier final, j'obtiens:
>LOCUS_xxxxxxx.1|xxxxxxxxxxxx|proteinxxx
alors que ma ligne est:
>LOCUS_xxxxxxx.1|xxxxxxxxxxxx|proteinxxx xxxxxx xxxxxxxx xxxxxxx, xxxxxxxxx

faut que je substitue les espaces pour ensuite les regénerer?

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
while ( my $seq = $in->next_seq()){
 # on ne récupère que les séquences .1
    if ($seq->primary_id =~ /\.1/){
        $hash{$seq->primary_id} = $seq->seq ;   
    }
}