Probleme code lie a la bioinformatique

**micky744** · 04/08/2009, 11h19

Bonjour a tous

J' ai un probleme qui regarde la bioinformatique, mais c'est un probleme de code de traitement de file txt.

Brevement

J'ai un file txt de dbsnp pour sortir tous les SNPs d'un gene. Apres j'ai un file txt avec le genotypage de 1050 individus avec des pouces (je peux avoir le file globale avec tous le chromosomes ou chromosome par chromosome). Je veux sortir tous les SNPs qui sont dans mon file 1 sur le file 2 enfin d'avoir tous le ligne de genotypage pour les SNPs que j'ai choisi dans le file 1.

Le file 1 est un file txt voila des lignes:

169: rs60465173 has merged into rs8057341 Homo sapiensCAGCTGACTGAGGCAGCGGGAGTTGAA/GAAGAAACGATATTAGTTCATGGTGA ABI, AFFY, ILLUMINA-UK, ILLUMINA, ILLUMINA, ILLUMINA, ILLUMINA, ILLUMINA, ILLUMINA170: rs17312781 has merged into rs8057341 Homo sapiensCAGCTGACTGAGGCAGCGGGAGTTGAA/GAAGAAACGATATTAGTTCATGGTGA ABI, AFFY, ILLUMINA-UK, ILLUMINA, ILLUMINA, ILLUMINA, ILLUMINA, ILLUMINA, ILLUMINA171

Le file 2 est un autre file text avec premiere ligne les individus et les lignes suivantes les SNPs.

First row XXX XXX XXX XXX XXX XXX XXX XXX (1050 cells)

rsnumber AA AG AG AG AA AG AG AG (1050 times)

rsnumber TT AT AA AT AT .....

Je voudrais avoir comme resultat final le file 2 mais seulment avec les SNPs qui j'ai dans le file 1

Avec ce code la j'ai un file 1 avec tous les rs extrait du file 1. Je voudrais outiliser l' array output pour chercher pour chacun element de cet array le lignes dans le file 2 et la printer dans un nouveau fichier. Est ce que ca peut marcher? Je sais que peut etre mieux de utiliser des hachages, mais je ne vois pas bien ou les utiliser....Le file 2 est un file de gb ainsi que je ne puex pas utiliser excel pour l'ouvrir....

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
#!/usr/bin/perl -w
use strict;
my$line;
my@fields;
my@output;
open (FILE, 'XXXX.txt') or die "can't open the file: $!";
open (FD, '>XXXX.txt') or die "can't open the file: $!";
             while (defined ($line= <FILE>)) {
                         my@fields= split (/\s/ ,$line);
                         my@output = grep /rs\d{5,}\b/ ,@fields;
                         my$rs = join (':' , @output);
                           $rs=~ s/:/\n/g;
                           print FD "$rs";
}
close FILE;
close FD;

Quelqun m'a dit d'utiliser DBM::Deep mais je dois trouver un key commun et je ne sais pas ou je peux la trouver....je ne suis pas tres familier avec le hachages....

Merci pour votre aide

Bonne journee

Micky

**Jasmine80** · 06/08/2009, 13h00

Tes explications ne sont pas très claires.

Quand tu as dans le premier fichier :

rs60465173 has merged into rs8057341 Homo sapiens

Tu veux donc récupérer les valeurs de rs60465173 et de rs8057341 et retrouver les valeurs qui y sont associées dans ton second fichier?

je dois trouver un key commun et je ne sais pas ou je peux la trouver

Tu dois bien avoir un identifiant commun entre les 2 fichiers, c'est le rsnumber non?

Si c'est bien cela, que ton but est d'écrire dans un fichier de sortie les valeurs des lignes du fichier 2 (rsnumber AA AG AG AG AA AG AG AG (1050 times)) dont les rsnumber sont présents dans le fichier 1, tu peux essayer d'apter le code suivant :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
#!/usr/bin/perl -w
 
use strict;
 
 
# tableau indexé provisoir contenant les rsnumber
my @output
 
# fichier1
open my $file, '<', 'XXXX.txt' or die "can't open the file: $!";
 
while ( my $line = <$file>)) {
	# récupération des identifiants rsnumber
	push @output, ($line =~ m/(rs\d{5,})\b/g);
}
close $file;
 
# mise des valeurs rsnumber dans un tableau associatif
my %output_tab;
map {$output_tab{$_} = 1} @output;
 
# fichier de sortie
open my $fh_out, '>', 'XXXX.txt' or die "can't open the file: $!";
 
# fichier2
open my $fd, '<', 'XXXX.txt' or die "can't open the file: $!";
while ( my $line = <$file>)) {
	# récupération des identifiants rsnumber
	if ($line =~ m/(rs\d{5,})\b/){
		if (exists $output_tab{$1}){
			# écriture dans le fichier de sortie
			print $fh_out $line;
		}
	}
}
close $fd;
close $fh_out;

**Philou67430** · 06/08/2009, 13h25

Ecrit plus simplement :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
#!/usr/bin/perl -w
use strict;
use warnings;
 
# tableau indexé provisoir contenant les rsnumber
my %output;
 
# fichier1
open my $file, '<', 'XXXX.txt' or die "can't open the file: $!";
 
# lecture de fichier1 et mise des valeurs rsnumber dans un tableau associatif
while ( my $line = <$file>)) {
	# récupération des identifiants rsnumber
	$output{$_} foreach $line =~ m/(rs\d{5,})\b/g;
}
close $file;
 
# fichier de sortie
open my $fh_out, '>', 'XXXX.txt' or die "can't open the file: $!";
 
# fichier2
open my $fd, '<', 'XXXX.txt' or die "can't open the file: $!";
print $fh_out grep { my ($rs) = m/(rs\d{5,})\b/; exists $output{$rs} } <$file>;
close $fd;
close $fh_out;

J'aime bien utiliser grep pour greper

**Jasmine80** · 06/08/2009, 13h44

Envoyé par Philou67430

Ecrit plus simplement :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
#!/usr/bin/perl -w
use strict;
use warnings;
 
# tableau indexé provisoir contenant les rsnumber
my %output;
 
# fichier1
open my $file, '<', 'XXXX.txt' or die "can't open the file: $!";
 
# lecture de fichier1 et mise des valeurs rsnumber dans un tableau associatif
while ( my $line = <$file>)) {
	# récupération des identifiants rsnumber
	$output{$_} foreach $line =~ m/(rs\d{5,})\b/g;
}
close $file;
 
# fichier de sortie
open my $fh_out, '>', 'XXXX.txt' or die "can't open the file: $!";
 
# fichier2
open my $fd, '<', 'XXXX.txt' or die "can't open the file: $!";
print $fh_out grep { my ($rs) = m/(rs\d{5,})\b/; exists $output{$rs} } <$file>;
close $fd;
close $fh_out;

J'aime bien utiliser grep pour greper

c'est vrai que c'est plus concis, merci pour cette remarque. C'est ça que j'aime sur ce forum, c'est que j'apprends en essayant d'aider les autres. Enfin, il faut encore voir si c'est vraiment ce qu'il veut faire car je ne suis pas certaine d'avoir bien compris ses explications

.

**Philou67430** · 06/08/2009, 13h54

J'ai compris la même chose que toi. Je suppose que micky n'est pas francophone. Au fait, bienvenu micky744.

**micky744** · 18/08/2009, 11h32

Envoyé par Philou67430

J'ai compris la même chose que toi. Je suppose que micky n'est pas francophone. Au fait, bienvenu micky744.

Bonjour et excuse moi pour n'avoir ecrit depuis longtemps, mais j'etais une semaine en vacance!

Merci our votre aide. J'ai reflechi un peu et avec un peu d'aide j'ai ecrit un code en untilisant le rs comme keys et la position (en utilisant tell) comme valeur, donc s'il y a la key je vais a la position et je print la ligne. Je vais attacher le code plus tard et je vais regradre votre code!!

Merci encore

Probleme code lie a la bioinformatique

Bioinformatique Perl

Discussions similaires

Partager

Partager