IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bioinformatique Perl Discussion :

Supprimer la redondance dans des sequences


Sujet :

Bioinformatique Perl

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre éclairé
    Inscrit en
    Janvier 2010
    Messages
    257
    Détails du profil
    Informations forums :
    Inscription : Janvier 2010
    Messages : 257
    Par défaut Supprimer la redondance dans des sequences
    Bonjour à tous,
    Je suis confrontée à un problème que je n'arrive pas à résoudre.
    J'ai un fichier qui ressemble à cela :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    >seq1
    ACTTTCCACAACGATGGAAGATGATGA
    >seq2
    ACTTTCCACAACGATGGAAGATGATGAA
    >seq3
    ATTCCACAACGATGGAAGATGATGAA
    >seq4
    CTTTCCACAACGATGGAAGATGATGAA
    >seq5
    NTCCACAACGATGGAAGATGATGAAGA
    >seq6
    TACTTTCCACAACGATGGAAGATGATGA
    >seq7
    TACTTTCCACAACGATGGAAGATGATGAA
    >seq8
    TCCACAACGATGGAAGATGATGA
    >seq9
    AAAGAAGAAATTGAATAAATATATGTC
    >seq10
    AAAGAAGAAATTGAATAAATATATGT
    >seq11
    AAAGAAGAAATTGAATAAATATATGTCA
    >seq12
    AAAGAAGAAATTGAATAAATATAT
    >seq13
    AAAGAAGAAATTGAATAAATATATG
    >seq14
    AAAGAAGAAATTGAATAAATATA
    Je souhaiterai trouver la séquence la plus petite que toutes ces séquences partagent entre elle (en gras dans mon exemple), et donc la seule séquence que j'aimerai récupérer est la seq 8 et seq14
    >seq8
    TCCACAACGATGGAAGATGATGA
    >seq14
    AAAGAAGAAATTGAATAAATATA

    Quelqu'un aurait une idée ?

  2. #2
    Membre émérite Avatar de Gardyen
    Homme Profil pro
    Bio informaticien
    Inscrit en
    Août 2005
    Messages
    637
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Bio informaticien

    Informations forums :
    Inscription : Août 2005
    Messages : 637
    Par défaut
    hum petit pseudo algo:
    • classement des séquences par taille de la plus petite à la plus grande
    • je stocke la première séquence, forcément choisie puisque la plus petite
    • boucle de parcours des autres séquences:
      • si la séquence contient l'une des séquences stockées (entièrement et exactement), l'enlever
      • sinon la stocker

    qu'en dis-tu ?

  3. #3
    Membre éclairé
    Inscrit en
    Janvier 2010
    Messages
    257
    Détails du profil
    Informations forums :
    Inscription : Janvier 2010
    Messages : 257
    Par défaut
    Alors j'ai fait quelque choses comme ceci mais qui ne fonctionne pas :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    #!/usr/bin/perl
    use strict;
    use warnings;
    use Carp qw(confess);
    use Getopt::Long;
    use List::MoreUtils qw(uniq);
    use Bio::SeqIO;
     
    my %hash;
    my ($fasta_file,$out_file);
    GetOptions("fasta=s" => \$fasta_file,"out=s" => \$out_file);
    open(my $out,'>',$out_file) or die "$out_file : $!\n\n";
    my $in = Bio::SeqIO->new( -file => $fasta_file, '-format' => 'Fasta' );
     
    # read file in hash
    while ( my $seq = $in->next_seq()){
    	my $id = $seq->id() ;
    	my $sequence = $seq->seq ;
    	$hash{$sequence}=$id;
    }
     
    my @all_seq=keys (%hash); # @seq contient toutes les sequences
    my @uniqueseq;
    my $find=0;
     
    foreach my $seqs (@all_seq){
    	$find=0;
    	my $seq=uc($seqs);  #uppercase
    	foreach (@uniqueseq){
    		if ($_=~/$seq/){ # si ma sequence contient 
    			$_=$seq; #remplace avec la plus petite sequence
    			$find=1;
    		}
    	}
    	if ($find==0){
    		push @uniqueseq,$seq;
    	}
    }
     
    foreach (@uniqueseq){
    	print ">$hash{$_}\n$_\n";
    }
    je vais essayer de traduire en perl l'algo que tu m'as donné

  4. #4
    Membre éclairé
    Inscrit en
    Janvier 2010
    Messages
    257
    Détails du profil
    Informations forums :
    Inscription : Janvier 2010
    Messages : 257
    Par défaut
    j'ai fait comme ceci :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    #!/usr/bin/perl
    use strict;
    use warnings;
    use Carp qw(confess);
    use Getopt::Long;
    use List::MoreUtils qw(uniq);
    use Bio::SeqIO;
     
    my %hash;
    my ($fasta_file,$out_file);
    GetOptions("fasta=s" => \$fasta_file,"out=s" => \$out_file);
    open(my $out,'>',$out_file) or die "$out_file : $!\n\n";
    my $in = Bio::SeqIO->new( -file => $fasta_file, '-format' => 'Fasta' );
     
    # read file in hash
    while ( my $seq = $in->next_seq()){
    	my $id = $seq->id() ;
    	my $sequence = $seq->seq ;
    	$hash{$sequence}=$id;
    }
     
    my @all_seq=keys (%hash); # @seq contient toutes les sequences
    my @sort_all_seq = sort @all_seq;
     
    my @uniqueseq;
    my $find=0;
     
    foreach my $seqs (@sort_all_seq){
    	$find=0;
    	my $seq=uc($seqs);  #uppercase
    	foreach (@uniqueseq){
    		if ($_=~/$seq/){ # si ma sequence contient 
    			$_=$seq; #remplace avec la plus petite sequence
    			$find=1;
    		}
    	}
    	if ($find==0){
    		push @uniqueseq,$seq;
    	}
    }
     
    my @final = uniq @uniqueseq;
     
    foreach (@final){
    	print ">$hash{$_}\n$_\n";
    }
    Ca fonctionne sur mon fichier exemple sur la sequence 8, mais pas pour la 14 ...
    J'ai modifié comme ceci, ca à l'air de fonctionner à présent :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    #!/usr/bin/perl
    use strict;
    use warnings;
    use Carp qw(confess);
    use Getopt::Long;
    use List::MoreUtils qw(uniq);
    use Bio::SeqIO;
     
    my %hash;
    my ($fasta_file,$out_file);
    GetOptions("fasta=s" => \$fasta_file,"out=s" => \$out_file);
    open(my $out,'>',$out_file) or die "$out_file : $!\n\n";
    my $in = Bio::SeqIO->new( -file => $fasta_file, '-format' => 'Fasta' );
     
    # read file in hash
    while ( my $seq = $in->next_seq()){
    	my $id = $seq->id() ;
    	my $sequence = $seq->seq ;
    	$hash{$sequence}=$id;
    }
     
    my @all_seq=keys (%hash); # @seq contient toutes les sequences
    my @sort_all_seq = sort @all_seq;
     
    my @uniqueseq;
    my $find=0;
     
    foreach my $seqs (@sort_all_seq){
    	$find=0;
    	my $seq=uc($seqs);  #uppercase
    	foreach (@uniqueseq){
    		if ($_=~/$seq/){ # si ma sequence contient 
    			$_=$seq; #remplace avec la plus petite sequence
    			$find=1;
    		}
    		if ($seq=~/$_/){ # si ma sequence contient 
    			$find=1;
    		}
    	}
    	if ($find==0){
    		push @uniqueseq,$seq;
    	}
    }
     
    my @final = uniq @uniqueseq;
     
    foreach (@final){
    	print ">$hash{$_}\n$_\n";
    }

  5. #5
    Membre émérite Avatar de Gardyen
    Homme Profil pro
    Bio informaticien
    Inscrit en
    Août 2005
    Messages
    637
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Bio informaticien

    Informations forums :
    Inscription : Août 2005
    Messages : 637
    Par défaut
    je voyais plus simple
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    #!/usr/bin/perl
    use strict;
    use warnings;
    use Carp qw(confess);
    use Getopt::Long;
    use List::MoreUtils qw(uniq);
    use Bio::SeqIO;
     
    my %hash;
    my ($fasta_file,$out_file);
    GetOptions("fasta=s" => \$fasta_file,"out=s" => \$out_file);
    open(my $out,'>',$out_file) or die "$out_file : $!\n\n";
    my $in = Bio::SeqIO->new( -file => $fasta_file, '-format' => 'Fasta' );
     
    # read file in hash
    my $smallest_sequence;
    while ( my $seq = $in->next_seq()){
    	my $id = $seq->id();
    	my $sequence = uc($seq->seq) ;
    	$hash{$sequence}=$id;
     
    	if (!$smallest_sequence) {
    		$smallest_sequence = $sequence;
    	}
     
    	$smallest_sequence = $sequence unless length($smallest_sequence) < length($sequence);
    }
     
    my @all_seq=sort {length($a) <=> length($b)} keys (%hash); # @seq contient toutes les sequences
    my @uniqueseq = ($smallest_sequence);
     
    foreach my $seqs (@all_seq){
    	my $seq=uc($seqs);  #uppercase
     
    	my @found = grep {$seq =~ /$_/} @uniqueseq;
    	if (!@found) {
    		push @uniqueseq, $seq;
    	}
    }
     
    foreach (@uniqueseq){
    	print ">$hash{$_}\n$_\n";
    }
    le classement par ordre de taille permet d'être sûr qu'aucune séquence plus courte que celles dans unique_seq puisse exister avec la même séquence cible

  6. #6
    Membre éclairé
    Inscrit en
    Janvier 2010
    Messages
    257
    Détails du profil
    Informations forums :
    Inscription : Janvier 2010
    Messages : 257
    Par défaut
    ah oui effectivement, ce sera surement moins long que ce que j'ai fait !
    Merci beaucoup !

Discussions similaires

  1. Requête pour supprimer caractères spéciaux dans des champs
    Par Laureoz dans le forum Requêtes et SQL.
    Réponses: 4
    Dernier message: 02/02/2012, 16h58
  2. [MySQL] supprimer les blancs dans des données
    Par lousa005 dans le forum PHP & Base de données
    Réponses: 3
    Dernier message: 10/03/2011, 14h56
  3. Eviter la redondance dans des fichiers
    Par Baptiste Wicht dans le forum ANT
    Réponses: 2
    Dernier message: 05/06/2009, 14h39
  4. [Turbo Pascal] Supprimer la redondance des caractères dans un texte
    Par achrefchouchou dans le forum Turbo Pascal
    Réponses: 7
    Dernier message: 28/01/2009, 22h10
  5. Supprimer un fichier dans un des repertoires du site?
    Par Death83 dans le forum Langage
    Réponses: 5
    Dernier message: 03/12/2005, 18h21

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo