IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bioinformatique Perl Discussion :

Lire un fichier fasta


Sujet :

Bioinformatique Perl

  1. #1
    Membre du Club
    Profil pro
    Inscrit en
    Août 2007
    Messages
    142
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2007
    Messages : 142
    Points : 57
    Points
    57
    Par défaut Lire un fichier fasta
    Bonjour,

    comment récupérer TOUTES mes clés et valeur?

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    while (my $line = <DATA>) {
        chomp($line);
        if($line =~ /^>/){
    	$nom=$line;
    	$count ++;
    	#print("$nom\n");
        }
        else{
    	$sequence=$line;
    	#print("$sequence\n");
        }
        %hash=($nom=>$sequence);
     
    }
     print("nb count: $count\n");
     
     
    foreach my $t (keys%hash){
        print  "clé: $t\nvaleur: $hash{$t}\n";#verif
    }
     
     
    close(DATA);
    merci par avance

  2. #2
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    foreach my $t (keys%hash){
        print  "clé: $t\nvaleur: $hash{$t}\n";#verif
    }
    C'est la bonne méthode. Il faut néanmoins savoir que si 2 valeurs ont la même clé, tu écraseras la valeur précédente. Est-ce cela le problème?

    Pour remplir le tableau j'utilise plutôt
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    $hash{$nom} = $sequence;
    -- Jasmine --

  3. #3
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Si tu travailles avec un fichier fasta, il vaut mieux utiliser le module Bio::SeqIO

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    #!/usr/local/bin/perl
     
    use strict;
    use warnings;
     
    use Bio::SeqIO;
     
    # fichier d'entrée
    my $in  = Bio::SeqIO->new(-file => "P:/.../fichier", '-format' => 'Fasta');
     
    # récupération des séquences et des identifiants
    while ( my $seq = $in->next_seq()){
        my $id = $seq->primary_id ;
        my $sequence = $seq->seq ;
    }
    -- Jasmine --

  4. #4
    Membre du Club
    Profil pro
    Inscrit en
    Août 2007
    Messages
    142
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2007
    Messages : 142
    Points : 57
    Points
    57
    Par défaut
    Désolé, j'ai fait le mauvais copié-collé

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    while (my $line = <DATA>) {
        chomp($line);
        if($line =~ /^>/){
    	$nom=$line;
    	$count ++;
    	#print("$nom\n");
        }
        else{
    	$sequence=$line;
    	#print("$sequence\n");
        }
        %hash=($nom=>$sequence);
     
    }
     print("nb count: $count\n");
     
    foreach my $t (keys%hash){
        print  "clé: $t\nvaleur: $hash{$t}\n";#verif
    }
    en fait, deux clés différentes peuvent avoir la même valeur. Et du coup je veux conserver la premières clé et la valeur associé.

  5. #5
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Voici le code à utiliser :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    #!/usr/local/bin/perl
     
    use strict;
    use warnings;
     
    use Bio::SeqIO;
     
    # fichier d'entrée
    my $in  = Bio::SeqIO->new(-file => "P:/fichier", '-format' => 'Fasta');
     
    my %hash;
     
    # récupération des séquences et $id
    while ( my $seq = $in->next_seq()){
        $hash{$seq->primary_id} = $seq->seq ;   
    }
     
    # affichage
    foreach my $t (keys %hash){
        print  "clé: $t\nvaleur: $hash{$t}\n";#verif
    }
    Est-ce bien un fichier fasta?
    -- Jasmine --

  6. #6
    Membre du Club
    Profil pro
    Inscrit en
    Août 2007
    Messages
    142
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2007
    Messages : 142
    Points : 57
    Points
    57
    Par défaut
    Merci mais cela ne génère pas ce que je veux, je me suis mal exprimé: le nom de mes seq fini par .1, .2, .3 et je veux conserver même si elles ont des séquences un seul représentant

    >seqA.1
    MSSAAG
    >seqA.2
    MSSAAG
    >seqB.1
    MEEAGE
    >seqC.1
    MDSIRR
    >seqD.1
    MACTAA
    >seqD.2
    MACTAA
    >seqD.3
    MACTAA
    >seqD.4
    DIFFER


    au final, j'aimerais avoir
    >seqA.1
    MSSAAG
    >seqB.1
    MEEAGE
    >seqC.1
    MDSIRR
    >seqD.1
    MACTAA

  7. #7
    Membre du Club
    Profil pro
    Inscrit en
    Août 2007
    Messages
    142
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2007
    Messages : 142
    Points : 57
    Points
    57
    Par défaut
    J'ai essayé ceci mais j'obtiens ce messgae:
    "exists argument is not a HASH or ARRAY element"

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    my %test;
    foreach my $t (keys %hash{
        if(exists substr("$hash{$t}","0",2){
    	$exist++;
        }
        else{
    	%test=( "$hash{$t}"=>"$t");
        }	
    }

  8. #8
    Responsable Perl et Outils

    Avatar de djibril
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    19 820
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 19 820
    Points : 498 771
    Points
    498 771
    Par défaut
    Citation Envoyé par pontarose Voir le message
    Merci mais cela ne génère pas ce que je veux, je me suis mal exprimé: le nom de mes seq fini par .1, .2, .3 et je veux conserver même si elles ont des séquences un seul représentant

    >seqA.1
    MSSAAG
    >seqA.2
    MSSAAG
    >seqB.1
    MEEAGE
    >seqC.1
    MDSIRR
    >seqD.1
    MACTAA
    >seqD.2
    MACTAA
    >seqD.3
    MACTAA
    >seqD.4
    DIFFER


    au final, j'aimerais avoir
    >seqA.1
    MSSAAG
    >seqB.1
    MEEAGE
    >seqC.1
    MDSIRR
    >seqD.1
    MACTAA
    Pouvez vous écrire proprement et en français, car je ne comprends pas ce que vous dites. Merci !!

  9. #9
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Voila comment je ferais :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    #!/usr/local/bin/perl
     
    use strict;
    use warnings;
     
    use Bio::SeqIO;
     
    # fichier d'entrée
    my $in  = Bio::SeqIO->new(-file => "P:/fichier", '-format' => 'Fasta');
     
    my %hash;
     
    # récupération des séquences et $id
    while ( my $seq = $in->next_seq()){
     
        # on ne récupère que les séquences .1
        if ($seq->primary_id =~ /\.1/){
            $hash{$seq->primary_id} = $seq->seq ;   
        }
     
    }
     
    # affichage
    foreach my $t (keys %hash){
        print  "clé: $t\nvaleur: $hash{$t}\n";#verif
    }
    Qu'obtiens-tu avec ce script?
    -- Jasmine --

  10. #10
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Voici ton script corrigé ;
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    #!/usr/local/bin/perl
     
    use strict;
    use warnings;
     
     
    open my $data, '<', 'sequences.txt' or die;
     
     
    my %hash;
    my $count;
     
    my $nom;
    my $sequence;
     
    while (my $line = <$data>) {
     
        chomp($line);
     
     
        if($line =~ /^>/){
     
    	$nom=$line;
    	$count ++;
        }
        else{
     
    	$sequence=$line;
        }
     
        $hash{$nom} = $sequence;
     
    }
     print("nb count: $count\n");
     
     
     
    foreach my $t (keys %hash){
     
        if ($t =~ /\.1/){
    	print  "$t\n$hash{$t}\n";
        }
    }

    Et ici une façon plus optimale d'obtenir ce que tu veux
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
     
    #!/usr/local/bin/perl
     
    use strict;
    use warnings;
     
     
    open my $data, '<', 'sequences.txt' or die;
     
     
    my $count;
     
    my $nom;
    my $sequence;
     
    while (my $line = <$data>) {
     
        chomp($line);
     
     
        if($line =~ /^>/){
     
    		$nom=$line;
    		$count ++;
        }
        else{
     
    	    $sequence=$line;
     
    	    if ($nom =~ /\.1/){
    		print  "$nom\n$sequence\n";
    	    }
        }
     
    }
     print("nb count: $count\n");
    Je te conseille quand même d'utiliser le module Bio::SeqIO c'est plus propre
    -- Jasmine --

  11. #11
    Membre du Club
    Profil pro
    Inscrit en
    Août 2007
    Messages
    142
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2007
    Messages : 142
    Points : 57
    Points
    57
    Par défaut
    un grand merci Jasmine, les deux script fonctionne.

    Une question subsidiare le nom de ma séquence est longue et du coup dans mon résultat final, le nom de celle-ci est est tronqué. Connais-tu un moyen de remedier à cela?

    >LOCUS_xxxxxxx.1|xxxxxxxxxxxx|proteinxxx xxxxxx xxxxxxxx xxxxxxx, xxxxxxxxx

  12. #12
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Ce n'est pas perl qui tronque ton identifiant, il prend l'entièreté de la 1ère ligne.
    -- Jasmine --

  13. #13
    Membre du Club
    Profil pro
    Inscrit en
    Août 2007
    Messages
    142
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Août 2007
    Messages : 142
    Points : 57
    Points
    57
    Par défaut
    Je viens de comprendre le problème vient des espaces contenues dans ma ligne:

    Dans mon fichier final, j'obtiens:
    >LOCUS_xxxxxxx.1|xxxxxxxxxxxx|proteinxxx
    alors que ma ligne est:
    >LOCUS_xxxxxxx.1|xxxxxxxxxxxx|proteinxxx xxxxxx xxxxxxxx xxxxxxx, xxxxxxxxx

    faut que je substitue les espaces pour ensuite les regénerer?

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    while ( my $seq = $in->next_seq()){
     # on ne récupère que les séquences .1
        if ($seq->primary_id =~ /\.1/){
            $hash{$seq->primary_id} = $seq->seq ;   
        }
    }

  14. #14
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Citation Envoyé par pontarose Voir le message
    faut que je substitue les espaces pour ensuite les regénerer?
    Tu peux remplacer les espaces par des * puis refaire la transformation inverse

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    s[\*][\s]g 
    s[\*][\s]g
    cf : substitution, expression régulière
    -- Jasmine --

Discussions similaires

  1. [Servlet][EJB]lire un fichier à partir de mon bean
    Par kimausoleil dans le forum Servlets/JSP
    Réponses: 3
    Dernier message: 13/02/2004, 14h26
  2. [MFC] lire un fichier en int
    Par Kevgeii dans le forum MFC
    Réponses: 3
    Dernier message: 23/01/2004, 09h32
  3. Réponses: 5
    Dernier message: 11/01/2004, 20h17
  4. Lire un fichier de 50 gb
    Par Maryves dans le forum MFC
    Réponses: 2
    Dernier message: 08/01/2004, 14h08
  5. Lire le fichier du port série
    Par saibe dans le forum Linux
    Réponses: 7
    Dernier message: 09/04/2003, 09h29

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo