IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Bioinformatique Perl Discussion :

associations de colonnes de lignes en lignes de colonnes


Sujet :

Bioinformatique Perl

  1. #1
    Membre à l'essai Avatar de vinserm
    Homme Profil pro
    recherche
    Inscrit en
    Mars 2015
    Messages
    23
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : recherche

    Informations forums :
    Inscription : Mars 2015
    Messages : 23
    Points : 11
    Points
    11
    Par défaut associations de colonnes de lignes en lignes de colonnes
    Bonjour à tous

    Je suis entrain d'écrire un script dont le but est d'obtenir un tableur synthetique à partir de données importantes de blast

    Je suis bloqué à une étape : comment associer un microorganisme (ligne gb) à plusieurs query tout en gardant la ligne entière de Query et en associant les scores (50 0.41) à la query

    Je pars d'un fichier de type :

    Query= query1 cov=46.92 len=3767 gc=25.96 nseq=1154
    gb|JX025555.1| Human rhinovirus A strain HRV-A71_p1047_sR141_200... 44.6 7.0
    gb|HQ647181.2| Cotia virus SPAn232, complete genome 50.0 0.41
    >gb|KM595078.1| Cotia virus strain SPAn880, complete genome
    Query= query 2 cov=54.67 len=1555 gc=28.17 nseq=549
    gb|JX025555.1| Human rhinovirus A strain HRV-A71_p1047_sR141_200... 44.6 7.0
    Query= query 3 cov=45.79 len=3087 gc=23.68 nseq=946
    gb|JX025555.1| Human rhinovirus A strain HRV-A71_p1047_sR141_200... 44.6 7.0
    gb|HQ647181.2| Cotia virus SPAn232, complete genome 50.0 0.41


    et souhaite obtenir quelque chose comme ca :
    gb|HQ647181.2| Cotia virus SPAn232, complete genome Query= query1 cov=46.92 len=3767 gc=25.96 nseq=1154 44.6 7.0 Query= query 2 cov=54.67 len=1555 gc=28.17 nseq=549 44.6 7.0 Query= query 3 cov=45.79 len=3087 gc=23.68 nseq=946 50.0 0.41
    gb|JX025555.1| Human rhinovirus A strain HRV-A71_p1047_sR141_200... Query= query1 cov=46.92 len=3767 gc=25.96 nseq=1154 44.6 7.0 Query= query 2 cov=54.67 len=1555 gc=28.17 nseq=549 44.6 7.0
    gb|KM595078.1| Cotia virus strain SPAn880, complete genome Query= query1 cov=46.92 len=3767 gc=25.96 nseq=1154 >

    Merci pour votre aide

  2. #2
    Rédacteur/Modérateur

    Avatar de Lolo78
    Homme Profil pro
    Conseil - Consultant en systèmes d'information
    Inscrit en
    Mai 2012
    Messages
    3 612
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Conseil - Consultant en systèmes d'information
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Mai 2012
    Messages : 3 612
    Points : 12 469
    Points
    12 469
    Billets dans le blog
    1
    Par défaut
    Cela ne semble pas bien compliqué, mais comment on identifie qu'une query se rapport à un microorganisme plutôt qu'à un autre?

  3. #3
    Expert éminent sénior Avatar de disedorgue
    Homme Profil pro
    Ingénieur intégration
    Inscrit en
    Décembre 2012
    Messages
    4 273
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur intégration
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Décembre 2012
    Messages : 4 273
    Points : 12 708
    Points
    12 708
    Par défaut
    Bonjour,

    Le résultat désiré ne serait pas plutot:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    gb|JX025555.1| Human rhinovirus A strain HRV-A71_p1047_sR141_200... Query= query1 cov=46.92 len=3767 gc=25.96 nseq=1154 44.6 7.0 Query= query 2 cov=54.67 len=1555 gc=28.17 nseq=549 44.6 7.0 Query= query 3 cov=45.79 len=3087 gc=23.68 nseq=946 44.6 7.0
    gb|HQ647181.2| Cotia virus SPAn232, complete genome Query= query1 cov=46.92 len=3767 gc=25.96 nseq=1154 50.0 0.41 Query= query 3 cov=45.79 len=3087 gc=23.68 nseq=946 50.0 0.41
    gb|KM595078.1| Cotia virus strain SPAn880, complete genome Query= query1 cov=46.92 len=3767 gc=25.96 nseq=1154 >
    Cordialement.

  4. #4
    Membre à l'essai Avatar de vinserm
    Homme Profil pro
    recherche
    Inscrit en
    Mars 2015
    Messages
    23
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : recherche

    Informations forums :
    Inscription : Mars 2015
    Messages : 23
    Points : 11
    Points
    11
    Par défaut
    oui exactement ca disedorgue.
    Mon but final est d'évaluer le nombre de query pour chaque microorganisme (et ne pas perdre d'informations au passage)

  5. #5
    Rédacteur/Modérateur

    Avatar de Lolo78
    Homme Profil pro
    Conseil - Consultant en systèmes d'information
    Inscrit en
    Mai 2012
    Messages
    3 612
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Conseil - Consultant en systèmes d'information
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Mai 2012
    Messages : 3 612
    Points : 12 469
    Points
    12 469
    Billets dans le blog
    1
    Par défaut
    Bonjour,

    voici un essai (en supposant que j'ai compris ce que tu désires obtenir).

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
     
    use strict;
    use warnings;
     
    my (@queries, %viruses);
    my $count;
     
    while (my $line = <DATA>) {
    	chomp $line;
    	if ($line =~ /^Query= query\s?(\d+)/) {
    	    $count = $1;
    		$queries[$count] = $line;
    	} else {
    		next unless $line =~ /^gb/;
    		push @{$viruses{$line}}, $count;
    	}
    }
     
    for my $vir (keys %viruses) {
    	print "$vir @queries[@{$viruses{$vir}}] \n";
    }
     
    __DATA__
    Query= query1 cov=46.92 len=3767 gc=25.96 nseq=1154
    gb|JX025555.1| Human rhinovirus A strain HRV-A71_p1047_sR141_200... 44.6 7.0
    gb|HQ647181.2| Cotia virus SPAn232, complete genome 50.0 0.41
    gb|KM595078.1| Cotia virus strain SPAn880, complete genome
    Query= query 2 cov=54.67 len=1555 gc=28.17 nseq=549
    gb|JX025555.1| Human rhinovirus A strain HRV-A71_p1047_sR141_200... 44.6 7.0
    Query= query 3 cov=45.79 len=3087 gc=23.68 nseq=946
    gb|JX025555.1| Human rhinovirus A strain HRV-A71_p1047_sR141_200... 44.6 7.0
    gb|HQ647181.2| Cotia virus SPAn232, complete genome 50.0 0.41
    Ce qui affiche:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
     
    gb|HQ647181.2| Cotia virus SPAn232, complete genome 50.0 0.41 Query= query1 cov=46.92 len=3767 gc=25.96 nseq=1154 Query= query 3 cov=45.79 len=3087 gc=23.68 nseq=946
    gb|KM595078.1| Cotia virus strain SPAn880, complete genome Query= query1 cov=46.92 len=3767 gc=25.96 nseq=1154
    gb|JX025555.1| Human rhinovirus A strain HRV-A71_p1047_sR141_200... 44.6 7.0 Query= query1 cov=46.92 len=3767 gc=25.96 nseq=1154 Query= query 2 cov=54.67 len=1555 gc=28.17 nseq=549 Query= query 3 cov=45.79 len=3087 gc=23.68 nseq=946
    En l'état, je considère l'ensemble des lignes comme identifiants des virus. Il y a peut-être des choses à changer si l'identifiant à considérer est seulement "Cotia virus SPAn232" par exemple.

  6. #6
    Membre à l'essai Avatar de vinserm
    Homme Profil pro
    recherche
    Inscrit en
    Mars 2015
    Messages
    23
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : recherche

    Informations forums :
    Inscription : Mars 2015
    Messages : 23
    Points : 11
    Points
    11
    Par défaut
    Citation Envoyé par Lolo78 Voir le message
    Bonjour,

    voici un essai (en supposant que j'ai compris ce que tu désires obtenir).
    Exactement ce que je voulais! Je vais intégrer cette étape à mon pipeline d'analyse
    Merci beaucoup!

  7. #7
    Membre à l'essai Avatar de vinserm
    Homme Profil pro
    recherche
    Inscrit en
    Mars 2015
    Messages
    23
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : recherche

    Informations forums :
    Inscription : Mars 2015
    Messages : 23
    Points : 11
    Points
    11
    Par défaut
    Encore une question, si je ne veux pas tenir en compte les scores à la fin de chaque ligne de microorganismes (par exemple 44.6 et 7.0 sur la ligne
    gb|JX025555.1| Human rhinovirus A strain HRV-A71_p1047_sR141_200... 44.6 7.0) comment dois je procéder?

    Je pensais créer un nouveau fichier dans lequel j'élimine les colonnes de score et sur lequel j'applique le script. Existe t-il plus simple et surtout quelque chose qui ne me ferais pas générer de nouveaux fichiers (car très volumineux)?

  8. #8
    Rédacteur/Modérateur

    Avatar de Lolo78
    Homme Profil pro
    Conseil - Consultant en systèmes d'information
    Inscrit en
    Mai 2012
    Messages
    3 612
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Conseil - Consultant en systèmes d'information
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Mai 2012
    Messages : 3 612
    Points : 12 469
    Points
    12 469
    Billets dans le blog
    1
    Par défaut
    Il suffit de retraiter la ligne quand elle commence par "gb", par exemple en modifiant la boucle while comme suit (je ne peux pas tester maintenant, mais je pense que ça devrait marcher):
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
     
    while (my $line = <DATA>) {
    	chomp $line;
    	if ($line =~ /^Query= query\s?(\d+)/) {
    	    $count = $1;
    		$queries[$count] = $line;
    	} else {
    		next unless $line =~ /^gb/;
    		$line =~ s/\d+\.\d+\s+\d+\.\d+$//; # suppression des "scores" en fin de ligne
    		push @{$viruses{$line}}, $count;
    	}
    }

  9. #9
    Membre à l'essai Avatar de vinserm
    Homme Profil pro
    recherche
    Inscrit en
    Mars 2015
    Messages
    23
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : recherche

    Informations forums :
    Inscription : Mars 2015
    Messages : 23
    Points : 11
    Points
    11
    Par défaut
    ca marche que dans de rares cas, étrange car je ne vois pas de différences entre mes lignes de microorganismes (décallage tabulation...)

  10. #10
    Rédacteur/Modérateur

    Avatar de Lolo78
    Homme Profil pro
    Conseil - Consultant en systèmes d'information
    Inscrit en
    Mai 2012
    Messages
    3 612
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Conseil - Consultant en systèmes d'information
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Mai 2012
    Messages : 3 612
    Points : 12 469
    Points
    12 469
    Billets dans le blog
    1
    Par défaut
    A l'évidence tes données ne sont pas conformes à ce que j'ai supposé.

    Si l'on suppose que tes lignes ont peut-être des espaces (non visibles) en fin de ligne empêchant la regex de reconnaître les données, tu peux déjà essayer la regex comme suit:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    $line =~ s/\d+\.\d+\s+\d+\.\d+\s*$//; # suppression des "scores" en fin de ligne
    Sinon, peux-tu fournir un échantillon de lignes pour lesquelles ça ne marche pas?

  11. #11
    Membre à l'essai Avatar de vinserm
    Homme Profil pro
    recherche
    Inscrit en
    Mars 2015
    Messages
    23
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : recherche

    Informations forums :
    Inscription : Mars 2015
    Messages : 23
    Points : 11
    Points
    11
    Par défaut
    effectivement, ce sont les scores qui ne sont pas homogènes, il y a des chiffres avec/sans virgules, avec/sans exposant
    je n'ai pas encore réussi mais il faut que je sois plus permissif

  12. #12
    Rédacteur/Modérateur

    Avatar de Lolo78
    Homme Profil pro
    Conseil - Consultant en systèmes d'information
    Inscrit en
    Mai 2012
    Messages
    3 612
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Conseil - Consultant en systèmes d'information
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Mai 2012
    Messages : 3 612
    Points : 12 469
    Points
    12 469
    Billets dans le blog
    1
    Par défaut
    Du coup, il faut peut-être utiliser plutôt une classe de caractères comprenant chiffres, points et espaces:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    $line =~ s/[\d+\.\s]+$//; # suppression des "scores" en fin de ligne
    Ou:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    $line =~ s/[\d+\.\sEe]+$//; # suppression des "scores" en fin de ligne
    si tu peux aussi avoir des marques d'exposants.

  13. #13
    Membre à l'essai Avatar de vinserm
    Homme Profil pro
    recherche
    Inscrit en
    Mars 2015
    Messages
    23
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : recherche

    Informations forums :
    Inscription : Mars 2015
    Messages : 23
    Points : 11
    Points
    11
    Par défaut
    après de nombreux essais, je n'arrive pas à me débarasser de ces catégories de scores (début exposant, chiffres ronds et 2 caractères avant virgule)
    "lete genome 600 9e- Query="
    "lete genome 87.8 7e- Query="
    "lete genome 159 8e- Query="

  14. #14
    Rédacteur/Modérateur

    Avatar de Lolo78
    Homme Profil pro
    Conseil - Consultant en systèmes d'information
    Inscrit en
    Mai 2012
    Messages
    3 612
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Conseil - Consultant en systèmes d'information
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Mai 2012
    Messages : 3 612
    Points : 12 469
    Points
    12 469
    Billets dans le blog
    1
    Par défaut
    Je n'avais pas pensé aux exposants négatifs, il faudrait ajouter un moins ("-") dans l'expression régulière:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    $line =~ s/[-\d+\.\sEe]+$//; # suppression des "scores" en fin de ligne

  15. #15
    Membre à l'essai Avatar de vinserm
    Homme Profil pro
    recherche
    Inscrit en
    Mars 2015
    Messages
    23
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Finistère (Bretagne)

    Informations professionnelles :
    Activité : recherche

    Informations forums :
    Inscription : Mars 2015
    Messages : 23
    Points : 11
    Points
    11
    Par défaut
    d'accord
    je n'y était pas du tout en cherchant les chiffres ronds et 2 caractères avant virgule, il faut que je me remette dessus pour comprendre les dernières lignes qui m'échappent.
    En tout cas merci! j'ai le format output attendu!

  16. #16
    Rédacteur/Modérateur

    Avatar de Lolo78
    Homme Profil pro
    Conseil - Consultant en systèmes d'information
    Inscrit en
    Mai 2012
    Messages
    3 612
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Conseil - Consultant en systèmes d'information
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Mai 2012
    Messages : 3 612
    Points : 12 469
    Points
    12 469
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par vinserm Voir le message
    d'accord
    il faut que je me remette dessus pour comprendre les dernières lignes qui m'échappent.
    N'hésite pas à demander si tu désires des explications.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [XL-2007] Tri par colonne sans modifier les lignes associées
    Par babou466 dans le forum Macros et VBA Excel
    Réponses: 2
    Dernier message: 25/09/2012, 18h50
  2. Réponses: 5
    Dernier message: 10/08/2011, 18h05
  3. Réponses: 13
    Dernier message: 30/06/2011, 17h33
  4. Tableau -> Titre colonne (th) + saut de ligne ?!
    Par AceG dans le forum Balisage (X)HTML et validation W3C
    Réponses: 6
    Dernier message: 07/05/2005, 09h46
  5. Renommer le titre de colonnes par la 1ere ligne
    Par Tche55 dans le forum Langage SQL
    Réponses: 6
    Dernier message: 25/02/2004, 12h07

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo