IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Perl Discussion :

REGEXP sous chaîne


Sujet :

Langage Perl

  1. #41
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Citation Envoyé par s.n.a.f.u Voir le message
    C'est bizarre, les résultats me semblent plutôt pas mal avec ton jeu d'essais :
    Oui, tu as raison. Je te présente mes excuses et j'espère que cela ne t'a pas fait perdre trop de temps mais à force de modifier mon programme dans tous les sens pour essayer de changer et de rechanger de regexp, j'avais laissé le 'print $sequence' de mes substitutions sans voir que tu avais récupéré la variable dans $subseq. Pardon.

    Je suppose que cette expression régulière est plus performante que mes 2 substitutions, je vais la garder en mémoire pour la prochaine utilisation, merci beaucoup pour le temps que vous avez tous deux passé sur ce problème. Je vais clore le sujet. Quand je vois comme vous êtes doués en Perl, je me dis que j'ai encore énormément de chemin à faire, tant mieux car ça serait triste de ne plus pouvoir progresser.
    -- Jasmine --

  2. #42
    Membre expert
    Avatar de s.n.a.f.u
    Homme Profil pro
    Développeur Web
    Inscrit en
    Août 2006
    Messages
    2 760
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 49
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Août 2006
    Messages : 2 760
    Points : 3 545
    Points
    3 545
    Par défaut
    Citation Envoyé par Jasmine80 Voir le message
    Je suppose que cette expression régulière est plus performante que mes 2 substitutions, je vais la garder en mémoire pour la prochaine utilisation
    C'est pas sûr. J'ai mené un petit test sur ma bécane antédiluvienne :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    42
    43
    44
    45
    46
    47
    48
    49
    50
    51
    52
    53
    54
    55
    56
    57
    58
    59
    60
    61
    62
    63
    64
    65
    66
    67
    68
     
    #!/usr/bin/perl
    use warnings;
    use Time::HiRes;
     
    my @sequence = qw[
    TCGCCCGCGGGGTTCAGCCGGCATTCGTGCCGGTGTACTTCCCCGTGGGCGGGCCAGCGTCGGTTTGGGCGGCCGGTCAAAGGCCCTCGGAATGTATCACCTGTAGACGTGACGATGTAACACGCCTGGACCGAGGAACGCGCTTCGGCTCGGACGCTGGCGTAATGGTCGTAAATGACCCGTCTTGAAACACGGACCTCTCGGGGTGTCTTATAGCCGAGGGTGCAATGCGGCCTTCGCCCGCGGGGTTTCGCCCGCGGGGTT
    TCGCTCTGTAGACGTGACGATGTAACACGCGGGGTTCAGCCGGGCTTCGGCCCGGTGTACTTCCCCGCGGGCGGGCCAGCGTCGGTTTGGGCGGCCGGTCAAAGGCCTCCGGAATGTAGCGCCCTTCGGGGCGCCTTATAGCCGGGGGTGCAATGCGGCCAGCCTGGACCGAGGAACGCGCTTCGGCACGGACGCTGGCATATGATACCCATCCCTAGAACAGATATGGTTGTAAACGACCCGTCTTGAAACACGGACC
    TCCGGTCCTCGAGCGTATGGGGCTTTGTCACCCGCTCAGTAGGTCGGGCCGGGGCCTTTGCCCTCTCCAACCTTTTTTTCCTTAGGTTGACCTCGGATCAGGTAGGGATACCCGCTGAACTTAAGCATATCAATAAGCGGAGGAAAAGAAACCAACCGGGATTGCCTCAGTAACGGCGAGTGAAGCGGCAAGAGCTCAAATTTGAAAGCTTGATACCGATCCCTAGAACAGATGGCCCCTCCGGGGTCCGCATTGTAATTTGCAGAGGATGC
    TCCGGTCCTCGAGCGTATGGGGCTTTGTCACCCGCTCAGTAGGTCGGGCCGGGGCCTTTTGTAGACGTGACGATGTAACACGCCCTCTCCAACCTTTTTTTCCTTAGGTTGACCTCGGATCAGGTAGGGATACCCGCTGAACTTAAGCATATCAATAAGCGGAGGAAAAGAAACCAACCGGGATTGCCTCAGTAACGGCGAGTGAAGCGGCAAGAGCTCAAATTTGAAAGCTGATACCGATCCCTAGAACAGATTGGCCCCTCCGGGGTCCGCATTGTAATTTGCAGAGGATGCTTCGGGCTCAG
    ];
     
    my $start  = 'TGTAGACGTGACGATGTAACAC';
    my $end    = 'TGATACCGATCCCTAGAACAGAT';
    my $middle = '[ACGT]{100,250}';
     
     
    my $tsStart = Time::HiRes::time;
     
    for($i=1; $i<5000; $i++) {
     
        open my $fh, '>', 'result.txt';
     
        foreach my $row (@sequence) {
            my ($subseq) = $row =~
            m/
            (?: .*(?=$start) )?
            (
                (?: ($start) ( $middle ) ($end) )
                |
                (?: ($start) ( $middle )        )
                |
                (?:          ( $middle ) ($end) )
            )
            /x;
     
            print $fh $subseq."\n" if ($subseq);
     
        }
     
        close $fh;
    }
     
    my $tsEnd = Time::HiRes::time;
     
    print "-" x 30 . "\n";
    printf("snafu = %f\n", $tsEnd - $tsStart);
    print "-" x 30 . "\n";
     
    $tsStart = Time::HiRes::time;
     
    for($i=1; $i<5000; $i++) {
     
        open my $fh, '>', 'result.txt';
     
        foreach my $row (@sequence) {
            $row =~ s/.*(TGTAGACGTGACGATGTAACAC[ATCG]{100,250}).*/$1/;
            $row =~ s/.*?([ATCG]{100,250}TGATACCGATCCCTAGAACAGAT).*/$1/;
            print $fh $row."\n";
        }
     
        close $fh;
    }
    $tsEnd = Time::HiRes::time;
     
    print "-" x 30 . "\n";
    printf("Jasmine = %f\n", $tsEnd - $tsStart);
    print "-" x 30 . "\n";
    Résultat :
    ------------------------------
    snafu = 42.155980
    ------------------------------
    ------------------------------
    Jasmine = 42.359104
    ------------------------------
    => c'est kif kif

    merci beaucoup pour le temps que vous avez tous deux passé sur ce problème. Je vais clore le sujet. Quand je vois comme vous êtes doués en Perl, je me dis que j'ai encore énormément de chemin à faire, tant mieux car ça serait triste de ne plus pouvoir progresser.
    Je suis loin d'être une star en Perl, mais j'aime beaucoup ce langage.
    Et comme je ne peux le pratiquer au boulot que de manière basique au vu des besoins , c'est toujours agréable d'avoir des problématiques autres à régler qui permette de progresser en pratiquant. Donc merci à toi aussi.
    • Avant de poser une question, n'hésitez pas à chercher dans la FAQ et les forums
    • Merci d'utiliser les balises de code (# dans l'éditeur)
    • N'oubliez pas de vous servir des boutons , et

    S.N.A.F.U

  3. #43
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Si j'utilise sur mes 5 séquences de test
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    	my ($subseq) = $sequence =~
    	m/(
    		(?: $start $middle $end  )
    		|
    		(?: $start $middle       )
    		|
    		(?:        $middle $end  )
    	)/x;
    J'obtiens le même résultat qu'avec
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    	my ($subseq) = $sequence =~
    	m/
    	(?: .*(?=$start) )?
    	(
    	    (?: ($start) ( $middle ) ($end) )
    	    |
    	    (?: ($start) ( $middle )        )
    	    |
    	    (?:          ( $middle ) ($end) )
    	)
    	/x;
    ... je me demande donc à quoi sert (?: .*(?=$start) )?
    On s'attend à trouver 0 ou 1 occurrence de n'importe quoi suivi de $start qu'on ne récupère pas.


    Merci pour ton aide.
    -- Jasmine --

  4. #44
    Membre expert
    Avatar de s.n.a.f.u
    Homme Profil pro
    Développeur Web
    Inscrit en
    Août 2006
    Messages
    2 760
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 49
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Août 2006
    Messages : 2 760
    Points : 3 545
    Points
    3 545
    Par défaut
    Citation Envoyé par Jasmine80 Voir le message
    ... je me demande donc à quoi sert (?: .*(?=$start) )?
    On s'attend à trouver 0 ou 1 occurrence de n'importe quoi suivi de $start qu'on ne récupère pas.
    Sur les quatre lignes que tu nous a données, regardes ce qu'il se passe pour la quatrième si tu enlèves ce début d'expression...

    => ce petit bout de regex va se positionner juste avant le polynucléotide ouvrant s'il existe, ce qui fait sauter automatiquement les nucléotides précédents qui ne nous intéressaient pas.

    N'est-ce pas le cas sur tes 5 cas de test ?
    • Avant de poser une question, n'hésitez pas à chercher dans la FAQ et les forums
    • Merci d'utiliser les balises de code (# dans l'éditeur)
    • N'oubliez pas de vous servir des boutons , et

    S.N.A.F.U

  5. #45
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Citation Envoyé par s.n.a.f.u Voir le message
    Sur les quatre lignes que tu nous a données, regardes ce qu'il se passe pour la quatrième si tu enlèves ce début d'expression...

    => ce petit bout de regex va se positionner juste avant le polynucléotide ouvrant s'il existe, ce qui fait sauter automatiquement les nucléotides précédents qui ne nous intéressaient pas.

    N'est-ce pas le cas sur tes 5 cas de test ?
    ... j'obtiens la même chose

    les nucléotides précédents le polynucléotide1($start) vont d'office sauter dans (?: $start $middle $end ) et dans (?: $start $middle ) ... vu qu'on commence à récupérer $start ... donc je ne vois pas l'utilité de (?: .*(?=$start) )?

    ... je m'y perds, je commence à m'arracher les cheveux.
    -- Jasmine --

  6. #46
    Membre expert
    Avatar de s.n.a.f.u
    Homme Profil pro
    Développeur Web
    Inscrit en
    Août 2006
    Messages
    2 760
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 49
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Août 2006
    Messages : 2 760
    Points : 3 545
    Points
    3 545
    Par défaut
    Citation Envoyé par Jasmine80 Voir le message
    ... j'obtiens la même chose

    les nucléotides précédents le polynucléotide1($start) vont d'office sauter dans (?: $start $middle $end ) et dans (?: $start $middle ) ... vu qu'on commence à récupérer $start ...
    Bah nan !

    Une regex fonctionne caractère par caractère : si le premier caractère lu dans la chaîne ne fait pas partie de start, alors elle essaie d'appliquer (?: $middle $end ) et malheureusement, elle y arrive ! ... sauf si on l'a précisément positionné au début de start si elle existe. (la fonction pos() est également abordée dans le livre du hibou si ma mémoire est bonne, mais je ne me rappelle plus des subtilités)

    Peux-tu me donner les exemples sur lesquels tu travailles, en MP si tu préfères.
    Ne t'inquiète pas pour le prix Nobel, je ne comprends rien à la génétique et tes données sont en sécurité chez un ignorant.
    • Avant de poser une question, n'hésitez pas à chercher dans la FAQ et les forums
    • Merci d'utiliser les balises de code (# dans l'éditeur)
    • N'oubliez pas de vous servir des boutons , et

    S.N.A.F.U

  7. #47
    Membre expert
    Avatar de s.n.a.f.u
    Homme Profil pro
    Développeur Web
    Inscrit en
    Août 2006
    Messages
    2 760
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 49
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Développeur Web

    Informations forums :
    Inscription : Août 2006
    Messages : 2 760
    Points : 3 545
    Points
    3 545
    Par défaut
    C'est bon finalement ?
    • Avant de poser une question, n'hésitez pas à chercher dans la FAQ et les forums
    • Merci d'utiliser les balises de code (# dans l'éditeur)
    • N'oubliez pas de vous servir des boutons , et

    S.N.A.F.U

  8. #48
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Oui, c'est bon merci beaucoup pour ton aide.
    -- Jasmine --

+ Répondre à la discussion
Cette discussion est résolue.
Page 3 sur 3 PremièrePremière 123

Discussions similaires

  1. Extraction d'une sous-chaîne avec une regexp
    Par pc.bertineau dans le forum Langage
    Réponses: 3
    Dernier message: 25/05/2010, 16h38
  2. [RegEx] Sous-chaîne dans une sous-chaîne : optimisation RegExp
    Par mathieugamin dans le forum Langage
    Réponses: 3
    Dernier message: 17/12/2007, 08h44
  3. [Tableaux] Retrouver une sous chaîne.
    Par Huntress dans le forum Langage
    Réponses: 8
    Dernier message: 20/03/2006, 15h31
  4. Réponses: 28
    Dernier message: 22/09/2005, 11h57
  5. [String] Récupérer une sous -chaîne sans split
    Par Crazyblinkgirl dans le forum Langage
    Réponses: 3
    Dernier message: 19/07/2004, 14h45

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo