IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Langage Perl Discussion :

regexp : récupérer toutes les occurences d'un même pattern


Sujet :

Langage Perl

  1. #1
    Membre à l'essai
    Homme Profil pro
    amateur autodidacte parfait (et total !)
    Inscrit en
    Juillet 2015
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : amateur autodidacte parfait (et total !)

    Informations forums :
    Inscription : Juillet 2015
    Messages : 12
    Points : 10
    Points
    10
    Par défaut regexp : récupérer toutes les occurences d'un même pattern
    Bonjour à tous,

    j'ai un problème relatif à l'utilisation des regexp dans Perl, plus précisément, concernant la récupération des valeurs de retour.
    Je cherche à créer une expression régulière permettant de recueillir dans un tableau toutes les occurrences d'un même pattern dans chaque ligne d'un fichier texte multiligne.
    Le format de mon fichier est du genre :

    texte1/ttexte2/t("item1","item2")/t("item3","item1","item4","item5")/ttexte3/ttexte4/ttexte5/t("item2","item6")
    texte6/t("item7","item8")/t("item9","item10")/ttexte8
    etc
    etc...

    C'est donc une table de ligne (finies par /n) , contenant divers élément de texte séparés par des tabulations SAUF certains groupes de texte repérés par ("item1", ... ,"item n")

    Ma requête semblera sûrement simple à beaucoup, mais je n'y arrive pas personnellement. Si vous aviez quelques suggestions, ce sera avec plaisir !
    De mon côté j'ai essayé ceci, mais sans succès...

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
     
    my @formats_spec;
    open(FIC, "table_test.csv") || die("pas de fichier table_test !\n");
    	my $ligne=<FIC>;
    	chomp($ligne);
    	my @data = split('\t',$ligne);
    	$nb_item = @data;
    	for (my $i=0; $i<$nb_item; $i++) {
    		if ($data[$i] =~ m/^\(".+"\)$/) {
    			@formats_spec = ( $data[$i] =~ m/[\(,](".[^"]+")+[,\)]/ );
    			print "$i => ". join(' - ',@formats_spec) ."\n";
    		}
    	}
    C'est au niveau de la ligne 10 que je cale. Les groupes d'items ne contenant qu'un caractère ne sont pas récupérés (pourtant je ne vois pas où mettre le fameux + pour mieux quantifier mon pattern...), et je ne récupère qu'un élément dans le meilleur des cas. Par exemple, si je fourni la ligne suivante dans mon fichier table_test.csv :

    TEXT TEXT ("Y","N") ("Y","N") ("Y","N") ("EXP_only","CGH_only","both_EXP/CGH") ("MSI","MSS") ("Lynch","Sporadique","MSS","Doubt") TEXT NUMERIC ("wt","mut","doubt") ("wt","mut","doubt") ("wt","mut","doubt")

    je n'obtiens que la sortie suivante :

    2 =>
    3 =>
    4 =>
    5 => "EXP_only"
    6 => "MSI"
    7 => "Lynch"
    10 => "wt"
    11 => "wt"
    12 => "wt"

    Quelqu'un oit il où est le "bug" ??

    Merci d'avance pour votre aide précieuse.

    Bonne journée à tous.

  2. #2
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Bonjour Obulle,


    Il y a moyen de réécrire le code et de faire beaucoup plus concis, mais j'ai fait simple en repartant de la base que tu donnes
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    for (my $i=0; $i<$nb_item; $i++) { 
    	if ($data[$i] =~ m/^\(".+"\)$/) {
    		my ($formats_spec) = ( $data[$i] =~ m/[\(,](.*)[,\)]/ ); 
    		$formats_spec =~ s/,/-/g ;
    		print "$i => ".$formats_spec ."\n";
    	}
    }
    le s///g permet de modifier le caractère , en -
    => le g permet d'agir sur toutes toutes les occurences

    la sortie donne pour ta ligne 10
    2 => "Y"-"N"
    3 => "Y"-"N"
    4 => "Y"-"N"
    5 => "EXP_only"-"CGH_only"-"both_EXP/CGH"
    7 => "wt"-"mut"-"doubt"
    8 => "wt"-"mut"-"doubt"

    Si j'ai bien compris ce que tu veux ... car ce n'était pas très clair

    Cela répond-t-il à tes attentes ?
    -- Jasmine --

  3. #3
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    je pense qu'il y a un problème dans le parcours du fichier, ... non ? ... mais là je pars vite prendre le bus ... suis rouillée en Perl, j'ai pas le temps de m'y replonger pour trouver l'erreur, j'espère t'avoir un peu aidé en attendant les réponses des autres
    -- Jasmine --

  4. #4
    Membre éclairé
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Janvier 2013
    Messages
    388
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Conseil

    Informations forums :
    Inscription : Janvier 2013
    Messages : 388
    Points : 692
    Points
    692
    Par défaut
    Salut,
    Pour compléter la réponse de Jasmine. Remplace la regex :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    m/[\(,](".[^"]+")+[,\)]/
    par :
    L'option g permet de récupérer tous les correspondances et pas seulement la première. En incluant les parenthèses tu ne peux qu'obtenir le premier élément des listes contenant au moins deux éléments. Le ".[^"]+" impose que l'élément contienne au moins 2 caractères (et donc pas les "Y" ni "N").

  5. #5
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    ... une fois dans le bus, je me suis rendue compte que tu avais dit vouloir le résultat dans un tableau ... donc, voila :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    for (my $i=0; $i<$nb_item; $i++) { 
    	if ($data[$i] =~ m/^\(".+"\)$/) {
    		my ($formats_spec) = ( $data[$i] =~ m/[\(,](.*)[,\)]/ ); 
    		my @tab = split (/,/, $formats_spec);
    		print "$i => ". join(' - ',@tab ) ."\n";
    	}
    }
    ce qui te donne le même affichage de sortie
    -- Jasmine --

  6. #6
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Citation Envoyé par __dardanos__ Voir le message
    Salut,
    Pour compléter la réponse de Jasmine. Remplace la regex :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    m/[\(,](".[^"]+")+[,\)]/
    par :
    L'option g permet de récupérer tous les correspondances et pas seulement la première. En incluant les parenthèses tu ne peux qu'obtenir le premier élément des listes contenant au moins deux éléments. Le ".[^"]+" impose que l'élément contienne au moins 2 caractères (et donc pas les "Y" ni "N").
    Je pense qu'il n'a qu'un seul couple de parenthèses par regexp , vu :
    1) la structure de son fichier d'entrée en exemple
    2) cette ligne
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    my @data = split('\t',$ligne);
    Enfin, avec ces réponses, il a de quoi résoudre son problème maintenant
    -- Jasmine --

  7. #7
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Une dernière chose au sujet de parcourir ligne par ligne ton fichier, voici comment je ferais :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
     
    use strict;
    use warnings;
     
    my $file = "table_test.csv";
     
    if (-f $file){
     
    	open(FIC, $file) or die "Couldn't open file, $!"; 
     
    	while(my $ligne = <FIC>){
     
    		chomp($ligne);
     
    		my @data = split('\t',$ligne);
    		my $nb_item = @data;
     
    		for (my $i=0; $i<$nb_item; $i++) { 
     
    			if ($data[$i] =~ m/^\(".+"\)$/) {
    				my ($formats_spec) = ( $data[$i] =~ m/[\(,](.*)[,\)]/ ); 
    				my @tab = split (/,/, $formats_spec);
    				print "$i => ". join(' - ',@tab ) ."\n";
    			}
    		}
    	}
     
    	close(FIC);
    }
    -- Jasmine --

  8. #8
    Membre à l'essai
    Homme Profil pro
    amateur autodidacte parfait (et total !)
    Inscrit en
    Juillet 2015
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : amateur autodidacte parfait (et total !)

    Informations forums :
    Inscription : Juillet 2015
    Messages : 12
    Points : 10
    Points
    10
    Par défaut
    Bonjour à tous,

    et bien je n'ai pas eu le temps de tester pleinement, mais visiblement ce pattern fonctionne très bien ! Je ne vois pas comment je me suis débrouiller pour passer à côté du coup, une fois vos solutions sous les yeux.

    Si j'ai le moindre problème je reviens vers vous rapidement.

    Merci beaucoup pour vos réponses et votre aide très appréciés !

  9. #9
    Membre émérite
    Avatar de Jasmine80
    Femme Profil pro
    Bioinformaticienne
    Inscrit en
    Octobre 2006
    Messages
    3 157
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 44
    Localisation : Royaume-Uni

    Informations professionnelles :
    Activité : Bioinformaticienne
    Secteur : Santé

    Informations forums :
    Inscription : Octobre 2006
    Messages : 3 157
    Points : 2 673
    Points
    2 673
    Par défaut
    Juste, pour reprendre le perl en m'amusant, voici ton code revu en plus concis :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    use strict;
    use warnings;
     
    my $file = "table_test.csv";
     
    if (-f $file){
     
    	open(FIC, $file) or die "Couldn't open file, $!"; 
     
    	while(my $ligne = <FIC>){
     
    		# on supprime le début et fin de ligne inutiles
    		$ligne =~ s/^[^\(]*\((.*)\)[^\)]*$/$1/;
     
    		# on supprime tous le texte intermédiaire inutile
    		my @data = split(/\).*?\(/,$ligne);
     
    		# on affiche le résultat
    		# si besoin : le nombre d'éléments est $#data
    		for (my $i=0; $i<$#data; $i++) { 
    			print "$i => ". $data[$i]."\n";
    		}
    	}
    	close(FIC);
    }
    maintenant, cela ne compte plus tous les éléments séparés selon le \t (précédemment : $nb_item), mais je pense que tu n'en avais besoin que pour parcourir ton tableau
    -- Jasmine --

  10. #10
    Membre à l'essai
    Homme Profil pro
    amateur autodidacte parfait (et total !)
    Inscrit en
    Juillet 2015
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : amateur autodidacte parfait (et total !)

    Informations forums :
    Inscription : Juillet 2015
    Messages : 12
    Points : 10
    Points
    10
    Par défaut
    Hello Jasmine et dardanos,

    je suis désolé pour ce retour tardif sur vos solutions, les vacances...

    Vos 2 solutions fonctionnent bien du coup celle de dardanos mes permets de faire moins de modifs dans mon script, juste le pattern qui ne fonctionnait pas. Ma bourde était visiblement à plusieurs niveaux : le .[^"]+ effectivement, je n'y avais pas fait attention, et d'autre part que initialement je n'ai pas à me focaliser sur les () ou les virgules car mes données sont entre "".

    J'ai cependant découvert certaines choses bien utiles qui m'étaient inconnues dans vos propositions, comme la fonction -f filename par exemple.

    Mon script devient (en le dépouillant du reste inutile ici) :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
     
    #!/usr/bin/perl
     
    use strict;
    use warnings;
     
    my $file = "input/table_test.csv";
     
    if (-f $file){
     
    	open(FIC, $file) or die "Couldn't open file, $!"; 
     
    	while(my $ligne = <FIC>){
     
    		chomp($ligne);
     
    		my @data = split('\t',$ligne);
     
    		for (my $i=0; $i<($#data+1); $i++) { 
     
    			if ($data[$i] =~ m/^\(".+"\)$/) {
    				my (@formats_spec) = ( $data[$i] =~ m/"([^"]*)"/g ); 
    				for (my $i2=0; $i2<($#formats_spec+1); $i2++) { print "\tn# $i2 = $formats_spec[$i2]"; } print "\n";
    			}
    		}
    	}
     
    	close(FIC);
    }
    Merci à tous les deux, je vais pouvoir poursuivre !

  11. #11
    Rédacteur/Modérateur

    Avatar de Lolo78
    Homme Profil pro
    Conseil - Consultant en systèmes d'information
    Inscrit en
    Mai 2012
    Messages
    3 612
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Conseil - Consultant en systèmes d'information
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Mai 2012
    Messages : 3 612
    Points : 12 256
    Points
    12 256
    Billets dans le blog
    1
    Par défaut
    Juste deux façons un peu plus idiomatiques de parcourir un tableau en Perl.

    Tu as:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
     
    for (my $i=0; $i<($#data+1); $i++) { 
    	if ($data[$i] =~ m/^\(".+"\)$/) {
    Comme tu n'utilises pas la variable $i pour autre chose que l'accès au contenu du tableau, il est préférable d'itérer directement sur le contenu:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
     
    for my $element (@data) {
         if ($element  =~ m/^\(".+"\)$/) {
    Il y a moins de risque d'erreur sur les indices, c'est plus lisible et ça tourne un peu plus vite (ce qui n'a d'importance que si ton tableau est très gros).

    Et même si tu as besoin d'utiliser explicitement ton indice pour autre chose, comme dans ta seconde boucle:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
     
    for (my $i2=0; $i2<($#formats_spec+1); $i2++) { 
        print "\tn# $i2 = $formats_spec[$i2]"; 
    }
    il est plus facile d'écrire:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
     
    for my $i2 (0..$#formats_spec) { 
        print "\tn# $i2 = $formats_spec[$i2]"; 
    }
    ou même éventuellement (mais j'aime moins):
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
     
    my $i2 = 0;
    for my $items (@formats_spec) {
        print "\t# ", $i2++, " $item";
    }

  12. #12
    Membre à l'essai
    Homme Profil pro
    amateur autodidacte parfait (et total !)
    Inscrit en
    Juillet 2015
    Messages
    12
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : amateur autodidacte parfait (et total !)

    Informations forums :
    Inscription : Juillet 2015
    Messages : 12
    Points : 10
    Points
    10
    Par défaut
    Ha oui ! Je n'ai pas une très grande expérience du scripting avec Perl, je n'ai pas ce genre de réflexe, mais il est vrai que cette façon de lire le tableau est beaucoup plus concise. Je vais essayer de l'utiliser autant que possible, c'est bien plus léger et compréhensible.

    Merci pour cette info

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Récupérer toutes les occurences d'un clip
    Par threaded dans le forum ActionScript 3
    Réponses: 2
    Dernier message: 30/04/2010, 11h52
  2. [RegEx] Récupérer toutes les occurences
    Par lcfseth dans le forum Langage
    Réponses: 6
    Dernier message: 07/11/2009, 17h37
  3. Réponses: 14
    Dernier message: 13/07/2007, 12h05
  4. Récupérer toutes les occurences d'une regex ?
    Par ViRouF dans le forum Collection et Stream
    Réponses: 1
    Dernier message: 26/01/2007, 10h40
  5. [RegEx] Regex : récupérer toutes les occurences dans une chaîne
    Par Poulpynette dans le forum Langage
    Réponses: 1
    Dernier message: 10/10/2006, 10h14

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo