IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Recherche de tous les patterns


Sujet :

Python

  1. #1
    Nouveau candidat au Club
    Homme Profil pro
    Directeur technique
    Inscrit en
    Juin 2018
    Messages
    1
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Directeur technique

    Informations forums :
    Inscription : Juin 2018
    Messages : 1
    Par défaut Recherche de tous les patterns
    Bonjour
    J'ai le bout de code suivant qui recherche toutes les suites numériques de longueur 2

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    import re
    text='436as25'
    print(re.findall('\d{2,2}',text))
    Le résultat est
    Pourquoi 36 n'est pas matché?
    Comment faire en sorte que 36 soit matché?

  2. #2
    Membre prolifique
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 840
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 840
    Billets dans le blog
    1
    Par défaut
    Bonjour
    Citation Envoyé par redadida Voir le message
    Pourquoi 36 n'est pas matché?
    Parce que le "3" a déjà été consommé par le 43. Il ne sera donc pas réutilisé une seconde fois. Tu auras un résultat analogue avec text='4365as25' où tu auras "43" et "65" mais pas "36".
    Citation Envoyé par redadida Voir le message
    Comment faire en sorte que 36 soit matché?
    Je ne pense pas que cela soit possible via une regex simple (mais je ne suis pas assez calé en regex pour être catégorique). Mais rien ne t'interdit d'écrire une instruction qui découpe la chaine de base en n chaines de 2 caractères et qui regarde si chacun de ces 2 caractères est une suite de 2 chiffres => print(tuple(text[i:i+2] for i in range(len(text)) if re.match(r'\d{2}', text[i:i+2]))).
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  3. #3
    Invité
    Invité(e)
    Par défaut
    Ou plus lisiblement :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    >>> text='436as25'
    >>> count = 0
    >>> for l in text:
    	count+=1
    	try:
    		print(int(l+text[count]))
    	except:
    		None
     
     
    43
    36
    25

  4. #4
    Membre prolifique
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 840
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 840
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par LeNarvalo Voir le message
    Ou plus lisiblement :
    Ca dépend pour qui. Déjà tu as enumerate() qui te permet de générer un compteur qui montera en parallèle avec l'itérateur ce qui évite de mettre un quelconque count à 0 puis de l'incrémenter artificiellement => for (count, l) in enumerate(text, 1).
    Et surtout ma méthode (qui est basée sur la syntaxe des listes en intension parfaitement lisible pour qui connait ce concept) permet de récupérer tout item matchant n'importe quel pattern (ici il ne voulait que des chiffres mais il aurait voulu que les chiffres pairs ça le faisait aussi) tandis que la tienne, qui se base sur la possibilité de passer une string en int, montrera ses limites pour ce second cas.

    A la limite tu voulais faire plus lisible tu réécrivais la comprehension list en mode explicite
    Code python : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    res=[]
    for i in range(len(text)):
    	if re.match(r'\d{2}', text[i:i+2]): res.append(test[i:i+2])
    print(res)

    Accessoirement écrire "plus lisible" c'est au-moins écrire les bonnes instructions car l'instruction neutre ce n'est pas None mais pass
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  5. #5
    Expert confirmé
    Avatar de fred1599
    Homme Profil pro
    Lead Dev Python
    Inscrit en
    Juillet 2006
    Messages
    4 064
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Meurthe et Moselle (Lorraine)

    Informations professionnelles :
    Activité : Lead Dev Python
    Secteur : Arts - Culture

    Informations forums :
    Inscription : Juillet 2006
    Messages : 4 064
    Par défaut
    Hello,

    Voilà une meilleure solution concernant le try - except,

    Il est vrai que except seul est pas conseillé, ni le pass... dans notre cas,

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    text='436as25'
    count = 0
    for l in text:
        count+=1
        try:
            print(int(l+text[count]))
        except (IndexError, ValueError):
            continue

  6. #6
    Expert confirmé Avatar de CosmoKnacki
    Homme Profil pro
    Justicier interdimensionnel
    Inscrit en
    Mars 2009
    Messages
    2 986
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Charente Maritime (Poitou Charente)

    Informations professionnelles :
    Activité : Justicier interdimensionnel

    Informations forums :
    Inscription : Mars 2009
    Messages : 2 986
    Par défaut
    Sinon la ruse pour contourner ce problème de caractères qui ne peuvent pas être consommés deux fois, c'est de placer un groupe de capture dans un test avant (lookahead). Le test avant ne consomme pas de caractères car ce n'est qu'un test, par contre le contenu du groupe de capture sera bien renvoyé par re.findall:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    >>> re.findall(r'(?=(\d{2}))', '436as25')
    ['43', '36', '25']

  7. #7
    Membre prolifique
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 840
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 840
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par CosmoKnacki Voir le message
    Sinon la ruse pour contourner ce problème de caractères qui ne peuvent pas être consommés deux fois, c'est de placer un groupe de capture dans un test avant (lookahead).
    Voilà. Heureusement que j'avais dit "je ne pense pas" et "je ne suis pas assez calé en regex" car c'est bel et bien possible !!!
    Ceci dit, redadida n'est pas revenu. Enfin cela nous aura permis de comparer nos solutions
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  8. #8
    Membre Expert Avatar de tsuji
    Inscrit en
    Octobre 2011
    Messages
    1 558
    Détails du profil
    Informations forums :
    Inscription : Octobre 2011
    Messages : 1 558
    Par défaut
    La solution conçue comme telle dans python interactif passe quasiment directement pour python .py, pas de problème.
    Code python : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    import re
    text='436as25'
    rx=r'(?=(\d{2}))'
    am=re.findall(rx,text)
    print(am)    #[ '43', '36', '25' ]

    Ce n'est pas de problème. Le problème soulevé est l'impact de ce comportement de matcher 'rien' mais avoir des sous-matchs bien remplis. On peut se demander est-ce que le comportement est portable aux moteurs utilisés dans différents langages, par example nodejs/javascript ou autres ? Un premier essaye montre tout de suite quelque problème grave. Le rendrement assez équivalent en nodejs/javascript est quelquechose comme ça.
    Code nodejs : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    //WRONG - boucle infinie ['43','43','43','43','43',...]
    var text='436as25';
    var rx=/(?=(\d{2}))/g;
    var am=[];
     
    while(m=rx.exec(text)) {
        am.push(m.join(''));
    }
    console.log(am);
    Le problème vient du fait que le pointeur interne de location ne s'avance pas quand le match n'est pas malgré le sous-match est rempli.

    Pour construire la regex qui a une chance d'être portable aux moteurs des langages variés, il vaut mieux de concevoir une regex qui match qqc au lieu de 'rien'. A mon avis, il vaut mieux de faire avec une variation minimale dans ce sens comme ça.
    Code python3 : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    import re
    text='436as25'
    rx=r'(\d)(?=(\d))'
    am=[''.join(m) for m in re.findall(rx,text)]
    print(am)    #[ '43', '36', '25' ]
    et ce marcherait pour des différents langages, comme encore en nodejs:
    Code nodejs : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    var text='436as25';
    var rx=/(\d)(?=(\d))/g;
    var am=[];
     
    while(m=rx.exec(text)) {
        am.push(m.slice(1).join(''));
    }
    console.log(am);    #[ '43', '36', '25' ]
    Voilà ce que je veux apporter.

  9. #9
    Expert confirmé Avatar de CosmoKnacki
    Homme Profil pro
    Justicier interdimensionnel
    Inscrit en
    Mars 2009
    Messages
    2 986
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Charente Maritime (Poitou Charente)

    Informations professionnelles :
    Activité : Justicier interdimensionnel

    Informations forums :
    Inscription : Mars 2009
    Messages : 2 986
    Par défaut
    Citation Envoyé par Sve@r
    Ceci dit, redadida n'est pas revenu.
    Ne perdons pas espoir: Nul ne sort de Suresnes du forum Python, qui souvent n'y revienne.

    Citation Envoyé par tsuji
    Le problème vient du fait que le pointeur interne de location ne s'avance pas
    C'est tout à fait vrai, mais c'est une particularité de la méthode RegExp.prototype.exec() qui à chaque fois qu'elle est appelée se base sur la propriété lastIndex puis la mets à jour. Les autres méthodes ont bien leur pointeur qui avance comme on pourrait s'y attendre malgré le fait que la pattern soit de "largeur nulle" (zero-width pattern). On peut d'ailleurs tout à fait brader RegExp.prototype.exec() contre la méthode RegExp.prototype.matchAll() (depuis Node.js 12) qui renvoie un itérateur:
    Code javascript : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    > Array.from('436as25'.matchAll(/(?=(\d{2}))/g), m => m[1]);
    [ '43', '36', '25' ]

    Sur les versions plus anciennes de Node.js (ou des navigateurs), il suffit effectivement de forcer l'incrémentation de lastIndex en consommant un caractère:
    Code javascript : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    let txt = '436as25',
        rx = /(?=(\d{2}))./g,
        am = [];
     
    while ( (m = rx.exec(txt)) !== null ) {
        am.push(m[1]);
    }
     
    console.log(am); // [ '43', '36', '25' ]

    Après la recherche de la pattern "portable", je n'y crois pas beaucoup. Le simple fait d'utiliser un test avant (lookahead) laisse sur le bord de la route tout ce qui s'en tient à la norme POSIX. En plus de ça, re.findall() renvoie une simple liste des contenus de l'unique groupe de capture (et non pas une liste des correspondances globales ou une liste de listes ou encore une liste d'objets); c'est déjà une sacrée particularité et une facilité qu'on ne retrouve pas partout et que cette pattern exploite sans vergogne.

  10. #10
    Invité
    Invité(e)
    Par défaut
    Citation Envoyé par fred1599 Voir le message
    Hello,

    Il est vrai que except seul est pas conseillé, ni le pass... dans notre cas,
    J'avoue ne jamais mettre pencher sérieusement sur ce truc, c'est quoi le problème si j'utilise except : et None ou pass ou autre ?

  11. #11
    Membre Expert Avatar de tsuji
    Inscrit en
    Octobre 2011
    Messages
    1 558
    Détails du profil
    Informations forums :
    Inscription : Octobre 2011
    Messages : 1 558
    Par défaut
    /(?=(\d{2}))./g
    Je crois ceci est encore plein d'esprit ("witty") mais il vaut mieux éviter de raisonner en regex normalement et quand on sait le point doit être un nombre. Il a sa place dans certains cas, c'est possible.

    Quant à sacrée particularité, je trouve plutôt la méthode findall y être. Les types de variables particulaire n'en est pas : python a plein de droit de définir ce que les auteurs souhaient d'en avoir, le tuple ... et je trouve plutôt très bien fait. Mais la méthode findall est vraiment déborder la normalité. Ne trouvez-vous pas étrange qu'il comporte comme ça ?
    Code python3 : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    >>> re.findall(r'\d(?=(\d))',text)
    ['3', '6', '5']
    >>> re.findall(r'\d(?=\d)',text)
    ['4', '3', '2']
    >>>
    C'est comme si findall veuille dire trouver-tous-groupes - et si il n'y en a pas un groupé par les parenthèses, l'expression entière forme un groupe par défaut. Ceci tombe pourtant favorablement le jeu du pattern r'(?=(\d{2})).' que je ne suis pas trop impressionné à vrai dire !

    Voilà quelques opinions juste à moi.

  12. #12
    Membre prolifique
    Avatar de Sve@r
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2006
    Messages
    12 840
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Février 2006
    Messages : 12 840
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par LeNarvalo Voir le message
    c'est quoi le problème si j'utilise except :
    Tu interceptes toutes les exceptions qui héritent de la racine "Exception". Y compris donc des exceptions qui pourraient avoir une autre cause que l'échec de conversion en int et qui pourraient t'aider à renforcer ton programme mais que tu ne vois pas. Imaginons par exemple que ton algo ait généré un fils pour faire autre chose et le fils meurt, tu reçois alors un ChildProcessError mais ton code le prend en charge comme une erreur de conversion en int et tu ne le vois pas.

    Citation Envoyé par LeNarvalo Voir le message
    None ou pass ou autre ?
    Ben là sais pas trop. None c'est une valeur qu'on affecte à une variable (comme 0 ou 12 ou 17) tandis que pass c'est une instruction. Il me semble plus logique alors d'écrire une instruction là où Python attend une instruction plutôt que de lui mettre une valeur. Ok écrire (par exemple) 18 c'est aussi une instruction mais comme ça tout seul sans être affecté ou utilisé ça sonnerait bizarre. Donc écrire None ça devrait sonner tout aussi bizarre.
    Mon Tutoriel sur la programmation «Python»
    Mon Tutoriel sur la programmation «Shell»
    Sinon il y en a pleins d'autres. N'oubliez pas non plus les différentes faq disponibles sur ce site
    Et on poste ses codes entre balises [code] et [/code]

  13. #13
    Expert confirmé
    Avatar de fred1599
    Homme Profil pro
    Lead Dev Python
    Inscrit en
    Juillet 2006
    Messages
    4 064
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Meurthe et Moselle (Lorraine)

    Informations professionnelles :
    Activité : Lead Dev Python
    Secteur : Arts - Culture

    Informations forums :
    Inscription : Juillet 2006
    Messages : 4 064
    Par défaut
    Citation Envoyé par LeNarvalo Voir le message
    J'avoue ne jamais mettre pencher sérieusement sur ce truc, c'est quoi le problème si j'utilise except : et None ou pass ou autre ?
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    bad_practices = set()
    for response in "https://stackoverflow.com/questions/21553327/why-is-except-pass-a-bad-programming-practice":
        bad_practices.add(response)
    print(len(bad_practices))

Discussions similaires

  1. [PHP] recherche de tous les parents (ancestor)
    Par jeff_! dans le forum XSL/XSLT/XPATH
    Réponses: 4
    Dernier message: 04/04/2006, 11h37
  2. Réponses: 2
    Dernier message: 07/03/2006, 15h27
  3. une requete effectuant une recherche sur tous les champs
    Par raynor911 dans le forum Langage SQL
    Réponses: 3
    Dernier message: 13/02/2006, 15h06
  4. [MySQL] Rechercher dans tous les champs
    Par Faure dans le forum PHP & Base de données
    Réponses: 2
    Dernier message: 05/10/2005, 14h52
  5. Recherche sur tous les fichiers d'un projet
    Par Kaorichan dans le forum Eclipse Java
    Réponses: 2
    Dernier message: 28/04/2005, 11h28

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo