IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

Y a-t-il un des "xx" caractères dans ma chaine ?


Sujet :

Python

  1. #1
    Membre émérite
    Avatar de Antoine_935
    Profil pro
    Développeur web/mobile
    Inscrit en
    Juillet 2006
    Messages
    883
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations professionnelles :
    Activité : Développeur web/mobile

    Informations forums :
    Inscription : Juillet 2006
    Messages : 883
    Par défaut Y a-t-il un des "xx" caractères dans ma chaine ?
    Salute

    Je cherche à savoir si une chaine de caractère contient un des caractères *, ? ou [
    L'équivalent de ceci, en fait:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    >>> machaine = '/home/antoine/*'
    >>> for c in machaine:
    ...     if c in {'*', '?', '['}:
    ...         print("Oui")
    ...         break
    ... else:
    ...     print("Non")
    ... 
    Oui
    Je suis convaincu qu'il existait une fonction built-in pour ça... quelqu'un a une idée ?

  2. #2
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 790
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 790
    Par défaut
    Salut,
    Je ne connais pas de tel builtins.
    Sinon, je procèderais plutôt ainsi:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    >>> x = '/home/antoine/*'
    >>> any(x.count(c) for c in '*?[')
    True
    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  3. #3
    Membre Expert
    Homme Profil pro
    Inscrit en
    Mars 2007
    Messages
    941
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Mars 2007
    Messages : 941
    Par défaut
    J'écrirais cela plutôt ainsi:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    >>> x = '/home/antoine/*'
    >>> any(c in x for c in '*?[')
    C'est plus générique (s'applique à tout conteneur qui implémente __contains__), et potentiellement plus rapide (count parcourt toute la chaîne alors que in s'arrêtera à la première occurence).
    Pour reproduire le résultat du code original:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    >>> machaine = '/home/antoine/*'
    >>> ("Non","Oui")[any(c in x for c in '*?[')]
    'Oui'
    >>> # ou plus joli:
    >>> "Oui" if any(c in x for c in '*?[') else "Non"
    'Oui'

  4. #4
    Membre Expert
    Homme Profil pro
    Inscrit en
    Avril 2004
    Messages
    1 080
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Avril 2004
    Messages : 1 080
    Par défaut
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    set(machaine).isdisjoint(set('*?['))
    retourne False si au moins un des caractère est présent ...

  5. #5
    Membre émérite
    Avatar de Antoine_935
    Profil pro
    Développeur web/mobile
    Inscrit en
    Juillet 2006
    Messages
    883
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations professionnelles :
    Activité : Développeur web/mobile

    Informations forums :
    Inscription : Juillet 2006
    Messages : 883
    Par défaut
    Hello

    Les deux premières solutions parcourront 3 fois ma chaine si aucun des trois caractères ne s'y trouve. C'est justement ce que je cherche à éviter...
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    any(x.count(c) for c in '*?[')
    any(c in x for c in '*?[')
    J'aime bien la solution suivante
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    set(machaine).isdisjoint(set('*?['))
    Avec quelques petits aménagements...
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    s = frozenset("*?[")
    s.isdisjoint(machaine)
    Reste à jeter un œuil au code de isdisjoint pour voir s'il traite ça comme il faut

    Merci à tous pour ces solutions

  6. #6
    Membre éclairé
    Avatar de Captain'Flam
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Février 2011
    Messages
    273
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur développement logiciels

    Informations forums :
    Inscription : Février 2011
    Messages : 273
    Billets dans le blog
    1
    Par défaut
    Si je puis me permettre d'ajouter mon grain de sel : combien ça coûte de convertir une chaîne en set ?
    A chaque caractère de la chaîne il va chercher s'il est déjà présent dans le set, non ?

    => parcours en n² au lieu de n...

    à moins d'une optimisation du genre : si c'est un set de caractères (sur 8 bits), il est implémenté avec un tableau de 256 bits.

    Là il nous faut un expert qui connaisse les détails d'implémentation.

  7. #7
    Membre émérite
    Avatar de Antoine_935
    Profil pro
    Développeur web/mobile
    Inscrit en
    Juillet 2006
    Messages
    883
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations professionnelles :
    Activité : Développeur web/mobile

    Informations forums :
    Inscription : Juillet 2006
    Messages : 883
    Par défaut
    Citation Envoyé par Captain'Flam Voir le message
    Si je puis me permettre d'ajouter mon grain de sel : combien ça coûte de convertir une chaîne en set ?
    Pas dit qu'il le fasse, justement... À priori, isdisjoint a juste besoin d'une séquence, et une chaîne de caractère en est une.

    => parcours en n² au lieu de n...
    O(n) ? Quel algo verrais-tu en O(n) ? Tout ce qu'on a évoqué jusqu'ici à part mon tout premier algo est en O(n²). Le gros défaut du premier c'est qu'il est implémenté en Python, donc plus lent que du C. (Et d'ailleurs il n'est en O(n) qu'avec les dernières implémentations de Python).

    Quoiqu'en fait, puisque le nombre d'éléments du frozenset est une constante, on peut dire que ce dernier algo est en O(n)...

    à moins d'une optimisation du genre : si c'est un set de caractères (sur 8 bits), il est implémenté avec un tableau de 256 bits.
    C'est une idée... Si seulement j'étais certain de ne pas avoir de l'unicode

  8. #8
    Expert confirmé
    Avatar de tyrtamos
    Homme Profil pro
    Retraité
    Inscrit en
    Décembre 2007
    Messages
    4 486
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Décembre 2007
    Messages : 4 486
    Billets dans le blog
    6
    Par défaut
    Bonjour,

    Finalement, moi j'aime bien la 1ère version sous forme de fonction. Je ne sais pas si elle est plus rapide, mais au moins on comprend bien ce qu'elle fait au 1er coup d'œil:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
     
    def cherche(ch, motif):
        for c in ch:
            if c in motif:
                return True
        return False
     
    print cherche("azertyuiop", "wyx") # on doit trouver le 'y'
    # True
    print cherche("azertyuiop", "qsd") # on ne trouve rien
    # False
    Tyrtamos

  9. #9
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 790
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 790
    Par défaut
    Salut,

    Si vous cherchez rapide et qui sort dès qu'il à trouvé un match, re.match('[a|b|c]', line) est peut-être plus approprié.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  10. #10
    Expert confirmé
    Avatar de tyrtamos
    Homme Profil pro
    Retraité
    Inscrit en
    Décembre 2007
    Messages
    4 486
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Var (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Retraité

    Informations forums :
    Inscription : Décembre 2007
    Messages : 4 486
    Billets dans le blog
    6
    Par défaut
    Merci pour la proposition, wiztricks, mais je n'arrive pas à la faire fonctionner.

    En fait, savoir si l'une des lettres du motif se retrouve dans la chaine, c'est:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    re.search("[abc]", "qsdfbghj") != None
    Si je veux comparer les temps d'exécution entre cette solution et celle de mon précédent message, je mets cette ligne sous forme de fonction:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
     
    def cherche2(ch, motif):
        return re.search('[' + motif + ']', ch) != None
    Et, contrairement à ce que je pensais, c'est environ 2 fois plus long que ma 1ère fonction... Comme quoi les boucles Python sont bien conçues!

    Cependant, on peut l'utiliser en une seule ligne, ce qui n'est pas le cas de ma 1ère fonction.

    Tyrtamos

  11. #11
    Membre émérite
    Avatar de Antoine_935
    Profil pro
    Développeur web/mobile
    Inscrit en
    Juillet 2006
    Messages
    883
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations professionnelles :
    Activité : Développeur web/mobile

    Informations forums :
    Inscription : Juillet 2006
    Messages : 883
    Par défaut
    Deux fois plus lent... C'est sans doute du à la compilation, qui prend pas mal de temps. Dans mon cas, c'est tjs le même motif, donc on peut compiler la regex à l'avance. C'est déjà ça de gagné.

    Sachant que re est au final implémenté en C, c'est peut-être la meilleure solution, oui Reste à lire un peu le code pour savoir comment le module _sre fonctionne exactement. Le seul souci que je vois, c'est la construction de l'objet SRE_Match... bcp de mémoire pour un simple booléen au final Ça risque de faire travailler le gc inutilement.

    Cela dit, la vitesse n'est pas un facteur crucial en soi... C'est pour un shell, qui la plupart du temps ne sera pas plus rapide que son utilisateur. Mon seul réel souci, c'est de faire propre

  12. #12
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 790
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 790
    Par défaut
    Mon seul réel souci, c'est de faire propre
    Voilà qui est très ouvert et plutôt subjectif...
    Mais le contexte précisé, on peut y mettre du verbe, genre:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
         has_wildcard = lambda s: ('*' in s) or ('?' in s) or ('[' in s)
    Et s'inquiéter des optimisations éventuelles plus tard.
    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  13. #13
    Membre émérite
    Avatar de Antoine_935
    Profil pro
    Développeur web/mobile
    Inscrit en
    Juillet 2006
    Messages
    883
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations professionnelles :
    Activité : Développeur web/mobile

    Informations forums :
    Inscription : Juillet 2006
    Messages : 883
    Par défaut
    Citation Envoyé par wiztricks Voir le message
    Voilà qui est très ouvert et plutôt subjectif...
    Haha oui, c'est vrai que c'est ouvert aux dérapages

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    >>> class ContainsAny:
    ...     def __init__(self, ones):
    ...         self.ones = ones
    ...     
    ...     def __eq__(self, other):
    ...         ones = self.ones
    ...         return any(c in ones for c in other)
    ... 
    >>> globbingExpr = ContainsAny('*?[')
    >>> "hello" == globbingExpr
    False
    >>> "hello*" == globbingExpr
    True
    Ou mieux, puisque les caractères de globbing sont souvent à la fin:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    return any(c in ones for c in reversed(other))
    Quelqu'un a des détails sur l'implémentation de reversed ?

  14. #14
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 790
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 790
    Par défaut
    après un search dans les sources j'ai trouvé un reversed.py contenant:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    def reversed(seq):
        return iter(list(seq)[::-1])
    Beaucoup d'overhead pour de simples chaines de caractères (s[::-1] suffirait non?)... Les caractères recherchés étant de l'ASCII, çà ne devrait pas trop souffrir sur les questions UTF-8/Unicode.
    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  15. #15
    Membre Expert
    Homme Profil pro
    Inscrit en
    Mars 2007
    Messages
    941
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Mars 2007
    Messages : 941
    Par défaut
    Mon seul réel souci, c'est de faire propre
    Tu as bien raison...

    Visiblement, le match se fait sur des chemins de fichiers, qui dépasseront rarement une centaine de caractères.

    Si on vérifie que ces chemins contiennent des wildcards, ils ne sont pas obtenus par un parcours du système de fichier et je ne conçois donc pas qu'il y en ait un grand nombre.

    Optimiser la fonction dans ces conditions est sans intérêt; pas besoin de sacrifier la lisibilité (OK, c'est subjectif, mais quand-même...) sur l'autel des performances.

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo