IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

rechercher (et extraire) du texte entre marqueurs fixes


Sujet :

Python

  1. #1
    Futur Membre du Club
    Profil pro
    Inscrit en
    Décembre 2007
    Messages
    19
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2007
    Messages : 19
    Points : 7
    Points
    7
    Par défaut rechercher (et extraire) du texte entre marqueurs fixes
    Bonjour,

    Je voudrais savoir comment coder le plus proprement possible une extraction de chaines de caractère entre marqueurs fixes (ici les deuxièmes " ... ") :

    aaaaaaaaa " aaaa " aaaaaaa "motàextraire1" aaaaa
    bbbbbbbbbbbb " bbbbbb " bbbbbbbbb "motàextraire2" bb

    Merci pour vos conseils!

  2. #2
    Membre averti
    Homme Profil pro
    Ingénieur développement logiciels
    Inscrit en
    Avril 2004
    Messages
    253
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Ingénieur développement logiciels
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2004
    Messages : 253
    Points : 446
    Points
    446
    Par défaut
    Bonjour,

    si les guillemets sont tes séparateurs, tu peux utiliser la méthode 'split' et prendre le nième élément qui t'interresse:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    >>> line='aaaaaaaaa " aaaa " aaaaaaa "motàextraire1" aaaaa'
    >>> line.split('"')[3]
    'mot\x85extraire1'
    Il est agréable d'avoir le choix. La difficulté est alors de faire le bon (ou le moins pire).

  3. #3
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 283
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 283
    Points : 36 770
    Points
    36 770
    Par défaut
    Salut,

    Citation Envoyé par Niazov Voir le message
    Je voudrais savoir comment coder le plus proprement possible une extraction de chaines de caractère entre marqueurs fixes (ici les deuxièmes " ... ") :

    aaaaaaaaa " aaaa " aaaaaaa "motàextraire1" aaaaa
    bbbbbbbbbbbb " bbbbbb " bbbbbbbbb "motàextraire2" bb
    Le plus propre serait de passer par des expressions régulières et le module re. Le plus simple est de trouver l'index de tous les '"', d'extraire le contenu qui est entre le 3ème et le 4ème car ce sont des fonctionnalités de base des chaînes de caractères. Mais comme c'est vous qui codez, c'est à vous de voir.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  4. #4
    Futur Membre du Club
    Profil pro
    Inscrit en
    Décembre 2007
    Messages
    19
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2007
    Messages : 19
    Points : 7
    Points
    7
    Par défaut
    Merci Fifan31!

    Merci aussi wiztricks! Pour la solution en expression régulière, quelle est la syntaxe pour extraire le contenu entre deux marqueurs?

  5. #5
    Futur Membre du Club
    Profil pro
    Inscrit en
    Décembre 2007
    Messages
    19
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2007
    Messages : 19
    Points : 7
    Points
    7
    Par défaut
    Avec le code
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    from os import *
    with open ("liste.txt", "rt") as worklist:
        for line in worklist:
            print(line.split('"')[3])
        end
    il me met le message d'erreur :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
     
    with open ("liste.txt", "rt") as worklist:
    TypeError: an integer is required (got type str)

  6. #6
    Expert éminent
    Avatar de fred1599
    Homme Profil pro
    Lead Dev Python
    Inscrit en
    Juillet 2006
    Messages
    3 817
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Meurthe et Moselle (Lorraine)

    Informations professionnelles :
    Activité : Lead Dev Python
    Secteur : Arts - Culture

    Informations forums :
    Inscription : Juillet 2006
    Messages : 3 817
    Points : 7 110
    Points
    7 110
    Par défaut
    Une solution parmi tant d'autres avec les expressions régulières

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    import re
     
    PATTERN = "(\"\s?\w+\s?\")"
     
    line='aaaaaaaaa " aaaa " aaaaaaa "motàextraire1" aaaaa'
     
    res = re.findall(PATTERN, line)
     
    _, value = map(lambda x: x.strip('"'), res)
     
    print(value)
    Celui qui trouve sans chercher est celui qui a longtemps cherché sans trouver.(Bachelard)
    La connaissance s'acquiert par l'expérience, tout le reste n'est que de l'information.(Einstein)

  7. #7
    Membre confirmé

    Homme Profil pro
    Bidouilleur
    Inscrit en
    Avril 2016
    Messages
    721
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Bidouilleur

    Informations forums :
    Inscription : Avril 2016
    Messages : 721
    Points : 503
    Points
    503
    Billets dans le blog
    1
    Par défaut
    En utilisant les goups de re

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    >>> line='aaaaaaaaa " aaaa " aaaaaaa "motàextraire1" aaaaa'
    >>> print(re.search('.*"[^"]+".*"([^"]+)".*', line).group(1))
    motàextraire1
    Le temps ronge l'amour comme l'acide.

  8. #8
    Futur Membre du Club
    Profil pro
    Inscrit en
    Décembre 2007
    Messages
    19
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Décembre 2007
    Messages : 19
    Points : 7
    Points
    7
    Par défaut
    Merci Fred et Bistouille!

  9. #9
    Expert éminent Avatar de BufferBob
    Profil pro
    responsable R&D vidage de truites
    Inscrit en
    Novembre 2010
    Messages
    3 035
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : responsable R&D vidage de truites

    Informations forums :
    Inscription : Novembre 2010
    Messages : 3 035
    Points : 8 400
    Points
    8 400
    Par défaut
    salut,

    Citation Envoyé par wiztricks Voir le message
    Le plus propre serait de passer par des expressions régulières et le module re. Le plus simple est de trouver l'index de tous les '"', d'extraire le contenu qui est entre le 3ème et le 4ème car ce sont des fonctionnalités de base des chaînes de caractères. Mais comme c'est vous qui codez, c'est à vous de voir.
    je suis pas vraiment d'accord, tout dépend de comment on trouve la chaine, ici le PO précise que la chaine à extraire est entre la 2e paire de guillemets, donc line.split('"')[3] s'impose assez naturellement pour le coup (la première réponse de Fifan31), alors que la regex correspondante serait un truc du genre re.search('^(?:.*?"){3}(.+?)"', line).group(1) nettement moins lisible

    à l'inverse, si on considère qu'on a rien de précis pour caractériser la chaine, on pourrait aussi bien faire un re.findall('motàextraire\d', line)[0]

  10. #10
    Expert éminent sénior
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 283
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 283
    Points : 36 770
    Points
    36 770
    Par défaut
    Citation Envoyé par BufferBob Voir le message
    je suis pas vraiment d'accord, tout dépend de comment on trouve la chaine, ici le PO précise que la chaine à extraire est entre la 2e paire de guillemets, donc line.split('"')[3] s'impose assez naturellement pour le coup (la première réponse de Fifan31), alors que la regex correspondante serait un truc du genre re.search('^(?:.*?"){3}(.+?)"', line).group(1) nettement moins lisible
    Je suis globalement d'accord mais "lisible" çà dépend pour qui et pour quoi.
    Par exemple, si on dit "la chaîne à extraire est entre la 2e paire de guillemets", si je dois traduire çà en regexp, j'écrirai plutôt re.findall('"(.*?)"', line)[1]. i.e. je découpe suivant les paires de guillemets puis je récupère la 2ème chaîne.

    Si on écrit re.search('^(?:.*?"){3}(.+?)"', line).group(1), çà le fait, certes mais çà fait beaucoup plus... pas nécessairement utile.

    line.split('"')[3] est habile.... mais attrape tout ce qui vient après le 3ème guillemet - et stricto sensu, ce n'est pas ce qu'on demande.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

Discussions similaires

  1. Extraire un texte entre balises
    Par battl14 dans le forum MS SQL Server
    Réponses: 3
    Dernier message: 09/06/2009, 09h41
  2. [RegEx] Extraire un texte entres balises html ?
    Par booraq dans le forum Langage
    Réponses: 2
    Dernier message: 01/07/2007, 15h56
  3. Regexp: extraire du texte entre deux balises
    Par moook dans le forum Langage
    Réponses: 11
    Dernier message: 19/06/2007, 18h08
  4. [RegExp] Extraire le texte entre 2 balises
    Par d1g-2-d1g dans le forum Général JavaScript
    Réponses: 5
    Dernier message: 27/02/2007, 19h15
  5. Réponses: 24
    Dernier message: 20/08/2006, 14h08

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo