Comment extraire un mot avec une regex ?

**Naunau75** · 14/06/2018, 08h39

Bonjour à tous,

je voudrais utiliser des regex pour extraire l'attribut d'un mot. Par exemple :
Paris is the capital of France = je veux extraire "capital"
mais
Paris is the big city in France = je veux extraire "city"

J'ai commencé avec cette regex :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

r"(is|was|were|are)\s[(a|the)]\s(\S*)"

mais je suis bloqué. Je peux changer le group (après un compile et un search) mais ça ne marche pas de façon automatique. Comme dois-je m'y prendre ?

Merci

**zancrows** · 14/06/2018, 10h17

Bonjour,

du code pourrait aider à la compréhension, car la votre explication n'est pas très claire.

**Naunau75** · 14/06/2018, 10h22

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
from parsy import Parsy
import sys
import re
 
comp_reg = re.compile(r"(is|was|were|are|mean|means|will be|to be|can be)\s[(a|the|an|The)]\s(\S*)")
 
 
if len(sys.argv) != 3:
    print(__doc__)
    sys.exit(-1)
 
def extractType(page):
    m = comp_reg.search(page.content)
    if m:
        return m.group(2)
    else:
        return None
 
with open(sys.argv[2], 'w', encoding="utf-8") as output:
    for page in Parsy(sys.argv[1]):
        typ = extractType(page)
        if typ:
            output.write(page.title + "\t" + typ + "\n")

page.content est une phrase. Par exemple :
Toronto is the largest city in Canada. --> je veux extraire city
Albert Einstein was a scientist. --> je veux extraire scientist

avec uniquement une regex

**zancrows** · 14/06/2018, 10h34

C'est tout le code ?

car si c'est le cas il y a plusieurs problèmes, l'indentation des conditions n'est pas bonne, et les return hors fonctions etc...
mais comme page.content n'est pas défini je suppose qu'il y a plus de code que ça, sans un code fonctionnel difficile de tester sois même.
Vous voulez dire quoi par automatique ?
sinon ce site https://regex101.com/ peut vous aider à créer un regex

**Naunau75** · 14/06/2018, 10h41

Pardon, j'ai mis à jour le code.
page.content est une phrase (le content de page) et page.title le titre de page.

**zancrows** · 14/06/2018, 11h20

je sais pas si ça peut t'aider, j'ai modifié un peu ton code

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
# from parsy import Parsy
import sys
import re
 
comp_reg = re.compile(r"(is|was|were|are|mean|means|will be|to be|can be)\s[(a|the|an|The)]\s(\S*)")
 
 
# if len(sys.argv) != 3:
    # print(__doc__)
    # sys.exit(-1)
 
page = ["Toronto is the largest city in Canada.", 
        "Albert Einstein was a scientist.", 
        "Paris is the capital of France",
        "Paris is the big city in France"]
 
def extractType(page):
    m = comp_reg.search(page)
    if m:
        return m.group(2)
    else:
        return None
 
 
for i, str in enumerate(page):
    print(extractType(str))

résultat:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
 
None
scientist.
None
None

**BufferBob** · 14/06/2018, 15h48

salut,

Envoyé par Naunau75

je voudrais utiliser des regex pour extraire l'attribut d'un mot. Par exemple :
Paris is the capital of France = je veux extraire "capital"

donc ce que tu veux extraire ce n'est pas l'attribut, c'est le sujet

ce que tu cherches à faire n'a en fait aucun sens; sur quoi on se base pour établir une telle regex ? on met dans les parenthèses la totalité des formes conjuguées possibles et imaginables ?
si on a la phrase "the biggest city of France is known to be Paris" la regex tombe à l'eau ?

une solution plus appropriée -en l'absence d'indications plus précises- serait d'effectuer un étiquetage de chaque mot dans la phrase, et récupérer le nom
avec le module nltk par exemple :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
>>> import nltk
>>> page = ['Toronto is the largest city in Canada.', 'Albert Einstein was a scientist.', 'Paris is the capital of France', 'Paris is the big city in France']
>>> [[word[0] for word in nltk.pos_tag(nltk.word_tokenize(phrase)) if word[1] == 'NN'][0] for phrase in page]
['city', 'scientist', 'capital', 'city']

**Naunau75** · 14/06/2018, 22h46

Merci. J'avais pensé à nltk mais pensais que je pouvais me débrouiller sans ...
J'ai un souci quand il y a pas de NN dans la phrase. Voici mon code mais ça ne marche pas :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
from parsy import Parsy
import sys
import re
import nltk
 
 
if len(sys.argv) != 3:
    print(__doc__)
    sys.exit(-1)
 
def extractType(page):
    bibi = [word[0] if word[1] == 'NN' else None for word in nltk.pos_tag(nltk.word_tokenize(page.content))]
    return list(filter(None.__ne__, bibi))[0]
 
with open(sys.argv[2], 'w', encoding="utf-8") as output:
    for page in Parsy(sys.argv[1]):
        typ = extractType(page)
        if typ:
            output.write(page.title + "\t" + typ + "\n")

**Naunau75** · 15/06/2018, 09h24

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

return [word[0] for word in nltk.pos_tag(nltk.word_tokenize(page.content)) if (word[1] == 'NN' or word[1] == 'NNS')][0]

avec la liste de compréhension, je cherche les NN et les NNS mais si y en a pas dans la phrase, je voudrais renvoyer None. Mais comment faire avec une liste de compréhension ?
Merci

**wiztricks** · 15/06/2018, 10h15

Envoyé par Naunau75

[CODE]Mais comment faire avec une liste de compréhension ?

La list-comprehension fabrique une liste, si elle est vide l'accès au premier élément [0] plantera en IndexError.
Et pour éviter çà, il suffit de séparer construction de la liste et cet accès pour vérifier qu'elle n'est pas vide.

- W

Comment extraire un mot avec une regex ?

Python

Vue hybride

Discussions similaires

Partager

Partager