Tester la présence de plusieurs mots dans une phrase

**Azerty32** · 29/07/2010, 17h59

Bonjour,

Mon problème est simple mais je ne sais pas s'il existe une solution rapide et efficace.
Je souhaite tester la présence de plusieurs mots dans une phrase.

Par exemple :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

phrase = "Ceci est une phrase de test"

Je souhaite tester la présence de "est", "une" et "de" sans avoir à écrire :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
if "est" in phrase and "une" in phrase and "de" in phrase:
   print "OK"

Je ne sais pas si il faut passer par les listes, essayer de découper la phrase, etc...... Merci d'avance pour votre aide !!

**rambc** · 29/07/2010, 18h28

Bonjour,
voici une façon de faire :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
#! /usr/bin/env python
#coding=utf-8
 
phrase = "Ceci est une phrase de test."
 
def containAllWord(text, words):
    for oneWord in words:
        if oneWord not in text:
            return False
    return True
 
 
def containAtLeastOneWord(text, words):
    for oneWord in words:
        if oneWord in text:
            return True
    return False
 
 
print ''
print '\tcontainAllWord( "' + phrase + '", ["est", "une", "de"] )'
print str( containAllWord( phrase, ["est", "une", "de"] ) )
print '\tcontainAtLeastOneWord( "' + phrase + '", ["est", "une", "de"] )'
print str( containAtLeastOneWord( phrase, ["est", "une", "de"] ) )
print ''
print '\tcontainAllWord( "' + phrase + '", ["essssst", "unnnne", "de"] )'
print str( containAllWord( phrase, ["essssst", "unnnne", "de"] ) )
print '\tcontainAtLeastOneWord( "' + phrase + '", ["essssst", "unnnne", "de"] )'
print str( containAtLeastOneWord( phrase, ["essssst", "unnnne", "de"] ) )

**rambc** · 29/07/2010, 18h41

Un code un peu plus joli côté test :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
#! /usr/bin/env python
#coding=utf-8
 
def containAllWord(text, words):
    for oneWord in words:
        if oneWord not in text:
            return False
    return True
 
def containAtLeastOneWord(text, words):
    for oneWord in words:
        if oneWord in text:
            return True
    return False
 
if __name__ == '__main__':
    tests = [
              ( "Ceci est une phrase de test.", ["est", "une", "de"] ),
              ( "Ceci est une autre phrase de test.", ["essssst", "unnnne", "de"] ),
              ( "Des mots les unsdanslesautres.", ["unsd", "sda"] )
           ]
 
    for oneTest in tests:
        print ''
 
        for oneFunction in [containAllWord, containAtLeastOneWord]:
            print oneFunction.__name__ + '( ' + oneTest[0] + ', ' + str(oneTest[1]) +' )'
            print '\t===> ' + str( oneFunction(oneTest[0], oneTest[1]) )

On obtient :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
containAllWord( Ceci est une phrase de test., ['est', 'une', 'de'] )
	===> True
containAtLeastOneWord( Ceci est une phrase de test., ['est', 'une', 'de'] )
	===> True
 
containAllWord( Ceci est une autre phrase de test., ['essssst', 'unnnne', 'de'] )
	===> False
containAtLeastOneWord( Ceci est une autre phrase de test., ['essssst', 'unnnne', 'de'] )
	===> True
 
containAllWord( Des mots les unsdanslesautres., ['unsd', 'sda'] )
	===> True
containAtLeastOneWord( Des mots les unsdanslesautres., ['unsd', 'sda'] )
	===> True

Le dernier test montre un problème si les mots se chevauchent, et donc aussi si l'on n'a pas exactement le mot en entier.

**rambc** · 29/07/2010, 18h50

Le problème disparait en faisant les modifications suivantes :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
def containAllWord(text, words):
    for oneWord in words:
        if oneWord not in text.split():
            return False
    return True
 
def containAtLeastOneWord(text, words):
    for oneWord in words:
        if oneWord in text.split():
            return True
    return False

**eyquem** · 29/07/2010, 19h00

Salut,

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
import re
 
ch = """Sans varier moins que le polle articque 
Doit la Dame estre et de cueur pacifique, 
Porter en paix les grans hurtz de Fortune ; 
Se bien luy vient ou malheur l'importune 
N'en soit joyeuse ou plus melencolicque."""
 
les_mots = set(('articque','cueur','hurtz','luy'))
print les_mots
 
if set(re.findall( '|'.join(les_mots),ch))==les_mots:
    print 'zyssontouss'
else:
    print 'y en manque'

**fred1599** · 29/07/2010, 19h59

Oh mais il y a encore plein de solutions

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
phrase = "Ceci est une phrase de test"
def control_mot(*args):
    for mots in args:
        if mots in phrase.split():
            print "le mot %s , est dans le texte" %(mots)
        else :
            print "le mot %s , n\'est pas dans le texte" %(mots)

control_mot("est", "une", "de", "k")

le mot est , est dans le texte
le mot une , est dans le texte
le mot de , est dans le texte
le mot k , n'est pas dans le texte

**wiztricks** · 29/07/2010, 22h33

Salut,
Si d'aventure derrière votre question assez banale vous avez de vraies questions de traitement du langage naturel, allez faire un tour du côté de NLTK
C'est "top gun"
- W

**Azerty32** · 30/07/2010, 10h37

Super !!
C'est tout bon.
Merci beaucoup à tous pour votre aide !!!

**rambc** · 30/07/2010, 12h29

Envoyé par wiztricks

Si d'aventure derrière votre question assez banale vous avez de vraies questions de traitement du langage naturel, allez faire un tour du côté de NLTK

Merci pour ce lien.

En espérant qu'un support pour Python3 soit prévu...

**nardo47** · 30/07/2010, 11h25

Salut

Envoyé par rambc

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
#! /usr/bin/env python
#coding=utf-8
 
phrase = "Ceci est une phrase de test."
 
def containAllWord(text, words):
    for oneWord in words:
        if oneWord not in text:
            return False
    return True
 
 
def containAtLeastOneWord(text, words):
    for oneWord in words:
        if oneWord in text:
            return True
    return False

C'est marrant, je l'aurais fait comme ça:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
def containsAllWords(text, words):
    return all(word in text for word in words)
 
def containsAnyWords(text, words):
    return any(word in text for word in words)

(Certes, je pinaille... pinaillons encore + : pourquoi mettre ça dans des fonctions ?)

Après, l'appel à split est bien mais il va manquer des choses.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
 
>>> "Ceci est un test.".split()
['Ceci', 'est', 'un', 'test.']
>>> 'test' in "Ceci est un test.".split()
False

Cela dit, je n'ai pas (encore) jeté un coup d'oeil à NLTK, qui résoudra sûrement ce problème.

Merci à wiztricks pour le lien et bonne lecture aux autres.

**rambc** · 30/07/2010, 11h51

Envoyé par nardo47

C'est marrant, je l'aurais fait comme ça:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
def containsAllWords(text, words):
    return all(word in text for word in words)
 
def containsAnyWords(text, words):
    return any(word in text for word in words)

Certes, je pinaille...

Non tu as raison.

Merci pour cette précision. Je zappe tout le temps les deux fonctions all et any.

Envoyé par nardo47

... pinaillons encore + : pourquoi mettre ça dans des fonctions ?

C'est pour la lisibilité du code tout simplement. Ceci est inutile pour de petit code mais pour des "vrais" projets, j'ai pris cette habitude.

**fred1599** · 30/07/2010, 12h30

Après, l'appel à split est bien mais il va manquer des choses.

Alors je vais prendre en compte la ponctuation

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
import string
ponctuation=string.punctuation
def parse(texte, *args):
    for p in ponctuation: texte=texte.replace(p, '')
    for mot in args:
        if mot in texte.split(): print "le mot %s, est dans le texte" %(mot)
        else : print "le mot %s, n'est pas dans le texte" %(mot)

parse("Ceci est un test.", "est","une", "de", "test")

le mot est, est dans le texte
le mot une, n'est pas dans le texte
le mot de, n'est pas dans le texte
le mot test, est dans le texte

**nardo47** · 30/07/2010, 12h51

Envoyé par rambc

... pinaillons encore + : pourquoi mettre ça dans des fonctions ?

C'est pour la lisibilité du code tout simplement. Ceci est inutile pour de petit code mais pour des "vrais" projets, j'ai pris cette habitude.

Ma question était purement réthorique, je suis tout à fait d'accord avec toi, j'ai même du mal à m'arrêter, des fois.

<mode maviequelleestintéressante on>
Par exemple, j'ai, dans mon toolbox perso, une fonction qui me renvoie le premier élément d'un itérable (liste, générateur, etc.), une qui me renvoie le dernier élément d'un itérable, une qui me renvoie tout sauf le premier élément et une qui me renvoie tout sauf le dernier (ceux qui ont déjà touché à Haskell et à d'autres langages fonctionnels reconnaîtront first, last, head et tail).
Aucun intérêt sur une liste (c'est même + long), mais je trouve que ça rend le code + lisible et moins dépendant du type de données.
<mode maviequelleestintéressante off>

----

Attention au code suivant !

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
 
# fred1599.py
import string
ponctuation=string.punctuation
def parse(texte, *args):
    for p in ponctuation: texte=texte.replace(p, '')
    for mot in args:
        if mot in texte.split(): print "le mot %s, est dans le texte" %(mot)
        else : print "le mot %s, n'est pas dans le texte" %(mot)

Je prends ma casquette d'oracle et j'annonce, sans tester, la catastrophe suivante :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 
>>> from fred1599 import parse
>>> parse('ponctuation = string.punctuation', 'string')
le mot string, n'est pas dans le texte

Par contre, 'string' sera trouvé dans le texte 'ponctuation=string.punctuation'... Ouh, que c'est vicieux !

Je laisse la correction et l'explication comme exercice pour le lecteur (j'ai toujours rêvé d'écrire ça !)

**rambc** · 30/07/2010, 13h06

Envoyé par nardo47

Par exemple, j'ai, dans mon toolbox perso, une fonction qui me renvoie le premier élément d'un itérable (liste, générateur, etc.), une qui me renvoie le dernier élément d'un itérable, une qui me renvoie tout sauf le premier élément et une qui me renvoie tout sauf le dernier (ceux qui ont déjà touché à Haskell et à d'autres langages fonctionnels reconnaîtront first, last, head et tail).

Je vois qu'il y a plus atteint que moi...

Envoyé par nardo47

Je prends ma casquette d'oracle et j'annonce, sans tester, la catastrophe suivante :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 
>>> from fred1599 import parse
>>> parse('ponctuation = string.punctuation', 'string')
le mot string, n'est pas dans le texte

Ceci m'amène au patch suivant :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
#! /usr/bin/env python3
 
import string
 
CHARACTERS_TO_KEEP = [x for x in string.ascii_uppercase] + \
                     [
# A
                      'À', 'Á', 'Â', 'Ã', 'Ä', 'Å', 'Æ',
# C
                      'Ç',
# E
                      'È', 'É', 'Ê', 'Ë',
# I
                      'Ì', 'Í', 'Î', 'Ï',
# N
                      'Ñ',
# O
                      'Ò', 'Ó', 'Ô', 'Õ', 'Ö', 'Œ', 
# U
                      'Ù', 'Ú', 'Û', 'Ü',
# Y
                      'Ý', 'Ÿ'
                     ]
 
 
def cleanExotic(text):
    answer = ''
    for oneChar in text:
        if oneChar.upper() in CHARACTERS_TO_KEEP:
            answer += oneChar
        else:
            answer += ' '
    return answer
 
def containAllWord(text, words):
    return all( oneWord in cleanExotic(text).split() for oneWord in words )
 
def containAtLeastOneWord(text, words):
    return any( oneWord in cleanExotic(text).split() for oneWord in words  )
 
if __name__ == '__main__':
    tests = [
              ( """Ceci est une
                phrase de       test.""", ["est", "une", "de"] ),
              ( "Ceci est une autre phrase de test.", ["es", "une", "de"] ),
              ( "Des mots les unsdanslesautres.", ["unsd", "sda"] ),
              ( "Ceci est une autre phrase de test.", ["test"] ),
              ( "ponctuation = string.punctuation", ["string"]),
              ( "ponctuation=string.punctuation", ["string"])
           ]
 
    for oneTest in tests:
        print('')
 
        for oneFunction in [containAllWord, containAtLeastOneWord]:
            print( oneFunction.__name__ + '( """' + oneTest[0] + '""", ' + str(oneTest[1]) +' )',
                   '\t===> ' + str( oneFunction(oneTest[0], oneTest[1]) ),
                   sep = '\n' )

La méthode de fred1599 possède un inconvénient puisqu'on a : string.punctuation ==> !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ . Donc il manquera des caractères exotiques comme par exemple ×.

Quant à ma dernière méthode, elle est peu élégante car il faut rentrer à la main les caractères accentués ou les contractions 'Œ' et 'Æ'. Existe-t-il un moyen simple d'avoir toutes les lettres d'une langue ?

**rambc** · 30/07/2010, 12h12

Envoyé par nardo47

Après, l'appel à split est bien mais il va manquer des choses.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
 
>>> "Ceci est un test.".split()
['Ceci', 'est', 'un', 'test.']
>>> 'test' in "Ceci est un test.".split()
False

On peut "patcher" comme suit :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
#! /usr/bin/env python3
 
import string
 
CHARACTERS_TO_KEEP = [x for x in string.ascii_uppercase] + \
                     [
# A
                      'À', 'Á', 'Â', 'Ã', 'Ä', 'Å', 'Æ',
# C
                      'Ç',
# E
                      'È', 'É', 'Ê', 'Ë',
# I
                      'Ì', 'Í', 'Î', 'Ï',
# N
                      'Ñ',
# O
                      'Ò', 'Ó', 'Ô', 'Õ', 'Ö',
# U
                      'Ù', 'Ú', 'Û', 'Ü',
# Y
                      'Ý', 'Ÿ'
                     ]
 
 
def cleanExotic(text):
    answer = ''
    for oneChar in text:
        if oneChar.upper() in CHARACTERS_TO_KEEP:
            answer += oneChar
    return answer
 
def splitCustom(text):
    answer = []
 
    for onePiece in text.split():
        answer.append( cleanExotic(onePiece) )
 
    return answer
 
def containAllWord(text, words):
    return all( oneWord in splitCustom(text) for oneWord in words )
 
def containAtLeastOneWord(text, words):
    return any( oneWord in splitCustom(text) for oneWord in words  )
 
if __name__ == '__main__':
    tests = [
              ( """Ceci est une
                phrase de       test.""", ["est", "une", "de"] ),
              ( "Ceci est une autre phrase de test.", ["es", "une", "de"] ),
              ( "Des mots les unsdanslesautres.", ["unsd", "sda"] ),
              ( "Ceci est une autre phrase de test.", ["test"] )
           ]
 
    for oneTest in tests:
        print('')
 
        for oneFunction in [containAllWord, containAtLeastOneWord]:
            print( oneFunction.__name__ + '( """' + oneTest[0] + '""", ' + str(oneTest[1]) +' )',
                   '\t===> ' + str( oneFunction(oneTest[0], oneTest[1]) ),
                   sep = '\n' )

Pas très joli mais on ne peut pas programmer proprement et regarder la marche au championnat d'Europe.

Question subsidiaire : les regex prennent-elles en compte les accents ?