Créer une insensibilité à la casse

Version imprimable

Bonjour,

Je travaille sur un programme de veille technologique. Donc le but de celui ci est de lire les flux RSS et de renvoyer uniquement les informations qui contiennent un des mots clés recherché. Mots clés qui sont recherchés dans le titre et la description du fichier XML. Et viens mon problème : je suis capable de repérer les mots clés mais mon programme est sensible à la casse ce qui posera quelques soucis, des informations pouvant passer à la trappe.

J'ai déjà essayé de contourner le problème en utilisant une regex en l'occurrence IGNORECASE. Mais cela n'a pas très bien marché et a occasionné d'autres erreurs y compris d'encodage. En fait surtout d'encodage. Je précise au passage que je tourne sous python 2.7 et que lire les XML j'utilise le module Universal Feedparser (qui fait ça très bien).

Voilà la partie du code concernée :
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 if (rss): xmldoc = feedparser.parse(rss) if (xmldoc) : """On ouvre le fichier Newsletter.txt qui va récolter le flux. Ce fichier sera ensuite lu par les fonction d'envoi par mail et d'envoir sur le serveur""" newsletter = open("Newsletter.txt", "w") """On cherche premièrement à savoir de quelle source vient le RSS""" source_title = xmldoc.feed.title print source_title #Dev newsletter.write (source_title.encode("utf_8") + "\n" + "\n") """Universal Feedparser crée une liste dans qui répertorie chaque article, cette liste est la liste entries[n] qui comprends n+1 entrées (les liste sont numérotées à partir de 0). Python ne peut aller au delà de cette taille n-1. Il faut donc d'abord cherche la taille de la liste avec la fonction len""" range = 0 #on initialise la variable range qui va servir pour pointer les articles rangemax = len(xmldoc.entries) print ("nombre d'article :"), rangemax, ("\n") #dev """On initialise une boucle while qui va parcourir la liste pour rechercher titres, description, lien, etc ....""" while range < rangemax: post_title = xmldoc.entries[range].title post_description = xmldoc.entries[range].description post_link = xmldoc.entries[range].link keyword = u"Google" if keyword in post_title: print post_title.encode("utf_8") #Dev print post_link, ("\n") #Dev print ("range:"), range, ("\n") #Dev newsletter.write (post_title.encode("utf_8") + "\n" + post_link.encode("utf_8") + "\n" + "\n") elif keyword in post_description: print post_title.encode("utf_8") #Dev print post_link, ("\n") #Dev print ("range:"), range, ("\n") #Dev newsletter.write (post_title.encode("utf_8") + "\n" + post_link.encode("utf_8") + "\n" + "\n") range = range+1 #On incrémente le pointeur range qui nous sert aussi de compteur newsletter.close()
Je précise que je n'ai pas encore implémenté le multi-source et le multi-keyword. C'est pour ça que c'est encore un peu simple.

Merci beaucoup et bonne journée !

23/05/2016, 10h53
wiztricks
Salut,

Citation:

Envoyé par SidereusNuncius

Je travaille sur un programme de veille technologique. Donc le but de celui ci est de lire les flux RSS et de renvoyer uniquement les informations qui contiennent un des mots clés recherché. Mots clés qui sont recherchés dans le titre et la description du fichier XML. Et viens mon problème : je suis capable de repérer les mots clés mais mon programme est sensible à la casse ce qui posera quelques soucis, des informations pouvant passer à la trappe.

"insensible à la casse", c'est ignorer majuscules et minuscules. Dans la pratique, passez les chaines de caractères en majuscule (ou en minuscules) avant de les comparer le fait assez bien.
Code:

1 2 >>> 'fooBAR'.lower() == 'FOObar'.lower() True
- W
23/05/2016, 11h14
tyrtamos

Bonjour,

En complément de lower ou upper, on peut vouloir faire des comparaisons après avoir neutralisé les caractères accentués. Il faut dans ce cas passer par Unicode. Dis si ça t'intéresse et je peux te donner un petit code.

On a aussi la possibilité sous Python de rechercher des mots qui se ressemblent (avec un ratio de similitude).

Tout d'abord wiztricks, tyrtamos merci d'avoir répondu

@wiztricks

J'ai essayé ce que tu as proposé mais je crois qu'il y a quelque chose que j'ai pas compris car quand j'écris :
Code:

1 2 3 4 5 6 if keyword.lower() or keyword.upper in post_title: print post_title.encode("utf_8") #Dev print post_link, ("\n") #Dev print ("range:"), range, ("\n") #Dev newsletter.write (post_title.encode("utf_8") + "\n" + post_link.encode("utf_8") + "\n" + "\n")
Il me donne en retour TOUTES les entrées dans le XML. En fait comme si je ne lui avais pas donné de mots-clés ... (par acquis de conscience j'ai vérifié quand même mais bien sûr mon mot clé n'est pas dedans)

@tyrtamos
Bien sûr si je peux peux améliorer mon programme je suis preneur ^^.

23/05/2016, 13h59
cervo

:salut:
Je suis tenté de te dire essaies de comparer keyword.lower() à post_title.lower()....

Voilà une petite fonction pour enlever tous les accents sur les minuscules et les majuscules (Python 2):

Code:

1
2
3
4
5
6
7
8
9
import unicodedata
 
#############################################################################
def sans_accent(ch):
    """Supprime les éventuels accents (minuscule ou majuscule) de la chaine ch
       ch doit être en unicode, et le résultat retourné est en unicode
    """
    chnorm = unicodedata.normalize('NFKD', ch)
    return u"".join([c for c in chnorm if not unicodedata.combining(c)])

Test d'application:

Code:

1
2
3
4
5
6
7
8
9
10
alphanum = ur""" !"#$%&'()*+,-./0123456789:;<=>?@[\]^_`{|}~""" + \
           u"\xA0" + \
           u"€aAàÀâÂäÄåÅæÆbBcCçÇdDeEéÉèÈêÊëËfFgGhHiIîÎïÏjJ" + \
           u"kKlLmMnNoOôÔöÖœŒpPqQrRsStTuUùÙûÛüÜvVwWxXyYÿŸzZ"
 
print alphanum
# !"#$%&'()*+,-./0123456789:;<=>?@[\]^_`{|}~*€aAàÀâÂäÄåÅæÆbBcCçÇdDeEéÉèÈêÊëËfFgGhHiIîÎïÏjJkKlLmMnNoOôÔöÖœŒpPqQrRsStTuUùÙûÛüÜvVwWxXyYÿŸzZ
 
print sans_accent(alphanum)
# !"#$%&'()*+,-./0123456789:;<=>?@[\]^_`{|}~ €aAaAaAaAaAæÆbBcCcCdDeEeEeEeEeEfFgGhHiIiIiIjJkKlLmMnNoOoOoOœŒpPqQrRsStTuUuUuUuUvVwWxXyYyYzZ

A noter qu'on peut supprimer les accents uniquement sur les majuscules ou uniquement sur les minuscules:

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
#############################################################################
def sans_accent_maj(ch):
    """Supprime les éventuels accents sur les majuscules de la chaine ch
       ch doit être en unicode, et le résultat retourné est en unicode
    """
    r = u""
    for car in ch:
        carnorm = unicodedata.normalize('NFKD', car)
        carcat = unicodedata.category(carnorm[0])
        if carcat==u"Lu":
            r += carnorm[0]
        else:
            r += car
    return r       
 
#############################################################################
def sans_accent_min(ch):
    """Supprime les éventuels accents sur les minuscules de la chaine ch
       ch doit être en unicode, et le résultat retourné est en unicode
    """
    r = u""
    for car in ch:
        carnorm = unicodedata.normalize('NFKD', car)
        carcat = unicodedata.category(carnorm[0])
        if carcat!=u"Lu":
            r += carnorm[0]
        else:
            r += car
    return r

Ce qui donnera:

Code:

1
2
3
4
5
print sans_accent_maj(alphanum)
# !"#$%&'()*+,-./0123456789:;<=>?@[\]^_`{|}~*€aAàAâAäAåAæÆbBcCçCdDeEéEèEêEëEfFgGhHiIîIïIjJkKlLmMnNoOôOöOœŒpPqQrRsStTuUùUûUüUvVwWxXyYÿYzZ
 
print sans_accent_min(alphanum)
# !"#$%&'()*+,-./0123456789:;<=>?@[\]^_`{|}~ €aAaÀaÂaÄaÅæÆbBcCcÇdDeEeÉeÈeÊeËfFgGhHiIiÎiÏjJkKlLmMnNoOoÔoÖœŒpPqQrRsStTuUuÙuÛuÜvVwWxXyYyŸzZ

23/05/2016, 14h47
SidereusNuncius

salut Cervo ,

J'ai essayé ta méthode :

Citation:

Je suis tenté de te dire essaies de comparer keyword.lower() à post_title.lower()....

mais le terminal me renvoie l'erreur suivante :

Citation:

if keyword.lower() in post_title.lower:
TypeError: argument of type 'builtin_function_or_method' is not iterable

Donc je ne crois pas que ce soit la bonne méthode

@tyrtamos

merci !! je vais voir ce que je peux en faire une fois que j'aurais réglé ce problème de casse !
23/05/2016, 16h34
wiztricks
Salut,
Citation:
Envoyé par SidereusNuncius

J'ai essayé ta méthode :

Citation:

Je suis tenté de te dire essaies de comparer keyword.lower() à post_title.lower()....

mais le terminal me renvoie l'erreur suivante :

Code:

1 2 if keyword.lower() in post_title.lower: TypeError: argument of type 'builtin_function_or_method' is not iterable

Donc je ne crois pas que ce soit la bonne méthode
C'est la bonne méthode mais il faudrait être un peu plus rigoureux dans ce que vous recopiez et/ou apprendre à programmer Python (il y a des tutos) i.e. faire des exercices pour voir comment çà se comporte, apprendre à décoder les messages d'erreur qui remontent,...

- W
24/05/2016, 13h15
SidereusNuncius

Autant pour moi ça fonctionne effectivement si on définit keyword.lower() et post_title.lower() hors du while

Citation:

il faudrait être un peu plus rigoureux dans ce que vous recopiez et/ou apprendre à programmer Python (il y a des tutos) i.e. faire des exercices pour voir comment çà se comporte, apprendre à décoder les messages d'erreur qui remontent,...

Et effectivement wiztricks je suis débutant .. je fais du python seulement depuis une semaine. Et pas vraimenet dans le cadre de mes loisirs personnels