IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Python Discussion :

problème regexp et accents


Sujet :

Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Candidat au Club
    Homme Profil pro
    Inscrit en
    Juin 2011
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Juin 2011
    Messages : 2
    Par défaut problème regexp et accents
    Bonjour à tous/toutes,

    N'ayant pas trouvé de réponse en googlant ou sur le forum, je me décide à poser la question qui me turlupine depuis plusieurs jours.

    J'ai codé un petit script Python qui va parser une page web. Le but est de parcourir la page à la recherche de plusieurs mots-clefs sous forme d'expressions régulières.
    Ces regexp sont un input sous forme de fichier texte, sauvegardé en utf-8 et contenant des accents.

    Je lis donc mon contenu web, et fait une boucle pour passer ma liste de mots sur le contenu web.

    Un exemple de fichier texte contenant les expressions régulières :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
     
    hiver
    printemps
    été
    []t[ée]
    test
    La partie de code qui parse mon contenu web avec chaque ligne de ce fichier :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
     
    		for word in mywordslist:
    			word=word.strip()
    			print "utilisation du mot : ",word
    			compile_obj = re.compile(word,  re.IGNORECASE)
    			match_obj = compile_obj.search(webpage_html)
    			print "MATCH:",match_obj
    Les résultats sont curieux:

    Sachant que ma page web contient bien les termes "été" :

    l'expression régulière "été" matche.
    Par contre, "[eé]t[ée]" ne matche pas. (résultat None)

    Je soupçonne un problème d'encodage ou autre, mais quand je print "word", je vois bien les accents, je ne vois pas où serait le bug.

    Merci d'avance, je sèche là :-(

  2. #2
    Membre Expert

    Homme Profil pro
    Diverses et multiples
    Inscrit en
    Mai 2008
    Messages
    662
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Diverses et multiples

    Informations forums :
    Inscription : Mai 2008
    Messages : 662
    Par défaut
    Oui, il s’agit certainement d’un problème d’encodage… Tu es manifestement sous python 2.x (normalement, sous python 3, il ne devrait pas y avoir ce genre de problèmes).

    Tu ne donnes pas beaucoup (pas assez) de code, mais je pense qu’en fait, il te faut t’assurer que tes deux éléments (la regex et webpage_htlm) sont bien des objets unicode, et pas des str encodés en utf-8*!

    Or, il me semble que le fait de lire un fichier en mode texte ne renvoie pas des unicode, mais toujours des str… Donc, il faut faire quelque chose dans ce genre, tant sur la page web que les regex, avant de faire ta comparaison*:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    webpage_html = webpage_html.decode('utf-8') # ou unicode(webpage_html)
    for word in mywordslist:
        word = word.strip()
        word = word.decode('utf-8') # ou unicode(word)
        print "utilisation du mot : ",word
        # Pas besoin de compiler la regex ici, tu ne l’utilises qu’une seule fois*!
        match_obj =re.search(word, webpage_html, re.IGNORE_CASE)
        print "MATCH:",match_obj.

  3. #3
    Candidat au Club
    Homme Profil pro
    Inscrit en
    Juin 2011
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Juin 2011
    Messages : 2
    Par défaut
    Bingo !

    Problème résolu avec "decode('utf-8')" sur la page web et la liste de mots.

    Ca marche niquel :-)

    Merci beaucoup mont29 !

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. AJAX : Problème avec les accents...
    Par @drien dans le forum XML/XSL et SOAP
    Réponses: 2
    Dernier message: 29/01/2006, 14h33
  2. Problème Sockets et Accents
    Par tetedemul dans le forum C++
    Réponses: 2
    Dernier message: 13/12/2005, 15h54
  3. Petit problème avec les accents circonflexes...
    Par Harvester dans le forum Autres Logiciels
    Réponses: 8
    Dernier message: 29/11/2005, 18h44
  4. [HTML][Encodage] Problèmes avec les accents...
    Par eraim dans le forum Entrée/Sortie
    Réponses: 4
    Dernier message: 26/05/2004, 10h11
  5. [JDBC] Problème avec les accents
    Par seawolfm dans le forum Administration
    Réponses: 2
    Dernier message: 29/01/2004, 14h56

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo