Encoder les carctères spéciaux en HTML Entity

**jinpol** · 03/06/2010, 09h54

Bonjour,

existe t-il en Python une fonction permettant de remplacer dans une chaine de caractères tous les caractères spéciaux du style 'à' par leurs équivalents 'à'

Et petite question subsidiaire :

Comment utiliser u'' sur une variable.
En effet, on peut facilement faire u'ça va ???' mais si j'aiune variable data par exemple, comment faire pour appliquer u sur ma variable, sachant que si je fais u'data', ça transformera la chaine de caractères data et non ma variable...

Merci d'avance pour vos réponses.
Tchuss, @+, jinpol...

**tutule** · 03/06/2010, 10h40

Pour la manipulation de chaine de caractere, je ne suis pas sûr de comprendre ce que tu cherche, mais dans le doute:

name = "joseph"
coucou = "salut %s" %(name)

C'est bien ça?

**tyrtamos** · 03/06/2010, 11h09

Bonjour,

Je ne sais pas s'il existe une fonction toute faite dans l'un des modules, mais tu peux au moins t'inspirer de ça:

http://code.activestate.com/recipes/...-special-char/

Pour ta 2ème question, il suffit d'utiliser l'une des fonctions de conversion en unicode. Par exemple, si la chaine à convertir est en utf-8: data = data.decode('utf-8') ou data = unicode(data, 'utf-8').

Dans tous les cas, il faut donner l'encodage de la chaine à convertir. Quand on utilise u"xxx", python prend pour encodage de la chaine celui de la page de code (que l'on peut définir avec la ligne de coding).

Tyrtamos

**jinpol** · 03/06/2010, 11h36

Merci pour vos réponses.

J'avais déjà fait une fonction de ce genre, mais je cherchai plus simple...et j'ai pas trouvé.

Au moins j'aurai qd même appris qqchose.

Tchuss, @+, jinpol...

**rambc** · 03/06/2010, 16h25

DERNIERE MISE A JOUR : JEUDI 3 JUIN A 20h40

Voici un début de méthode via Python 3 à compléter pour travailler avec du texte encodé en UTF-8.

Le script à utiliser.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
#! /usr/bin/env python
 
# The following dictionnary was built by the script  tools_build_variables.
SPECIAL_CHARACTERS = {'€': '&euro;', '£': '&pound;', '§': '&sect;', '«': '&laquo;', '¯': '&masr;', '³': '&sup3;', '·': '&middot;', '»': '&raquo;', '<': '&lt;', '¿': '&iquest;', 'Ã': '&Atilde;', 'Ç': '&Ccedil;', 'Ë': '&Euml;', 'Ï': '&Iuml;', 'Ó': '&Oacute;', '×': '&times;', 'Û': '&Ucirc;', 'ß': '&szlig;', 'ã': '&atilde;', 'ç': '&ccedil;', 'ë': '&euml;', 'ï': '&iuml;', 'ó': '&oacute;', '÷': '&divide;', 'û': '&ucirc;', 'ÿ': '&yuml;', '¤': '&curren;', '¨': '&uml;', '¬': '&not;', '°': '&deg;', '´': '&acute;', '¸': '&cedil;', '¼': '&frac14;', 'À': '&Agrave;', 'Ä': '&Auml;', 'È': '&Egrave;', 'Ì': '&Igrave;', 'Ð': '&Eth;', 'Ô': '&Ocirc;', 'Ø': '&oslash;', 'Ü': '&Uuml;', 'à': '&agrave;', 'ä': '&auml;', 'è': '&egrave;', 'ì': '&igrave;', 'ô': '&ocirc;', 'ü': '&uuml;', '¡': '&iexcl;', '"': '&quot;', '&': '&amp;', '©': '&copy;', '±': '&plusmn;', 'µ': '&micro;', '¹': '&sup1;', '½': '&frac12;', '>': '&gt;', 'Á': '&Aacute;', 'Å': '&Aring;', 'É': '&Eacute;', 'Í': '&Iacute;', 'Ñ': '&Ntilde;', 'Õ': '&Otilde;', 'Ù': '&Ugrave;', 'Ý': '&Yacute;', 'á': '&aacute;', 'å': '&aring;', 'é': '&eacute;', 'í': '&iacute;', 'ñ': '&ntilde;', 'õ': '&otilde;', 'ù': '&ugrave;', 'Ÿ': '&Yuml;', 'ý': '&yacute;', '¢': '&cent;', '¦': '&brvbar;', 'ª': '&ordf;', '®': '&reg;', '²': '&sup2;', '¶': '&para;', 'º': '&ordm;', '¾': '&frac34;', 'Â': '&Acirc;', 'Æ': '&Aelig', 'Ê': '&Ecirc;', 'Î': '&Icirc;', 'œ': '&oelig;', 'Ò': '&Ograve;', 'Ö': '&Ouml;', 'Ú': '&Uacute;', 'Þ': '&thorn;', 'â': '&acirc;', 'æ': '&aelig', 'ê': '&ecirc;', 'î': '&icirc;', 'ò': '&ograve;', 'ö': '&ouml;', 'ú': '&uacute;'}
 
def htmlCoding(stringToClean):
    codedString = ''
 
    for oneChar in stringToClean:
        if oneChar in SPECIAL_CHARACTERS:
            codedString += SPECIAL_CHARACTERS[oneChar]
        else:
            codedString += oneChar
 
    return codedString
 
 
if __name__ == '__main__':
    test = "Voilà une phrase accentuée qui vaut 1€."
 
    print(test)
    print(' '*4 + ' HTML ' + ' '*4)
    print(htmlCoding(test))

Ceci renvoie :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
Voilà une phrase accentuée qui vaut 1€.
     HTML     
Voil&agrave; une phrase accentu&eacute;e qui vaut 1&euro;.

Le script tools_build_variables.py à compléter : il me semble qu'il manque des caractères mathématiques, mais pour les lettres ceci devrait être bon (au passage toute collaboration est la bienvenue).

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
#! /usr/bin/env python
 
import copy
 
# Source for the list of special characters
 
# THE UPPER CASE LETTERS
SPECIAL_CHARACTERS_UPPER = {
# A
    'À': "&Agrave;",
    'Á': "&Aacute;",
    'Â': "&Acirc;",
    'Ã': "&Atilde;",
    'Ä': "&Auml;",
    'Å': "&Aring;",
    'Æ': "&Aelig",
# C
    'Ç': "&Ccedil;",
# E
    'È': "&Egrave;",
    'É': "&Eacute;",
    'Ê': "&Ecirc;",
    'Ë': "&Euml;",
# I
    'Ì': "&Igrave;",
    'Í': "&Iacute;",
    'Î': "&Icirc;",
    'Ï': "&Iuml;",
# N
    'Ñ': "&Ntilde;",
# O
    'Ò': "&Ograve;",
    'Ó': "&Oacute;",
    'Ô': "&Ocirc;",
    'Õ': "&Otilde;",
    'Ö': "&Ouml;",
# U
    'Ù': "&Ugrave;",
    'Ú': "&Uacute;",
    'Û': "&Ucirc;",
    'Ü': "&Uuml;",
# Y
    'Ý': "&Yacute;",
    'Ÿ': "&Yuml;",
 
                     }
 
# THE LOWER AND UPPER CASE LETTERS
 
# We must make a new copy via copy.deepcopy .
SPECIAL_CHARACTERS = copy.deepcopy(SPECIAL_CHARACTERS_UPPER)
 
for oneChar in SPECIAL_CHARACTERS_UPPER:
    SPECIAL_CHARACTERS[oneChar.lower()] = SPECIAL_CHARACTERS_UPPER[oneChar].lower()
 
# VERY SPECIAL
VERY_SPECIAL_CHARACTERS = {
# LETTERS
    'œ': "&oelig;",
    'Ð': "&Eth;",
    'Þ': "&thorn;",
    'ß': "&szlig;",
# MATH.
    '<': "&lt;",
    '>': "&gt;",
    '÷': "&divide;",
    '×': "&times;",
    '±': "&plusmn;",
    'º': "&ordm;",
    '¹': "&sup1;",
    '²': "&sup2;",
    '³': "&sup3;",
    '¼': "&frac14;",
    '½': "&frac12;",
    '¾': "&frac34;",
    'Ø': "&oslash;",
    '¬': "&not;",
    '°': "&deg;",
# PONCTUATIONS
    '"': "&" + "quot;", # Pb de mise ne forme du forum...
    '«': "&laquo;",
    '»': "&raquo;",
    '&': "&amp;",
    '¡': "&iexcl;",
    '¿': "&iquest;",
    '´': "&acute;",
    '·': "&middot;",
    '¸': "&cedil;",
    '§': "&sect;",
    '¶': "&para;",
# MONEY
    '€': "&euro;",
    '£': "&pound;",
    '¢': "&cent;",
# OTHERS
    '¤': "&curren;",
    '¦': "&brvbar;",
    '¨': "&uml;",
    '©': "&copy;",
    'ª': "&ordf;",
    '®': "&reg;",
    '¯': "&masr;",
    'µ': "&micro;",
                          }
 
for oneChar in VERY_SPECIAL_CHARACTERS:
    SPECIAL_CHARACTERS[oneChar] = VERY_SPECIAL_CHARACTERS[oneChar]
 
print('''# The following dictionnary was built by the script  tools_build_variables.
SPECIAL_CHARACTERS = ''' + str(SPECIAL_CHARACTERS))

**dividee** · 03/06/2010, 22h38

Je crois qu'il y a plus simple:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
>>> from htmlentitydefs import codepoint2name as entities
>>> s = "étagère".decode('utf-8')    # ou l'encoding qui va bien
>>> print u''.join('&%s;' % entities[ord(c)] if ord(c) in entities else c for c in s)
&eacute;tag&egrave;re

Encoder les carctères spéciaux en HTML Entity

Python

Vue hybride

Discussions similaires

Partager

Partager