Conversion de car. accentués en pur ASCII html

**tyrtamos** · 13/01/2011, 08h25

Bonjour,

Je dois fabriquer avec Python une page html comprenant des caractères accentués issues d'une base de données.

Je sais que les navigateurs récents supportent ces caractères, mais cette page est destinée à être lue à l'international (env. 40 pays), et elle devrait pouvoir être lue par des navigateurs anciens. J'aimerais donc faire la conversion afin que la page html reste en pur ASCII.

Par exemple:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

sacré => sacr&eacute;

(voir par exemple http://www.w3schools.com/tags/ref_entities.asp)

Quelqu'un connait-il un module ou une fonction qui fait cette conversion en Python?

Merci d'avance!

Tyrtamos

**wiztricks** · 13/01/2011, 16h47

Salut,
A mon sens, il d'abord décoder les caractères accentués en Unicode puis construire la page HTML en Unicode puis transformer cet Unicode en html entities.

Le module htmlentitydefs contient les mappings Unicode <=> html entities. Notamment le dict codepoint2name, pour aller d'Unicode à name de l'html entity.

Note: à la lecture du source, çà ne traite pas les escapes - les caractères ascii devant être écrits & < >
Cordialement et meilleurs vœux
- W

**rambc** · 13/01/2011, 17h49

Bonjour.

Ceci devrait te convenir.

Code Python 2

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
#! /usr/bin/env python
#coding=utf-8
 
# WARNING ! Python 2.6
 
# Source
#    http://www.developpez.net/forums/d933074/autres-langages/python-zope/general-python/encoder-carcteres-speciaux-html-entity/#post5258518
 
from htmlentitydefs import codepoint2name
 
 
def htmlCoding(stringToClean):
    return ''.join('&%s;' % codepoint2name[ord(c)] if ord(c) in codepoint2name else c for c in stringToClean)
 
 
if __name__ == '__main__':
    test = "Voilà une phrase accentuée qui vaut « 1€ »."
 
    print(test)
    print(' '*4 + ' HTML ' + ' '*4)
    print(htmlCoding(test))

Code Python 3

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
#! /usr/bin/env python
 
# WARNING ! Python 3
 
# Source
#    http://www.developpez.net/forums/d933074/autres-langages/python-zope/general-python/encoder-carcteres-speciaux-html-entity/#post5258518
 
from html.entities import codepoint2name
 
def htmlCoding(stringToCode):
    return ''.join( '&%s;' % codepoint2name[ord(oneChar)]
                    if ord(oneChar) in codepoint2name
                    else oneChar for oneChar in stringToCode )
 
 
if __name__ == '__main__':
    test = "Voilà une phrase accentuée qui vaut « 1€ »."
 
    print( test,
           'HTML'.rjust(9),
           htmlCoding(test),
           sep = '\n' )

**tyrtamos** · 13/01/2011, 18h05

Bonjour,

Merci wiztricks et rambc, ce module htmlentitydefs (Python 2.7) m'avait échappé.

Problème résolu!

Et meilleurs voeux pour 2011!

Tyrtamos

**rambc** · 13/01/2011, 20h46

Envoyé par tyrtamos

Et meilleurs voeux pour 2011!

Tout pareil...

**tyrtamos** · 14/01/2011, 09h53

Bonjour,

Au cas où ça intéresserait quelqu'un, voilà ce que j'ai fait pour mon usage:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
 
# Python v2.7
from htmlentitydefs import codepoint2name, name2codepoint
import re
 
#############################################################################
def txt2html(txt, esp=False):
    """convertit la chaine normale 'txt' (unicode) en chaine html (ISO-8859-1)
       si esp=True, convertit en plus tous les espaces normaux => "&nbsp;"
    """
    if esp:
        e = "&nbsp;"
    html = []
    for c in txt:
        n = ord(c)
        if n in codepoint2name:
            html.append("&%s;" % (codepoint2name[n],))
        elif esp and c == u" ":
            html.append(e)
        else:
            html.append(c)
    return ''.join(html)
 
#############################################################################
def html2txt(html, esp=False):
    """convertit la chaine html 'html' (ISO-8859-1) en chaine normale (unicode)
       si esp=True, convertit en plus tous les "&nbsp;" => espaces normaux
    """
    if esp:
       html = re.sub("&nbsp;", u" ", html)
    motif = '&(%s);' % ('|'.join(name2codepoint))
    rempl = lambda m: unichr(name2codepoint[m.group(1)])
    return re.sub(motif, rempl, html)

Utilisation:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
 
    txt = u"""Voilà une phrase accentuée qui vaut « 1€ ». Complément: "éèçàùôîëä" """
    print(txt)
 
    html = txt2html(txt)
    print(html)
 
    txt = html2txt(html)
    print txt

Ce qui affiche:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 
Voilà une phrase accentuée qui vaut « 1€ ». Complément: "éèçàùôîëä" 
Voil&agrave; une phrase accentu&eacute;e qui vaut &laquo; 1&euro; &raquo;. Compl&eacute;ment: &quot;&eacute;&egrave;&ccedil;&agrave;&ugrave;&ocirc;&icirc;&euml;&auml;&quot; 
Voilà une phrase accentuée qui vaut « 1€ ». Complément: "éèçàùôîëä"

Manifestement, ça marche. J'ai, bien entendu, vérifié dans un éditeur html que la phrase en html est bien compris par les navigateurs.

Petit complément concernant les espaces: en principe, seul l'espace insécable (160) est convertit en " ", mais pas l'espace normal (32). Au cas où, j'ai ajouté un drapeau 'esp' qui permet de convertir en plus les espaces normaux en " " dans les 2 sens. Avec ce drapeau à True, la chaine html devient:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

Voil&agrave;&nbsp;une&nbsp;phrase&nbsp;accentu&eacute;e&nbsp;qui&nbsp;vaut&nbsp;&laquo;&nbsp;1&euro;&nbsp;&raquo;.&nbsp;Compl&eacute;ment:&nbsp;&quot;&eacute;&egrave;&ccedil;&agrave;&ugrave;&ocirc;&icirc;&euml;&auml;&quot;

Et on retrouve avec la conversion dans l'autre sens la même chaine de départ, à part que les éventuels espaces insécables sont devenus des espaces normaux.

On devrait pouvoir accélérer ces 2 fonctions (compréhension de liste, compilation de motif, etc...) mais écrites comme ça, on comprend bien ce qu'elles font.

Pour garder cette solution en mémoire, j'ai ajouté le tuto sur mon site: http://python.jpvweb.com/mesrecettes...=conv_txt_html

Tyrtamos

Conversion de car. accentués en pur ASCII html

Python

Vue hybride

Discussions similaires

Partager

Partager