Construire une escape sequence unicode par concaténation

**rduluc** · 04/09/2019, 19h56

Bonjour,
Je suis enseignant en lycée et j'ai naïvement imaginé faire écrire à mes élève le petit script suivant:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
code_hexa=input()
print("\u"+code_hexa)

L’interpréteur refuse de le compiler. Je me demande simplement si ce genre d'approche est une impasse ou s'il y a une façon simple de faire celà que je n'ai pas trouvé.
Merci d'avance

**BufferBob** · 05/09/2019, 03h52

salut,

ça dépend ce que tu veux faire, s'il s'agit d'afficher \u1f40d il faut doubler l'échappement :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
code_hexa=input()
print("\\u"+code_hexa)

si le but c'est d'afficher la représentation du caractère unicode le moyen le plus simple que je vois c'est un truc du genre :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
code_hexa=input()
print('{:c}'.format(int(code_hexa, 16)))

c'est moins trivial d'un coup, et encore faut-il que le terminal puisse afficher le caractère, ce qui concernant typiquement les emojis est rarement le cas

l'exécution du code sur Try It Online

**wiztricks** · 05/09/2019, 08h22

Salut,

\x, \u, ... ne sont pas une suite de 2 caractères mais des commandes qui disent "attention, ce qui suit est un caractère codé en...".

Et si on écrit "\x" + "41", on demande à Python de construire la chaîne de caractères "\x" (qu'il ne sait pas construire parce que le caractère \x est incomplet) puis de la concaténer avec...
Exemples:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
>>> "\u0041"
'A'
>>> "\x41"
'A'
>>> '\x' + '41'
  File "<stdin>", line 1
SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 0-1: truncated \xXX escape

On peut dire à Python de ne pas interpréter "\x":

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
>>> r'\x' + '41'
'\\x41'
>>>

mais dans ce cas, on a fabriqué une chaîne de 4 caractères et non le caractère correspondant à l'hexadécimal 41.

Ceci dit, les fonctions ord et chr sont là pour récupérer le point unicode et la chaine de caractères associée à un nombre:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
>>> ord('A')
65
>>> chr(65)
'A'
>>>

- W

**BufferBob** · 05/09/2019, 11h13

Envoyé par wiztricks

les fonctions ord et chr sont là pour récupérer le point unicode et la chaine de caractères associée à un nombre

je sais pas pourquoi j'étais persuadé que chr() ne fonctionnait que sur ASCII

c'est bien ça me fait une piqûre de rappel

**wiztricks** · 05/09/2019, 11h27

Envoyé par BufferBob

je sais pas pourquoi j'étais persuadé que chr() ne fonctionnait que sur ASCII

c'est bien ça me fait une piqûre de rappel

Sans doute parce que c’était le cas sous Python2. Il fallait utiliser la fonction unichr, chr étant limité à l'intervalle 0..255.
Python3 a unifié tout çà: disparue la fonction unichr et chr devient valide pour tout entier dans 0..0x10ffff.

Ceci dit, avec la correspondance entre byte dans 0..255 et "caractères" ASCII étendus, on avait une correspondance simple pour avoir une relation d'ordre sur les chaines de caractères: ord('A') < ord('a') <=> 'A' < 'a'.

Maintenant les accents, les polices de caractères non alphabétiques,... compliquent tout çà de façon intéressante.

- W

**rduluc** · 05/09/2019, 11h38

Merci pour toutes vos réponses. Cela confirme ce que j'avais déjà cherché.

Construire une escape sequence unicode par concaténation [Python 3.X]

Python

Discussions similaires

Partager

Partager