Code ASCII et manipulation des caractères

**Philcmoi** · 16/05/2024, 14h24

Bonjour.
J'essai de manipuler les charactères avec leur code Ascii étendu.
Mais ça ne fonctionne pas.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
 
int valeurAsccii;
char caractere; 
valeurAsccii = caractere;
 
        if (valeurAsccii >= 131 && valeurAsccii<=134) {caractere = 'a';}
 
        if (valeurAsccii >= 192 && valeurAsccii<=197) {caractere = 'a';}
 
        if (valeurAsccii >= 224 && valeurAsccii<=229) {caractere = 'a';}
 
 
 
        if (valeurAsccii == 199 || valeurAsccii == 231) {caractere = 'c';}
 
 
 
        if (valeurAsccii == 144) {caractere = 'e';}
 
        if (valeurAsccii >= 136 && valeurAsccii <= 138) {caractere = 'e';}
 
        if (valeurAsccii >= 200 && valeurAsccii <= 203) {caractere = 'e';}
 
        if (valeurAsccii >= 232 && valeurAsccii <=235) {caractere = 'e';}
 
        if (valeurAsccii == 130) {caractere = 'e';}
 
 
 
        if (valeurAsccii >= 139 && valeurAsccii <= 141) {caractere = 'i';}
 
        if (valeurAsccii >= 204 && valeurAsccii <= 207) {caractere = 'i';}
 
        if (valeurAsccii >= 236 && valeurAsccii <= 239) {caractere = 'i';}
 
 
        if (valeurAsccii == 153) {caractere = 'o';}
 
        if (valeurAsccii >= 210 && valeurAsccii <= 214) {caractere = 'o';}
 
        if (valeurAsccii >= 242 && valeurAsccii <=246) {caractere = 'o';}
 
 
 
        if (valeurAsccii >= 217 && valeurAsccii <= 220) {caractere = 'u';}
 
        if (valeurAsccii >= 249 && valeurAsccii <= 252) {caractere = 'u';}
 
 
        cout<<caractere;

Je souhaite remplacer les caractères accuentués par leur minuscules.
Merci.

**Philcmoi** · 16/05/2024, 16h45

Apres tests je crois que je n'ai pas les bonnes valeur asccii.
Je me trompe de table. pour é => 87
pour è => 88
Merci de me dire quelle table à laquelle je dois compter.
???

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
 
valeurAsccii = caractere;
if (valeurAsccii == 87 ) {caractere = 'e';};
		if (valeurAsccii == 88 ) {caractere = 'e';};
 
		cout<<caractere;

pour éè rien ne change ça affiche éè ???

**foetus** · 16/05/2024, 19h47

Ce n'est pas de l'ASCII

En gros, l'ASCII c'est seulement 128 valeurs, soit 7 bits sur 1 octet.

Toi, tu utilises le MBCS (Multibyte Character Sets) ou plus communément appelé "code page" : en gros ce sont des tables qui remplissent les 128 autres valeurs.
Certains "code pages" sont sur 16 bits : Shift-JIS par exemple.
Les + connus sont le Latin-1 et le Latin-9. ANSI c'est le "code page" de Windows de la langue par défaut, et varie d'1 pays à 1 autre.

Le problème c'est qu'il faut savoir quel "code page" tu utilises

: code page, lien Wikipédia en anglais

Pour palier tout cela, l'Unicode a été inventé : UTF-8, UTF-16 ou UTF-32. C'est tout autant le chantier

En C et C++, la librairie standard travaille qu'en ASCII : documentation cplusplus.con <cstring> (string.h) en anglais
Pour l'Unicode il y a le type wchar_t et <cwchar> (wchar.h).
Tout le reste ce fait avec des bibliothèques externes

**jo_link_noir** · 17/05/2024, 06h27

Envoyé par foetus

En C et C++, la librairie standard travaille qu'en ASCII : documentation cplusplus.con <cstring> (string.h) en anglais

En réalité pas du tout. La majorité des fonctions de <cstring> travaillent sur des octets sans prendre en considération un quelconque encodage. Seules quelques-unes utilisent la locale (strcoll et strxfmt) et ne sont pas limité à l'ASCII. D'ailleurs, sur Linux, les locales sont généralement basées sur de l'utf-8. Par contre avec <cctype>, il n'y a pas de garanti que cela fonctionne avec de l'Unicode puisque la norme C indique que les fonctions doivent prendre un caractère représentable dans un unsigned char ou égale à EOF (la glibc de Linux le support, sur Windows ça va moins bien se passer).

Envoyé par foetus

Pour l'Unicode il y a le type wchar_t et <cwchar> (wchar.h).

C'est pas terrible comme type étant donné que la taille dépend de la plateforme: 4 octets sur Linux et Mac, 2 octets sur Windows. Du point de vue de Windows, Unicode = utf-16 (historique ce n'était pas de l'utf-16, mais c'est compatible). Sauf que utf-16 est un encodage multi-bytes et on ne peut même pas représenter tous les caractères avec un simple wchar_t... Le mieux reste d'utiliser uint32_t ou char32_t pour faire de l'utf-32 / Unicode et considérer que toutes les fonctions manipulant des wchar_t vont mal fonctionner à un certain moment.

C'est toujours une grosse galère les encodages

**Médinoc** · 17/05/2024, 10h43

Envoyé par Philcmoi

Apres tests je crois que je n'ai pas les bonnes valeur asccii.
Je me trompe de table. pour é => 87
pour è => 88

87 et 88 pour é et è ce n'est tout simplement pas possible dans aucun encodage dérivé de l'ASCII (ASCII étendu, UTF-8 etc.) vu que les caractères accentués (et tous les caractères non-présents dans l'ASCII originel) ont une valeur supérieure ou égale à 128.

'é' en UTF-8 correspond à deux char successifs: 0xC3 (195) et 0xA9 (169). En signé, ça ressemble à -61 -87. En Windows-1252 et en Latin-1, ça correspond aux caractères 'Ã' et '©'.
'é' en Windows-1252 et en ISO-8859-1 (Latin-1) (et à fortiori Unicode) correspond à 0x00E9 (233). En signé, ça fait -23.
'é' en IBM-850 correspond à 0x82 (130). En signé, ça fait -126. En Windows-1252, ça correspond au caractère '‚' (U+201A)

Je pense que le 87 que tu vois est en fait le -87 du second octet d'un é en UTF-8.
Ce qui veut dire que l'entrée reçue par ton programme est en UTF-8. Ce qui va bien te compliquer les choses, vu que tu vas devoir convertir des séquences de deux octets en un seul!
Pour ça, il faudra probablement que tu accumules les caractères >=128 dans un buffer. Je vois bien un algo du genre:

Pour chaque caractère en entrée:

S'il est <128 que le buffer n'est pas vide
- Comparer le buffer aux différentes séquences que tu veux remplacer
  - Si ça matche, écrire le remplacement sur la sortie
  - Sinon, écrire le contenu du buffer sur la sortie
- vider le buffer
Si le caractère est inférieur à 128
- l'écrire directement sur la sortie
sinon
- l'ajouter au buffer

Edit: J'ai vu une faille dans l'algorithme que je propose: Il ne traiterait pas correctement plusieurs caractères accentués qui se suivent.
Pour les traiter correctement, il n'y a pas d'autre choix que comprendre le fonctionnement d'UTF-8, notamment comment le premier octet d'une séquence indique sa taille.
Ou bien on peut juste tricher, en se disant qu'on veut juste connaïtre la différence entre un "début" de séquence UTF-8 et un non-début. Les caractères de "début" d'une séquence UTF-8 ont une valeur supérieure où égale à 0xC0 (192)

Pour chaque caractère en entrée:

S'il est <128 que le buffer n'est pas vide
- Comparer le buffer aux différentes séquences que tu veux remplacer
  - Si ça matche, écrire le remplacement sur la sortie
  - Sinon, écrire le contenu du buffer sur la sortie
- vider le buffer
Si le caractère est inférieur à 128
- l'écrire directement sur la sortie
sinon
- S'il est >=192 (0xC0) que le buffer n'est pas vide
  - Comparer le buffer aux différentes séquences que tu veux remplacer
    - Si ça matche, écrire le remplacement sur la sortie
    - Sinon, écrire le contenu du buffer sur la sortie
  - vider le buffer
- l'ajouter au buffer

**foetus** · 17/05/2024, 20h26

Envoyé par Médinoc

Edit: J'ai vu une faille dans l'algorithme que je propose: Il ne traiterait pas correctement plusieurs caractères accentués qui se suivent.

Lis la page Wikipédia UTF-8

En gros l'UTF-8 est compatible ASCII, mais varie entre 1 et 4 octets.
Donc c'est 1 encodage assez pénible (par exemple pour les bases de données) parce que tu dois lire la séquence pour découper les caractères.

en gros, si ton octet a 1 valeur de :

00 à 7F (127) (le dernier bit est zéro) : 1 seul octet (<- ASCII)
C2 (194) à DF (223) (l'octet commence par/ à gauche c'est 110) : 2 octets
E0 (224) à EF (239) (l'octet commence par/ à gauche c'est 1110) : 3 octets
F0 (240) à F3 (243) (l'octet commence par/ à gauche c'est 11110) : 4 octets
F4 (244) (l'octet est 1111 0100) : 4 octets

**kaitlyn** · 18/05/2024, 07h52

Coucou tout le monde,

S'il arrive à mettre un é dans un char et l'afficher, alors ce n'est pas de l'utf-8.
Pour avoir un int à partir d'un char nommé c il faut un cast : int val= static_cast<unsigned char>(c), sans cela, la comparaison avec les codes ascii donnera des résultats inattendus. Mais le mieux serait encore de ne pas les utiliser :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
if (static_cast<char>(val) == 'é') {c= 'e';} 
else if (static_cast<char>(val) == 'ě') {c= 'e';}
else if ...

on aura le bonus d'une optimisation équivalente au switch s'il ne connaît pas encore.

P.-S: Message écrit sur téléphone, difficile de faire sans coquilles.

**Philcmoi** · 18/05/2024, 15h21

Bonjour et merci de vos aides.
Je prend en compte l'UTF 8. https://www.utf8-chartable.de/unicod...le.pl?utf8=dec
Je fais :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
 
valeur = caractere;
 
		if (valeur >= 195128 && valeur <= 195133) {caractere = 'a';}
		if (valeur >= 195160 && valeur <= 195165) {caractere = 'a';}
		if (valeur == 195135) {caractere = 'c';}
		if (valeur == 195167) {caractere = 'c';}
		if (valeur >= 195136 && valeur <= 195139) {caractere = 'e';}
		if (valeur >= 195169 && valeur <= 195171) {caractere = 'e';}
		if (valeur >= 195172 && valeur <= 195175) {caractere = 'i';}
		if (valeur == 195176) {caractere = 'o';}
		if (valeur >= 195178 && valeur <= 195182) {caractere = 'o';}
		if (valeur >= 195184) {caractere = 'o';}
		if (valeur >= 195185 && valeur <= 195188) {caractere = 'u';}
		if (valeur == 195189 && valeur == 195191) {caractere = 'y';}
 
 
 
 
cout<<caractere;

Pour traiter les lettres suivantes:
valeurAsccii = caractere;
--déformatage if ect...--
cout<<caractere;

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
 
é
è
ç
à

ça donne

é
è
ç
à
�

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 
cout<<valeurAsccii;

donne ceci

-61-8710-61-8810-61-8910-61-9610-1

Ce n'est donc pas la bonne table de conversion .

Merci.

**Philcmoi** · 26/05/2024, 14h03

Merci pour l éclairage.

Invité · 26/05/2024, 14h37

Voila une table utf8 pour les caractères allant de À (192) jusque le char 255.
un autre défit surgit c'est qu'il faut décomposer certains caractères comme œ et æ

Nom : Utf8.png
Affichages : 268
Taille : 14,6 Ko

Nom : Utf8.png
Affichages : 268
Taille : 14,6 Ko

Code ASCII et manipulation des caractères

C++

Vue hybride

Discussions similaires

Partager

Partager