comment trouver la valeur ASCII d'un caractere tel que ô

**gronaze** · 03/03/2006, 15h48

j'essaye de transcrire un caractere en valeur ASCII, mais le %i ne donne acces qu'au valeurs ASCII comprises entre 1 et 127, or j'ai aussi besoin des valeurs ASCII étendues....

Pour essayer de contourner le probleme j'ai écrit sur un fichier une table ASCII étendue et je recherche sur l'ensemble des caracteres ceux qui correspondent, par exemple:

j'écris "salut c'est môa"
et je veux 115, 97, 108....
mais lors de ma recherche j'utilise getc qui ne manipule que des int et pas des char

merci de m'aidser

**BigNic** · 03/03/2006, 16h36

ça cela ne te va pas ??

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
 
int main(int argc, char* argv[])
{
	FILE *h_file = fopen("toto.txt","rt");
	int iChar = getc(h_file);
	fclose(h_file);
	printf("as int[%u]\n",iChar);
 
	return 0;
}

dans toto.txt il y a : ô
etla sortie ecran donne:

as int[244]

**Emmanuel Delahaye** · 03/03/2006, 16h55

Envoyé par gronaze

j'essaye de transcrire un caractere en valeur ASCII, mais le %i ne donne acces qu'au valeurs ASCII comprises entre 1 et 127, or j'ai aussi besoin des valeurs ASCII étendues....

Le problème est qu'il y a plusieurs jeux de caractères étendus. Pour simplifier : OEM et ANSI, par exemple. Mais il y en a d'autres...

Essaye ça :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
 
#include <stdio.h>
 
#define N 8
 
int main (void)
{
   int i = 128;
 
   while (i < 256)
   {
      if ((i % N) != 0)
      {
         printf (" ");
      }
 
      printf ("%3d='%c'", i, i);
 
      i++;
 
      if ((i % N) == 0)
      {
         printf ("\n");
      }
   }
   return 0;
}

**loufoque** · 03/03/2006, 17h37

j'essaye de transcrire un caractere en valeur ASCII, mais le %i ne donne acces qu'au valeurs ASCII comprises entre 1 et 127, or j'ai aussi besoin des valeurs ASCII étendues....

Ce que tu veux, en fait, c'est simplement afficher les valeurs des octets qui composent ta chaîne.
(L'ASCII étendu ça veut pas dire grand chose)

Pour cela, il faut utiliser des unsigned char et non des char qui peuvent être signés.

En utf-8 on obtient que ô est la séquence 195, 180.
En ISO-8859-1, ISO-8859-15 ou windows-1252 ça donne bien 244 comme il a été dit précedemment.
En IBM850 (utilisé par le terminal windows, du moins avec une version française) c'est 147.

**Médinoc** · 03/03/2006, 20h23

Et comme l'unicode commence par l'ISO-8859-1, la valeur du ' ô ' en unicode est 244 aussi.
On peut voir ça avec les wchar_t, qui servent à représenter les caratcères unicodes: sous Windows, ce sont des nombres 16bits, les caractères étant codés en UTF-16 (L'endianness doit être celle de la machine: sur un PC, c'est de l'UTF-16-LE)

**loufoque** · 04/03/2006, 01h46

Et comme l'unicode commence par l'ISO-8859-1, la valeur du ' ô ' en unicode est 244 aussi.

Unicode est seulement un jeu de caractères, pas un encodage de caractères.
Il y a tout un tas d'encodages de caractères pour unicode.

On peut voir ça avec les wchar_t, qui servent à représenter les caratcères unicodes

Non, ils servent à représenter des caractères "larges".
Cela est indépendant d'Unicode, même si ces conteneurs sont souvent utilisés pour des implémentations d'encodages d'Unicode.

sous Windows, ce sont des nombres 16bits, les caractères étant codés en UTF-16

Pas en UTF-16, en UCS-2.
Ça se ressemble beaucoup, sauf que UCS-2 ne supporte pas tout Unicode mais seulement les 65 536 premiers caractères. UTF-16 peut en supporter plus en utilisant deux nombres de 16 bits pour un caractère.
(Unicode c'est 1 114 112 caractères)

**Emmanuel Delahaye** · 04/03/2006, 08h35

Envoyé par loufoque

(Unicode c'est 1 114 112 caractères)

Including Klingon !

**loufoque** · 04/03/2006, 15h39

C'est pas un truc de Star Trek ça ?

**Emmanuel Delahaye** · 04/03/2006, 15h42

Envoyé par loufoque

C'est pas un truc de Star Trek ça ?

Si, bien sûr !

Trekker powa.

**Médinoc** · 04/03/2006, 22h01

Envoyé par loufoque

Unicode est seulement un jeu de caractères, pas un encodage de caractères.
Il y a tout un tas d'encodages de caractères pour unicode.

Ce que je voulais dire, c'est que je me souviens avoir lu que les 256 premiers caractères du jeu de caratères unicode sont les caractères de l'ISO-8859-1

Non, ils servent à représenter des caractères "larges".
Cela est indépendant d'Unicode, même si ces conteneurs sont souvent utilisés pour des implémentations d'encodages d'Unicode.

Au temps pour moi...

Pas en UTF-16, en UCS-2.
Ça se ressemble beaucoup, sauf que UCS-2 ne supporte pas tout Unicode mais seulement les 65 536 premiers caractères. UTF-16 peut en supporter plus en utilisant deux nombres de 16 bits pour un caractère.
(Unicode c'est 1 114 112 caractères)

Tu es sûr ? Il me semble bien que Windows supporte cela également (c'es t bien cela qu'on appelle les "surrogate pairs" ?)...

**loufoque** · 05/03/2006, 02h44

c'es t bien cela qu'on appelle les "surrogate pairs" ?

Oui.

Moi j'ai vu beaucoup de code avec des chaînes de caractères de type wchar_t* qui partaient du principe qu'un wchar_t était un caractère.
Après peut-être que l'api win32 a tout de même quelques fonctions qui les gèrent. Quoiqu'il en soit, si c'est le cas l'utilisation des caractères larges n'est pas appropriée, car d'après la norme les caractères larges doivent être suffisamment grand pour contenir n'importe quel caractère supporté par le système.

**gronaze** · 07/03/2006, 14h02

merci pour les reponses, mais ça ne correspond pas vraiment a ce que je veux.
voici mon code:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
#include<stdio.h>
#include<math.h>
#include<string.h>
 
 
void main()
{
	int i, j, longueur = 0;
	unsigned char phrase[400];
	unsigned char temp;
 
	for(i=0;i<400;i++)
	{
		phrase[i] = NULL;
	}
	printf("rentrer le texte à transformer en ASCII\n");
	gets(phrase);
 
	longueur = strlen(phrase);
 
	for(i=0;i<longueur;i++)
	{
		printf("tu as rentré en %d: %u\n", i, phrase[i]);
	}
}

Voila ce qu'il me faut mais même en unsigned char je n'ai pas vraiment ce que je veux

**Emmanuel Delahaye** · 07/03/2006, 14h49

Envoyé par gronaze

voici mon code:

Commentaires et corrections...

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
#include<stdio.h>
#include<math.h>
#include<string.h>
 
/* -ed-
void main()
*/
int main (void)
{
   int i /* , j*/ , longueur = 0;
   /* -ed-
    unsigned char phrase[400];
 
      le bon type pour les chaines de caracteres est char.
   */
   char phrase[400];
   /* -ed-
   unsigned char temp;
 
   non utilisee
   */
   for (i = 0;i < 400;i++)
   {
      /* -ed-
        phrase[i] = NULL;
 
         NULL est un pointeur. Tu veux sans doutes dire 0.
         Mais il suffisait de definir le tableau comme suit :
 
       char phrase[400] = {0};
 
         bien que qu'il ne soit pas pas indispensable d'initialiser
         cette variable...
      */
   }
   printf("rentrer le texte à transformer en ASCII\n");
   /* -ed-
    gets(phrase);
 
      DANGER
 
   <a href="http://emmanuel-delahaye.developpez.com/notes.htm" target="_blank">http://emmanuel-delahaye.developpez.com/notes.htm</a>
   <a href="http://emmanuel-delahaye.developpez.com/notes.htm" target="_blank">http://emmanuel-delahaye.developpez.com/notes.htm</a>
 
   */
   fgets(phrase, sizeof phrase, stdin);
 
   longueur = strlen(phrase);
 
   for (i = 0;i < longueur;i++)
   {
      /* -ed-
 
        printf("tu as rentré en %d: %u\n", i, phrase[i]);
         pourquoi unsigned ? Le type par defaut est int, donc '%d'.
         
         par contre, pour que la valeur soit correcte, le char doit etre 
         converti en unsigned char.
      */
      printf("tu as rentré en %d: %d\n", i, (unsigned char) phrase[i]);
   }
 
   /* -ed- parce que main() retourne un int... */
   return 0;
}

**gronaze** · 07/03/2006, 18h33

Merci Emmanuel, pour ces corrections.

Sais tu quelle est la norme utilisée??

**Emmanuel Delahaye** · 07/03/2006, 18h44

Envoyé par gronaze

Sais tu quelle est la norme utilisée??

Norme de quoi ?

**gronaze** · 07/03/2006, 21h51

ce que je veux savoir c'est quel jeu de caracteres est utilisé: ISO xx, UTF, ...
et si possible avoir une table de correspondance caractere->valeur ASCII, meme si je peux la retrouver en effectuant toute les valeurs entre 128 et 255

**Emmanuel Delahaye** · 07/03/2006, 21h56

Envoyé par gronaze

ce que je veux savoir c'est quel jeu de caracteres est utilisé: ISO xx, UTF, ...
et si possible avoir une table de correspondance caractere->valeur ASCII, meme si je peux la retrouver en effectuant toute les valeurs entre 128 et 255

Question de système. Le C n'a rien à voir là dedans. Et pour simplifier, sous Windows, c'est pas le même charset en GUI et en console...

Si tu arrives à comprendre ce fichier, tu as tout :

http://emmanuel-delahaye.developpez....d/inc/ansi.itm

**loufoque** · 08/03/2006, 00h06

et si possible avoir une table de correspondance caractere->valeur ASCII, meme si je peux la retrouver en effectuant toute les valeurs entre 128 et 255

ASCII définit 128 caractères, de 0 à 127.
Tous les charsets que j'ai cités englobent ASCII. (En fait, à part EBCDIC, il doit pas y avoir beaucoup de charsets non compatibles avec ASCII)

À partir de 128, ce n'est plus ASCII.
Si tu veux plus d'infos, parcoure wikipédia.
Tu y trouveras sûrement des tables et des informations sur certains charsets.

**gronaze** · 08/03/2006, 09h14

merci pour tout ces precieux conseils

**Médinoc** · 08/03/2006, 15h00

Envoyé par Emmanuel Delahaye

Si tu arrives à comprendre ce fichier, tu as tout :

http://emmanuel-delahaye.developpez....d/inc/ansi.itm

Euh... Pourquoi tu n'as qu'une seule colonne pour ANSI et OEM ?
(Et visiblement, elle a l'air numérotée en "ANSI", qui doit être (je suppose) ISO-8859-1).

Pour les charsets:
Fenetres et fichiers Windows: Généralement, le charset utilisé est Windows-1252 (CP1252), qui est très proche de l'ISO-8859-1 (Windows a certains caractères imprimables supplémentaires là où l'ISO a des caractères de contrôle).
Consoles Windows: Le charset habituel en France est IBM-850 (CP850), appelé OEM dans les fonctions de l'API Windows (CharToOem(), SetFileApisToOem(), etc.). Il ressemble à ce que Wikipédia appelle CP437 (OEM-US), mais les caractères graphiques "intersections possibles entre \"un seul trait\" et \"deux traits\"" sont remplacés par des lettres accentuées.

comment trouver la valeur ASCII d'un caractere tel que ô

C

Vue hybride

Discussions similaires

Partager

Partager