getchar() et accents

**mrTerribleLie** · 28/07/2011, 21h25

Bonjour, j'ai récemment commencé la lecture de K&R2 pour approfondir ma connaissance du C. Un des exercices a pour objectif la création d'un histogramme correspondant à longueur des mots entrés. Or, j'ai complété l'exercice et mon programme va très bien... excepté un petit détail... il compte les caractères accentués en double. Or, ma question est bien simple : pourquoi ou plutôt quelle propriété fait qu'un caractère accentué est compté comme deux ?

Voilà mon code (le nom des variables en Anglais, car je code en Anglais, j'ai traduit pour vous les commentaires en Français) :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
#include <stdio.h>
#define MAX_WORD_LENGHT  20
 
int main(void)
{
  int iChar, iWordLenght, i, j, iMaxValue, bDone;
  int iWords[(MAX_WORD_LENGHT+1)] = {0}; /* iWords[0] est utilisé pour les mots > 20 */
  int iColumn[(MAX_WORD_LENGHT+1)] = {0};
 
 
  /* Cette partie est utilisée pour l'entrée de données */
  iWordLenght = 0;
  bDone = 0;
 
  while(!bDone) {
 
    iChar = getchar();
 
    if(iChar == ' ' || iChar == '\t' || iChar == '\n' || iChar == EOF) {
 
      if(iWordLenght > 0 && iWordLenght <= MAX_WORD_LENGHT)
	iWords[iWordLenght]++;
      if(iWordLenght > 0 && iWordLenght > MAX_WORD_LENGHT)
	iWords[0]++;
      if(iChar == EOF)
	bDone = 1;
 
      iWordLenght = 0;
    }
    else
      iWordLenght++;
  }
 
 
  /* Cette partie est utilisée pour l'affichage graphique de l'histogramme */
 
  iMaxValue = 0;
  for(i = 0; i <= MAX_WORD_LENGHT; i++)
    if(iWords[i] > iMaxValue)
	iMaxValue = iWords[i];
 
  printf("\n");
  for(i = iMaxValue; i > 0; i--) {
    printf("%2d |", i);
    for(j = 0; j <= MAX_WORD_LENGHT; j++)
      if(iWords[j] >= i)
	iColumn[j] = '*';
      else
	iColumn[j] = ' ';
    for(j = 1; j <= MAX_WORD_LENGHT; j++)
      {
	printf("%2c ", iColumn[j]);
      }
    printf("%2c|\n", iColumn[0]);
  }
  printf("   +--------------------------------------------------------------+\n");
  printf("   |01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 ++|\n");
 
  return 0;
}

Merci d'avance pour vos réponses!

**Sve@r** · 28/07/2011, 21h32

Salut

Il est fortement probable que ton environnement de travail soit en utf8. Or l'utf8 (format de codage destiné à remplacer l'ASCII et normalisé depuis 2005) code les caractères particuliers sur plus d'un octet (2; 3 ou 4 parfois).

Ce format plus étendu que l'ascii est destiné à pouvoir tout gérer (caractères cyrilliques, suédois, kanjis, etc). Mais on perd l'équivalence "1 caractère=1 octet".

Si t'es sous Linux, tape la commande "locale". Si les variables qui s'affichent ont la valeur "utf8", c'est ça...

**mrTerribleLie** · 28/07/2011, 21h45

Bingo! En effet, environnement de travail est en utf-8. Donc ce serait parce que le buffer de ma console retourne 2 octets à getchar() lorsqu'un caractère accentué est entré. Or, y-a-t'il un moyen de gérer ce petit problème ?

Car en suivant la logique, un simple "if(iChar == 'é')" ne fonctionnerait pas, n'est-ce pas ?

**matafan** · 29/07/2011, 15h13

Si tu veux manipuler des chaines en UTF-8 (ou d'une manière générale avec des charactères multi-byte), il faut que tu utilises les wchar_t à la place des char, et les fonctions associées (fgetws, wcslen...).

Attention, il faut aussi que tu initialises la locale pour que la libc sache sous quelle forme sont codées tes chaines. Tu dois donc ajouter ceci au début de ton programme :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
if (!setlocale(LC_CTYPE, "")) {
        /* Error */
}

**mrTerribleLie** · 29/07/2011, 20h21

Je vais expérimenter avec les widechars, merci beaucoup pour vos conseils à tous les deux!

getchar() et accents

C

Discussions similaires

Partager

Partager