Remplacer une lettre par une autre dans un fichier contenant des caractères Unicode

**tomap3** · 05/04/2009, 14h02

Salut j'aimerai savoir comment faire au juste pour remplacer une lettre par une autre dans un fichier contenant des caractères Unicode (caractères wide (wchar_t)).
J'ai essayer avec le code suivant, mais ça ne marche pas, je tombe a chaque fois dans une boucle infinie:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
do
{
   lettre = fgetwc(fichier);
   //printf("%d\n", debug++);
   if( lettre == 'a')
   {
      //puts("OK");
      fseek(fichier, - sizeof(wchar_t), SEEK_CUR);
      fputwc('b', fichier);
   }
}
while(lettre != WEOF);

Le plus bizarre c'est que ftell() retourne 17 avant fseek() et elle retourne 0 après fseek() !
Merci.

**nicolas.sitbon** · 05/04/2009, 14h47

Quel est l'encodage du fichier? UTF-16? UTF-32?

**tomap3** · 05/04/2009, 15h53

Envoyé par nicolas.sitbon

Quel est l'encodage du fichier? UTF-16? UTF-32?

Ben c'est UTF-8 je suppose.
(Quand je fait "enregistrer sous" avec gedit, ya "Current Locale: UTF-8").

Remarque à part: le fichier est ouvert avec fopen en mode r+.

**orfix** · 05/04/2009, 16h15

Envoyé par tomap3

Ben c'est UTF-8 je suppose.

Aprés quelques corrections cela donne :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
do
{
	lettre = fgetwc(fichier);
	printf("%d\n", debug++);
	if( lettre == L'a')
	{
		//puts("OK");
		fseek(fichier, -1, SEEK_CUR);
		fputwc(L'b', fichier);
	}
}
while(lettre != WEOF);

**dj.motte** · 05/04/2009, 16h35

Salut,

Et ça donne quoi pour changer un e en é si le é prend deux octets en utf8 ? Je suppose que fgetwc doit résoudre le problème car ça lit sur deux octets.

**tomap3** · 05/04/2009, 16h37

Envoyé par ssmario2

Aprés quelques corrections cela donne :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
do
{
	lettre = fgetwc(fichier);
	printf("%d\n", debug++);
	if( lettre == L'a')
	{
		//puts("OK");
		fseek(fichier, -1, SEEK_CUR);
		fputwc(L'b', fichier);
	}
}
while(lettre != WEOF);

Pas vraiment !
Bon pour les caracteres 'a' et 'b' c'est que les exemples ici (c'est vrai que si je les utilise comme ça il faut L'a' pour dire que c'est unicode), mais en fait c'est des caractères Unicode qui sont dans des variables préalables dans mon vrai code... donc bon.
Pour le 2eme argument de fseek(), il ne fait pas mettre -1. Là je manipule des caractères wide qui ne sont donc pas sur 1 Byte, si tu met -1 ça va reculer d'un seul Byte dans le fichier ce qui provoque un problème (j'ai déjà essayé ça avant sizeof(wchar_t)).
Donc le problème reste toujours posé.

Envoyé par dj.motte

Salut,
Et ça donne quoi pour changer un e en é si le é prend deux octets en utf8 ?

Heu je ne sais pas, en fait là je manipule des lettres arabes dans le fichier. Le 'a' et 'b' c'était que pour l'exemple dans le code.

**orfix** · 05/04/2009, 19h04

Envoyé par tomap3

Pas vraiment !
Bon pour les caracteres 'a' et 'b' c'est que les exemples ici (c'est vrai que si je les utilise comme ça il faut L'a' pour dire que c'est unicode), mais en fait c'est des caractères Unicode qui sont dans des variables préalables dans mon vrai code... donc bon.

Désolé de ne pas pouvoir lire dans tes pensées

Envoyé par tomap3

Pour le 2eme argument de fseek(), il ne fait pas mettre -1. Là je manipule des caractères wide qui ne sont donc pas sur 1 Byte, si tu met -1 ça va reculer d'un seul Byte dans le fichier ce qui provoque un problème (j'ai déjà essayé ça avant sizeof(wchar_t)).
Donc le problème reste toujours posé.

Avant de répondre j'ai souligné le fait que tu utilises un fichier UTF-8, donc oui le 'a' est stocké sur 1 octet (compatibilité avec l'ASCII oblige), le -1 est correcte.

Sinon moi j'aurais plutôt fait ceci:

Ouvrir le fichier en lecture
copier ce que je veux dans un autre fichier ouvert en écriture
supprimer le fichier précédemment ouvert en lecture
renommer le fichier précédemment ouvert en écriture

**nicolas.sitbon** · 05/04/2009, 19h52

Envoyé par ssmario2

Sinon moi j'aurais plutôt fait ceci:

Ouvrir le fichier en lecture
copier ce que je veux dans un autre fichier ouvert en écriture
supprimer le fichier précédemment ouvert en lecture
renommer le fichier précédemment ouvert en écriture

Pour de l'UTF8, pas moyen de faire autrement.

**Emmanuel Delahaye** · 05/04/2009, 20h23

Envoyé par nicolas.sitbon

Pour de l'UTF8, pas moyen de faire autrement.

Parce que la longueur est variable, c'est ça ? Certains caractères font 1 octets et d'autres 2, c'est bien ça ?

**nicolas.sitbon** · 05/04/2009, 20h30

Envoyé par Emmanuel Delahaye

Parce que la longueur est variable, c'est ça ? Certains caractères font 1 octets et d'autres 2, c'est bien ça ?

C'est bien ça, mais dans tous les cas, je conseille quand même de toujours utiliser la méthode ssmario2.

**Emmanuel Delahaye** · 05/04/2009, 20h32

Envoyé par nicolas.sitbon

C'est bien ça, mais dans tous les cas, je conseille quand même de toujours utiliser la méthode ssmario2.

Oui, moi aussi... Les écritures dans le fichier existant (modes "*+"), je n'y crois pas...

**tomap3** · 06/04/2009, 01h46

Ok je ferai comme ça alors.
Meci.

Remplacer une lettre par une autre dans un fichier contenant des caractères Unicode

C

Discussions similaires

Partager

Partager