Encodage d'un fichier texte

**Alpachio** · 11/01/2014, 14h59

Bonjour,

J'aimerai faire un programme qui me permet de changer l'encodage d'un fichier texte. Je ne connais pas l'encodage du fichier texte de départ et je veux l'encoder en UTF-8.

Voici un extrait des fichiers textes (ce sont des fichiers sous titres de film) :

4
00:00:37,705 --> 00:00:41,249
Mari, pËre, pharmacien
et parfait gentleman,

5
00:00:42,167 --> 00:00:45,002
rÈsidant ‡ Greenberry Hill, Londres.

6
00:00:45,546 --> 00:00:49,424
AssassinÈ par trois vagabonds
au simple motif du vol.

Je ne sais pas si j'ai la bonne méthode, en fait au lieu de faire un chercher-remplacer manuel ( '‡' => 'à' , 'È' => 'é' , etc...) directement dans le fichier texte je veux automatiser ces opérations grâce à un programme.

Donc pour l'instant je suis parti avec ce code :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
#include <stdlib.h>
#include <stdio.h>
 
int main(int argc, char *argv[])
{
    FILE* fichier = NULL;
    int caractereActuel = 0;
 
    fichier = fopen("test.srt", "r+");
 
    if (fichier != NULL)
    {
        // Boucle de lecture des caractères un à un
        while (caractereActuel != EOF) // On continue tant que fgetc n'a pas retourné EOF
        {
			caractereActuel = fgetc(fichier); // On lit le caractère
            printf("%c", caractereActuel); // On l'affiche
			switch (caractereActuel)
			{
				case '‚':
					printf("â");
					break;
				case 'È':
					printf("é");
					break;
				case '‡':
					printf("à");
					break;
				case 'Á':
					printf("ç");
					break;
				case '«':
					printf("Ç");
					break;
				case 'Ù':
					printf("ô");
					break;
				case '˚':
					printf("û");
					break;
				case 'Ë':
					printf("è");
					break;
				case 'Í':
					printf("ê");
					break;
				case '˘':
					printf("ù");
					break;
				case 'Ó':
					printf("î");
					break;
				case '¿':
					printf("À");
					break;
				case 'Ô':
					printf("ï");
					break;
				case 'ú':
					printf("œ");
					break;
				case '…':
					printf("É");
					break;
				case '»':
					printf("È");
					break;
			}
        }
 
        fclose(fichier);
    }
 
    return 0;
}

Lorsque je compile il me dit comme erreur "multi-character character constant" pour chaque 'case' où j'utilise un caractère exotique (par exemple : case '‚'). Lorsque je remplace ces caractères par d'autres plus classique comme 'e' ou 'a' l'erreur disparaît et tout se passe bien. Du coup j'ai essayé d'inclure la bibliothèque ctype.h mais ça ne change rien. Je ne sais plus quoi faire !

J'ai oublié de préciser mais le code que j'ai présenté plus haut n'est pas fini, vous avez du remarquer que pour l'instant je lis juste le fichier texte mais je ne remplace pas les caractères. Pour l'instant je les écrit juste dans le terminal.

PS : le code dans XCode est bien écrit en UTF-8 :

Voilà donc je suis sur mac, je compile avec le terminale et je code avec XCode. Je suis débutant en programmation et c'est mon premier programme en C (merci les tutos d'ailleurs !).

Je pense que j'ai dors et déjà perdu plus de temps à coder le programme que je pourrai en gagner lorsque la tâche sera automatisé, m'enfin bon c'est aussi surtout pour progresser que je fais ça !

**Sve@r** · 11/01/2014, 17h22

Bonjour
Sans connaitre l'encodage initial, ça me parait difficile. C'est comme si tu disais "j'ai un type qui me parle dans sais pas quelle langue et je voudrais le traduire en anglais"...

Bon, à mon avis, on peut toutefois présumer que ton fichier texte est en ascii de base. Donc si c'est juste pour l'encoder en utf-8, t'as notepad++ qui fait déjà très bien ce travail. C'est dans un des menus "convertir en utf-8". Et sous Linux t'as le programme "iconv" qui le fait aussi. Ce programme s'appuie sur une librairie libiconv. Donc (sous réserve que cette librairie existe sous mac ou que tu puisses la récupérer) rien ne t'empêche de l'utiliser...

PS: pour un début en C tu commences fort...

**Daïmanu** · 11/01/2014, 17h46

Bonjour.

Le problème que l'erreur « multi-character character constant » te signale vient du fait qu'en UTF-8, les caractères peuvent être écrits sur plusieurs octets.

À part les 128 premiers caractères (qui correspondent à l'encodage ASCII), les symboles ne rentrent pas dans un simple char.
Par exemple, la lettre « A » occupera 1 octet de ton ficher, mais le caractère « … », si ton fichier est encodé en UTF-8, sera représenté avec 3 octets (voir image).

Manipuler un document Unicode est bien plus compliqué que de l'ASCII.
Tu devras manipuler des string plutôt que des char, ou bien utiliser une bibliothèque spécialisée selon tes besoins.

D’autre-part, la syntaxe &#nb; utilisée en XML/HTML n'a aucun sens en C.

**Alpachio** · 11/01/2014, 19h21

Ok, je vous remercie tous les deux.

Donc après quelques temps à bidouiller les encodages du fichier texte avec XCode je me rend compte que à la base, le fichier sous-titres est encodé en latin-1 mais que mon éditeur de texte mac et VLC lisent les fichiers en UTF-8. C'est pour cette raison que je voit des caractères bizarres.

Il faut donc ouvrir le fichier sous titres avec XCode en lui disant de le lire en latin-1, puis il faut le convertir en UTF-8 et le tour est joué !