encodage de caractères : explication corrigé d'exercices

**OlympeGeekette** · 16/11/2013, 20h22

Bonsoir,

Pouvez vous m'expliquer cet exercice corrigé svp ?

jeux de caractères et codages
1.2.1 Codage nationaux et Mojibake
Soit le texte : Coefficient marée trop fort pour livraison tomates cœur-de-bœuf

Q3 Dans le jeu de caractère ISO-8859-15 (dit latin-9), il est possible de coder ce texte. Chaque caractère est alors codé par un octet unique. Quelle
est la taille du fichier qui contient uniquement ce texte?
85 octets (et non 86)

=>Comment ils ont trouvé 85 octects

Q4 4.
Un polonais lit sur son vieil ordinateur le texte précédent. Il voit qu’une des lettres a été remplacée par ̋ (c’est un double accent aigu, comme
dans Erdős, et pas un tréma comme dans Gwenaël). Laquelle et pourquoi? S’il renvoie le texte tel quel a son correspondant français du début,
que verra le français et pourquoi?
En vérité, il y a de bonnes chances qu’il lise son texte comme étant du ISO-8859-2, et non pas du ISO-8859-15, donc il verra un double accent
aigu à la place de sa lettre. Mais le contenu du fichier est inchangé; s’il est renvoyé au français, le texte apparaîtra normalement.
L’encodage d’un fichier ne peut pas être deviné simplement comme ça (il faut faire une analyse des mots pour déterminer la langue et donc
l’encodage probable).
NB : bien sûr, il peut y avoir des problèmes; les logiciels de courrier indiquent parfois l’encodage des pièces jointes, même s’il a été mal
deviné; certains éditeurs de texte sauvegardent les textes dans un encodage différent de celui qui a été deviné pour l’ouverture... bref, les
problèmes peuvent exister. Mais le fichier n’est a priori pas modifié sauf logiciels qui ne fonctionnent pas bien.

=> Pourquoi il verra double accent aigue à la place de sa lettre en étant en ISO-8859-2 ?

UTF8
1.
Le caractère de numéro 0x0041 (A) est codé par quel(s) octet(s) en UTF-8?
0x41
2.
Le caractère de numéro 0x00E9 (é) est codé par quel(s) octet(s) en UTF-8?
0xc3 0xa9
3.
Le caractère de numéro 0x0F03 () est codé par quel(s) octet(s) en UTF-8?
0xe0 0xbc 0x83
C’est le caractère GTER YIG MGO ’IM
GTER SHEG MA en tibétain (à vos souhaits).
4.
Le caractère de numéro 0x12084 () est codé par quel(s) octet(s) en UTF-8?
0xf0 0x92 0x82 0x84 (4 octets)
C’est le caractère
DOUN en cunéiforme (babylonien).

=> comment on a trouvé tout cela pouvez vous me donner un exemple ? je dois avouer ne pas avoir compris le code ASC2

5.Dans un fichier codé en UTF-8,on trouve les six octets suivants.Combien de caractères sont réellements codés dans ce texte?

3 caractères (un sur trois octets, un sur deux, un sur un)

=> comment on a trouvé 3 caractères

merci d'avance
Bonne soirée

encodage de caractères : explication corrigé d'exercices

Linux

Vue hybride

Discussions similaires

Partager

Partager