La version 9.0 du standard Unicode est disponible et apporte 7500 nouveaux caractères

**Stéphane le calme** · 22/06/2016, 22h48

La version 9.0 du standard Unicode est disponible et apporte 7500 nouveaux caractères,
parmi lesquels 72 emojis

Le consortium Unicode a annoncé la disponibilité de la version 9.0 de son standard, qui a pour vocation d’uniformiser et de standardiser le codage des caractères informatiques. Si beaucoup voient en Unicode un synonyme d'emojis, il convient de rappeler qu’il s’agit avant tout d’un système d'écriture universel et totalement compatible avec les différentes plateformes logicielles.

Unicode 9.0 apporte 7500 nouveaux caractères, ce qui porte le nombre total de caractères disponibles à 128 172. Parmi les nouveaux caractères figurent 72 emojis notamment dans la catégorie « geste avec la main » comme les doigts croisés ou les poignées de main, de nouveaux animaux (un gorille, un papillon, un lézard, un canard, une chauve-souris, etc.), de nouveaux aliments (un kebab, une carotte, des pancakes, un kiwi, une baguette, etc.), des activités diverses (le waterpolo, le jonglage, le canoë, le tambour, le handball, etc.) et certaines expressions (comme un emoji destiné à représenter l’expression Rolling On The Floor Laughing -rire à se rouler par terre-, ou le visage du menteur avec un nez s’allongeant à l’instar de Pinnochio).

Leur arrivée devrait se faire dans les prochaines versions d'iOS et d'Android.

En plus de ces emojis, Unicode 9.0 apporte des caractères pour des langues comme :

osage, une langue amérindienne ;
Nepal Bhasa, une langue du Népal ;
le peul et d'autres langues africaines ;
le dialecte bravanais du swahili, utilisé en Somalie ;
l’orthographe Warsh pour l'arabe, utilisé en Afrique du Nord et de l'Ouest ;
tangut, un script historique majeur de la Chine.

Pour rappel, avant l'Unicode, il y avait des systèmes d'encodage de caractères propres à chaque langage, chacun utilisant les mêmes positions (0-255) pour représenter son jeu de caractères. Certains langages (comme le russe) disposaient de multiples standards divergents sur la manière de représenter les mêmes caractères; d'autres langages (comme le japonais) avaient tant de caractères qu'ils nécessitaient de recourir à de multiples jeux de caractères. L'échange de documents entre systèmes était difficile parce qu'il n'y avait aucun moyen pour une machine de dire avec certitude quel schéma d'encodage avait utilisé l'auteur d'un document, la machine ne voyait que des nombres et ces nombres pouvaient avoir plusieurs significations. Aussi, pour enregistrer ces documents au même endroit (comme dans la même table d'une base de données), vous auriez eu besoin d'enregistrer le jeu d'encodage avec chaque partie du texte et vous assurer de le transmettre en même temps que le texte. Imaginez alors à quoi ressembleraient des documents multilingues rassemblant les caractères issus de différents langages. C'est pour résoudre ce problème qu'Unicode a été conçu.

Source : blog Unicode

Voir aussi :

Le standard Unicode (traitement de données XML)

**Sylvaner** · 23/06/2016, 00h22

L'ajout des emojis ??? Heureusement que l'encodage ne pose aucun problème au quotidien sinon j'aurais pu me poser des questions

**Andarus** · 23/06/2016, 10h56

Envoyé par Sylvaner

L'ajout des emojis ??? Heureusement que l'encodage ne pose aucun problème au quotidien sinon j'aurais pu me poser des questions

Je ne comprend pas, les emoji dans unicode ce n'est pas nouveau. Et unicode est justement fait pour que l'on puisse y ajouter de nombreux caractères sans incompatibilité avec l'existant.

**Sylvaner** · 23/06/2016, 13h47

Envoyé par Andarus

Je ne comprend pas, les emoji dans unicode ce n'est pas nouveau. Et unicode est justement fait pour que l'on puisse y ajouter de nombreux caractères sans incompatibilité avec l'existant.

Je me rappelle juste de caractères plus ou moins utiles dans l'ascii, j'avoue ne pas trop creusé la question de l'inclusion de dessins mais là j'ai l'impression de voir une bibliothèque de clipart.
Un objet est-il un caractère ? Il doit y avoir des explications sur ces choix, je vais peut être les rechercher pour voir comment ils justifient l'ajout de certains. "Eh les gars, et si on rajoutait le Kebab ?"

:oeuf: :canoe: :main avec 2 doigts croisés:

**hotcryx** · 23/06/2016, 16h46

Au final on pourra écrire avec des dessins, des signes

(capitaine Caverneeeeeeeeeeeeeeeeeeeeeeeeeeeeee

)

**Cincinnatus** · 24/06/2016, 09h28

Il n'y a plus qu'à intégrer les glyphes Mayas :

Pièce jointe 213823

Sauf que ceux-ci peuvent être multipliés par les scribes...

**rt15** · 30/06/2016, 14h33

Ces types qui font l'unicode devrait être condamnés à recopier 100 fois tous les caractères de l'unicode.

Ce standard n'est absolument PAS adapté à l'informatique en général.
Il est bien trop compliqué pour ça, et cette complexité résulte en des pertes de performances et une complexité de code dont on ce serait fort bien passé.

1/ Il y a beaucoup trop de caractères (Si on peut appeler ça des caractères : dessins, emoticons) et ils en rajoutent régulièrement.
Genre en 9.0 ils ont ajouté "19 symbols for the new 4K TV standard". Merci les gars, merci. On reparlera de ces caractères dans 20 ans, voir si les TV 4k sont encore là.
Inutile de préciser que les fonts ne suivent pas mais alors pas du tout et que la plupart des caractères ne s'affichent pas correctement dans le navigateur de monsieur tout le monde, même s'ils sont dans la norme depuis des lustres. Exemple au hasard.
Je serais surpris que 99.99% des applications dans le monde se servent couramment de plusieurs dizaines de milliers de caractères différents.

Envoyé par https://fr.wikipedia.org/wiki/Caract%C3%A8res_chinois

Le chinois courant requiert la connaissance de 3 000 à 5 000 sinogrammes et le japonais de 2 000 à 3 000.

J'aurais préférer deux normes à la limite une simple pour l'usage général en informatique et bien supportée, l'autre compliquée pour des cas vraiment spéciaux et rares, supportée par des logiciels précis et spécialisés.
La norme simplifiée ressemblerait un peu au Basic Multilingual Plane de unicode mais encore plus simplifié.

2/ Pourquoi moins de caractères ? Pour simplifier les encodings.
Aujourd'hui il y a 2 encodings unicodes souvent utilisés: UTF-8 et UTF-16LE (LE pour little endian).
UTF-16 n'a été créé que parce que les 16 bits de UCS-2 sont devenus insuffisants pour contenir tous les caractères de l'unicode.
Donc java et windows sont passés de UCS-2 à UTF-16. Les pauvres, ils ont du en baver. En UCS-2 on incrémente un pointeur pour atteindre le caractères suivant. En UTF-16, obligé de passer par CharNext ou équivalent. Car un caractère UTF-16 peut être sur 4 octets. Dans 0.0000000000001% des cas.
Si les concepteurs de Java et Windows avaient su que l'UCS-2 allait mourir, ils auraient sûrement utilisé UTF-8 qui a les inconvénients de traitement de UTF-16 mais est nettement plus compact et beaucoup plus répandu dans les documents.
Seulement voilà UCS-2 paraissait nettement plus pratique à l'époque car beaucoup plus simple à traiter. Mais il est mort, argh.

3/ On peut écrire les même mots avec des caractères différents. En utilisant les caractères composés ou non. Je vous laisse deviner les conséquences en matière de comparaison de chaînes sachant que l'on peut écrire "é" de deux manières différentes. Les conséquences en matière de "taille" des caractères à l'écran peuvent aussi être amusante avec les caractères décomposés. Afficher des caractères unicode en colonnes à l'écran est un casse tête chinois.

4/ J'en oublie sûrement tellement unicode est compliqué.

Bref les devs sont maudits niveau encoding et si unicode a résolu quelques problèmes, il aurait pû être nettement moins chiant.

**Andarus** · 05/07/2016, 11h16

Envoyé par rt15

4/ J'en oublie sûrement tellement unicode est compliqué.

C'est sûr c'était tellement mieux de devoir supporté une multitude de charset différent...

La version 9.0 du standard Unicode est disponible et apporte 7500 nouveaux caractères

Vue hybride

Discussions similaires

Partager

Partager