Bonjour,

dans un champ de ma table Hive, le caractère "€" est présent sur certaines lignes :

Nom : Capture.JPG
Affichages : 216
Taille : 30,6 Ko

Comme vous pouvez le constater, le code ascii associé à ce caractère est -30. je m'attendais plutôt à avoir 128 (c'est d'ailleurs la première fois que je vois un code ascii négatif et il me semble que c'est incorrect).

La table est définie comme ceci :

Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
ROW FORMAT SERDE   'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (   'escapeChar'='&@|',   'serialization.encoding'='UTF-8')
STORED AS INPUTFORMAT   'org.apache.hadoop.mapred.TextInputFormat' OUTPUTFORMAT   'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION  'XXXXX'
TBLPROPERTIES (  'numFiles'='1',   'serialization.null.format'='',   'skip.header.line.count'='1',   'totalSize'='52063983',   'transient_lastDdlTime'='1521797872')
Est-ce que quelque chose dans la définition de la table empêche d'interpréter correctement le "€" ?

Merci d'avance.