utf-8 comparaison caractères spéciaux

**jboll** · 02/11/2008, 13h47

Bonjour,

J'ai quelques problèmes d'encodage, lorsque je transfère des chaines de caractère en java vers une base de donnée (mysql) dont le champ est encodé en "utf8_unicode_ci"

J'ai testé d'insérer "2" puis "²" dans ce champs, mais comme ce champ doit être unique, et que apparemment "2" et "²" sont identique, alors j'ai une erreur "Duplicate entry".

J'aimerai savoir si cela est possible, sous java, de comparer ces deux chaines ("2" et "²" ) avant que je l'envoie à la base de donnée. Afin d'éviter l'erreur.

J'ai testé :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
public static String removeAccent(String source) {
        return Normalizer.normalize(source.toLowerCase(), Normalizer.Form.NFD).replaceAll("[\u0300-\u036F]", "").trim();
    }

Cela marche pour les caractères accentués mais pas dans ce cas là :/

Existe t-il une technique permettant de comparer ces deux chaines ?

**tchize_** · 03/11/2008, 12h25

tu as le "unicode collation algorithm demo" -> http://unicode.org/reports/tr10/Sample/

tu as la librairie ICU de ibm, qui implémente aussi cet algorithme. Note que le normalizer n'a rien à voir avec la collation autant que je sache. (je suis pas expert dans le domaine non plus)

**jboll** · 04/11/2008, 20h57

merci de m'avoir répondu tchize_,

pourrait - tu être un peu plus explicite sur l'usage sur cette lib ? si tu as un exemple concret qui pourrait mettre en évidence que la chaine "2" et "²" sont équivalente cela m'arrangerais. ou bien une autre lib peut importe tant que ca marche : )

le normalizer me permet de comparer certaines chaines comme:
"Cecî é une chène " et "cecI E UnE chenE".
Dans ce cas ces deux chaines seraient équivalente du point de vue de ma base de donnée (codage : utf8_unicode_ci).

Cependant quelques caractère passent à travers le filtre comme les chaines "2" et "²" qui sont équivalente pour l'encodage utf8_unicode_ci mais pas pour ma fonction removeAccent().

J'aimerai donc trouver quelque chose de plus générique plutôt que de faire des patchs successifs jusqu'à ce que cela marche ...

**tchize_** · 04/11/2008, 21h44

désolé, j'ai pas d'exemple, tout ce que je vois, c'est la doc mysql qui précise l'équivalence suivant les spécification unicode, et que ICU fait la même chose, je suppose donc qu'on peux donc faire travailler les deux ensemble.

utf-8 comparaison caractères spéciaux

Langage Java

Discussions similaires

Partager

Partager