Bonjour !
Je dois convertir une base de données en UTF-8. La situation est vraiment m....
Une partie de la base est en "faux utf-8" (suites d'octets utf-8 mais reconnues comme du latin1), une autre partie en latin1....
Je dois donc faire des recherches egrep / sed sur un export pour trouver et différencier les caractères appartenant réellement au jeu latin1 de ceux étant une fraction d'une suite d'octets UTF-8 et ensuite convertir ces "bons" caractères.
Je voudrais donc utiliser dans mes expressions rationnelles egrep et sed des points de code Unicode, du genre \U+20AC ou \x20AC pour le signe €. J'ai essayé ces solutions sans succès.
Savez-vous si cela est possible ?
Merci
Frédéric
Partager