Bonjour,
J'utilise le package twitteR pour récupérer des tweets.
Je souhaite supprimer les accents des tweets. J'utilise la fonction de nettoyage suivante
1 2 3 4 5 6 7
| unaccent = function(text) {
# Supprime les accents
text = gsub("['`^~\"]", " ", text)
text = iconv(text, to="ASCII//TRANSLIT//IGNORE")
text = gsub("['`^~\"]", "", text)
return(text)
} |
Quand j'applique la fonction unaccent sur un tweet, les "é" sont remplacés par des "AC", les "è" par des "A?", etc.
[1] "Le PA?re Castor entre A la?TUnesco : Mon grand-pA?re aurait certainement ACtAC fier https://t.co/gRKy9YFe57"
Alors que si je copie le contenu du tweet et que je le colle dans la fonction nettoyage, cela fonctionne
unaccent("Le Père Castor entre à lUnesco : \"Mon grand-père aurait certainement été fier\" https://t.co/gRKy9YFe57")
[1] "Le Pere Castor entre a lUnesco : Mon grand-pere aurait certainement ete fier https://t.co/gRKy9YFe57"
Comment expliquer ce problème ?
Partager