Bonjour,

J'utilise le package twitteR pour récupérer des tweets.

Je souhaite supprimer les accents des tweets. J'utilise la fonction de nettoyage suivante

Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
unaccent = function(text) {
  # Supprime les accents
  text = gsub("['`^~\"]", " ", text)
  text = iconv(text, to="ASCII//TRANSLIT//IGNORE") 
  text = gsub("['`^~\"]", "", text)
  return(text)
}
Quand j'applique la fonction unaccent sur un tweet, les "é" sont remplacés par des "AC", les "è" par des "A?", etc.

[1] "Le PA?re Castor entre A la?TUnesco : Mon grand-pA?re aurait certainement ACtAC fier https://t.co/gRKy9YFe57"
Alors que si je copie le contenu du tweet et que je le colle dans la fonction nettoyage, cela fonctionne

Code : Sélectionner tout - Visualiser dans une fenêtre à part
unaccent("Le Père Castor entre à l’Unesco : \"Mon grand-père aurait certainement été fier\" https://t.co/gRKy9YFe57")
[1] "Le Pere Castor entre a lUnesco : Mon grand-pere aurait certainement ete fier https://t.co/gRKy9YFe57"
Comment expliquer ce problème ?