homogénisation de valeurs de variables en texte
bonjour, je débute avec R.
je travaille sur un fichier INSEE.
ci-dessous un extrait de mon tableau nommé T
row.names coma liba comb libb n
2015 01053 Bourg-en-Bresse 13210 Marseille 10e Arrondissement 1.0094811
2016 01053 Bourg-en-Bresse 13216 Marseille 16e Arrondissement 3.6697433
je voudrai arriver à ce tableau
2015 01053 Bourg-en-Bresse 13055 Marseille 1.0094811
2016 01053 Bourg-en-Bresse 13055 Marseille 3.6697433
j'imagine 2 étapes : l'une où je supprime les "xxe Arrondissement" et l'autre où je sélectionne le champ 'Marseille' pour modifier le code insee correspondant.
Quelqu'un pourrait-il m'aider? merci
homogénisation de valeurs de variables en texte
bonsoir
j'ai essayé de supprimer la chaine "1er arrondissement" ... "16 arrondissement" de Marseille pour la variable libb (mon idée etant de recommencer pour Paris, Lyon et de faire pareil pour la variable liba.
voici mon code (qui ne marche pas !!)
Code:
paca$libb[paca$libb %in% c("Marseille 1er Arrondissement","Marseille 2e Arrondissement","Marseille 3e Arrondissement","Marseille 4e Arrondissement","Marseille 5e Arrondissement","Marseille 6e Arrondissement","Marseille 7e Arrondissement","Marseille 8e Arrondissement","Marseille 9e Arrondissement","Marseille 10e Arrondissement","Marseille 11e Arrondissement","Marseille 12e Arrondissement","Marseille 13e Arrondissement","Marseille 14e Arrondissement","Marseille 15e Arrondissement","Marseille 16e Arrondissement")] <-"Marseille"
Voici le message d'erreur :
Citation:
Warning message:
In `[<-.factor`(`*tmp*`, paca$libb %in% c("Marseille 1er Arrondissement", :
invalid factor level, NA generated
Quelqu'un pourrait m'aider ?
Merci