Bonjour,
J'ai un souci en essayant d'extraire d'un jeu de données les lignes ne comportant pas de valeurs manquantes (NA), sur certaines colonnes.
J'arrive facilement à isoler ce qui m'intéresse avec :
ou
Code : Sélectionner tout - Visualiser dans une fenêtre à part X <- data[complete.cases(data[,c(6,7)]),]
Le problème, c'est que j'essaye ensuite sur ce nouveau dataset de faire des moyennes par facteurs communs, avec la fonction tapply et de reconstruire un dataset propre (un facteur = une moyenne).
Code : Sélectionner tout - Visualiser dans une fenêtre à part Y <- na.omit(tech[,c(1,6,7)])
Le problème, c'est que dans le nouveau dataset 'DF', j'ai des lignes entières de NA qui apparaissent, avec des noms (de la variable 'nom') qui réapparaissent d'on ne sait où. C'est-à-dire qu'ils étaient présents dans le dataset original 'data', mais qui ne sont plus dans le dataset nettoyé 'x', car la ligne comportait des NA, puis là ils réapparaissent quand je fais un tapply...
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5 a <- tapply(x$var2, x$nom, mean) b <- tapply(x$var1, x$nom, mean) nom <- levels(x$nom) DF <- data.frame(nom =nom, var1 = var1, var2 = var2)
Une idée?
Merci!
Partager