Supprimer les lignes incomplètes

Version imprimable

29/05/2016, 15h05
kmtdev

Supprimer les lignes incomplètes
Bonjour,
J'ai un souci en essayant d'extraire d'un jeu de données les lignes ne comportant pas de valeurs manquantes (NA), sur certaines colonnes.
J'arrive facilement à isoler ce qui m'intéresse avec :

Code:

X <- data[complete.cases(data[,c(6,7)]),]

ou

Code:

Y <- na.omit(tech[,c(1,6,7)])

Le problème, c'est que j'essaye ensuite sur ce nouveau dataset de faire des moyennes par facteurs communs, avec la fonction tapply et de reconstruire un dataset propre (un facteur = une moyenne).
Code:

1 2 3 4 5 a <- tapply(x$var2, x$nom, mean) b <- tapply(x$var1, x$nom, mean) nom <- levels(x$nom) DF <- data.frame(nom =nom, var1 = var1, var2 = var2)
Le problème, c'est que dans le nouveau dataset 'DF', j'ai des lignes entières de NA qui apparaissent, avec des noms (de la variable 'nom') qui réapparaissent d'on ne sait où. C'est-à-dire qu'ils étaient présents dans le dataset original 'data', mais qui ne sont plus dans le dataset nettoyé 'x', car la ligne comportait des NA, puis là ils réapparaissent quand je fais un tapply... :aie:
Une idée?

Merci!

nom (ou x$nom) est un facteur défini à partir de ses niveaux. tapply va travailler sur ceux-ci est non sur ceux qui figurent dans la data.frame. Comme les niveaux qui ne sont pas présent dans le data.frame existent toujours, tu les retrouves. Il faut utiliser la fonction droplevels pour les supprimer. Exemple :
Code:

1 2 3 4 5 6 7 8 9 10 11 12 donnees <- data.frame( f=factor( rep( c( "a", "b", "c"), each=12)), y=c( rnorm( 12), runif( 12), rep( NA, 12))) levels( donnees$f) tapply( donnees$y, donnees$f, mean) x <- donnees[complete.cases( donnees),] levels( x$f) tapply( x$y, x$f, mean) y <- droplevels( x) levels( y$f) tapply( y$y, y$f, mean)

31/05/2016, 01h01
kmtdev

Bien vu! Merci, en effet, la variable continue à stocker les niveaux non utilisés après un complete.case (ou toute autre condition apparement) et il faut nettoyer manuellement les niveaux non utilisés avec un drop.levels!
Merci du coup de main :)
31/05/2016, 12h56
faubry

En réalité, la variable ne continue pas à stocker les niveaux non utilisés car les niveaux sont des propriétés (attribut dans la langage R) de l'objet factor, ici la colonne correspondante du data.frame. Les fonctions complete.cases ou na.omit travaillent sur les valeurs du data.frame, c'est-à-dire de chacun de ses objets et non sur le propriétés du data.frame (nombre de lignes, nombres de colonnes, ...) ni de chacun des objets constituant ses colonnes (classe et autres attributs). Ces fonctions ne réagissent qu'au test is.na( donnees[i,j]) ou donnees est le nom du data.frame et i et j, respectivement les indices de lignes et de colonnes.