Bonjour tout le monde,
Comme beaucoup je suis un peu "perdu" avec la fonction read.table pour lire un fichier .csv (d'ailleurs est-ce que read.csv2 est vraiment plus utile?).
Ici je charge un fichier "classique" avec la commande :
Je n'utilise pas de séparateur pour les décimales car je n'en ai pas et je force à charger seulement 10 lignes pour plus de lisibilité (presque 50 variables ^^).
Code : Sélectionner tout - Visualiser dans une fenêtre à part donnees <- read.table("mesdonnees.csv", sep = ",", nrows = 10, header = TRUE)
Le chargement se passe plutôt bien sauf pour les variables (colonnes) où il y a des données manquantes.
En fait pour les colonnes où il n'y a QUE des données manquantes (des cases vides sous Excel), ça charge convenablement en me mettant la notation "NA" sous R.
En revanche si dans une colonne j'ai des données manquantes mais également des données renseignées là ça m'affiche un "" sous R.
J'ai essayé de forcer avec l'option na.strings = "" mais là à la place de "" j'ai des "<NA>" donc toujours différents des "NA".
Cf. l'exemple ci dessous - pour la variable 6 il y a des données non-renseignées d'où le blanc -:
Je précise que mes variables sont qualitatives mais je ne suis pas certain de comment utiliser colClasses d'où ma question ici pour résoudre ce problème.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2 Var1 Var2 Var3 Var4 Var5 Var6 Var7 Oui NA NA NA NA NA
Cdlt,
KaliHD
[EDIT]
J'ajoute une chose que je viens de remarquer c'est que ma colonne où il y a des données spécifiées ET des données manquantes m'indique que dans cette colonne il n'y a pas de données manquantes avec la fonction is.na(donnees$Var6).
Contrairement à la même commande sur la Variable 7.
KaliHD
[EDIT bis]
Après avoir cherché sur différents forums le problème vient (peut-être) du fait que dans ma variable 6 j'ai des valeurs numériques et textes et des valeurs manquantes.
Dans les autres à priori je n'ai que des chiffres et des valeurs manquantes.
Quelqu'un aurait une solution ... à part re-coder la feuille .csv?
Je suis également passé par du .txt pour voir la différence ... et il n'y en a pas.
De plus la variable 6 est bien un "facteur" alors que les autres non (format logique).
Cdlt,
KaliHD
Partager