IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

[Importation] Problème de codage pour l'importation (<NA>, NA)


Sujet :

R

  1. #1
    Candidat au Club
    Homme Profil pro
    Inscrit en
    Janvier 2013
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Janvier 2013
    Messages : 2
    Points : 2
    Points
    2
    Par défaut [Importation] Problème de codage pour l'importation (<NA>, NA)
    Bonjour tout le monde,

    Comme beaucoup je suis un peu "perdu" avec la fonction read.table pour lire un fichier .csv (d'ailleurs est-ce que read.csv2 est vraiment plus utile?).

    Ici je charge un fichier "classique" avec la commande :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    donnees <- read.table("mesdonnees.csv", sep = ",", nrows = 10, header = TRUE)
    Je n'utilise pas de séparateur pour les décimales car je n'en ai pas et je force à charger seulement 10 lignes pour plus de lisibilité (presque 50 variables ^^).

    Le chargement se passe plutôt bien sauf pour les variables (colonnes) où il y a des données manquantes.
    En fait pour les colonnes où il n'y a QUE des données manquantes (des cases vides sous Excel), ça charge convenablement en me mettant la notation "NA" sous R.
    En revanche si dans une colonne j'ai des données manquantes mais également des données renseignées là ça m'affiche un "" sous R.

    J'ai essayé de forcer avec l'option na.strings = "" mais là à la place de "" j'ai des "<NA>" donc toujours différents des "NA".

    Cf. l'exemple ci dessous - pour la variable 6 il y a des données non-renseignées d'où le blanc -:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    Var1 Var2 Var3 Var4 Var5 Var6 Var7
    Oui   NA  NA   NA    NA       NA
    Je précise que mes variables sont qualitatives mais je ne suis pas certain de comment utiliser colClasses d'où ma question ici pour résoudre ce problème.

    Cdlt,

    KaliHD

    [EDIT]
    J'ajoute une chose que je viens de remarquer c'est que ma colonne où il y a des données spécifiées ET des données manquantes m'indique que dans cette colonne il n'y a pas de données manquantes avec la fonction is.na(donnees$Var6).

    Contrairement à la même commande sur la Variable 7.

    KaliHD

    [EDIT bis]
    Après avoir cherché sur différents forums le problème vient (peut-être) du fait que dans ma variable 6 j'ai des valeurs numériques et textes et des valeurs manquantes.

    Dans les autres à priori je n'ai que des chiffres et des valeurs manquantes.

    Quelqu'un aurait une solution ... à part re-coder la feuille .csv?

    Je suis également passé par du .txt pour voir la différence ... et il n'y en a pas.

    De plus la variable 6 est bien un "facteur" alors que les autres non (format logique).


    Cdlt,

    KaliHD

  2. #2
    ced
    ced est déconnecté
    Rédacteur/Modérateur

    Avatar de ced
    Homme Profil pro
    Gestion de bases de données techniques
    Inscrit en
    Avril 2002
    Messages
    6 016
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : France, Loiret (Centre)

    Informations professionnelles :
    Activité : Gestion de bases de données techniques
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Avril 2002
    Messages : 6 016
    Points : 23 705
    Points
    23 705
    Par défaut
    Bonjour,

    Un petit extrait du fichier en pièce jointe nous aiderait certainement à pouvoir reproduire le problème. Pour pouvoir vous apporter une solution, ce serait plus pratique.
    Rédacteur / Modérateur SGBD et R
    Mes tutoriels et la FAQ MySQL

    ----------------------------------------------------
    Pensez aux balises code et au tag
    Une réponse vous a plu ? N'hésitez pas à y mettre un
    Je ne réponds pas aux questions techniques par message privé, les forums sont là pour ça

  3. #3
    Candidat au Club
    Homme Profil pro
    Inscrit en
    Janvier 2013
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Janvier 2013
    Messages : 2
    Points : 2
    Points
    2
    Par défaut
    Citation Envoyé par ced Voir le message
    Bonjour,

    Un petit extrait du fichier en pièce jointe nous aiderait certainement à pouvoir reproduire le problème. Pour pouvoir vous apporter une solution, ce serait plus pratique.
    Bonjour,

    Effectivement ça aurait été mieux! Je pensais l'avoir fait dans le premier message ... sorry.

    Sinon pour ceux à qui cela arrive, à priori c'est que R détecte le format des colonnes différemment suivant ce qu'il rencontre dans les colonnes.
    Ici quand il ne voit que des chiffres et des "" il interprète comme numeric/logical. A l'inverse si il rencontre des caractères il va l'interpréter comme un factor.

    Cela revient en fait au même, c'est juste à savoir. Après transformer vos données en facteur (si c'est pertinent pour votre étude) avec factor(Var2), etc.

    Bonne journée à tout le monde,

    Cdlt,

    KaliHD

  4. #4
    Membre averti
    Homme Profil pro
    Inscrit en
    Août 2007
    Messages
    125
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations forums :
    Inscription : Août 2007
    Messages : 125
    Points : 339
    Points
    339
    Par défaut
    Et pour compéter le message de KaliHD. Il est possible de forcer directement le type des variables dans read.table() via l’option colClasses.
    A++

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Problème d'apostrophes pour importation de BDD
    Par xXWanTeDXx-SMoKe dans le forum Langage SQL
    Réponses: 4
    Dernier message: 07/12/2009, 14h17
  2. Import problème avec le projet d'import
    Par IM007 dans le forum 4D
    Réponses: 3
    Dernier message: 22/05/2007, 13h29
  3. Réponses: 4
    Dernier message: 04/05/2007, 12h58
  4. Réponses: 2
    Dernier message: 19/12/2006, 18h37
  5. Problème de codage de caractères depuis l'import
    Par compu dans le forum SQL Procédural
    Réponses: 1
    Dernier message: 22/03/2006, 08h37

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo