IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Codification des données qualitatives ( Verbatim)


Sujet :

R

  1. #1
    Membre du Club
    Homme Profil pro
    Data analyst
    Inscrit en
    Mars 2014
    Messages
    81
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Data analyst
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mars 2014
    Messages : 81
    Points : 65
    Points
    65
    Par défaut Codification des données qualitatives ( Verbatim)
    Bonjour tout le monde,

    je commence une alternance, et la ou je suis ça travaille sur des sondages, et ils rafollent des verbatim ( données sous forme de texte, données qualitatives), du coup moi je n'ai jamais eu a faire avec ce genre de données et je dois le plus rapidement, faire un programme qui va codifier ces données afin de pouvoir travailler dessus ( faire des regressoins et analyser les relations entres les differentes variables)

    svp svp je suis perdu

    merci d'avance!

  2. #2
    Membre éclairé
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Janvier 2012
    Messages
    325
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Janvier 2012
    Messages : 325
    Points : 888
    Points
    888
    Par défaut
    Faudrait préciser le problème, les données qualitatives sont pas plus dur à gérer que des données quantitatives.

  3. #3
    Membre du Club
    Homme Profil pro
    Data analyst
    Inscrit en
    Mars 2014
    Messages
    81
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Data analyst
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mars 2014
    Messages : 81
    Points : 65
    Points
    65
    Par défaut
    Bonjour,

    Imginez que vous avez un sondage de 10000 individus ( entreprises), leurs réponse sont soit: trés satisfait, satisfait, non stisfait, je quitte, sans opinion, ou bien une note de 0 à 10, ou bien un esapce ou l'individu s'exprime librement, par exemple : " Je ne suis pas trés satisfait de la qualité du service aprés vente, les délais sont bcp trop longs, et par rapport aux prix je préfére aller chez le conquerant" ce genre de commentaire.

    tout ca dans une seul et unique base de données, et il faut tirer des conclusions, par exemple, est ce que le degrés de satisfaction ou d'insatisfaction à un lien avec la taille de l'entreprise ou son chiffre d'affaire...( et bien sur nous possédons ces données)

    Voilà, pour faire court de quoi il est question.

    et merci de votre réponse.

    cdlt

  4. #4
    Membre averti
    Homme Profil pro
    Data Scientist
    Inscrit en
    Août 2013
    Messages
    139
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Data Scientist
    Secteur : Industrie

    Informations forums :
    Inscription : Août 2013
    Messages : 139
    Points : 316
    Points
    316
    Par défaut
    Bonjour,

    Déjà pour ce genre de problème il ne faut pas essayer de tout résoudre en même temps mais de configurer bien sa base de données d'abord.
    Pour cela mieux vaut procéder par étape.

    Nous allons dire qu'une colonne correspond à une variable où la personne aura répondu par une note, une phrase, etc... Une ligne correspond à un client/une personne.

    Donc tu as tes variables en colonnes et tes individus en lignes.

    Dans un premier temps, procède à une description de tes variables, quantitatives, qualitatives (nombre de modalité, quels sont les modalités).
    Ensuite tu peux recoder tes modalités, si "très satisfait" ne te convient pas remplace le par 1 par exemple.

    Tu peux gérer les variable qualitatives avec par exemple (non exhaustif) factor(), as.factor(), levels().

    Essaye déjà de faire une bonne étude exploratoire de ta base de données, de bien la mettre en forme sous R.

    Si tu as besoin d'autres conseils n'hésite pas. Pour l'instant il est difficile de t'aider sans plus d'information.

  5. #5
    Membre du Club
    Homme Profil pro
    Data analyst
    Inscrit en
    Mars 2014
    Messages
    81
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Data analyst
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mars 2014
    Messages : 81
    Points : 65
    Points
    65
    Par défaut
    Bonjour,

    Merci d'avoir bien détaillé ta réponse, par contre ce que je ne comprend pas c'est l’étape "Tu peux gérer les variable qualitatives avec par exemple (non exhaustif) factor(), as.factor(), levels()."

    je me réfère à quoi pour le faire svp?

    Cordialement.

  6. #6
    Membre averti
    Homme Profil pro
    Data Scientist
    Inscrit en
    Août 2013
    Messages
    139
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Data Scientist
    Secteur : Industrie

    Informations forums :
    Inscription : Août 2013
    Messages : 139
    Points : 316
    Points
    316
    Par défaut
    Alors les fonctions cités sont utilisé pour des vecteurs ou des data.frame.

    Je suppose que ta table de données est déjà sous R, et est sous la forme d'un data.frame (lignes = individus, colonnes = variables).

    Mettons que tu ais les variables "score", "qualité" dans le data.frame nommé table.
    "score" est une note de 0 à 10
    "qualité" prend les valeurs : "pas satisfait", "satisfait", "très satisfait"

    alors si tu fais
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    table$score <- as.factor(table$score)
    Ainsi tes scores seront pris comme une variable qualitative par R et non pas par une variable quantitative.
    Si tu fais :
    tu retrouveras le codage de ta variable. Normalement R, reconnait automatiquement les variables non-numérique comme des variables qualitatives.

    Si tu es débutant sous R et que tu ne connais pas ce genre de manipulation, je te conseille de jeter un oeil sur le site suivant : http://www.duclert.org/Aide-memoire-...t-Facteurs.php, tu y trouveras de quoi bien démarrer dans ton projet.

Discussions similaires

  1. qualité des données
    Par Go_Ahead dans le forum Alimentation
    Réponses: 10
    Dernier message: 14/01/2014, 09h32
  2. Traitez-vous la qualité des données ?
    Par Feyrehr dans le forum Statistiques, Data Mining et Data Science
    Réponses: 1
    Dernier message: 27/09/2012, 18h01
  3. Qualité des données statistiques
    Par id301077 dans le forum SAS STAT
    Réponses: 1
    Dernier message: 03/10/2011, 10h58
  4. Réponses: 1
    Dernier message: 26/05/2009, 13h44

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo