IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Pondération et sous-population


Sujet :

R

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre confirmé
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2014
    Messages
    24
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Mars 2014
    Messages : 24
    Par défaut Pondération et sous-population
    Bonjour, je me mets actuellement aux statistiques et par la même occasion à R, aussi je ne suis pas sûr de savoir si ma question a vraiment sa place ici.

    Voilà mon problème: je dispose d'une table de données de l'INSEE avec de nombreuses variables, dont une de pondération. Pour mes premiers calculs, j'utilise donc wtd.table pour faire des tris croisés pondérés et ça marche nickel. Je souhaite maintenant retenir une partie seulement de la table (les individus qui satisfont une certaine condition à l'une des variables), et faire de nouvelles statistiques dessus. Autrement dit, à l'aide de la fonction subset je crée une nouvelle table où ne figurent que les individus ayant répondu oui à la question A, et je voudrais faire de nouveaux tris croisés chez ces individus, mettons entre les variables B et C.
    Ma question est alors : est-ce que je peux utiliser wtd.table avec la même variable de pondération, ou est-ce que tout est faussé du fait de l'utilisation de subset (et auquel cas, comment retrouver une pondération correcte) ?

    Voilà voilà, j'espère ne pas transgresser les règles du forum en postant cela ici, merci pour votre aide !

    François

  2. #2
    Modératrice

    Femme Profil pro
    Statisticienne, Fondatrice de la société DACTA
    Inscrit en
    Juin 2010
    Messages
    893
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 37
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Statisticienne, Fondatrice de la société DACTA

    Informations forums :
    Inscription : Juin 2010
    Messages : 893
    Par défaut
    Bonjour,

    Je ne suis pas sûre d'avoir bien saisie votre question mais je pense que le mieux à faire est de garder, au sein du subset effectué, la variable de poids (à indiquer au niveau du paramètre "select"). Comme cela la variable de poids aura le même nombre d'individus que les autres et tout devrait être correct je pense.

    Exemple :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    26
    27
    28
    29
    30
    31
    32
    33
    34
    35
    36
    37
    38
    39
    40
    41
    a<-factor(sample(c("Oui","Non"),10,replace=TRUE))
    x1<-factor(sample(1:3,10,replace=TRUE))
    poids<-c(2,1,2,1,1,0,1,0,1,1)
    D<-data.frame(x1,a,poids)
    D
     
       x1   a poids
    1   1 Oui     2
    2   3 Non     1
    3   2 Oui     2
    4   2 Non     1
    5   2 Non     1
    6   1 Oui     0
    7   2 Non     1
    8   1 Oui     0
    9   1 Non     1
    10  3 Oui     1
     
    table(D$x1)
     
    1 2 3 
    4 4 2
     
    wtd.table(D$x1,weights=D$poids)
     
    1 2 3 
    3 5 2 
     
    S<-subset(D,a=="Oui",select=c("x1","a","poids"))
    S
       x1   a poids
    1   1 Oui     2
    3   2 Oui     2
    6   1 Oui     0
    8   1 Oui     0
    10  3 Oui     1
     
    wtd.table(S$x1,weights=S$poids)
     
    1 2 3 
    2 2 1
    HTH !


    Cordialement,


    A.D.

    Forum R
    Fournir le code utilisé (pensez aux balises code !), les packages nécessaires, ainsi qu'un court mais représentatif extrait du jeu de données et les éventuels messages d'erreur.
    Recherche d'informations concernant R : RSiteSearch / tutoriels : http://r.developpez.com/cours/ .

    Pensez également au bouton "Résolu" et à voter (en bas à droite des messages) lorsque vous avez obtenu une réponse satisfaisante.

  3. #3
    Membre confirmé
    Homme Profil pro
    Étudiant
    Inscrit en
    Mars 2014
    Messages
    24
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Mars 2014
    Messages : 24
    Par défaut
    merci pour votre réponse,

    évidemment, je continue à avoir des questions

    -d'abord concernant le paramètre select, pour l'instant je ne l'utilise pas et la variable de pondération est conservée sans problème (comme toutes les autres d'ailleurs). Est-il vraiment indispensable, à partir du moment où l'on ne souhaite pas particulièrement exclure de variable ?

    -ensuite (ou plutôt avant d'ailleurs), ma question est plutôt mathématique. En réalisant un simple subset comme nous le faisons ici, le poids de chaque individu reste le même. Et ma question est : peut-on garder le même poids pour chaque individu, tout en en excluant une partie ? Autrement dit la variable de pondération, que l'INSEE construit grâce à des données connues (par exemple, on sait qu'il y a proportionnellement moins de femmes dans la population que dans l'enquête donc on leur donne un poids inférieur dans la pondération), signifie-t-elle encore quelque chose si l'on exclut des individus de l'enquête?

    Je suis bien conscient que la question est à la limite de R, puisqu'au niveau des commandes, seule ma question sur select reste incertaine pour moi. Mais si des gens ont des réponses, sait-on jamais...

    En tous les cas, merci d'avoir prêté attention au problème.

    François

Discussions similaires

  1. [Toutes versions] Population et sous population: 1 ou 2 table?
    Par skarno dans le forum Modélisation
    Réponses: 5
    Dernier message: 06/08/2014, 18h34
  2. Problème d'installation oracle 8.1.7 sous NT
    Par Anonymous dans le forum Installation
    Réponses: 7
    Dernier message: 02/08/2002, 14h18
  3. OmniORB : code sous Windows et Linux
    Par debug dans le forum CORBA
    Réponses: 2
    Dernier message: 30/04/2002, 17h45
  4. Je ne peux établir une connexion cliente sous Linux.
    Par Anonymous dans le forum CORBA
    Réponses: 5
    Dernier message: 16/04/2002, 15h57
  5. Réponses: 4
    Dernier message: 27/03/2002, 11h03

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo