IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Echantillon "représentatif" ?


Sujet :

R

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre averti
    Homme Profil pro
    Étudiant
    Inscrit en
    Juin 2015
    Messages
    54
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Service public

    Informations forums :
    Inscription : Juin 2015
    Messages : 54
    Par défaut Echantillon "représentatif" ?
    Bonjour à tous,


    Je suis à la recherche d'un programme qui serait capable de me générer un échantillon aléatoire représentatif de mes données.
    Un échantillon, c'est relativement simple à faire ressortir ... Le problème étant que je ne suis pas statisticien et qu'il est difficile pour moi de savoir comment faire pour savoir si celui - ci est représentatif. J'ai fait quelques recherches et il existe apparemment bien des façons pour réaliser des tests sous R.

    Mon soucis étant que j'aurais besoin d'un échantillon par ville pour en avoir un final qui regroupe l'ensemble de ceux - ci. Du coup, la taille de chaque échantillon ne sera pas la même, le nombre d'habitants par ville étant différent. Mais de façon à avoir une représentativité maximale d'au moins 95% dans chacune des villes.

    Mais je ne sais pas comment m'y prendre sur cette partie statistique ...

  2. #2
    Membre averti
    Homme Profil pro
    Étudiant
    Inscrit en
    Juin 2015
    Messages
    54
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Service public

    Informations forums :
    Inscription : Juin 2015
    Messages : 54
    Par défaut
    Aussi, avec quelques recherches, j'ai trouvé ce document et j'ai plus ou moins ce dont je recherche dans la section "taille de l'échantillon".

    Les graphiques proposés sont particulièrement intéressant, savez - vous par quels moyens, je pourrais les reproduire ?

  3. #3
    Modératrice

    Femme Profil pro
    Statisticienne, Fondatrice de la société DACTA
    Inscrit en
    Juin 2010
    Messages
    893
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 37
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Statisticienne, Fondatrice de la société DACTA

    Informations forums :
    Inscription : Juin 2010
    Messages : 893
    Par défaut
    Bonjour,

    Ravie que vous ayez pu trouver des infos intéressantes au sujet de votre échantillonnage (vaste sujet d'ailleurs).

    Pour ce qui est des graphiques, il existe pas mal de fonctions / packages R avec chacun des manières différentes de personnaliser ses graphiques. Personnellement je vous conseillerais par exemple le package "ggplot2" qui devrait vous permettre d'obtenir des graphiques assez proches de ce que vous souhaitez.
    N'hésitez pas à venir poster sur le forum vos tentatives et questions à ce sujet d'ailleurs !

    Bonne continuation


    Cordialement,


    A.D.

    Forum R
    Fournir le code utilisé (pensez aux balises code !), les packages nécessaires, ainsi qu'un court mais représentatif extrait du jeu de données et les éventuels messages d'erreur.
    Recherche d'informations concernant R : RSiteSearch / tutoriels : http://r.developpez.com/cours/ .

    Pensez également au bouton "Résolu" et à voter (en bas à droite des messages) lorsque vous avez obtenu une réponse satisfaisante.

  4. #4
    Membre averti
    Homme Profil pro
    Étudiant
    Inscrit en
    Juin 2015
    Messages
    54
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Service public

    Informations forums :
    Inscription : Juin 2015
    Messages : 54
    Par défaut
    Bonjour,

    Je n'ai malheureusement pas trop avancé, le sujet ayant été mis de côté pour quelques jours.
    La statistique est quelque choses d'assez complexe pour les non - initiés. Je me permets de vous demander, tout en sachant que vous êtes statisticienne, la façon dont vous vous seriez prise pour traiter ce problème d'échantillonnage, me concernant, je bloque.

    J'ai une formule [(t²*p*(1-p))/e²] qui, apparemment, donnerait une valeur approximative de la taille d'un échantillon représentatif mais celui - ci n'a apparemment rien à voir avec la taille de mes données.
    Ce qui me semble assez problématique, en sachant que mes données sont séparées en plusieurs groupes (d'environ 1.000 à 2.500 lignes).

  5. #5
    Membre averti
    Homme Profil pro
    Étudiant
    Inscrit en
    Juin 2015
    Messages
    54
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Service public

    Informations forums :
    Inscription : Juin 2015
    Messages : 54
    Par défaut
    Bonjour,

    Je reviens à vous pour donner l'état de mon avancement, la façon dont j'ai procédé.

    De ma base de données initiale de 60.000 observations, j'ai pu ressortir une trentaine de strates (par ville) d'environ 1.000 à 2.500 observations en moyenne. Pour m'y retrouver et faciliter mes calculs, j'ai crée un data.frame listant les villes en plus de leur nombre d'observations correspondant.
    A partir de là, j'ai calculé la taille de mes échantillons n avec les formules suivante :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    n = IC² * SD*(1-SD) / e²              # taille minimale d'un échantillon représentatif          
    nadj = n / (1 + ((n - 1) / npop))     # n ajusté en fonction de la taille de la ville
     
    # IC -> Niveau de confiance (fixé à 95%)
    # SD -> Stand. dev. (fixé à 50%)
    # e -> marge d'erreur (fixée à 5, 3, puis 1%)
    # npop -> taille des populations
    Ce qui donnerais par exemple, pour une marge d'erreur à 5% la formule suivante :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    n5 <- (1.96^2) * 0.5*0.5 / 0.05^2
    nadj5 <- n5/(1+((n5-1)/df$n_obs              #df$n_obs, étant le nombre d'observation correspondant.
    Bref, je ne détaille pas plus mais à l'aide d'une création de fonction, et de son application par apply, j'ai donc un data.frame final qui me liste le nom des villes, le nombre d'observations qui correspond à celle - ci, ainsi que les tailles d'échantillons minimale pour des marges d'erreur de 5, 3 et 1%.
    Et je constate qu'il est assez superflu de diminuer la marge d'erreur. Un échantillon de 50.000 sur 60.000 étant relativement inutile. Je ne devrais donc retenir que celle à 5% qui me paraît déjà plus juste et suffisante (10.000).


    J'aimerais donc, à présent, passer à la seconde étape de ma recherche. J'ai besoin de savoir si mes échantillons sont suffisamment représentatifs ou non de mes données. Mais quels sont les tests les plus optimisés pour ce genre d'échantillonnage.
    J'ai installé le package Rcmdr pour me simplifier les choses de façon à ce que les lignes de code soient automatique mais il est difficile d'utilisation, du moins, je n'arrive pas à comparer 2 échantillons de 2 bases de données différentes. La sélection est impossible et je suis obligé de bidouiller moi - même les codes manuellement.
    Ainsi, une aide vis à vis de ça ne serait pas du luxe ... également pour ce qui est des interprétations, le langage statistique francophone étant déjà suffisamment complexe, alors en anglais ...
    Je rajouterais également une question ... mes données sont - elles indépendantes ou appariés ?


    Merci en tout cas à la personne qui prendra le temps pour moi !

  6. #6
    Membre averti
    Homme Profil pro
    Étudiant
    Inscrit en
    Juin 2015
    Messages
    54
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 31
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Service public

    Informations forums :
    Inscription : Juin 2015
    Messages : 54
    Par défaut
    Quelques précisions :

    - La population étudiée est l'ensemble des personnes suivies par des agents travaillant pour un département (dans le social).
    - Mes données étant relativement biaisée selon la ville d'appartenance, j'ai décidé de diviser ma population en groupes homogènes (strates -> villes), mutuellement exclusives les unes des autres, pour sélectionner à partir de celles - ci mes échantillons indépendants et rassembler le tout sur une unique base de données.
    - La variable que je mesure .. c'est ici que mon problème se pose. Elles sont nombreuses, j'ai près de 200 variables différentes dans ma base de données (sous forme binaire, numérique, et en caractères), toutes plus ou moins importantes. Je n'ai pas de réelle variable plus importante que les autres.

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo