Echantillon "représentatif" ?

**Mac_Leod** · 25/06/2015, 13h27

Bonjour à tous,

Je suis à la recherche d'un programme qui serait capable de me générer un échantillon aléatoire représentatif de mes données.
Un échantillon, c'est relativement simple à faire ressortir ... Le problème étant que je ne suis pas statisticien et qu'il est difficile pour moi de savoir comment faire pour savoir si celui - ci est représentatif. J'ai fait quelques recherches et il existe apparemment bien des façons pour réaliser des tests sous R.

Mon soucis étant que j'aurais besoin d'un échantillon par ville pour en avoir un final qui regroupe l'ensemble de ceux - ci. Du coup, la taille de chaque échantillon ne sera pas la même, le nombre d'habitants par ville étant différent. Mais de façon à avoir une représentativité maximale d'au moins 95% dans chacune des villes.

Mais je ne sais pas comment m'y prendre sur cette partie statistique ...

**Mac_Leod** · 25/06/2015, 17h02

Aussi, avec quelques recherches, j'ai trouvé ce document et j'ai plus ou moins ce dont je recherche dans la section "taille de l'échantillon".

Les graphiques proposés sont particulièrement intéressant, savez - vous par quels moyens, je pourrais les reproduire ?

**A. D.** · 29/06/2015, 19h12

Bonjour,

Ravie que vous ayez pu trouver des infos intéressantes au sujet de votre échantillonnage (vaste sujet d'ailleurs).

Pour ce qui est des graphiques, il existe pas mal de fonctions / packages R avec chacun des manières différentes de personnaliser ses graphiques. Personnellement je vous conseillerais par exemple le package "ggplot2" qui devrait vous permettre d'obtenir des graphiques assez proches de ce que vous souhaitez.
N'hésitez pas à venir poster sur le forum vos tentatives et questions à ce sujet d'ailleurs !

Bonne continuation

Cordialement,

A.D.

**Mac_Leod** · 01/07/2015, 11h39

Bonjour,

Je n'ai malheureusement pas trop avancé, le sujet ayant été mis de côté pour quelques jours.
La statistique est quelque choses d'assez complexe pour les non - initiés. Je me permets de vous demander, tout en sachant que vous êtes statisticienne, la façon dont vous vous seriez prise pour traiter ce problème d'échantillonnage, me concernant, je bloque.

J'ai une formule [(t²*p*(1-p))/e²] qui, apparemment, donnerait une valeur approximative de la taille d'un échantillon représentatif mais celui - ci n'a apparemment rien à voir avec la taille de mes données.
Ce qui me semble assez problématique, en sachant que mes données sont séparées en plusieurs groupes (d'environ 1.000 à 2.500 lignes).

**Mac_Leod** · 02/07/2015, 12h51

Bonjour,

Je reviens à vous pour donner l'état de mon avancement, la façon dont j'ai procédé.

De ma base de données initiale de 60.000 observations, j'ai pu ressortir une trentaine de strates (par ville) d'environ 1.000 à 2.500 observations en moyenne. Pour m'y retrouver et faciliter mes calculs, j'ai crée un data.frame listant les villes en plus de leur nombre d'observations correspondant.
A partir de là, j'ai calculé la taille de mes échantillons n avec les formules suivante :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
n = IC² * SD*(1-SD) / e²              # taille minimale d'un échantillon représentatif          
nadj = n / (1 + ((n - 1) / npop))     # n ajusté en fonction de la taille de la ville
 
# IC -> Niveau de confiance (fixé à 95%)
# SD -> Stand. dev. (fixé à 50%)
# e -> marge d'erreur (fixée à 5, 3, puis 1%)
# npop -> taille des populations

Ce qui donnerais par exemple, pour une marge d'erreur à 5% la formule suivante :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
n5 <- (1.96^2) * 0.5*0.5 / 0.05^2
nadj5 <- n5/(1+((n5-1)/df$n_obs              #df$n_obs, étant le nombre d'observation correspondant.

Bref, je ne détaille pas plus mais à l'aide d'une création de fonction, et de son application par apply, j'ai donc un data.frame final qui me liste le nom des villes, le nombre d'observations qui correspond à celle - ci, ainsi que les tailles d'échantillons minimale pour des marges d'erreur de 5, 3 et 1%.
Et je constate qu'il est assez superflu de diminuer la marge d'erreur. Un échantillon de 50.000 sur 60.000 étant relativement inutile. Je ne devrais donc retenir que celle à 5% qui me paraît déjà plus juste et suffisante (10.000).

J'aimerais donc, à présent, passer à la seconde étape de ma recherche. J'ai besoin de savoir si mes échantillons sont suffisamment représentatifs ou non de mes données. Mais quels sont les tests les plus optimisés pour ce genre d'échantillonnage.
J'ai installé le package Rcmdr pour me simplifier les choses de façon à ce que les lignes de code soient automatique mais il est difficile d'utilisation, du moins, je n'arrive pas à comparer 2 échantillons de 2 bases de données différentes. La sélection est impossible et je suis obligé de bidouiller moi - même les codes manuellement.
Ainsi, une aide vis à vis de ça ne serait pas du luxe ... également pour ce qui est des interprétations, le langage statistique francophone étant déjà suffisamment complexe, alors en anglais ...

Je rajouterais également une question ... mes données sont - elles indépendantes ou appariés ?

Merci en tout cas à la personne qui prendra le temps pour moi !

**Mac_Leod** · 02/07/2015, 15h00

Quelques précisions :

- La population étudiée est l'ensemble des personnes suivies par des agents travaillant pour un département (dans le social).
- Mes données étant relativement biaisée selon la ville d'appartenance, j'ai décidé de diviser ma population en groupes homogènes (strates -> villes), mutuellement exclusives les unes des autres, pour sélectionner à partir de celles - ci mes échantillons indépendants et rassembler le tout sur une unique base de données.
- La variable que je mesure .. c'est ici que mon problème se pose. Elles sont nombreuses, j'ai près de 200 variables différentes dans ma base de données (sous forme binaire, numérique, et en caractères), toutes plus ou moins importantes. Je n'ai pas de réelle variable plus importante que les autres.

Echantillon "représentatif" ?

R

Vue hybride

Partager

Partager