Bonjour,
Je suis en train de tester la pertinence d'un échantillonnage stratifié comparé à un échantillonnage aléatoire pour construire un échantillon de grande taille (plus de 10 000 individus et parfois bien au-delà).
La population mère est connue et elle-même a un volume élevé -du même ordre.
Je construis donc mes échantillons à l'aide d'une surveyselect (tirage sans remise évidemment) :
- ECHT_STRAT : échantillon issu d'une stratification
- ECHT_ALEA : échantillon aléatoire
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7 proc surveyselect data=CLI out=ECHT_STRAT (keep=ID_CLI TRANCHE_DAGE) method=srs samprate = 0.3 seed=1981; strata TRANCHE_DAGE / alloc=prop; run;Pour observer la pertinence d'une stratification, je vérifie les distributions de la modalité (TRANCHE_DAGE) sur chacun de mes échantillons. Je m'attends donc a avoir sur mon échantillon aléatoire une distribution moins fine que sur la stratifiée.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6 proc surveyselect data=CLI out=ECHT_ALEAT (keep=ID_CLI TRANCHE_DAGE) method=srs samprate = 0.3 seed=1981; run;
Et là ô surprise! mes distributions sont systématiquement similaires, que ce soit pour la méthode de stratification ou l'aléatoire.
J'ai donc construit un échantillon aléatoire à partir d'une autre méthode que surveyselect (la bonne vieille macro tasr) => résultats encore identiques !
Ai-je loupé un truc ? Suis je victime de la loi forte des grands nombres ? Avez-vous déjà réalisé cette expérience ?
Merci pour vos réponses![]()
Partager