Bonjour,

Je suis en train de tester la pertinence d'un échantillonnage stratifié comparé à un échantillonnage aléatoire pour construire un échantillon de grande taille (plus de 10 000 individus et parfois bien au-delà).
La population mère est connue et elle-même a un volume élevé -du même ordre.

Je construis donc mes échantillons à l'aide d'une surveyselect (tirage sans remise évidemment) :
  • ECHT_STRAT : échantillon issu d'une stratification
  • ECHT_ALEA : échantillon aléatoire


Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
	proc surveyselect data=CLI 
		out=ECHT_STRAT (keep=ID_CLI TRANCHE_DAGE)
		method=srs 
		samprate = 0.3
	        seed=1981;
		strata TRANCHE_DAGE / alloc=prop; 
	run;
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
	proc surveyselect data=CLI 
		out=ECHT_ALEAT (keep=ID_CLI TRANCHE_DAGE)
		method=srs 
		samprate = 0.3
	        seed=1981;
	run;
Pour observer la pertinence d'une stratification, je vérifie les distributions de la modalité (TRANCHE_DAGE) sur chacun de mes échantillons. Je m'attends donc a avoir sur mon échantillon aléatoire une distribution moins fine que sur la stratifiée.
Et là ô surprise! mes distributions sont systématiquement similaires, que ce soit pour la méthode de stratification ou l'aléatoire.

J'ai donc construit un échantillon aléatoire à partir d'une autre méthode que surveyselect (la bonne vieille macro tasr) => résultats encore identiques !

Ai-je loupé un truc ? Suis je victime de la loi forte des grands nombres ? Avez-vous déjà réalisé cette expérience ?


Merci pour vos réponses