Précédent   Forum des professionnels en informatique > Logiciels > Solutions d'entreprise > Business Intelligence > SAS > SAS STAT
SAS STAT Forum d'entraide sur les fonctionnalités liées à la statistique sur SAS : statistique descriptive, test, régression, classification
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 12/05/2011, 09h31   #1
Invité de passage
 
Inscription : juillet 2009
Messages : 11
Détails du profil
Informations forums :
Inscription : juillet 2009
Messages : 11
Points : 2
Points : 2
Par défaut proc SurveySelect : échantillon apprentissage / echantillon validation

Bonjour,
J'ai utilisé un échantillonnage stratifié avec la proc SurveySelect, l’échantillon représente 70% du fichier mère, mais je ne sais pas comment retrouver les 30% non sélectionnés, car j'aimerais l'utiliser comme échantillon de validation. Est ce qu'il y a une option dans proc Surveyselect pour faire ça? ou il faut procéder autrement (déduire les 70% des 100% pour retrouver les 30%, par exemple)?
khalid0000 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 12/05/2011, 11h12   #2
Membre Expert
 
Avatar de MEGAMIND2
 
Homme Brice Beare
Paris
Inscription : janvier 2011
Messages : 956
Détails du profil
Informations personnelles :
Nom : Homme Brice Beare
Localisation : France, Paris (Île de France)

Informations professionnelles :
Activité : Paris

Informations forums :
Inscription : janvier 2011
Messages : 956
Points : 1 366
Points : 1 366
Salut,
Quel est le modèle tu utilises pour modéliser? Je sais que la proc logistic gère ce type de problème (estimation des betas sur un échantillon de test et validation sur les 30% restants)
MEGAMIND2 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 12/05/2011, 11h18   #3
Invité de passage
 
Inscription : juillet 2009
Messages : 11
Détails du profil
Informations forums :
Inscription : juillet 2009
Messages : 11
Points : 2
Points : 2
Citation:
Envoyé par MEGAMIND2 Voir le message
Salut,
Quel est le modèle tu utilises pour modéliser? Je sais que la proc logistic gère ce type de problème (estimation des betas sur un échantillon de test et validation sur les 30% restants)
Je veux utiliser, entre autres, la proc logistic pour estimer mon modèle. mais aussi la méthode K-means.
khalid0000 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 12/05/2011, 11h52   #4
Membre Expert
 
Avatar de MEGAMIND2
 
Homme Brice Beare
Paris
Inscription : janvier 2011
Messages : 956
Détails du profil
Informations personnelles :
Nom : Homme Brice Beare
Localisation : France, Paris (Île de France)

Informations professionnelles :
Activité : Paris

Informations forums :
Inscription : janvier 2011
Messages : 956
Points : 1 366
Points : 1 366
Tu peux faire simple en faisant un tirage uniforme

Code :
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
DATA TEST;
DO i=1 TO 1000;
output;
END;
RUN;
 
 
DATA APPRENT valid ;
	SET TEST;
	IF RANUNI(123)<0.7
		THEN DO;
		OUTPUT Apprent;	
	END;
 
	ELSE DO;
		OUTPUT VALID; 
	END;
RUN;

Il faudrait écrire ton modèle avec les paramètres estimées avec l'échantillon de test et l'appliquer sur ton échantillon de validation. Il te faudrait une macro pour évaluer la robustesse du modèle (indice de Gini par exelmple)
MEGAMIND2 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 12/05/2011, 13h00   #5
Invité de passage
 
Inscription : juillet 2009
Messages : 11
Détails du profil
Informations forums :
Inscription : juillet 2009
Messages : 11
Points : 2
Points : 2
Si j'ai utilisé la proc Surveyselect c'est parce qu'elle me permet de garder la même proportion de la fréquence d'une variable avec l'option Strata, en d'autre terme, Prob(Y=1) est la même que cela soit dans l’échantillon global ou l’échantillon Apprentissage.
Je pense qu'en attendant de trouver une solution, je vais travailler sur l’échantillon de 70% et appliquer les résultats à d'autres échantillons que je vais tirer de 10%, 20% ou 25% ou 30% ...
khalid0000 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 12/05/2011, 13h35   #6
Membre Expert
 
Avatar de MEGAMIND2
 
Homme Brice Beare
Paris
Inscription : janvier 2011
Messages : 956
Détails du profil
Informations personnelles :
Nom : Homme Brice Beare
Localisation : France, Paris (Île de France)

Informations professionnelles :
Activité : Paris

Informations forums :
Inscription : janvier 2011
Messages : 956
Points : 1 366
Points : 1 366
Tu trouveras ton bonheur là dessous:

Code :
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
DATA Remission;
      input remiss cell smear infil li blast temp;
      label remiss='Complete Remission';
      datalines;
   1   .8   .83  .66  1.9  1.1     .996
   1   .9   .36  .32  1.4   .74    .992
   0   .8   .88  .7    .8   .176   .982
   0  1     .87  .87   .7  1.053   .986
   1   .9   .75  .68  1.3   .519   .98
   0  1     .65  .65   .6   .519   .982
   1   .95  .97  .92  1    1.23    .992
   0   .95  .87  .83  1.9  1.354  1.02
   0  1     .45  .45   .8   .322   .999
   0   .95  .36  .34   .5  0      1.038
   0   .85  .39  .33   .7   .279   .988
   0   .7   .76  .53  1.2   .146   .982
   0   .8   .46  .37   .4   .38   1.006
   0   .2   .39  .08   .8   .114   .99
   0  1     .9   .9   1.1  1.037   .99
   1  1     .84  .84  1.9  2.064  1.02
   0   .65  .42  .27   .5   .114  1.014
   0  1     .75  .75  1    1.322  1.004
   0   .5   .44  .22   .6   .114   .99
   1  1     .63  .63  1.1  1.072   .986
   0  1     .33  .33   .4   .176  1.01
   0   .9   .93  .84   .6  1.591  1.02
   1  1     .58  .58  1     .531  1.002
   0   .95  .32  .3   1.6   .886   .988
   1  1     .6   .6   1.7   .964   .99
   1  1     .69  .69   .9   .398   .986
   0  1     .73  .73   .7   .398   .986
   ;
run;
 
PROC SORT DATA=Remission;
	BY remiss;
RUN;
 
PROC SURVEYSELECT DATA=Remission METHOD=srs OUT=STRATA OUTALL SAMPRATE=0.70 SEED=123;
	strata remiss;
RUN;
 
 
 
DATA Apprent Valid;
	SET STRATA;
	IF Selected=0 then output Valid;
	IF Selected=1 then output apprent;
run;
MEGAMIND2 est déconnecté   Envoyer un message privé Réponse avec citation 20
Vieux 12/05/2011, 17h47   #7
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
Il faut ajouter l'option OUTALL à la proc SURVEYSELECT, comme ça tu auras toute ta base de départ, et une variable supplémentaire qui indique l'inclusion dans l'échantillon (SELECTED de mémoire).

Oups Brice, je n'avais pas lu que tu avais déjà donné l'info.
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 10
Vieux 12/05/2011, 21h31   #8
Invité de passage
 
Inscription : juillet 2009
Messages : 11
Détails du profil
Informations forums :
Inscription : juillet 2009
Messages : 11
Points : 2
Points : 2
Merci à vous deux, c'est vrai que j'ai zappé l'option OutAll
khalid0000 est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité Cette discussion est résolue.
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 11h28.


 
 
 
 
Partenaires

Hébergement Web