|
Publicité ' | |||||||||||||||||||||||
|
|
#1 | ||
|
Candidat au titre de Membre du Club
![]() Inscription : septembre 2006 Messages : 22 ![]() |
Bonjour à tous,
Mon objectif est de réaliser une sélection conjointe des variables qualitatives les plus discriminantes pour mon modèle. J'ai donc opté pour une PROC LOGISTIC avec l'option SELECTION=STEPWISE. Mais j'ai beaucoup de mal à comprendre son déroulement. Par exemple, si j'inclus 10 variables dans le modèle, seulement 5 sont testées dans la procédure pas à pas : Code :
Merci d'avance, Mark |
||
|
|
00
|
|
|
#2 |
|
Expert Confirmé
![]() ![]() Olivier DecourtFormateur en informatique Inscription : avril 2008 Messages : 1 467 ![]() |
Dans FORWARD, l'algorithme est le suivant :
Dans STEPWISE comme ici, après chaque étape d'inclusion sur la logique ci-dessus, il y a un test supplémentaire : une variable parmi celles déjà incluses peut-elle être éliminée du modèle sans avoir de diminution significative de la qualité ? Cette opération permet d'éviter d'avoir dans un même modèle des variables trop redondantes (si une combinaison de variables nouvellement incluses fait doublon avec une autre, celle-ci peut être sortie du modèle). Dans ton exemple, il y a 4 étapes d'inclusion sur la logique FORWARD (rien ne mérite d'être sorti des modèles 1 à 3) puis, après inclusion de la 4e variable, il s'avère qu'elle peut ressortir (les p-values des tests d'inclusion et d'élimination ne sont pas symétriques : voir les options SLENTRY et SLSTAY). Personnellement, je préfère ne faire que des FORWARD, avec un SLENTRY assez haut (pour inclure plus que nécessaire) et ensuite prendre le modèle avec un critère de qualité (AIC ou BIC) minimum. Par ailleurs dans ton exemple, je vois des nombres de coefficients qui me font froid dans le dos : tu comptes vraiment faire un modèle avec 551 coeffs dedans ? Ou c'était juste pour fournir un exemple ??? Bon courage. Olivier PS : pourquoi ne pas poster cette question dans la section SAS/STAT ? |
|
|
00
|
|
|
#3 |
|
Candidat au titre de Membre du Club
![]() Inscription : septembre 2006 Messages : 22 ![]() |
Bonjour Olivier,
Merci pour ta réponse. D'accord, en fait SAS n'affiche que les étapes où une variable meilleure a pu être sélectionnée, il ne considère pas comme étape les tests avec des variables rejetées. Ceci indique que j'ai très peu de variables qualitatives pertinentes au final. Tu penses que cela vaut le coup de spécifier SLENTRY avec une valeur supérieure à 0.05 pour conserver plus de variables ? D'après les sorties de SAS, il semble que c'est le test de Wald qui est utilisé pour discriminer entre les modèles. Pour ce qui est de ta question, les degrés de liberté indiquent juste le nombre de modalité de mes variables qualitatives. Par exemple, la variable CO_CODE_APE représente le code APE des entreprises, et il y en a beaucoup de différents. Je ne pense pas qu'il soit possible de regrouper ces modalités, elles sont vraiment spécifiques à chaque type d'entreprise. Mais en quoi est-ce que ça pose problème dans une régression logistique ? Merci, Mark |
|
|
00
|
|
|
#4 |
|
Expert Confirmé
![]() ![]() Olivier DecourtFormateur en informatique Inscription : avril 2008 Messages : 1 467 ![]() |
Sur ton cas précis, Mark, je trouve que le modèle est déjà bien trop complexe ! Et que s'il y a peu de variables retenues, elles sont très (exagérément ?) détaillées.
Les codes APE peuvent être regroupés selon plusieurs niveaux par des nomenclatures emboîtées. C'est sûr que les modèles seront moins bons si tu n'utilises que le niveau secteur (21 valeurs distinctes) mais ils seront sûrement plus interprétables. Tu t'imagines en train de commenter 500 coefficients pour expliquer comment réagit ton modèle selon les caractéristiques de l'entreprise ? Même s'il ne sert qu'à la prédiction, un modèle doit rester interprétable ! Et robuste, d'ailleurs, ce qu'il a peu de chances d'être avec autant de degrés de liberté. |
|
|
00
|
|
|
#5 |
|
Candidat au titre de Membre du Club
![]() Inscription : septembre 2006 Messages : 22 ![]() |
En effet, beaucoup des variables qualitatives dont je dispose présentent de nombreuses modalités. Mais je tiens à préciser que dans mon cas, l'objectif n'est pas d'interpréter les coefficients mais de construire un score. Tout ce qui m'importe est d'extraire une proba à partir de la régression logistique (ou d'un autre modèle de scoring).
Cela dit, ta remarque est très intéressante car je me suis déjà demandé s'il fallait utiliser les variables qualitatives telles quelles. Je me rends compte que la procédure LOGISTIC est extrêmement lente sur mes variables. Mais y a-t'il un intérêt statistique à regrouper les modalités ? C'est une opération assez délicate qui demande souvent des connaissances fonctionnelles. Par exemple, je ne connaissais pas les nomenclatures emboitées. |
|
|
00
|
|
|
#6 |
|
Expert Confirmé
![]() ![]() Olivier DecourtFormateur en informatique Inscription : avril 2008 Messages : 1 467 ![]() |
Dans toutes les applications de scoring que j'ai pu construire, il y avait un besoin final de savoir (au moins grossièrement) ce qui se passait dans le modèle, en plus de besoin primordial de cracher de la probabilité.
Oui, il y a un intérêt à limiter le nombre de modalités et donc de coefficients : c'est de construire un modèle robuste. En limitant les degrés de liberté, on force le modèle à s'intéresse au comportement général des individus, alors qu'en lui fournissant de trop nombreux degrés de liberté, on lui permet d'ajuster des cas particuliers au détriment du comportement moyen. Et oui, c'est un boulot de regrouper les modalités. C'est un boulot énorme, malheureusement nécessaire. Bon courage ! |
|
|
00
|
|
|
#7 |
|
Candidat au titre de Membre du Club
![]() Inscription : septembre 2006 Messages : 22 ![]() |
Ok, merci beaucoup pour tes éclairages. Je vais m'atteler dès à présent au pénible travail du regroupement des modalités.
Bonne fin de journée ! Mark |
|
|
00
|
Copyright © 2000-2012 - www.developpez.com