Régression logistique - Sratégie de sélection ascendante (ou descendante) basée sur le critère d'Akaïke

**ninaaaa** · 01/09/2014, 11h09

Bonjour,

Je voudrais mettre en place une stratégie de sélection ascendante (ou descendante) basée sur le critère d'Akaïke sous SAS dans une proc logistic. Je sais que, sous R, c'est la procédure step avec l’option direction = ”forward" (ou "backward"), mais quelle est la procédure équivalente, basée sur le critère AIC, sous SAS ?

Merci d'avance et bonne journée.

**lovelylife** · 03/09/2014, 09h10

Bonjour nina,

tu dois ajouter l'option SELECTION=Forwward/Backward/Stepwise.

Ce lien pourrra t'aider pour la suite:

http://support.sas.com/documentation...eg_sect013.htm

Bon courage.

**ninaaaa** · 04/09/2014, 09h42

Bonjour lovelylife,

J'avais trouvé l'option "selection=" (selection=backward par exemple), mais cette méthode n'est pas basée sur le choix de modèle par minimisation de l'AIC. Elle se base sur un test (je pensais que c'était un test du Khi-Deux, mais en regardant le lien que tu m'as donné, j'ai un doute :

"The forward-selection technique begins with no variables in the model. For each of the independent variables, the FORWARD method calculates F statistics that reflect the variable’s contribution to the model if it is included. The p-values for these F statistics are compared to the SLENTRY= value that is specified in the MODEL statement (or to 0.50 if the SLENTRY= option is omitted). If no statistic has a significance level greater than the SLENTRY= value, the FORWARD selection stops. Otherwise, the FORWARD method adds the variable that has the largest F statistic to the model. The FORWARD method then calculates F statistics again for the variables still remaining outside the model, and the evaluation process is repeated. Thus, variables are added one by one to the model until no remaining variable produces a significant statistic. Once a variable is in the model, it stays. "

J'aurais aimé savoir si "selection=" se basait bien sur un test du Khi-Deux, mais aussi et surtout comment faire pour se baser sur l'AIC pour la sélection du modèle.

**lovelylife** · 04/09/2014, 10h10

Re,

en fait dans le paragraphe que tu m'as cité, on t'explique juste comment fonctionne les méthodes de sélection Forward/Backward.

Pour le Forward: on démarre du modèle vide(juste avec la constante), et à chaque itération la variable ayant la plus petite p-value est ajoutée. La procédure s’arrête quand les p-value restantes dépassent un seuil (0.5 par défaut).
Pour le Backward, c'est l'inverse, cad qu'on part du modèle complet et on vire toutes les variables ayant la plus grande p-value et on s’arrête quand les p-values sont inférieures au seuil.

Sinon pour ta question pour le code sas, tu mets:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
proc reg data=...;
model= ...........      / selection= Backward AIC;
run;

a++

**ninaaaa** · 08/09/2014, 09h50

Re,

En fait je citais ce paragraphe pour dire que selection=backward était, par défaut, basé sur un test statistique et pas sur l'AIC pour le choix du modèle à chaque itération. Mais ce que je me demande, c'est si cette méthode est basée sur un test de Student (ce que j'ai cru comprendre sur certains sites) ou bien un test de Fisher (ce qui semble être sous-entendu quand ils parlent de "F statistics"), ou bien encore un autre test.
Merci beaucoup pour cette réponse, mais du coup je suis confrontée à un autre problème :
j'avais choisi d'utiliser la proc logistic parce que toutes mes variables explicatives sont qualitatives (et la proc reg n'accepte que des variables explicatives quantitatives). Cependant j'ai essayé de mettre " / selection= Backward AIC" dans la proc logistic, mais ça ne fonctionne pas..
Comment faire pour effectuer une sélection de modèle se basant sur le critère AIC à chaque itération, tout en ayant uniquement des variables explicatives qualitatives et une variable à expliquer binaire ?
Merci encore en tout cas

**Moe Tility** · 03/07/2015, 20h02

Je rencontre le même problème que toi,
Avais-tu trouvé une solution avec la proc logistic ?
Merci d'avance

**flo00154** · 04/07/2015, 15h54

Bonjour,

Je ne sais pas si ninaa te donnera une réponse donc je me permet d'intervenir. A ma connaissance il n'existe pas de moyen de mettre une option pour avoir le critère AIC en décision sue la proc logistic (corriger moi si je me trompes). En revanche tu peux t'en sortir en contournant le problème. Tu peux utiliser un ods output ou les options d'output de la proc afin de sortir l'AIC de chaque itération (ça c'est possible). A toi ensuite de regarder à quelle étape le critère est minimal.

**Moe Tility** · 06/07/2015, 11h17

Je ne m’attendais pas à autant de réactivité!

Je suis complètement novice en économétrie, j’ai l’impression d’avoir trouvé une solution à mon problème mais je ne suis pas certain de la viabilité de la méthode.
Rappel : Je dispose de 4 variables à tester
En recourant à l’option SELECTION=Stepwise, j’obtiens entre autre le test du rapport de vraisemblance et l’AIC de mon modèle pas à pas, d’abord avec la variable la plus significative, puis avec la deuxième, et ainsi de suite…
J’observe qu’à chaque variable ajoutée au modèle, le test du rapport de vraisemblance augmente et l’AIC diminue, puis-je m’y fier ? Cela signifie-t-il bien que le modèle s’améliore avec l’ajout de ces variables ?
Là où ça se complique, c’est que la procédure Stepwise supprime la variable (« diplôme ») n’apparaissant pas significative à 5% (p= 0.0766)
Faut-il la retirer pour autant sachant que lorsqu’elle est insérée dans le modèle, le test du rapport de vraisemblance augmente légèrement (425 contre 417), et que l’AIC baisse de manière symbolique (5652.3 contre 5652.7) par rapport à quand elle est retirée du modèle?

Merci encore de m’aider, ça me sauve vraiment la vie !!

**flo00154** · 06/07/2015, 13h48

Bonjour,

Essayons de démêler tout ça !

Commençons par le test de Vraisemblance, il permet de tester un modèle contraint et un modèle non contraint. L'hypothèse nulle est en faveur du modèle contraint et l'hypothèse alternative du non contraint. Si tu ne peux pas rejeter H0 alors tu pencheras en faveur du modèle contraint. C'est ici le principe du rasoir d'Occam dans lequel on préférera toujours un modèle plus simple s'il donne les mêmes résultats. La sélection Stepwise te permet de t'appuyer sur ce test afin de sélectionner ton modèle.

Cela signifie-t-il bien que le modèle s’améliore avec l’ajout de ces variables ?

C'est ici qu'il faut être précis avec ce que tu souhaites obtenir in fine. Si tu est dans une optique statistique, c'est à dire que tu n'as qu'une seule table de données et que tu souhaites un modèle explicatif qui ne servira pas à faire du prédictif, alors l'AIC est un bon indicateur. S'il diminue c'est bien que ton modèle s'améliore.
En revanche si tu es dans une optique prédictive (une table d'apprentissage et de validation) alors il vaut mieux se pencher sur le critère BIC (ou SBC). Un modèle peut être bon sur table d'apprentissage et avoir des capacités prédictives médiocres (problème de sur-apprentissage), le BIC est plus adapté à cette situation (même si ça reste une méthode loin d'être optimale pour obtenir le meilleur modèle en prédictif).

Faut-il la retirer pour autant sachant que lorsqu’elle est insérée dans le modèle, le test du rapport de vraisemblance augmente légèrement (425 contre 417), et que l’AIC baisse de manière symbolique (5652.3 contre 5652.7) par rapport à quand elle est retirée du modèle?

Déjà, tu peux regarder le test de type 3 effectué par la méthode STEPWISE pour être sûr qu'elle n'apporte pas d'information.
Cependant, ici aussi ça dépend de ce que tu veux. En analyse statistique le seuil de 5% est usuel et peut être appliqué et donc ta variable diplôme devrait être retirée.
Dans une optique prédictive, le seuil de 5% est trop restrictif et tu peux l'augmenter largement (dans SAS Miner il est fixé par défaut à 20% par exemple). Tant que ton modèle s'améliore en validation alors l'ajout d'une variable est pertinent.

J'espère que ça va t'aider et n'hésite pas si ce n'est pas clair ou si ça ne répond pas à tes questions

**Moe Tility** · 06/07/2015, 14h06

Wouawh !!!
Merci infiniment pour toutes ces précisions, et puisque tu m'y invites, je me permets de t'en demander d'autres...

Ok, vis à vis du test du rapport de vraisemblance, quant tu dis que je peux m'appuyer sur la sélection stepwise, puis-je considérer que plus le rapport est élevé plus le modèle est pertinent?
Comment interpréter le test de type 3 effectué par la méthode STEPWISE?
Enfin, la proc logistic permet-elle de calculer le critère BIC ? et comment s'interprète ce critère?

Merci merci merci encore, tu m'as déjà fais gagner un temps incroyable!
N'hésite pas à me dire si j'abuse de ta gentillesse..

**flo00154** · 06/07/2015, 14h54

Ok, vis à vis du test du rapport de vraisemblance, quant tu dis que je peux m'appuyer sur la sélection stepwise, puis-je considérer que plus le rapport est élevé plus le modèle est pertinent?

Le test de rapport de vraisemblance s'écrit comme suit : -2*(L(contraint) - L(non contraint)), cette stat suit un Chi2 à k degré de liberté (k étant le nombre de contraintes). Plus la stat est grande et plus cela veut dire que ton modèle H1 est pertinent car cela signifie que lorsque tu ajoutes une variable tu augmente ta vraisemblance (que l'on cherche à maximiser). Si tu ajoutes une variable qui n'est pas pertinente alors tu auras un rapport très faible et un non rejet de H0.

Comment interpréter le test de type 3 effectué par la méthode STEPWISE?

Le test de type 3 permet de tester la significativité d'une variable en prenant en compte les autres variables du modèle. Les tests de Wald qui sont en sortie de la proc Logistique, sont des tests univariés qui ne prennent en compte que l'interaction entre la variable dépendante et ton prédicteur. Or il n'est pas rare qu'en présence d'autres variables un prédicteur "devienne" significatif. Il faudra dans ce cas penser à tester les interactions double entre prédicteurs.
Par exemple pour ta variable diplome, le test basique permet de savoir si cette variable SEULE permet d'expliquer ta variable cible. Le test de type3 permet lui de savoir si elle est explicative en présence des autres variables du modèle. Si les 2 sont en accord alors tu peux la retirer de ton modèle.

la proc logistic permet-elle de calculer le critère BIC ? et comment s'interprète ce critère?

Dans la proc logistique tu l'as directement juste ne dessous de ton critère AIC. Il me semble que dans cette proc il est nommé "SC" pour Schwartz.
Le critère BIC est plus pénalisant que le modèle AIC et donc il aura tendance à sélectionner moins de variables que AIC (pas forcément le cas). En prédiction cela peut permettre de réduire le problème de sur-apprentissage et donc améliorer tes résultats sur la table de validation. Cependant, en utilisant la proc logistique tu sélectionne ton modèle uniquement sur la table d'apprentissage et donc tes résultats risques de ne pas être optimaux !!

**Moe Tility** · 06/07/2015, 20h43

Merci merci merci,
Je ne pouvais espérer des réponses aussi pédagogiques.
Seuls deux doutes planent encore avant que je puisse tirer des enseignements.
1) Est-il exact que le modèle à retenir est celui qui fait état des critères "-2 Log L" (log de vraisemblance?), "AIC",et "BIC" minimums
et des test "rapp de vraisemblance (khi-2)", "score (?)" et "wald (?)" maximums ?
2) Ma variable "diplôme" s'avère hautement significative lorsque elle est placée seule dans le modèle et seulement significative à 10 % lorsqu'elle est placée avec les autres (test de type 3).
Comment décider/argumenter d'un maintien/retrait dans ce genre de cas ?

Encore un IMMENSE MERCI, si tu habites/passes à Paris, je te payerai des bières (ou autre) avec GRAND PLAISIR !
Excellent soirée

**flo00154** · 06/07/2015, 22h04

Est-il exact que le modèle à retenir est celui qui fait état des critères "-2 Log L" (log de vraisemblance?), "AIC",et "BIC" minimums
et des test "rapp de vraisemblance (khi-2)", "score (?)" et "wald (?)" maximums ?

Oui pour les critères AIC, BIC et -2LogL. Pour la suite si tu entends par "tests" la valeur de la stat alors la réponse est aussi oui !

Ma variable "diplôme" s'avère hautement significative lorsque elle est placée seule dans le modèle et seulement significative à 10 % lorsqu'elle est placée avec les autres (test de type 3).
Comment décider/argumenter d'un maintien/retrait dans ce genre de cas ?

Quand tous les tests vont dans le même sens c'est plus simple mais quand ce n'est pas le cas il faut s'appuyer sur une bonne méthodo. Voici ce que tu peux faire, en reprenant depuis le début:

- Test de la corrélation entre la variable cible et chaque prédicteur. Il ne faut pas que la corrélation soit trop élevé (dur de donner un seuil) sinon tu auras des problèmes de prédicteur parfait (tu explique Y par elle même, donc pas d'intérêt)

- Pré sélection de tes variables (utile si tu as beaucoup de variables ce qui n'est pas ton cas, je le met quand même au cas ou). Test de spearman et hoeffding entre tes predicteurs et ta variable cible, retrait des variables qui ont un rang faible dans les 2 alors on peut retirer la variable. Il faut tester la colinéarité de tes variables c'est un point très important pour que ton modèle soit robuste. Tu peux faire une proc corr pour commencer entre tes prédicteurs (la corrélation ne doit pas être trop élevée) suivi d'une proc Varclus sur tes prédicteurs. Si tes variables sont chacune dans un cluster alors c'est ok. Si, par exemple, 2 variables sont dans un même cluster alors tu gardes celle qui a le 1-R² le plus faible et tu peux retirer l'autre de l'étude.

- avant une régression il faut régler le problème des valeurs extrêmes, tu peux normaliser au maximum les variables intervalles pour lesquelles le rejet de l'hypothèse de normalité est avéré. Tu peux commencer par des transformations usuelles comme le log, la racine carré etc...
Tu peux aussi discrétiser tes variables continues afin de prendre en compte un effet non linéaire et atténuer l'effet des valeurs extrêmes.

- il faut s'occuper également des valeurs manquantes. Si tu en as, il faut les imputer. Pour les variables nominales tu créer une modalité supplémentaire qui regroupe ces données manquantes par exemple et pour les continues tu fais une imputation (Les méthodes pour le faire : par la moyenne, médiane, le mode, par arbre de décision etc....). Tu peux créer des dummy variables (1 si la valeur est manquante et 0 sinon) pour chaque variable qui a des valeurs manquantes afin de les inclure dans ton modèle. Il est possible que le fait d'avoir une valeur manquante explique ta variable cible.
L'imputation doit se faire après la transformation afin de ne pas trop affecter le centre de masse de ta distribution.

- Tu peux modéliser avec ta proc logistic sur tes variables sélectionnées, transformées et imputées (en ajoutant les dummy si tu en as créées). Méthode stepwise par exemple pour sélectionner les variables pertinentes. Si tu une variable qui n'est plus significative alors que tu l'as conservé lors de l'étape 1 (comme ta variable diplôme) essai d'intégrer les interactions d'ordre 2 dans ton modèle. Si la variable en question a une interaction positive avec une autre variable alors tu la gardera dans ton modèle (afin de préserver la hiérarchie de celui-ci). Si non, alors tu regardes le test de type 3, s'il est non significatif tu peux retirer ta variable de l'étude (Attention je me place ici dans une optique non prédictive car sinon avec une p-value de 0.07 je la garde car on relâche la pression du 5% trop restrictif dans ce type de modèle).

Avec tout ceci tu peux décider du sort de ta variable diplôme. De plus, tu peux demander la ROC Curve avec proc logistic, et tu auras son évolution en fonction de l'intégration successives des variables. Si ta variable à un impact très faible alors lorsqu'elle est intégré ta ROC ne devrait pas bouger de beaucoup !

si tu habites/passes à Paris, je te payerai des bières (ou autre) avec GRAND PLAISIR !

Je suis parisien et amateur de bière mais ce ne sera pas nécessaire t'en fais pas ^^ ! Pas besoin de contre partie quand on aide quelqu'un

Bonne soirée et bon courage !

**Moe Tility** · 07/07/2015, 12h06

Merci encore,
Ma proposition de bières était sans doute mal formulée,
Mais ta déclinaison est louable et ne vient qu'ajouter du crédit à la générosité de ta démarche,

Merci encore.

**Moe Tility** · 10/07/2015, 15h15

Bonjour,

Je ne sais pas si ça se fait, fait pas mais je me permets une nouvelle fois de solliciter l'aide de quelqu'un sur ce forum.
Flooo, ton aide m'a été grandement utile pour sélectionner le modèle "optimal" au sens de l'AIC.
Mais celui-ci comporte des interactions (sexe x classes d'âge et sexe x quartiles de revenus), et qu'en leur présence, la proc logistic de SAS ne donne pas les Odds.

Je souhaiterais calculer des odds ratio pour tester deux hypothèses :
1 ) La probabilité de pratiquer une activité physique (variable à expliquer) régulièrement/occasionnellement par rapport à jamais (modalité de référence) baisse plus fortement chez les filles avec l'âge
2) La probabilité de pratiquer une activité physique (variable à expliquer) régulièrement/occasionnellement par rapport à jamais (modalité de référence) augmente plus fortement entre les plus riches et les plus pauvres (Q4 vs Q1) chez les filles que chez les garçons ( c à d que le rapport de côte entre Q4 et Q1 serait supérieur pour les filles)

J'ai lu qu'il fallait ajouter l'option EXPB, pour obtenir les odds mais j'obtiens alors ce message d'erreur.

ERROR: You can specify the name of a variable in the model, a variable used in a constructed
effect, or a COLLECTION or MULTIMEMBER effect in the ODDSRATIO statement.

As-tu déjà rencontré ce message d'erreur ? Comment l'interpréter?
Comment obtenir les odds ratio pour les interactions?
Merci beaucoup d'avance à ceux qui voudront bien m'aider

**flo00154** · 10/07/2015, 17h04

Bonjour

;

en leur présence, la proc logistic de SAS ne donne pas les Odds

Et oui en présence d'interaction la proc logisitc ne donne plus les ODDS, il faut les demander à l'aide de l'odds statement. L'option EXPB dans le model Statement demande l'obtention de l'exponentiel de tes coefficients, ce qui ne te donnera pas les odds (en tout cas pas ceux des variables qualitatives)...

Pour obtenir tes odds d'interactions tu as juste à lister tes variables, comme ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
 
Proc logistic ...;
model y = x | y @2;
oddsratio x y x*y;
run;

Tu devrais obtenir ce que tu souhaites.
Dit moi si ça fonctionne, sinon je regarderai ça de plus près

Bonne fin de journée !!

**Moe Tility** · 21/12/2015, 11h26

Bonjour Flo,

De retour sur SAS après une longue interruption, je me permets de revenir vers le seul qui avait été en mesure de m'aider vis à vis de la proc logistic, à savoir toi.

J'utilise la proc logistic de SAS pour faire une régression logistique généralisée
J'utilise donc l'option link=glogit, mais j'ai l'impression que cela double les ddl de mes variables,

1) est-ce normal ?

Ensuite, pour procéder à la sélection des variables les plus significatives, je recours à l'option "selection=backward", le modèle n'est alors plus dit "généralisé" mais "cumulé" et ne donne donc pas les exactement les mêmes stats pour un même modèle (AIC, rapp de vrais...) mais semble donner les bons ddl...

2) comment l'expliquer ?

3) Comment faire un logit généralisé qui donne les bons ddl tout en permettant de recourir à une procédure de sélection du style backward ?

(ne pas hésiter à me dire si mes questions ne sont pas assez claires)
Merci d'avance et merci encore mille fois pour tes réponses antérieures

**Haache** · 31/12/2015, 01h44

Envoyé par Moe Tility

Bonjour Flo,

De retour sur SAS après une longue interruption, je me permets de revenir vers le seul qui avait été en mesure de m'aider vis à vis de la proc logistic, à savoir toi.

J'utilise la proc logistic de SAS pour faire une régression logistique généralisée
J'utilise donc l'option link=glogit, mais j'ai l'impression que cela double les ddl de mes variables,

1) est-ce normal ?

Ensuite, pour procéder à la sélection des variables les plus significatives, je recours à l'option "selection=backward", le modèle n'est alors plus dit "généralisé" mais "cumulé" et ne donne donc pas les exactement les mêmes stats pour un même modèle (AIC, rapp de vrais...) mais semble donner les bons ddl...

2) comment l'expliquer ?

3) Comment faire un logit généralisé qui donne les bons ddl tout en permettant de recourir à une procédure de sélection du style backward ?

(ne pas hésiter à me dire si mes questions ne sont pas assez claires)
Merci d'avance et merci encore mille fois pour tes réponses antérieures

L'idéal serait de créer une autre discussion pour cette nouvelle inquiétude. Je pense bien que ce n'est plus la même discussion que l'autre. Donc il faut mettre de l'ordre dans les choses.
Respecter les règle du forum

**Moe Tility** · 04/01/2016, 11h06

Bonjour Haache,

Je comprends tout à fait ta suggestion,
J'avais dans un premier temps créé un nouvelle page : http://www.developpez.net/forums/d15...tion-backward/
Mais, sans succès, j'ai tenté en relaçant une ancienne conversation sur un sujet très similaire...

Bien à toi

**Haache** · 06/01/2016, 12h15

Ok on ira voir

Régression logistique - Sratégie de sélection ascendante (ou descendante) basée sur le critère d'Akaïke

SAS STAT

Discussions similaires

Partager

Partager