Bonjour,

Je cherche à identifier les variables explicatives (X) d'une variable (Y) à 4 modalités (je spécifie donc link = glogit) pour deux sous-populations (A et B). L'hypothèse étant que les variables explicatives sont différentes pour ces deux sous populations.

Pour faire cela, je me dis qu'une bonne idée est de procéder à une régression logistique (via la proc logistic), sur chacune des populations A et B, avec une sélection de variables (stepwise) parmi un grand nombre de variables disponibles (plus de 50).

Or, j'obtiens alors des modélisations avec 25 variables explicatives pour la population A et quasiment autant pour la population B (mais des variables différentes, ce qui tend à confirmer mon hypothèse). Ca me parait être un trop grand nombre de variables, je m'interroge donc sur la robustesse de chacune de ces modélisations.
Y a t'il un indicateur de la proc logistic qui permet de s'assurer que le modèle obtenu est robuste ?
Ou alors une spécification qui permet de forcer l'obtention d'un modèle parcimonieux ? (autre qu'en jouant sur la p valeur, même à 1% j'ai un grand nombre de variables)

J'en profite pour poser une autre mini question : parmi mes explicatives (X), certaines sont ordinales. Si je le spécifie dans l'option class (avec param = ordinal), je n'ai plus en sortie les odds ratios pour chacune des modalités, ce qui me dérange pour l'analyse. Sas permet il de les obtenir tout de même ?

Merci !