Bonjour,

Je dispose d'un échantillon sur les départs en voyages de 5000 personnes. Parmi elles, environ 500 ne partent pas en voyage.

Je souhaite prédire la fréquence de voyages en utilisant la procédure Proc Nlmixed en la décomposant ainsi :
- 1er processus : prédire le fait de partir en voyage (via une régression logistique).
- 2ème processus : pour les personnes qui partent effectivement en voyage, prédire le nombre de voyages (donnée de comptage : je recours à une régression binomiale négative (tronquée) car j'observe une sur-dispersion).

J'ai un nombre total de variables égal à 82 (variables dichotomiques).
J'ai réalisé la Proc Nlmixed sous sas. Les résultats associés au 2ème processus m'interpellent. La quasi-totalité des modalités sont significatives (avec une p-value < 0,0001) même celles qui ne devraient pas l'être!
(Mon approche est chaque fois de commencer par un modèle très complet et progressivement de le réduire... mais là, ... il ne semble pas réductible!).
Bref, est-ce qu'un tel constat a déjà été éprouvé par l'un d'entre vous? Peut-être ma programmation est-elle défaillante?

Voici ce que j'ai écrit (j'ai fait du copier-coller d'un document rédigé par SAS tout en l'adaptant quand même!):
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
 PROC NLMIXED DATA = fichier1 
PARMS a0=0 a2=0 a3=0 a4=0 a6=0 /* etc. */ b0=0 b2=0 b3=0 b4=0 b6=0 /* etc. */ ;
eta0 = a0 + a2*vara2 + a3*vara3 + a4*vara4 /*etc.*/ ;
exp_eta0 = exp (eta0) ;
p0 = exp_eta0 / (1+exp_eta0) ;
etap = b0 + b2*varb2 + b3*varb3 + a4*varb4 /*etc.*/ ;
exp_etap = exp (etap) ;
IF nbvoyages = 0 THEN ll = log(p0) ; 
ELSE ll=log(1-p0) - exp_etap + nbvoyages * etap - lgamma (nbvoyages + 1) - log (1 - exp(-exp_etap)) ;
MODEL nbvoyages ~ general (ll) ;
PREDICT exp_etap OUT = hd1_out1 (KEEP = pred nbvoyages RENAME = (pred = Yhat)) ;
PREDICT p0 OUT = hd1_out2 (KEEP = pred RENAME = (pred = p0)) ;
RUN ;
Merci d'avance pour votre aide,
Claudine