Précédent   Forum des professionnels en informatique > Logiciels > Solutions d'entreprise > Business Intelligence > SAS > SAS STAT
SAS STAT Forum d'entraide sur les fonctionnalités liées à la statistique sur SAS : statistique descriptive, test, régression, classification
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 09/02/2012, 11h00   #1
Invité de passage
 
Inscription : février 2012
Messages : 3
Détails du profil
Informations forums :
Inscription : février 2012
Messages : 3
Points : 0
Points : 0
Par défaut Modélisation d'un ratio

Bonjour à tous,

Je cherche à modéliser un ratio dont le dénominateur (et bien sur le numérateur) est susceptible de varier pour chaque exploitation.

Imaginons que chaque ligne représente un entreprise qui dit combien d'exemplaire du produit A elle a acheté au fournisseur, et combien elle en a vendu ces 6 derniers mois, dans chacun de ses magasins.

Les données (exemple, 4 colonnes)

Entreprise Magasin Prod_A_achetés Prod_A_vendus
A 1 34 14
A 2 56 24
A 3 87 37
B 1 79 23
B 2 54 43

Dans un premier temps, je cherche à identifier le meilleur modèle pour ces données.
Jusqu'ici j'utilisais un poisson avec GLIMMIX sous cette forme :

Code :
1
2
3
4
5
6
 
proc glimmix DATA=X  noclprint=10 METHOD = RSPL;
class region;
model Prod_A_vendus = Region/ d=poisson link=log offset=LOG_Prod_A_achetés;
RANDOM _RESIDUAL_ / SUBJECT=Magasin TYPE=CS;
run;

(j'ai ajouté une variable explicative "région" pour l'exemple)

Au fil du temps, j'ai entendu parler de binomiale négative, puis de binomiale tout court en considérant qu'un ratio "taux de vente" est un ensemble d'essais binomiaux "vendu/pas vendu".

Qu'en pensez vous? La poisson est elle vraiment inadaptée et pour quelle raison? Comment le coder dans SAS?

Merci d'avance
Filob est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 09/02/2012, 15h18   #2
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 472
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 472
Points : 2 835
Points : 2 835
Bonjour.
Trancher pour donner le "meilleur" modèle c'est toujours délicat.
Poisson ou binomiale négative, c'est le même modèle, avec un paramètre supplémentaire dans le cas de la NegBin (le coefficient de proportionnalité entre variance et moyenne de Y, qui est fixé à 1 pour la loi de Poisson).

Tout dépend, à mon avis, de ce que tu veux au final : des commentaires et des prédictions sur des volumes de ventes (c'est un modèle poissonien qu'il te faut), ou sur la probabilité de vendre (c'est un modèle binomial, c'est à dire une régression logistique) ?

J'aurais tendance à penser que leurs conclusions seraient assez équivalentes d'un point de vue qualitatif (une variable explicative pèsera toujours dans le même sens dans tous ces modèles) même s'il peut y avoir des coefficients numériquement différents (ainsi que leurs p-values).
Peut-être même qu'on pourrait prouver qu'ils sont finalement équivalents (mais bon, là, moi, les démonstrations théoriques, c'est pas mon truc) : c'est vrai qu'à partir du modèle binomial, pour retrouver les chiffres de ventes, je prendrais les achats multipliés par la probabilité de vendre. Peut-être qu'on pourrait faire de même dans le sens inverse.

Bref pour moi les 2 approches se valent, et tu choisis plutôt en fonction de la quantité qui t'intéresse (volume ou proportion).

Bon courage.
Olivier
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 10
Vieux 09/02/2012, 16h09   #3
Invité de passage
 
Inscription : février 2012
Messages : 3
Détails du profil
Informations forums :
Inscription : février 2012
Messages : 3
Points : 0
Points : 0
Bonjour et merci pour la réponse.

Du coup je m’interroge : si on utilise le modèle de poisson, comment se comprend l'utilisation de l'offset pour indiquer les "tailles" différentes des individus?

J'ai du mal à intuiter la différence entre volume et probabilité...

Au final c'est toujours le même ratio qui m’intéresse, à savoir vendus/stock acheté.

Pouvez vous m'exprimer la différence d’interprétation de ces deux termes?

Merci,
Filob est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 10/02/2012, 13h16   #4
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 472
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 472
Points : 2 835
Points : 2 835
Dans le modèle de Poisson, tu écris :

log(nb vendus) = aX + b + log(nb achetés)

ce qui équivaut à :

log(nb vendus / nb achetés) = aX + b

Dans le modèle binomial, tu écris :

log (proba vendre / proba pas vendre) = a'X + b'

Ce n'est pas exactement le même modèle. Même si ses conclusions sont voisines. Car il ne faut pas s'y tromper : pour la régression logistique, l'écriture avec le ratio nb_vendus / nb_achetés n'est qu'une commodité de programmation. Elle revient à proposer une table plus détaillée avec autant d'observations que d'items achetés, et une variable binaire "vendu / pas vendu". Les caractéristiques X sont dupliquées en face de chaque observation.

Si tu as un coefficient qui vaut -0.1 pour prix, alors :
* dans le modèle de Poisson, ça veut dire que tu vendras EXP(-0.1)=0,90 fois plus (c'est à dire 10% de moins) d'items si tu les vends 1 € plus chers
* dans le modèle logistique, ça veut dire que ta probabilité de les vendre est multipliée (grosso modo) par 0,9. Tu as donc 10% de chances en moins de les vendre, s'ils sont proposés 1 € plus chers.

Les deux interprétations ne sont pas exactement semblables (d'autant que la seconde est une approximation) mais quand même très voisines.
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 10/02/2012, 16h14   #5
Invité de passage
 
Inscription : février 2012
Messages : 3
Détails du profil
Informations forums :
Inscription : février 2012
Messages : 3
Points : 0
Points : 0
Merci pour la réponse, effectivement c'est plus clair.

Je creuse un peu ce point, parce que plusieurs personnes bossent sur le même genre de données que moi et utilisent "a tout prix" la binomiale, en disant que poisson et binomiale négative sont vraiment incorrectes...

J'ai fais une simu avec un modèle à 2 facteurs explicatifs qualitatif.

Premier point : l'overdispersion

Poisson 3,92
NegBin 1
Bin 4,86

Évidemment la binomiale négative est optimale, mais par contre la poisson semble "moins pire" que la binomiale.

Deuxième point : l’estimation

Ci dessous une comparaison des coefs estimés pour chacune des 3 modalité de la variable explicative (localisation du magasin)

On voit que poisson et binomiale sont en effet très proches, et que la négative binomial est relativement différente (normal puiqu'elle corrige l'overdispersion?).


Loi_testée Modalité Moyenne Erreur_type
Poisson NORD 17,28 1,262
NegBin NORD 18,85 1,36
Bin NORD 17,39 1,299

Poisson SUD 21,73 1,54
NegBin SUD 23,65 1,769
Bin SUD 21,77 1,527

Poisson CENTRE 27,17 2,416
NegBin CENTRE 27,78 3,035
Bin CENTRE 27,21 2,298

Et là je me repose la même question qu'initialement : comment voir quel est le meilleur modèle, même à priori? Avec un glimmix avec effet aléatoire, je n'ai pas trouvé de critère pour comparer les modèles...

Une idée?

Merci pour les réponses en tout cas, ça avance!
Filob est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 10/02/2012, 17h44   #6
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 472
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 472
Points : 2 835
Points : 2 835
Pour la surdispersion, tu peux ajouter une instruction RANDOM supplémentaire dans tes modèles Poisson et binomiale. Pour la Negbin ce ne sera pas utile.
Les résultats des 3 modèles devraient alors être très proches.
Extrait de la doc SAS sur la proc GLIMMIX :
Citation:
You can add a multiplicative overdispersion parameter to a generalized linear model in the GLIMMIX procedure with the statement

random _residual_;
Tes 3 modèles sont effectivement très proches, avec des différences sur les erreurs-types (et donc sur les p-values) qui sont la conséquence logique du calcul différence de la variance (la surdispersion que tu soulignes).

Pourquoi Poisson et Negbin seraient "vraiment incorrectes" ?
Savoir quel est le "meilleur modèle" est une question complexe qui dépend beaucoup de ce que tu veux faire avec : du descriptif ou du prédictif ?
Dans le 1er cas, il n'y a pas vraiment de réponse. J'ai lu une fois qu'on pouvait comparer les critères AIC et BIC de modèles avec des lois de Y différentes tant que le jeu de données reste le même. Mais une petite voix dans un coin de mon cerveau crie que ce n'est pas licite (je ne sais pas d'où vient cette idée ; un souvenir, un fantasme, un coup de stress ?).
Dans le 2e cas, tu appliques le modèle à un jeu test et tu mesures les erreurs de prédiction. Le meilleur modèle est celui qui se trompe le moins.

Bon courage et bon week-end.
Olivier
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 02h02.


 
 
 
 
Partenaires

Hébergement Web