|
Publicité ' | |||||||||||||||||||||||
|
|
#1 | ||
|
Invité de passage
![]() Inscription : février 2012 Messages : 3 ![]() |
Bonjour à tous,
Je cherche à modéliser un ratio dont le dénominateur (et bien sur le numérateur) est susceptible de varier pour chaque exploitation. Imaginons que chaque ligne représente un entreprise qui dit combien d'exemplaire du produit A elle a acheté au fournisseur, et combien elle en a vendu ces 6 derniers mois, dans chacun de ses magasins. Les données (exemple, 4 colonnes) Entreprise Magasin Prod_A_achetés Prod_A_vendus A 1 34 14 A 2 56 24 A 3 87 37 B 1 79 23 B 2 54 43 Dans un premier temps, je cherche à identifier le meilleur modèle pour ces données. Jusqu'ici j'utilisais un poisson avec GLIMMIX sous cette forme : Code :
(j'ai ajouté une variable explicative "région" pour l'exemple) Au fil du temps, j'ai entendu parler de binomiale négative, puis de binomiale tout court en considérant qu'un ratio "taux de vente" est un ensemble d'essais binomiaux "vendu/pas vendu". Qu'en pensez vous? La poisson est elle vraiment inadaptée et pour quelle raison? Comment le coder dans SAS? Merci d'avance |
||
|
|
00
|
|
|
#2 |
|
Expert Confirmé
![]() ![]() Olivier DecourtFormateur en informatique Inscription : avril 2008 Messages : 1 472 ![]() |
Bonjour.
Trancher pour donner le "meilleur" modèle c'est toujours délicat. Poisson ou binomiale négative, c'est le même modèle, avec un paramètre supplémentaire dans le cas de la NegBin (le coefficient de proportionnalité entre variance et moyenne de Y, qui est fixé à 1 pour la loi de Poisson). Tout dépend, à mon avis, de ce que tu veux au final : des commentaires et des prédictions sur des volumes de ventes (c'est un modèle poissonien qu'il te faut), ou sur la probabilité de vendre (c'est un modèle binomial, c'est à dire une régression logistique) ? J'aurais tendance à penser que leurs conclusions seraient assez équivalentes d'un point de vue qualitatif (une variable explicative pèsera toujours dans le même sens dans tous ces modèles) même s'il peut y avoir des coefficients numériquement différents (ainsi que leurs p-values). Peut-être même qu'on pourrait prouver qu'ils sont finalement équivalents (mais bon, là, moi, les démonstrations théoriques, c'est pas mon truc) : c'est vrai qu'à partir du modèle binomial, pour retrouver les chiffres de ventes, je prendrais les achats multipliés par la probabilité de vendre. Peut-être qu'on pourrait faire de même dans le sens inverse. Bref pour moi les 2 approches se valent, et tu choisis plutôt en fonction de la quantité qui t'intéresse (volume ou proportion). Bon courage. Olivier |
|
|
10
|
|
|
#3 |
|
Invité de passage
![]() Inscription : février 2012 Messages : 3 ![]() |
Bonjour et merci pour la réponse.
Du coup je m’interroge : si on utilise le modèle de poisson, comment se comprend l'utilisation de l'offset pour indiquer les "tailles" différentes des individus? J'ai du mal à intuiter la différence entre volume et probabilité... Au final c'est toujours le même ratio qui m’intéresse, à savoir vendus/stock acheté. Pouvez vous m'exprimer la différence d’interprétation de ces deux termes? Merci, |
|
|
00
|
|
|
#4 |
|
Expert Confirmé
![]() ![]() Olivier DecourtFormateur en informatique Inscription : avril 2008 Messages : 1 472 ![]() |
Dans le modèle de Poisson, tu écris :
log(nb vendus) = aX + b + log(nb achetés) ce qui équivaut à : log(nb vendus / nb achetés) = aX + b Dans le modèle binomial, tu écris : log (proba vendre / proba pas vendre) = a'X + b' Ce n'est pas exactement le même modèle. Même si ses conclusions sont voisines. Car il ne faut pas s'y tromper : pour la régression logistique, l'écriture avec le ratio nb_vendus / nb_achetés n'est qu'une commodité de programmation. Elle revient à proposer une table plus détaillée avec autant d'observations que d'items achetés, et une variable binaire "vendu / pas vendu". Les caractéristiques X sont dupliquées en face de chaque observation. Si tu as un coefficient qui vaut -0.1 pour prix, alors : * dans le modèle de Poisson, ça veut dire que tu vendras EXP(-0.1)=0,90 fois plus (c'est à dire 10% de moins) d'items si tu les vends 1 € plus chers * dans le modèle logistique, ça veut dire que ta probabilité de les vendre est multipliée (grosso modo) par 0,9. Tu as donc 10% de chances en moins de les vendre, s'ils sont proposés 1 € plus chers. Les deux interprétations ne sont pas exactement semblables (d'autant que la seconde est une approximation) mais quand même très voisines. |
|
|
00
|
|
|
#5 |
|
Invité de passage
![]() Inscription : février 2012 Messages : 3 ![]() |
Merci pour la réponse, effectivement c'est plus clair.
Je creuse un peu ce point, parce que plusieurs personnes bossent sur le même genre de données que moi et utilisent "a tout prix" la binomiale, en disant que poisson et binomiale négative sont vraiment incorrectes... J'ai fais une simu avec un modèle à 2 facteurs explicatifs qualitatif. Premier point : l'overdispersion Poisson 3,92 NegBin 1 Bin 4,86 Évidemment la binomiale négative est optimale, mais par contre la poisson semble "moins pire" que la binomiale. Deuxième point : l’estimation Ci dessous une comparaison des coefs estimés pour chacune des 3 modalité de la variable explicative (localisation du magasin) On voit que poisson et binomiale sont en effet très proches, et que la négative binomial est relativement différente (normal puiqu'elle corrige l'overdispersion?). Loi_testée Modalité Moyenne Erreur_type Poisson NORD 17,28 1,262 NegBin NORD 18,85 1,36 Bin NORD 17,39 1,299 Poisson SUD 21,73 1,54 NegBin SUD 23,65 1,769 Bin SUD 21,77 1,527 Poisson CENTRE 27,17 2,416 NegBin CENTRE 27,78 3,035 Bin CENTRE 27,21 2,298 Et là je me repose la même question qu'initialement : comment voir quel est le meilleur modèle, même à priori? Avec un glimmix avec effet aléatoire, je n'ai pas trouvé de critère pour comparer les modèles... Une idée? Merci pour les réponses en tout cas, ça avance! |
|
|
00
|
|
|
#6 | |
|
Expert Confirmé
![]() ![]() Olivier DecourtFormateur en informatique Inscription : avril 2008 Messages : 1 472 ![]() |
Pour la surdispersion, tu peux ajouter une instruction RANDOM supplémentaire dans tes modèles Poisson et binomiale. Pour la Negbin ce ne sera pas utile.
Les résultats des 3 modèles devraient alors être très proches. Extrait de la doc SAS sur la proc GLIMMIX : Citation:
Pourquoi Poisson et Negbin seraient "vraiment incorrectes" ? Savoir quel est le "meilleur modèle" est une question complexe qui dépend beaucoup de ce que tu veux faire avec : du descriptif ou du prédictif ? Dans le 1er cas, il n'y a pas vraiment de réponse. J'ai lu une fois qu'on pouvait comparer les critères AIC et BIC de modèles avec des lois de Y différentes tant que le jeu de données reste le même. Mais une petite voix dans un coin de mon cerveau crie que ce n'est pas licite (je ne sais pas d'où vient cette idée ; un souvenir, un fantasme, un coup de stress ?). Dans le 2e cas, tu appliques le modèle à un jeu test et tu mesures les erreurs de prédiction. Le meilleur modèle est celui qui se trompe le moins. Bon courage et bon week-end. Olivier |
|
|
|
00
|
Copyright © 2000-2012 - www.developpez.com