Précédent   Forum des professionnels en informatique > Logiciels > Solutions d'entreprise > Business Intelligence > SAS > SAS STAT
SAS STAT Forum d'entraide sur les fonctionnalités liées à la statistique sur SAS : statistique descriptive, test, régression, classification
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 28/01/2011, 13h50   #1
Invité régulier
 
Astrid Genet
Inscription : novembre 2010
Messages : 43
Détails du profil
Informations personnelles :
Nom : Astrid Genet

Informations forums :
Inscription : novembre 2010
Messages : 43
Points : 7
Points : 7
Par défaut Proc NLIN, NMIXED ou NLP: comment choisir?

Bonjour,

Mon problème est assez basique: j'ai une corrélation entre deux facteurs (ici la densité du bois et l'âge) dont la représentation graphique semble linéaire. Je pense toutefois que je pourrais améliorer la qualité de la régression en ayant recours à une forme puissance (densité = a+b*age**c) ou exponentielle saturée (densité= a+b*e**(c*age)).

Pour définir la forme exacte de la relation, linéaire ou non, je voudrai comparer les AIC des modèles obtenus.

Pour la forme linéaire, pas de problème, je fais une proc REG et l'AIC est dans les output.

Mais pour les formes non linéaires, je ne sais pas quelle proc utiliser, car je ne sais pas évaluer les différences entre ces procédures.
A ma connaissance, NLIN et NLP ne fournissent pas l'AIC dans les statistiques de sortie (pourquoi d'ailleurs?). Je peux cependant en forcer le calcul en sortie. Je me demande par ailleurs sachant la simplicité de ce que je veux tester si NMIXED n'est pas un peu de l'artillerie lourde. D'autant que je ne compte pas inclure d'effets aléatoires à ce stade.

Enfin, existe-t-il un moyen d'"automatiser" la recherche de la forme mathématique idéale de la relation (Ex. puissance ou exponentielle, facteur ou quotient)? Selon moi il n'y a pas d'alternative au test une à une de toutes les formes possibles. On peut cependant imaginer passer à côté du vrai bon ajustement...

Merci!

Astrid
AstridG est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 28/01/2011, 14h44   #2
Membre Expert
 
Homme
Biostatisticien
Inscription : juin 2009
Messages : 1 143
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : Irlande

Informations professionnelles :
Activité : Biostatisticien
Secteur : Industrie Pharmaceutique

Informations forums :
Inscription : juin 2009
Messages : 1 143
Points : 1 760
Points : 1 760
Bonjour Astrid,

Je ne connais pas proc nlp, mais j'ai déjà utilisé les deux autres, et je pense pour nlmixed. Notamment parce qu'elle à plus d'options de gestion de la -parfois douloureuse - convergence. Le fait qu'elle ait été développée pour les modèls mixtes ne t'interdit pas de l'uitliser dans des cas "standard", c'est comme pour la proc mixed!

maintenant pour décisionnel sur le modèle, j'essaierai d'utiliser le likelihood (à vérifier si elle est utilisée pour proc nlin). notamment le likelihood ratio test qui permet d'avoir un test formel de simplification de sélection de modèle dans le cas de modèles imbriqués.
Manoutz est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 28/01/2011, 14h56   #3
Invité régulier
 
Astrid Genet
Inscription : novembre 2010
Messages : 43
Détails du profil
Informations personnelles :
Nom : Astrid Genet

Informations forums :
Inscription : novembre 2010
Messages : 43
Points : 7
Points : 7
Bonjour Manoutz,

Merci de me donner ton point de vue. Pourquoi pas utiliser l'AIC? Le test utilise aussi le max de vraisemblance. Quel est (en gros) l'avantage du likelihood ration que je connais pas par rapport à l'AIC?

Concernant l'usage de NLMIXED, je me contente de ne pas renseigner les variables "random" dans le code et je l'utilise comme une procédure standard? Ne connaissant pas ce qu'il y a dessous, j'ai peur d'entraîner des erreurs d'estimations dues à des interactions que j'ignore.

Enfin, sais-tu si il existe une procédure de recherche automatique du "best fit" ou est-on condamné à entrer manuellement les différentes formes potentielles? Ce qui nous limite à ce qui nous passe par la tête...

Merci!

Astrid
AstridG est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 28/01/2011, 15h10   #4
Membre Expert
 
Homme
Biostatisticien
Inscription : juin 2009
Messages : 1 143
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : Irlande

Informations professionnelles :
Activité : Biostatisticien
Secteur : Industrie Pharmaceutique

Informations forums :
Inscription : juin 2009
Messages : 1 143
Points : 1 760
Points : 1 760
l'avantage du likelihood ratio test par rapport à l'AIC est que c'est un test formel, c'est à dire que tu teste la simplification par l'intermédiaire d'une statistique, tu bases ton décisionnel sur une statistique et non sur la comparaison de deux nombres.

si tu renseignes le random dans nlmixed, tu ne peux trouver d'équivalent en modélisation dans nlin puisque cette procédure ne permet pas prendre en compte les modèles non linéaires mixtes.

Citation:
Ne connaissant pas ce qu'il y a dessous, j'ai peur d'entraîner des erreurs d'estimations dues à des interactions que j'ignore.
Évidemment avant d'utiliser toute procédure il faut passer un peu de temps afin de s'assurer que ce que l'on code correspond à ce que l'on veut faire. Tu devrais t'en sortir, c'est pas si méchant je dirais si tu as compris la théorie.

Citation:
Enfin, sais-tu si il existe une procédure de recherche automatique du "best fit" ou est-on condamné à entrer manuellement les différentes formes potentielles? Ce qui nous limite à ce qui nous passe par la tête...
Je dirais que le best fit ne se limite pas à l'utilisation de telle ou telle procédure, puisque notamment on peux généraliser la problématique à l'utilisation de tel ou tel modèle, ou tel ou tel type de modèle. Je crois qu'il est inévitable de faire une partie de ton travail "à la main" pour répondre à ton problème...
Manoutz est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 28/01/2011, 15h14   #5
Invité régulier
 
Astrid Genet
Inscription : novembre 2010
Messages : 43
Détails du profil
Informations personnelles :
Nom : Astrid Genet

Informations forums :
Inscription : novembre 2010
Messages : 43
Points : 7
Points : 7
Merci beaucoup!

Je vais potasser les caractéristiques de nlmixed et ses applications dans le cadre classique d'un ajustement où seuls les effets fixe sur les variables indépendantes sont considérés.

Très bonne journée,

Astrid
AstridG est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 28/01/2011, 15h18   #6
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
Bonjour Astrid.
Je n'ai pas de baguette magique pour essayer toutes les relations possibles entre tes X et ton Y. Ca ne veut pas dire qu'elle n'existe pas, mais ça me semblerait curieux (on imagine sans mal l'immensité des solutions mathématiques à explorer : puissances, exponentielles amorties, log, etc.) car potentiellement très coûteux en temps de calcul.
Et d'un point de vue concret, comment faire si le meilleur modèle est une usine à gaz mathématique impossible à raconter concrètement ?
Donc ça ne me choque pas d'être limité par le champ des modèles plausibles, après il faut effectivement trouver la bonne procédure pour les explorer. Je n'ai pas d'avis éclairé (même 10 watts) sur les 3 procédures que tu évoques.
En revanche, j'ai un avis sur AIC vs test du ratio de vraisemblance. Déjà parce que tu n'auras pas des modèles emboîtés, mais des modèles où les mêmes X s'expriment à travers des formes mathématiques différentes. Donc le ratio de vraisemblance n'est pas forcément approprié. Et en plus, c'est un test, donc avec un comportement très défavorable à H0 si les effectifs sont importants (et au contraire, qui conclura que tous les modèles sont équivalents si tu n'as qu'un petit nombre d'observations). AIC (et mieux, le critère de Schwarz, noté BIC ou SBC selon les procédures) combine vraisemblance et complexité du modèle (Schwarz inclut dans le calcul les effectifs, c'est pour ça que je le préfère) et permet donc de comparer tous les modèles construits avec le même Y sur les mêmes données.
Bon courage.
Olivier
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 28/01/2011, 15h45   #7
Invité régulier
 
Astrid Genet
Inscription : novembre 2010
Messages : 43
Détails du profil
Informations personnelles :
Nom : Astrid Genet

Informations forums :
Inscription : novembre 2010
Messages : 43
Points : 7
Points : 7
Bonjour Olivier,

J'étais un peu dans le doute car jusqu'à présent j'ai toujours utilisé sans me poser de question les AIC et BIC pour comparer les modèles. Ce doit être en effet une question d'approche. Je n'ai jamais eu à faire à des questions de modèles imbriqués, le ratio est sûrement plus performant dans ce contexte. Je suis contente que tu m'otes le doute.

Pareil pour les formes ad hoc. Jusqu'à présent j'ai toujours suivi le bout de mon nez, mais je me demandais si dans le fond, il n'y aurait pas mieux. Tes arguments sont convaincants!

Je te remercie pour ta réponse,

Astrid
AstridG est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 28/01/2011, 17h18   #8
Membre Expert
 
Homme
Biostatisticien
Inscription : juin 2009
Messages : 1 143
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : Irlande

Informations professionnelles :
Activité : Biostatisticien
Secteur : Industrie Pharmaceutique

Informations forums :
Inscription : juin 2009
Messages : 1 143
Points : 1 760
Points : 1 760
Rebonjour Astrid et bonjour Olivier,

Je me permets d'apporter quelques réactions/ questions personnelles quand au message d'Olivier.

Citation:
C'est un test, donc avec un comportement très défavorable à H0 si les effectifs sont importants (et au contraire, qui conclura que tous les modèles sont équivalents si tu n'as qu'un petit nombre d'observations)
Peux tu en dire un peu plus?

Citation:
AIC (et mieux, le critère de Schwarz, noté BIC ou SBC selon les procédures) combine vraisemblance et complexité du modèle
Ma compréhension du test de vraisemblance est que ce test à les mêmes capacités. C'est justement son but: tester si un modèle réduit est significativement différent d'un modèle plus général. Mais je suis d'accord, il ne convient pas dans ce contexte, je n'aurais peut être pas du l'aborder dans la discussion.

Concernant le choix du critère d'information. Le BIC pénalise plus lourdement les modèles plus complexes que l'AIC, notamment pour N grand. Plus N est grand, plus BIC tend à retenir un modèle avec moins de paramètres, comparé à l'AIC. C'est une conséquence de l'inclusion des effectifs dans le BIC, enfin je le comprends comme cela. Je me permets donc une question, par pure curiosité: cela ne relance-t-il pas le débat AIC vs BIC?

Manoutz
Manoutz est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 28/01/2011, 18h40   #9
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
Par défaut AIC, BIC, vraisemblance

Bonsoir Manoutz.
Je sens que notre discussion (et tous ceux qui voudront y contribuer) pourra faire l'objet d'un fil séparé. Si un modérateur veut bien nous copier/coller ailleurs...

Je commence par AIC vs BIC : oui, il y a des tenants d'un peu tout. Globalement c'est de la bidouille, toutes ces formules, et aucune ne détient, que je sache, un argument théorique qui la rendrait plus inattaquable que les autres. Il y a même des AIC "corrigés" dans certaines procédures de SAS.
Avec l'usage, je me suis pris des habitudes avec le critère de Schwarz, qui privilégie effectivement le genre de modèles dont j'aime bien les propriétés : très compacts (peu de coefficients) et donc très robustes. Il faut dire que je m'en sers le plus souvent pour évaluer des modèles prédictifs.
Mais tout dépend surtout de la durée de vie et de la complexité que tu veux bien accorder à ton modèle.

Pour les tests : dans la plupart des tests, il n'y a pas de prise en compte très nette des effectifs manipulés, sauf à travers des calculs d'erreur standard (et de variance de l'estimateur en général). Ce qui aboutit à un comportement "logique" : plus j'ai de données, plus les estimateurs sont précis. D'où des intervalles de confiance étroits, et le plus souvent, le rejet des hypothèses nulles.
J'ai développé une certaine méfiance (voire une allergie dans certains cas) envers les tests quand j'ai de fortes volumétries : des facteurs explicatifs, dans un modèle, sont tous significatifs, alors qu'ils ne le sont pas sur un échantillon aléatoire des mêmes données. Si je cherche des liaisons entre variables qualitatives, mettons sur quelques milliers d'observations, quasiment tous mes khi-2 rejettent largement l'indépendance.
Autant cette logique me semble correcte dans le cas de plans d'expérience soigneusement contrôlés, où les effectifs importants sont là pour donner du crédit aux statistiques élaborées, autant dans la plupart des bases de données collectées empiriquement, ça me bloque.
Savoir qu'un test de normalité conclura plus facilement à une loi normale sur 20 observations que sur 2000, ça me semble curieux. Alors je regarde les QQ-plots.
N'avoir que des liaisons significatives entre variables quali, ça me gêne. Alors je regarde les V de Cramer.
N'avoir que des augmentations significatives de vraisemblance quand j'ajoute des variables à un modèle, ça m'horripile. Alors je regarde les AIC et BIC.
Et quand je suis obligé d'utiliser un test, je ne prends plus la p-value comme on me l'a appris, en disant "c'est moins de 5% alors je rejette H0" : je suis de plus en plus exigeant avec les effectifs. Pour quelques centaines d'individus, je considère un résultat significatif si p<0,01 seulement.

Mais il y a là largement matière à débat. La mécanique des tests a plus d'un siècle, je me demande parfois si elle a été prévue pour s'adapter correctement aux déferlements de données actuels.

NON A LA DICTATURE DES P-VALUES !!!
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 01/02/2011, 13h02   #10
Membre Expert
 
Homme
Biostatisticien
Inscription : juin 2009
Messages : 1 143
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : Irlande

Informations professionnelles :
Activité : Biostatisticien
Secteur : Industrie Pharmaceutique

Informations forums :
Inscription : juin 2009
Messages : 1 143
Points : 1 760
Points : 1 760
Bonjour Olivier,

Tout ce que tu dis est très juste. Il n'y effectivement , en mon sens, pas de vérité absolue quand à l'utilisation de telle ou telle statistique. Pour ma part, j'adapte l'exercice au contexte de l'étude: objectif, contexte, taille de l'échantillon et autres paramètres (je ne cite que le risque de premier ou de deuxième espèce, mais il y en a évidemment d'autres qui d'ailleurs peuvent varier suivant le design de l'étude).

De toute façon, rien n'empêche d'appliquer différentes statistiques, dont chacune a ses propriétés, pour bien diagnostiquer un phénomène. Par exemple pour comparer deux échantillons appariés il est tout à fait envisageable d'effectuer un t-test et une test de Wilcoxon Mann Whitney, en gardant en tête que le but de prendre une seule décision. Car ceux ci peuvent être contradictoires. C'est pourquoi j'envisage plutôt les statistiques robustes comme une alternative lorsque les conditions d'application des statistiques dites "classiques" semblent hasardeuses.

Mon domaine d'application des statistiques fait que la plupart des analyses sont le plus souvent débutées par études de puissance, en conséquence la taille des échantillons dépassent rarement le millier d'observations. Je n'ai donc pas tes problèmes de volumétrie. La taille de l'échantillon est déterminée de sorte que, en fonction des paramètres utilisés, le risque de ne pas rejeter H0 soit - théoriquement - contrôlé. Il y a là matière à débat sur les enjeux de la statistique, je tend à penser que tout dépend avec quel objectif l'étude est abordée.

Citation:
Et quand je suis obligé d'utiliser un test, je ne prends plus la p-value comme on me l'a appris, en disant "c'est moins de 5% alors je rejette H0" : je suis de plus en plus exigeant avec les effectifs. Pour quelques centaines d'individus, je considère un résultat significatif si p<0,01 seulement.
Faut-il être conservateur ou non? Vaste sujet. En ce sens, je suggèrerais qu'une première étude de puissance peut être bénéfique sur la détermination de ton alpha, tout en préservant intégrité des choix. Pour prolonger la logique, si la taille de l'échantillon est bien contrôlée, un test de ratio de vraisemblance peut se défendre je dirais. Reste à savoir si la taille de l'échantillon, déterminée considérant une statistique précise - prenons par exemple une ANCOVA, peut défendre une test de vraisemblance dans ce cas. Il serait amusant de faire des simulations.

Manoutz
Manoutz est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 01/02/2011, 13h17   #11
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
+1 : on devrait toujours faire des études de puissance.
Mais mon champ d'application "privilégié", c'est le marketing : on n'a donc aucune prise sur la constitution des bases de données et les profils qui les peuplent. On fait donc de la statistique "imparfaite", mais en essayant d'être le plus efficace possible.
Heureusement que contrairement à la biostat, il n'y a pas de vies en jeu ici.

Olivier
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 03h50.


 
 
 
 
Partenaires

Hébergement Web