|
Publicité ' | |||||||||||||||||||||||
|
|
#1 |
|
Invité régulier
![]() Astrid Genet Inscription : novembre 2010 Messages : 43 ![]() |
Bonjour,
Mon problème est assez basique: j'ai une corrélation entre deux facteurs (ici la densité du bois et l'âge) dont la représentation graphique semble linéaire. Je pense toutefois que je pourrais améliorer la qualité de la régression en ayant recours à une forme puissance (densité = a+b*age**c) ou exponentielle saturée (densité= a+b*e**(c*age)). Pour définir la forme exacte de la relation, linéaire ou non, je voudrai comparer les AIC des modèles obtenus. Pour la forme linéaire, pas de problème, je fais une proc REG et l'AIC est dans les output. Mais pour les formes non linéaires, je ne sais pas quelle proc utiliser, car je ne sais pas évaluer les différences entre ces procédures. A ma connaissance, NLIN et NLP ne fournissent pas l'AIC dans les statistiques de sortie (pourquoi d'ailleurs?). Je peux cependant en forcer le calcul en sortie. Je me demande par ailleurs sachant la simplicité de ce que je veux tester si NMIXED n'est pas un peu de l'artillerie lourde. D'autant que je ne compte pas inclure d'effets aléatoires à ce stade. Enfin, existe-t-il un moyen d'"automatiser" la recherche de la forme mathématique idéale de la relation (Ex. puissance ou exponentielle, facteur ou quotient)? Selon moi il n'y a pas d'alternative au test une à une de toutes les formes possibles. On peut cependant imaginer passer à côté du vrai bon ajustement... Merci! Astrid |
|
|
00
|
|
|
#2 |
|
Membre Expert
![]() Biostatisticien Inscription : juin 2009 Messages : 1 143 ![]() |
Bonjour Astrid,
Je ne connais pas proc nlp, mais j'ai déjà utilisé les deux autres, et je pense pour nlmixed. Notamment parce qu'elle à plus d'options de gestion de la -parfois douloureuse - convergence. Le fait qu'elle ait été développée pour les modèls mixtes ne t'interdit pas de l'uitliser dans des cas "standard", c'est comme pour la proc mixed! maintenant pour décisionnel sur le modèle, j'essaierai d'utiliser le likelihood (à vérifier si elle est utilisée pour proc nlin). notamment le likelihood ratio test qui permet d'avoir un test formel de simplification de sélection de modèle dans le cas de modèles imbriqués. |
|
|
00
|
|
|
#3 |
|
Invité régulier
![]() Astrid Genet Inscription : novembre 2010 Messages : 43 ![]() |
Bonjour Manoutz,
Merci de me donner ton point de vue. Pourquoi pas utiliser l'AIC? Le test utilise aussi le max de vraisemblance. Quel est (en gros) l'avantage du likelihood ration que je connais pas par rapport à l'AIC? Concernant l'usage de NLMIXED, je me contente de ne pas renseigner les variables "random" dans le code et je l'utilise comme une procédure standard? Ne connaissant pas ce qu'il y a dessous, j'ai peur d'entraîner des erreurs d'estimations dues à des interactions que j'ignore. Enfin, sais-tu si il existe une procédure de recherche automatique du "best fit" ou est-on condamné à entrer manuellement les différentes formes potentielles? Ce qui nous limite à ce qui nous passe par la tête... Merci! Astrid |
|
|
00
|
|
|
#4 | ||
|
Membre Expert
![]() Biostatisticien Inscription : juin 2009 Messages : 1 143 ![]() |
l'avantage du likelihood ratio test par rapport à l'AIC est que c'est un test formel, c'est à dire que tu teste la simplification par l'intermédiaire d'une statistique, tu bases ton décisionnel sur une statistique et non sur la comparaison de deux nombres.
si tu renseignes le random dans nlmixed, tu ne peux trouver d'équivalent en modélisation dans nlin puisque cette procédure ne permet pas prendre en compte les modèles non linéaires mixtes. Citation:
Citation:
|
||
|
|
00
|
|
|
#5 |
|
Invité régulier
![]() Astrid Genet Inscription : novembre 2010 Messages : 43 ![]() |
Merci beaucoup!
Je vais potasser les caractéristiques de nlmixed et ses applications dans le cadre classique d'un ajustement où seuls les effets fixe sur les variables indépendantes sont considérés. Très bonne journée, Astrid |
|
|
00
|
|
|
#6 |
|
Expert Confirmé
![]() ![]() Olivier DecourtFormateur en informatique Inscription : avril 2008 Messages : 1 467 ![]() |
Bonjour Astrid.
Je n'ai pas de baguette magique pour essayer toutes les relations possibles entre tes X et ton Y. Ca ne veut pas dire qu'elle n'existe pas, mais ça me semblerait curieux (on imagine sans mal l'immensité des solutions mathématiques à explorer : puissances, exponentielles amorties, log, etc.) car potentiellement très coûteux en temps de calcul. Et d'un point de vue concret, comment faire si le meilleur modèle est une usine à gaz mathématique impossible à raconter concrètement ? Donc ça ne me choque pas d'être limité par le champ des modèles plausibles, après il faut effectivement trouver la bonne procédure pour les explorer. Je n'ai pas d'avis éclairé (même 10 watts) sur les 3 procédures que tu évoques. En revanche, j'ai un avis sur AIC vs test du ratio de vraisemblance. Déjà parce que tu n'auras pas des modèles emboîtés, mais des modèles où les mêmes X s'expriment à travers des formes mathématiques différentes. Donc le ratio de vraisemblance n'est pas forcément approprié. Et en plus, c'est un test, donc avec un comportement très défavorable à H0 si les effectifs sont importants (et au contraire, qui conclura que tous les modèles sont équivalents si tu n'as qu'un petit nombre d'observations). AIC (et mieux, le critère de Schwarz, noté BIC ou SBC selon les procédures) combine vraisemblance et complexité du modèle (Schwarz inclut dans le calcul les effectifs, c'est pour ça que je le préfère) et permet donc de comparer tous les modèles construits avec le même Y sur les mêmes données. Bon courage. Olivier |
|
|
00
|
|
|
#7 |
|
Invité régulier
![]() Astrid Genet Inscription : novembre 2010 Messages : 43 ![]() |
Bonjour Olivier,
J'étais un peu dans le doute car jusqu'à présent j'ai toujours utilisé sans me poser de question les AIC et BIC pour comparer les modèles. Ce doit être en effet une question d'approche. Je n'ai jamais eu à faire à des questions de modèles imbriqués, le ratio est sûrement plus performant dans ce contexte. Je suis contente que tu m'otes le doute. Pareil pour les formes ad hoc. Jusqu'à présent j'ai toujours suivi le bout de mon nez, mais je me demandais si dans le fond, il n'y aurait pas mieux. Tes arguments sont convaincants! Je te remercie pour ta réponse, Astrid |
|
|
00
|
|
|
#8 | ||
|
Membre Expert
![]() Biostatisticien Inscription : juin 2009 Messages : 1 143 ![]() |
Rebonjour Astrid et bonjour Olivier,
Je me permets d'apporter quelques réactions/ questions personnelles quand au message d'Olivier. Citation:
Citation:
Concernant le choix du critère d'information. Le BIC pénalise plus lourdement les modèles plus complexes que l'AIC, notamment pour N grand. Plus N est grand, plus BIC tend à retenir un modèle avec moins de paramètres, comparé à l'AIC. C'est une conséquence de l'inclusion des effectifs dans le BIC, enfin je le comprends comme cela. Je me permets donc une question, par pure curiosité: cela ne relance-t-il pas le débat AIC vs BIC? Manoutz |
||
|
|
00
|
|
|
#9 |
|
Expert Confirmé
![]() ![]() Olivier DecourtFormateur en informatique Inscription : avril 2008 Messages : 1 467 ![]() |
Bonsoir Manoutz.
Je sens que notre discussion (et tous ceux qui voudront y contribuer) pourra faire l'objet d'un fil séparé. Si un modérateur veut bien nous copier/coller ailleurs... Je commence par AIC vs BIC : oui, il y a des tenants d'un peu tout. Globalement c'est de la bidouille, toutes ces formules, et aucune ne détient, que je sache, un argument théorique qui la rendrait plus inattaquable que les autres. Il y a même des AIC "corrigés" dans certaines procédures de SAS. Avec l'usage, je me suis pris des habitudes avec le critère de Schwarz, qui privilégie effectivement le genre de modèles dont j'aime bien les propriétés : très compacts (peu de coefficients) et donc très robustes. Il faut dire que je m'en sers le plus souvent pour évaluer des modèles prédictifs. Mais tout dépend surtout de la durée de vie et de la complexité que tu veux bien accorder à ton modèle. Pour les tests : dans la plupart des tests, il n'y a pas de prise en compte très nette des effectifs manipulés, sauf à travers des calculs d'erreur standard (et de variance de l'estimateur en général). Ce qui aboutit à un comportement "logique" : plus j'ai de données, plus les estimateurs sont précis. D'où des intervalles de confiance étroits, et le plus souvent, le rejet des hypothèses nulles. J'ai développé une certaine méfiance (voire une allergie dans certains cas) envers les tests quand j'ai de fortes volumétries : des facteurs explicatifs, dans un modèle, sont tous significatifs, alors qu'ils ne le sont pas sur un échantillon aléatoire des mêmes données. Si je cherche des liaisons entre variables qualitatives, mettons sur quelques milliers d'observations, quasiment tous mes khi-2 rejettent largement l'indépendance. Autant cette logique me semble correcte dans le cas de plans d'expérience soigneusement contrôlés, où les effectifs importants sont là pour donner du crédit aux statistiques élaborées, autant dans la plupart des bases de données collectées empiriquement, ça me bloque. Savoir qu'un test de normalité conclura plus facilement à une loi normale sur 20 observations que sur 2000, ça me semble curieux. Alors je regarde les QQ-plots. N'avoir que des liaisons significatives entre variables quali, ça me gêne. Alors je regarde les V de Cramer. N'avoir que des augmentations significatives de vraisemblance quand j'ajoute des variables à un modèle, ça m'horripile. Alors je regarde les AIC et BIC. Et quand je suis obligé d'utiliser un test, je ne prends plus la p-value comme on me l'a appris, en disant "c'est moins de 5% alors je rejette H0" : je suis de plus en plus exigeant avec les effectifs. Pour quelques centaines d'individus, je considère un résultat significatif si p<0,01 seulement. Mais il y a là largement matière à débat. La mécanique des tests a plus d'un siècle, je me demande parfois si elle a été prévue pour s'adapter correctement aux déferlements de données actuels. |
|
|
00
|
|
|
#10 | |
|
Membre Expert
![]() Biostatisticien Inscription : juin 2009 Messages : 1 143 ![]() |
Bonjour Olivier,
Tout ce que tu dis est très juste. Il n'y effectivement , en mon sens, pas de vérité absolue quand à l'utilisation de telle ou telle statistique. Pour ma part, j'adapte l'exercice au contexte de l'étude: objectif, contexte, taille de l'échantillon et autres paramètres (je ne cite que le risque de premier ou de deuxième espèce, mais il y en a évidemment d'autres qui d'ailleurs peuvent varier suivant le design de l'étude). De toute façon, rien n'empêche d'appliquer différentes statistiques, dont chacune a ses propriétés, pour bien diagnostiquer un phénomène. Par exemple pour comparer deux échantillons appariés il est tout à fait envisageable d'effectuer un t-test et une test de Wilcoxon Mann Whitney, en gardant en tête que le but de prendre une seule décision. Car ceux ci peuvent être contradictoires. C'est pourquoi j'envisage plutôt les statistiques robustes comme une alternative lorsque les conditions d'application des statistiques dites "classiques" semblent hasardeuses. Mon domaine d'application des statistiques fait que la plupart des analyses sont le plus souvent débutées par études de puissance, en conséquence la taille des échantillons dépassent rarement le millier d'observations. Je n'ai donc pas tes problèmes de volumétrie. La taille de l'échantillon est déterminée de sorte que, en fonction des paramètres utilisés, le risque de ne pas rejeter H0 soit - théoriquement - contrôlé. Il y a là matière à débat sur les enjeux de la statistique, je tend à penser que tout dépend avec quel objectif l'étude est abordée. Citation:
Manoutz |
|
|
|
00
|
|
|
#11 |
|
Expert Confirmé
![]() ![]() Olivier DecourtFormateur en informatique Inscription : avril 2008 Messages : 1 467 ![]() |
+1 : on devrait toujours faire des études de puissance.
Mais mon champ d'application "privilégié", c'est le marketing : on n'a donc aucune prise sur la constitution des bases de données et les profils qui les peuplent. On fait donc de la statistique "imparfaite", mais en essayant d'être le plus efficace possible. Heureusement que contrairement à la biostat, il n'y a pas de vies en jeu ici. Olivier |
|
|
00
|
Copyright © 2000-2012 - www.developpez.com