Précédent   Forum des professionnels en informatique > Logiciels > Solutions d'entreprise > Business Intelligence > SAS > SAS STAT
SAS STAT Forum d'entraide sur les fonctionnalités liées à la statistique sur SAS : statistique descriptive, test, régression, classification
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 03/02/2011, 11h37   #1
Membre habitué
 
Inscription : janvier 2005
Messages : 527
Détails du profil
Informations forums :
Inscription : janvier 2005
Messages : 527
Points : 134
Points : 134
Par défaut Proc mixed - comment remplir les options ?

Bonjour,

Je viens sur ce forum une nouvelle fois pour vous demander de l'aide

Je dois réaliser un modèle de régression:
- la variable à expliquer est le paramètre A
- les variables explicatives sont les paramètres B, C, D et E
- les paramètres D et E sont (très?) corrélés
- les paramètres A, D et E sont des données répétées sur chaque sujet (il s'agit de la mesure ECG, température, fréquence cardiaque)
- le paramètre B est fixe (age du sujet)
- le paramètre C est fixe (groupe de traitement)

Je voulais donc partir sur une proc mixed avec un modèle du type:
A = B + C + D + E + D*E

Mon problème est que je ne connais pas bien toutes les options utiles de la syntaxe sas. Le but final est de:
1. savoir si les paramètres B, C, D et E ont une influence sur le paramètre A
2. faire un graphique pour le représenter

Code :
1
2
3
4
5
6
7
proc mixed DATA=dsin method=?; 
class E; 
model A = B C D E D*E /ddfm=?; 
random ?; 
estimate ?;
repeated ?;
run;
Comme vous le voyez, je ne sais pas remplir grand chose. J'ai déjà regardé sur internet et j'ai vu différentes options mais laquelle choisir pour mon objectif final ? Car quoique je choisisse, sas me produira des résultats: mais si je ne comprends meme pas ce que je mets dans la syntaxe, je ne serai pas capable de comprendre non plus le résultat.

Je vous remercie de m'éclairer.
debdev est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 03/02/2011, 12h46   #2
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
Bonjour Debdev.
Commençons par la syntaxe, parce que pour l'interprétation des résultats, ce serait un tutoriel de plusieurs pages selon le degré de finesse que tu souhaites. (Pour info il y a un plutôt bon livre "The SAS System for Mixed Models", même s'il date un peu, il contient l'essentiel.)
  • option METHOD dans l'instruction PROC MIXED : attendons de voir si le modèle ne converge pas avec les choix par défaut. Perso je ne la modifie qu'en cas d'ultime nécessité.
  • instruction CLASS : toutes les variables explicatives quali doivent y figurer. Donc il y manque le groupe de traitement. En vue des données répétées, ajoutes-y également ton identifiant de sujet.
  • option DDFM dans l'instruction MODEL : la mode actuelle est DDFM=KR, surtout avec des données répétées. Les sources "officielles" (Milliken & Johnson dans "Analysis of messy data") l'indiquent comme le meilleur choix. C'est la méthode dite de Kenward & Rodgers.
  • Instruction RANDOM : d'après ce que tu décris de tes paramètres, rien d'aléatoire ici.
  • Instruction REPEATED : y mentionner l'identifiant de tes sujets avec une option SUBJECT. Il faut aussi choisir une forme de matrice de covariance entre les répétitions (dit comme ça, on a tout de suite envie de s'y plonger). En gros, est-ce que les répétitions sont indépendantes, ou toutes corrélées à l'identique, ou corrélées selon une décroissance exponentielle qui varie dans le temps, etc. Ca dépend aussi de l'espacement dans le temps de tes mesures : sont-elles à intervalle régulier ou non ? Bref, c'est une belle saloperie.
Ca donnerait grosso modo ceci :
Code :
1
2
3
4
5
proc mixed DATA=dsin ; 
class E B ID ; 
model A = B C D E D*E /ddfm=KR; 
repeated / subject=ID type=??? ;
run;
J'ai omis ESTIMATE qui n'est pas utile en premier lieu, sauf si tu veux estimer précisément l'écart moyen de A entre 2 groupes de traitements spécifiques. Sinon, tu peux chercher dans l'instruction LSMEANS.
Pour l'option TYPE (la forme de la matrice de covariance) les choix les plus courants sont UN (inconnu), CS (constante), TOEP (constante par bandes), AR (auto-régressive) ; la dernière suppose des mesures répétées à intervalles réguliers, attention !

Bon courage.
Olivier
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 20
Vieux 03/02/2011, 14h47   #3
Membre Expert
 
Homme
Biostatisticien
Inscription : juin 2009
Messages : 1 143
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : Irlande

Informations professionnelles :
Activité : Biostatisticien
Secteur : Industrie Pharmaceutique

Informations forums :
Inscription : juin 2009
Messages : 1 143
Points : 1 760
Points : 1 760
Bonjour Debdev,

A mon tour de donner ma version, qui d'ailleurs se rapproche pas mal de celle d'Olivier.
  • choix de la méthode pour le calcul du dénominateur du degré de liberté: +1 Olivier, je soutient également KR. Je me base pour ma part sur le travail de Molenberghs et Verbeke qui se basent celui de Kenward et Roger (1997)
  • choix du random apparement peu justifié
  • Estimate à envisager en deuxième une fois le modèle stabilisé
  • Sauf erreur de ma part, la régularité de l'intervalle n'est pas un enjeu sauf on penche vers une structure auto régressive. Le choix de la structure peut être guidé par les options R et RCORR. Je commence généralement par la structure la plus globale, unstructured (TYPE=UN). Lorsque le contexte le permet (tu sembles travailler sur des données médicales, donc attention au règlementaire!), un test de ratio de vraisemblance (Désolé Olivier, je radote!) permet de tester la simplification parcimonieuse d'un modèle formellement.
  • Choix de la méthode: tout dépend de ton approche. Une mauvaise approche peut conduire à des tests faux, ou encore à une approche méthodologique pouvant être amélioré. Pour ma part je préconise ML pour les effets fixes et REML pour la variance covariance. Il y a de la théorie derrière.
  • Toutes tes variables de type catégorique doivent être déclarées dans le class si tu ne veux pas qu'elles soient considérées comme continues. Par exemple C (groupe de traitement) en est une.
  • De toute façon, ces règles sont à appliquer à une problématique, donc il faut partir de celle-ci pour bien répondre au problème

J'ouvre également le débat sur la nécessite de la normalité de A avant d'appliquer une proc mixed. C'est rarement contrôlé mais je pense que c'est mieux. C'est d'ailleurs indiqué dans l'aide en ligne sas en introduction de la proc mixed. Ah oui, une dernière chose: tu veux savoir si les paramètres B, C, D et E ont une influence sur le paramètre A. Je suppose que tu veux savoir l'influence de chaque paramètre indépendamment des autres, c'est bien ca?

Manoutz
Manoutz est déconnecté   Envoyer un message privé Réponse avec citation 20
Vieux 03/02/2011, 14h59   #4
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
Manoutz, c'est toujours un plaisir de tomber d'accord avec toi.
Au titre des vérifications indispensables mais souvent zappées :
  • normalité de A
  • linéarité de la relation entre moyenne(A|X) et X pour les covariables quanti(B et D ici je crois) à vérifier avec un graphique
Olivier
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 03/02/2011, 15h25   #5
Membre Expert
 
Homme
Biostatisticien
Inscription : juin 2009
Messages : 1 143
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : Irlande

Informations professionnelles :
Activité : Biostatisticien
Secteur : Industrie Pharmaceutique

Informations forums :
Inscription : juin 2009
Messages : 1 143
Points : 1 760
Points : 1 760
C'est la ou ca peut se discuter, justement. La théorie demande quatre conditions pour validité d'une régression linéaire:
  • Linéarité des paramètres associés aux variables explicatives
  • Normalité de la distribution des résidus
  • Indépendance entre les résidus
  • Homoscédasticité

Mais pas la normalité de la distribution de la variable dépendante. SAS le pose en prérequis de la proc mixed et je me demande pourquoi cette condition "supplémentaire". Bon je sais, c'est un peu chipoter, mais je serais curieux de savoir ce qui se passe derrière le rideau...
Manoutz est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 03/02/2011, 15h37   #6
Membre habitué
 
Inscription : janvier 2005
Messages : 527
Détails du profil
Informations forums :
Inscription : janvier 2005
Messages : 527
Points : 134
Points : 134
Merci tous les 2 ! Vous répondez toujours présents, c'est très sympa de votre part.

Alors, j'ai proposé le modèle comme indiqué par Olivier. Mais on m'a dit après coup que l'on n'utilisait pas toutes les valeurs de T°C et fréquences cardiaques mais seulement le max pour la fréquence cardiaque et la valeur à baseline pour la T°C (ne me demandez pas pourquoi, ça a été décidé par des médecins => j'applique ). Donc le modèle ne contient plus la ligne repeated.

Concernant les variables class, oui dsl je me suis emmelée dans mes lettres, c'est bien la variable groupe de traitement que je voulais mettre.

Citation:
Je suppose que tu veux savoir l'influence de chaque paramètre indépendamment des autres, c'est bien ca?
> oui c'est ça. Et comme d'après les résultats obtenus, mon terme d'interaction (Fréquence cardiaque * T°C) n'était pas significatif (mais à la limite, p=0.0503), on m'a demandé de faire 2 sous groupes selon la T°C. Donc j'ai 1 proc mixed sans le terme d'interaction ni la variable T°C (il me reste B, C et E) et j'applique cette proc mixed à mes 2 sous groupes.

Je n'ai pas encore bien interprété les résultats mais en tous les cas je vous remercie grandement tous les 2 pour l'aide que vous m'apportez, ainsi que pour vos explications toujours claires.

Bonne fin de journée
debdev est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 03/02/2011, 15h44   #7
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
@ Manoutz :
Mais la normalité des Y (enfin de A ici) n'est-elle pas la même que celle des résidus ?
[Attention aux âmes sensibles, il va y avoir quelques formules.]
On modélise :

E(A|B,C,D,E) = cste + combinaison_linéaire_de_B,C,D,E

Si cette modélisation est correcte (sans biais) alors on a aussi :

A = cste + combinaison_linéaire_de_B,C,D,E + résidu

Qu'est-ce qui est aléatoire là-dedans ? A l'est, le résidu l'est, B et les autres facteurs explicatifs sont fixes donc non aléatoires. Les coefficients du modèle sont des réalisations de variables aléatoires mais pas aléatoires eux-mêmes.
Donc la loi de A est la loi du résidu, à un centrage près.

J'ai bon là ? (Vous avez le droit de penser le contraire.)
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 03/02/2011, 16h10   #8
Membre Expert
 
Homme
Biostatisticien
Inscription : juin 2009
Messages : 1 143
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : Irlande

Informations professionnelles :
Activité : Biostatisticien
Secteur : Industrie Pharmaceutique

Informations forums :
Inscription : juin 2009
Messages : 1 143
Points : 1 760
Points : 1 760
Je ne suis pas conscient de tous les enjeux de ton problème, mais ca ne risque pas de poser un problème si max de la fréquence cardiaque correspond à différents moments de mesures suivant le patient? Question à rattacher avec l'objectif de l'étude..

p=0.503. Le tir n'est pas passé loin! J'aurais pour ma part comparé deux modèles, un global avec interaction, un sans pour examiner la différence par l'intermédiare de la méthode citée plus haut.

@ Olivier: ton raisonnement à l'air juste. Ca répond en partie à ma question. mais en conséquence, pourquoi ne pas regarder les résidus comme le soutient la théorie?
Manoutz est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 03/02/2011, 17h09   #9
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
Citation:
Envoyé par Manoutz Voir le message
mais en conséquence, pourquoi ne pas regarder les résidus comme le soutient la théorie?
Je dirais pour la raison suivante : si on regarde les résidus, c'est parce qu'on a déjà un modèle. Bien ou mal paramétré. C'est un petit peu se garder une mauvaise surprise pour la fin.
C'est d'ailleurs ce qui arrive quand on modélise une variable qui n'est pas exactement normale, un peu asymétrique, et qu'arrivé en fin d'analyse, on regarde les résultats et on découvre un effet trompette. Damned ! on a fait notre analyse pour rien !!!

Quant à savoir pourquoi la théorie s'acharne sur les résidus, n'est-ce pas en raison de leur centrage ? Ca permet de mieux prévoir leurs valeurs, surtout après studentisation, où les valeurs atypiques sortent clairement du lot.

Dans les modèles linéraires généralisés (proc GENMOD et GLIMMIX), on vérifie les distributions en amont (sur Y) et en aval (sur les résidus). Preuve qu'un modèle mal spécifié peut avoir une influence...
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 03/02/2011, 17h16   #10
Membre Expert
 
Homme
Biostatisticien
Inscription : juin 2009
Messages : 1 143
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : Irlande

Informations professionnelles :
Activité : Biostatisticien
Secteur : Industrie Pharmaceutique

Informations forums :
Inscription : juin 2009
Messages : 1 143
Points : 1 760
Points : 1 760
Surement un des cas ou la pragmatique Pratique devance la Théorie puriste. Merci Olivier
Manoutz est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 04/02/2011, 08h47   #11
Membre habitué
 
Inscription : janvier 2005
Messages : 527
Détails du profil
Informations forums :
Inscription : janvier 2005
Messages : 527
Points : 134
Points : 134
Citation:
ca ne risque pas de poser un problème si max de la fréquence cardiaque correspond à différents moments de mesures suivant le patient
> euh... comme dit plus haut, je n'ai pas vraiment de role dans la décision. Tout est déjà décidé par des personnes au dessus de moi. Mon role est d'écrire l'équation de régression sous sas avec les variables qu'ils m'indiquent. Tout ce que je peux dire, c'est que d'après ce que j'ai pu lire sur internet, selon moi le problème se rapproche plus d'un modèle à mesures répétées (puisque plusieurs mesures sur le meme sujet) donc perso, je n'aurai pas pris le max. Maintenant, je ne connais pas tous les paramètres de l'étude donc peut etre que prendre le max est pertinent ...

Quoiqu'il en soit, le modèle a été proposé et il est maintenant en discussion. Je serai peut être amenée à vous recontacter mais d'ici là je vous remercie pour votre aide et vous souhaite une bonne journée
debdev est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 22/06/2011, 11h33   #12
Futur Membre du Club
 
Femme
Étudiant
Inscription : juin 2011
Messages : 19
Détails du profil
Informations personnelles :
Sexe : Femme
Localisation : France

Informations professionnelles :
Activité : Étudiant

Informations forums :
Inscription : juin 2011
Messages : 19
Points : 17
Points : 17
Bonjour,

Je viens de tomber sur ce post que je trouve très intéressant et je voulais savoir si je pouvais avoir quelques informations supplémentaires.

Citation:
Choix de la méthode: tout dépend de ton approche. Une mauvaise approche peut conduire à des tests faux, ou encore à une approche méthodologique pouvant être amélioré. Pour ma part je préconise ML pour les effets fixes et REML pour la variance covariance. Il y a de la théorie derrière.
Comment expliquer ce choix de méthode? Je n'ai pas trouvé de documentation très détaillée quant aux deux méthodes REML et ML proposées. Vous parliez de théorie, où peut-on trouver la démonstration ou du moins quelques explications?

En vous remerciant d'avance,

Magali
Mag35 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 23/06/2011, 16h25   #13
Membre Expert
 
Homme
Biostatisticien
Inscription : juin 2009
Messages : 1 143
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : Irlande

Informations professionnelles :
Activité : Biostatisticien
Secteur : Industrie Pharmaceutique

Informations forums :
Inscription : juin 2009
Messages : 1 143
Points : 1 760
Points : 1 760
ici:

Verbeke G. and Molenberghs G. (2000) `Linear mixed models for longitudinal data,' Springer Series in Statistics, Springer-Verlag, New-York, 568 pages.
ISBN 0-387-95027-3 (hard cover), first printing in 2000, second printing in 2001.
ISBN 978-1-4419-0299-3 (paper back), third printing in 2009.
Manoutz est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité Cette discussion est résolue.
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 05h53.


 
 
 
 
Partenaires

Hébergement Web