Précédent   Forum des professionnels en informatique > Logiciels > Solutions d'entreprise > Business Intelligence > SAS > SAS STAT
SAS STAT Forum d'entraide sur les fonctionnalités liées à la statistique sur SAS : statistique descriptive, test, régression, classification
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 24/04/2011, 03h44   #1
Invité de passage
 
Femme
Étudiant
Inscription : avril 2011
Messages : 2
Détails du profil
Informations personnelles :
Sexe : Femme
Localisation : France

Informations professionnelles :
Activité : Étudiant
Secteur : Finance

Informations forums :
Inscription : avril 2011
Messages : 2
Points : 0
Points : 0
Par défaut anova et ancova

Bonjour,

J'aurai aimé savoir comment faire l'analyse de la variance (anova) et l'analyse de la covariance (ancova).

J'ai plusieurs variables qualitatives : qual1 qual2 qual3
et plusieurs variables quantitatives : quanti1 quanti2 quanti3
ma variable dépendante est quantitative : y

anova:
Code :
1
2
3
4
5
proc anova DATA=base;
class qual1 qual2 qual3;
model y= qual1 qual2 qual3 qual1*qual2 qual1*qual3 qual2*qual3 qual1*qual2*qual3;
means qual1*qual2*qual3;
run;
ancova:
Code :
1
2
3
4
proc glm DATA=base;
class qual1 qual2 qual3
model y= qual1 qual2 qual3 quanti1 quanti2 quanti3 ;
run;
Merci d'avance.
missdeedee est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 24/04/2011, 07h48   #2
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
Bonjour.
La proc ANOVA n'est quasiment plus employée (elle est plutôt prévue pour les plans d'expérience équilibrés).
Ta syntaxe pour la proc GLM est la bonne, il y a juste un QUIT ; après le RUN. Tu y fais de l'ANOVA si tu n'inclus que des variables explicatives qualitatives, et de l'ANCOVA s'il y a au moins une une variable explicative quantitative. Mais c'est la même syntaxe et la même procédure qui peut tout faire.
Si tu veux inclure des interactions dans ton modèle, c'est avec la même écriture que ce que tu indiques pour ANOVA : var1*var2.
Pour tester des égalités de moyennes, utilise l'instruction LSMEANS (moyennes ajustées, plus justes que MEANS si tu as un plan déséquilibré) et pour les comparaisons multiples tu as le choix des ajustements (Bonferonni, Tukey, Dunnett, etc.).
Mais quelle était exactement ta question : sur la bonne procédure à utiliser, la syntaxe, l'interprétation des résultats, l'écriture d'un modèle précis ?

Olivier
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 10
Vieux 24/04/2011, 12h18   #3
Invité de passage
 
Femme
Étudiant
Inscription : avril 2011
Messages : 2
Détails du profil
Informations personnelles :
Sexe : Femme
Localisation : France

Informations professionnelles :
Activité : Étudiant
Secteur : Finance

Informations forums :
Inscription : avril 2011
Messages : 2
Points : 0
Points : 0
Oui ma question porte sur le code et l'interprétation(type I et III).

pour l'anova je remplace proc anova par pro glm

pour l'ancova je dois mettre des interractions ?
Code :
1
2
class qual1 qual2 qual3
model y= qual1 qual2 qual3 quanti1 quanti2 quanti3 quali1*(quali2 quali3 quanti1 quanti2 quanti3) quali2*(quali3 quanti1 quanti2 quanti3) quali3*(quanti1 quanti2 quanti3) quanti1*(quanti2 quanti3) quanti2*quanti3;
et je mets quel option? Rien n'est précisé sur ma base

pour l'interprétation de l'anova, on regarde type I ou type III ?
si la proba de rejeter à tort H0 pour quli1 est <5%, nous pouvons nous permettre de rejeter H0. Donc les moyennes de "y" ne sont pas égales entre les différents niveaux de facteurs de la variable quali1. quali1 influe sur y

comment interpréte t-on l'ancova:
H0? Type I, III ?
missdeedee est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 24/04/2011, 16h17   #4
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
Pour les interactions, c'est à toi de voir s'il y a l'air d'en avoir (sur un graphique exploratoire) ; quel que soit le modèle (ANOVA ou ANCOVA) tu peux en inclure si c'est nécessaire.
Entre type I et type III : pour type I il s'agit d'un test séquentiel, il dépend donc de l'ordre d'énumération des effets dans MODEL. Si tu écris MODEL Y=A B alors le test de type I pour A est "quel effet de A sur les moyennes de Y" et le type I de B est "quel effet de B sur les moyennes de Y|A". Le type III, souvent plus utilisé, corrige des effets d'ordre : le type III test l'influence d'un facteur sur les moyennes de Y, compte tenu de la présence des autres facteurs.
Pour H0 : c'est effectivement une hypothèse de moyennes de Y égales par niveaux d'un facteur quali. Si p < seuil, alors on rejette H0 et il y a au moins 2 groupes définis par le facteur qui ont des moyennes significativement différentes.
Dans le cas d'un effet quanti, c'est le principe d'une régression : on ajuste les moyennes de Y par rapport aux valeurs du facteur quanti sous forme de droite. H0 dit que le coefficient directeur de cette droite est 0. Un rejet de l'hypothèse indique qu'il y une proportionnalité entre les valeurs moyennes de Y et les valeurs de X... si la relation est linéaire (on ne peut vérifier ce point que graphiquement, avant de modéliser). Par exemple, il pourrait y avoir une relation de Y avec X^3 par exemple, que le modèle "simplifierait" sous forme de droite. Mais ça ne serait pas très juste de considérer la droite comme une bonne représentation de la relation.

Quant au seuil de 5%, perso, je l'adapte à la volumétrie : plus il y a d'observations plus j'attends des seuils bas (parfois 1%, parfois 0,1%). Mais cette manière de faire a des partisans et des détracteurs (je me souviens d'avoir eu un échange avec Manoutz sur le sujet dans un des posts de mars ou février).

Citation:
et je mets quel option? Rien n'est précisé sur ma base
Je ne comprends pas ta question. Il y a de très nombreuses options dans PROC GLM mais peu sont utiles au quotidien.

Bon courage.
Olivier
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 10
Vieux 25/04/2011, 15h43   #5
Membre Expert
 
Homme
Biostatisticien
Inscription : juin 2009
Messages : 1 143
Détails du profil
Informations personnelles :
Sexe : Homme
Localisation : Irlande

Informations professionnelles :
Activité : Biostatisticien
Secteur : Industrie Pharmaceutique

Informations forums :
Inscription : juin 2009
Messages : 1 143
Points : 1 760
Points : 1 760
Salut,

QQ éléments vis-à-vis de ce qui à été mit au dessus :
@deedee : Le problème et l’avantage de sas, c’est qu’il est assez simple d’obtenir des résultats, mais des erreurs sont parfois commises sur l’hypothèse que l’on teste et l’interprétation des résultats. D’une manière générale, il ne peut être que bénéfique de passer un peu plus de temps à peaufiner sa méthodologie, et ensuite passer à du codage sous sas, qui souvent coule de source. Trop d’erreurs sont commises parce que la méthodologie statistique n’a pas été assez décortiquée (sans porter atteinte à la tienne), on s’en rend compte souvent tardivement (si c’est mis en exergue !), et ca peut être assez couteux...

Quelques réactions concernant ce que tu as mis plus haut :
  • Je confirme ce que t’a dit Olivier concernant la différence ANOVA, ANCOVA : on parle d’ANOVA lorsque toutes les variables dépendantes sont catégorielles, si au moins une variable dépendante est continue alors on parle d’ANCOVA (Olivier a commis une petite faute de frappe – je ne doute pas qu’il ne s’agisse que de cela – qui peut porter confusion). Tu as des variables continues donc ANCOVA, et il faut s’orienter vers la proc GLM ou proc MIXED (avec une préférence personnelle pour la MIXED).
  • Je rejoins ce qu’a dit Olivier pour les tests de type I et III, et conseille le III.
  • Concernant le choix des variables et des interactions : Je propose de partir d’un modèle général incluant toutes les variables et interactions utiles, pour ensuite le simplifier, en se prononçant sur la méthode retenue pour la simplification. Par contre tu as vraiment beaucoup de variables. Toutes les interactions sont elles utiles ? Es tu certaine de l’utilité de ce qu’apporte pour chacune d’entre elles ?
  • Je pense qu’il est bon de se prononcer sur l’écriture finale du modèle avant de passer aux tests de moyennes.
  • Il semble que tu veuilles tester l’égalité des moyennes. Si tes variables quanti ont plus de deux catégories, il existe plusieurs variantes. Tester, indépendamment, l’égalité entre toutes les moyennes 2 à 2 ; tester l’égalité des moyennes à un groupe de différence ; tester simultanément l’égalité de toutes les moyennes (i.e. tester moyGP1=moyGP2=moyGP3=…)
@ Olivier : Je ne rappelle plus dans le détail ce qu’on avait échangé dans ce post, il me semble qu’en cas de fortes volumétries tu préconisais les tests robustes alors je parlais d’analyse préalable de puissance afin d’étudier un ajustement des erreurs de type I ou II (éventuellement une autre variable d’ajustement). Peu importe, et comme tu le dis plus haut chaque méthode à ses fans. En tout cas je te rejoins sur le principe d’ajustement du seuil à la volumétrie (ce qui me permet de relancer pour les tests de puissance). Mais à mon avis, il est possible que nos choix divergent quand à la méthodologie pour la simplification du modèle

Manoutz
Manoutz est déconnecté   Envoyer un message privé Réponse avec citation 20
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 06h18.


 
 
 
 
Partenaires

Hébergement Web