Intervalle de confiance dans le cas du croisement de deux variables

**cococmoi** · 30/07/2014, 11h51

Bonjour,

Je souhaite calculer l'IC avec le code suivant:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

proc freq; table var1*var2 /binomial; run;

je sais que l'option "binomial" marche lorsqu'il n y a pas le croisement de deux variables, mais dans mon cas ça ne me donne rien !

avez vous une idée ?
Merci

**nahel** · 30/07/2014, 13h56

Bonjour,
l'IC de quoi? Normalement l'option binomial est utile pour évaluer une proportion...

**cococmoi** · 30/07/2014, 14h55

justement je cherche à déterminer l'IC de la proportion des gens qui ont renseigné la var1 et la var2 en même temps.
lorsque je fais le croisement, j'obtiens les pourcentages lignes et colonnes.
dans mon exemple, ce qui m'intéresse c'est les % colonnes .
et je ne sais pas comment demander à SAS de me calculer l'IC de ces % colonnes aussi ?
merci

**nahel** · 30/07/2014, 17h54

Les pourcentages colonnes correspondent à ta proportion de var1 (dans l'exemple suivant)

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 
proc freq data=table;
table var1*var2;
run;

Si tu souhaites un test d'adéquation sur cette proportion parmi la modalité 1 de var2, il suffit de restreindre ta table en amont :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
 
proc freq data=table (where=(var2=modalite1));
table var1/binomial;
run;

Good luck

**cococmoi** · 31/07/2014, 10h53

c'est exactement ce que j'ai fait

Par contre j'aimerai avoir ton avis concernant la phrase suivante:

On retient comme significatives les variables dont l'IC se trouve en dehors de celui de l'ensemble de l'échantillon.

Est que tu peux m'expliquer pourquoi ?

Merci pour ton aide

**nahel** · 31/07/2014, 14h08

Euh tu m'as perdu, il faudrait mieux définir le contexte :
- significatives par rapport à quoi?
- de quel IC parle-t-on?
- qu'est ce qui est en dehors de l'IC? (en l'occurrence, une variable ne pas être en dehors d'un IC).

**cococmoi** · 31/07/2014, 16h38

le contexte est le suivant:
J'ai 2 variables var1 et var2.
var1 est issue d'une classification, donc composée de classe 1/3, classe 2/3 et classe 3/3.
var 2 est l'age, elle est composée de 4 tranches.

lorsque je m'intéresse par exemple à la classe 1/3 et je cherche à avoir les différents proportions pour chaque tranche d'age, en utilisant:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
proc freq data=table; 
where var1="classe1/3";
table var2 / binomial;run;

j'obtiens les % qui m'intéressent ainsi que leurs IC.

après si je fais:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

proc freq data=table;table  var2 / binomial; run;

Après l'objectif est de comparer les différentes proportions de chaque classe par rapport à l'ensemble de l'échantillon.

Je ne sais pas si vous voyez plus claire ?

**cococmoi** · 31/07/2014, 16h54

et pour rebondir sur :

On retient comme significatives les variables dont l'IC se trouve en dehors de celui de l'ensemble de l'échantillon.

il s'agit de dire que les variables dont l'IC se trouve en dehors de l'IC de la proportion globale dans l'échantillon sous ceux qui sont significatives.

En fait c'est comme si on compare les proportions des différentes classes par rapport à la proportion globale de la variable dans l'échantillon. et pour cela on compare les différents IC.

c'est pas moi qui dis ça, mais je l'ai trouvé dans un document, et je cherche justement à comprendre d'où vient cette conclusion.

**nahel** · 01/08/2014, 09h47

Alors déjà, quand tu lances une proc FREQ avec un test binomial de proportion, tu ne t'intéresse qu'à la proportion de la 1ère modalité, c'est pour ça que c'est généralement utile dans les cas "binaires".

Du coup, quand tu restreint ta table à une modalité de ta covariable, tu continues de ne regarder que la proportion de la première modalité.
Dans ton exemple, tu compares donc la proportion de "tranche d'âge 1" parmi la classe "1/3", à la proportion de "tranche d'âge 1" de la totalité de ton échantillon.

Quand ton IC (restreint) est "~~en dehors~~" disjoint de l'IC au global, cela peut s'interpréter comme un effet significatif de la covariable que tu considère sur ta variable dépendente.

Après ce qui me chagrine, c'est que formellement, ce n'est qu'un effet sur ta première modalité... et que tu ne regarde pas le reste des modalités qui pourraient bouger

Et par ailleurs, je pense qu'un IC disjoint c'est beaucoup demander, si les IC ne se recouvrent que faiblement, tu peux déjà imaginer un effet.

PS :

Je ne sais pas, si c'est bien de cela qu'il s'agit mais je considère que tu parle de la significativité de l'effet de ta variable restreinte sur celle dont tu testes la proportion

**Haache** · 13/09/2014, 23h03

Mais si tu veux connaitre l'intervalle de confiance de chaque proportion, tu peux peut prendre chaque modalité de la variable comme une nouvelle variable qui a donc deux modalité oui et non. Tu pourras afficher facilement l'intervalle de confiance parce que tu auras une table de type 2*2 et c'est fini

**Haache** · 14/09/2014, 02h33

Ok j'ai compris ta préocupation maintenant!!!

Il faut essayer de regrouper les deux variables en une variable. Avec l'option Binomiale, tu peux afficher les intervalles de confiance.

J'ai essayé ceci:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
data essai;input sexe niveau @@;
cards;
1 1 1 3 2 1 2 2 2 1 1 3 1 2 1 1 2 3
2 1 2 2 1 3 1 2 2 1 2 2 2 3 1 3	2 1
;
run;
/* Le sexe a deux modalités 1 et 2, le niveau en a trois: 1, 2 et 3*/
/* Je veux créer maintenant une nouvelle variable qui n'est rien d'autre que le croisement des deux*/
data transform;
set essai;
if sexe=1 then var=niveau;
else var=3+niveau;
/*J'ai ainsi créé une nouvelle variable Var tel que Var=1 lorsque sexe=1 et niveau=1 ......... Var=6 lorsque sexe=2 et niveau=3*/
run;

J'ai ainsi une variable qui est le croisement des deux autres. Je peux donc afficher facilement les intervalles de confiance d'une proportion.

Intervalle de confiance dans le cas du croisement de deux variables

SAS STAT

Discussions similaires

Partager

Partager