Précédent   Forum des professionnels en informatique > Logiciels > Solutions d'entreprise > Business Intelligence > SAS > SAS STAT
SAS STAT Forum d'entraide sur les fonctionnalités liées à la statistique sur SAS : statistique descriptive, test, régression, classification
Partagez cette discussion sur d'autres réseaux sociaux : Viadeo Twitter Google Facebook Digg Delicious MySpace Yahoo
Réponse Proposer ce sujet en actualité
 
Outils de la discussion
Publicité
'
Vieux 11/01/2011, 09h05   #1
Invité régulier
 
Inscription : juillet 2010
Messages : 28
Détails du profil
Informations forums :
Inscription : juillet 2010
Messages : 28
Points : 5
Points : 5
Par défaut proc corresp sur SAS

Bonjour,
j'effectue une analyse en correspondance multiple sous SAS, (proc corresp sur un tableau disjonctif complet) avec 3 variables qualitatives. Tout marche bien (afin j'ai des resultats qui me semblent cohérents) mais dans la log j'ai un message d'avertissement :
Citation:
Row partial contributions to inertia are tied or nearly tied. There may be more than one possible set of BEST statistics.
Est ce que quelqu'un sait exactement c'est quoi? Je vois que ça parle d'une histoire d'ex aquo sur les contributions au Ki-2, mais je me demande si cela peut remettre en cause la validité de mes resultats??

Merci d'avance.
ibrahima13 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 11/01/2011, 09h43   #2
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
Salut.
Aucun souci quant à la validité de tes résultats. Pour chaque point (de l'espace des variables ou de l'espace des individus), SAS essaye de calculer automatiquement sur quel axe il est le mieux représenté, à partir des statistiques de contribution. Le message signale juste que pour au moins un point, il y avait 2 axes en concurrence très serrée pour être les meilleurs reflets de sa position : d'où la non-unicité de la valeur stockée dans la colonne BEST.
Bref, comme peu de monde utilise la colonne BEST et préfère se repérer aux coordonnées factorielles et aux cosinus carrés, ça n'a absolument aucune conséquence néfaste.
Olivier
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 10
Vieux 11/01/2011, 10h22   #3
Invité régulier
 
Inscription : juillet 2010
Messages : 28
Détails du profil
Informations forums :
Inscription : juillet 2010
Messages : 28
Points : 5
Points : 5
Par défaut proc corresp SAS

Merci Monsieur c'est gentil ....

Je me permet juster de vous poser une dernière question :

A la suite de mon AFCM, j'ai retenu trois axes, puis j'ai effectué un classification hierarchique avec le saut de Ward comme methode. j'ai obtenu 4 classes (obtenu par la régle du coude, dendrogramme....). Seulement j'ai un ccc (cubic clustering criterion) de -0,222. Mais j'ai cru comprendre que si le ccc est < 2 alors la classification est douteuse. pourtant j'ai un R-carré de 66% (variance expliquée) pour 4 classes, donc je me dis que la classification est plutot bonne??

Est ce que pouvez m'eclairer là dessus. Merci d'avance

PS : Au passage un grand votre site internet est d'une grande utilité et j'y ai appris pas mal de choses.
ibrahima13 est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 11/01/2011, 10h29   #4
Expert Confirmé
 
Avatar de olivier.decourt
 
Homme Olivier Decourt
Formateur en informatique
Inscription : avril 2008
Messages : 1 467
Détails du profil
Informations personnelles :
Nom : Homme Olivier Decourt
Âge : 34
Localisation : France

Informations professionnelles :
Activité : Formateur en informatique
Secteur : Conseil

Informations forums :
Inscription : avril 2008
Messages : 1 467
Points : 2 823
Points : 2 823
... je croyais que tout le monde se tutoyait sur ce forum !
Le CCC est une petite bête pénible ; d'après SAS, effectivement, en-dessous d'une certaine valeur (je croyais me souvenir de 3, mais mettons 2, le raisonnement est le même) la classification n'est pas bonne. Il est couramment arrivé de ne jamais avoir de CCC positif, que je fasse 2 à 50 classes sur mes données ! Donc je pense que comme pour tous les indicateurs statistiques (corrélation, V de Cramer, R², etc.) il ne faut pas vraiment se fixer de seuils intangibles, valables pour tous les jeux de données, mais adapter ses ordres de grandeur.
L'idéal serait de regarder le CCC selon le nombre de classes : si le pic est à 4 classes, hé bien, super, faisons 4 classes !
Les 66% de variance expliquée me semblent effectivement rassurants. Pour être complètement serein, tu peux aussi représenter l'espace des individus sur les 2 premiers axes de l'ACM, en coloriant les points selon la classe : on devrait voir distinctement les 4 "patates" d'individus.
Bon courage.
Olivier (pas Monsieur)
olivier.decourt est déconnecté   Envoyer un message privé Réponse avec citation 00
Vieux 11/01/2011, 16h30   #5
Invité régulier
 
Inscription : juillet 2010
Messages : 28
Détails du profil
Informations forums :
Inscription : juillet 2010
Messages : 28
Points : 5
Points : 5
Par défaut proc corresp dans SAS

J'ai représenté mes points sur le plan factoriel de l'AFCM, en mettant des couleurs sur les différentes classes et là :

Sur un échantillon de 48 individus, le graph ne porte que sur 17 individus.... En fait j'ai regardé les coordonnées de mes individus, et je m'aperçois que plusieurs individus ont les mêmes coordonnées sur dim1 et dim2... Quad je reviens à la source de mes données je vois que plusieurs point ont à peu-prés le même profil (redondance d'information).... Il faut à mon avis repartir de la source et selectionner un echantillon pertinent...

En tout cas merci pour tout.
ibrahima13 est déconnecté   Envoyer un message privé Réponse avec citation 00
Réponse Proposer ce sujet en actualité
Outils de la discussion



Fuseau horaire GMT +2. Il est actuellement 19h17.


 
 
 
 
Partenaires

Hébergement Web