|
Publicité ' | ||||||||||||||||||||||||
|
|
#1 |
|
Invité régulier
![]() ben kab Inscription : octobre 2010 Messages : 54 ![]() |
Bonjour,
Sur une jeu de données j'ai trouvé des individus aberrants, il faudra que je les supprime, quelle est l'instuction qui me permet de le faire? Comment puis-je déterminer la contributions des individus sur les axes? Merci d'avance |
|
|
00
|
|
|
#2 |
|
Membre Expert
![]() Biostatisticien Inscription : juin 2009 Messages : 1 143 ![]() |
Bonjour Demido,
Apparement tu n'as pas de soucis concernant la détection des individus aberrants. Juste pour information le terme "aberrant" peut caractériser pas mal de situations différentes suivant la définition que chacun en fait. Par contre il pourrait être utile de préciser ce que tu entends par "trouvé". S'agit-il d'une détection visuelle ou nominative? Dans le deuxième cas un where ou un if then delete dans une étape data résoudra simplement ton problème. Dans le premier cas il s'agit de déterminer leur identifiant. Suivant l'analyse que tu effectues, il peut exister des moyens très simples. Dans le cas d'une régression prog reg dispose de l'option influence qui te permettra d'établir des diagnostics d'influence. une page pas mal: http://www.technion.ac.il/docs/sas/s...p55/sect38.htm
Manoutz |
|
|
10
|
|
|
#3 |
|
Invité régulier
![]() ben kab Inscription : octobre 2010 Messages : 54 ![]() |
Merci de ta réponse, par contre par individus abbérants je veux dire les individus isolés.
Je me confie au nuage des points pour les détecter, y a t-il un autre moyen pour les détecter? Merci d'avance |
|
|
00
|
|
|
#4 | ||||||
|
Membre Expert
![]() ![]() Brice BeareParis Inscription : janvier 2011 Messages : 956 ![]() |
Bonjour,
un bon nombre d’indicateurs permettent de repérer les valeurs aberrantes (résidu trop élevé) et les valeurs anormalement influentes (sur les coefficients de la régression (Cook’D) et sur l’erreur s (Dfits)), ou encore le RSTUDENT (Studentized residual (deleted)), traité dans ce cas. RSTUDENT : On admet généralement qu’il doit être compris entre -2 et 2 lorsque n est grand. Si cette condition n'est pas vérifiée, l'individu est supprimé du modèle. Code :
Code :
Dans cet exemple on va supprimer l’observation 15 et 17. (RSTUDENT= 2.8306 et RSTUDENT= -2.7453 ) Code :
Brice |
||||||
|
|
10
|
|
|
#5 |
|
Membre Expert
![]() Biostatisticien Inscription : juin 2009 Messages : 1 143 ![]() |
OK donc tu ne fais pas de modélisation mais l'idée est de détecter les individus extrêmes à partir des données, soit par détection graphique ou analyse descriptive. C'est bien ca?
Dans ce cas je te conseille la proc boxplot, qui en plus du box plot dispose d'un moyen de détection des individus extremes en se basant sur l'interquartile range. Voir aide en ligne de la proc boxplot, en particulier l'option boxstyle. http://support.sas.com/documentation...ot_sect012.htm Pour la détection nominative des individus, tu peux reproduire l'esprit de ce qui est fait fait dans la boxplot (si on ne peut pas le récupérer par la boxplot, faut voir..) très facilement grace à une procédure d'analyse descriptive: proc means, proc univariate. |
|
|
00
|
|
|
#6 |
|
Invité régulier
![]() ben kab Inscription : octobre 2010 Messages : 54 ![]() |
Tout d'abord merci pour vos réponses,
Donc le coefficient de Student est obtenu par la proc reg c'est bien cela? |
|
|
00
|
|
|
#7 |
|
Membre Expert
![]() ![]() Brice BeareParis Inscription : janvier 2011 Messages : 956 ![]() |
C'est bien ça!
On peut considérer qu’une observation est mal reconstituée par le modèle (ou aberrante) lorsque : Brice |
|
|
00
|
|
|
#8 |
|
Membre Expert
![]() Biostatisticien Inscription : juin 2009 Messages : 1 143 ![]() |
oui (c'était d'ailleurs précisé dans le lien que je t'ai indiqué au dessus).
mais pourquoi comptes tu effectuer une proc reg si tu comptes te baser sur le nuage de points? (et pourquoi as tu replacé un deuxième sujet?) |
|
|
00
|
|
|
#9 |
|
Invité régulier
![]() ben kab Inscription : octobre 2010 Messages : 54 ![]() |
Bonjour,
Quand je me sert du nuage des points, je repère les outliers et je les supprime par contre si je refais une ACP derrière je remarque qu'il y a toujours des outliers. J'ai vu dans une doc que je pouvais passer par l'option Analyse interactive des données, en affichant pour chaque variables le sgplot(boite à moustache=) sur laquelle en peut aussi voir les point extrème. Je ne compte pas passer par une proc logistic, je pensais qu'il le fallait. En tout cas merci pour vos réponses si utiles. |
|
|
00
|
|
|
#10 |
|
Membre Expert
![]() ![]() Brice BeareParis Inscription : janvier 2011 Messages : 956 ![]() |
Je pense que tu confonds une analyse descriptive et quantitative.
La modélisation (proc reg ou logistic) n'a pas pour but de détecter des valeurs aberrantes dans un jeux de données. T'as bien fait de laisser tomber cette piste, ce qui est logique Bon courage! Brice |
|
|
00
|
|
|
#11 |
|
Membre Expert
![]() Biostatisticien Inscription : juin 2009 Messages : 1 143 ![]() |
de rien pour les réponses, par contre plus ca va plus il m'est difficile de discerner ce que tu veux faire.
Apparement ton objectif est de réaliser une acp - qui en résumé transforme des variables liées entre elles pour créer de nouvelles variables, indépendantes. A la croisée des chemins entre géométrie et statistique (qui d'ailleurs se confondent souvent..), elle permet de réduire l'information contenue initialement dans tes variables en un nombre de composantes plus limitées. Evidemmemment, vu que le but est de synthétiser l'essentiel de l'information, tu ne pourras pas avoiir toute l'information initiale dans une composante, et plus tu auras de composantes moins tu synthétisera tes données initiales. Il faut donc choisir un nombre composantes, généralement en fonction de l'inertie ou de la variance expliquée. Voila pour le petit rappel. Alors évidemment, si tu transformes tes variables via une acp, il est tout à faire raisonnable de penser que tu puisses trouver des individus extrêmes à l'issue de celle ci. Mais ca n'explique pas pourquoi tu en as retiré avant... Quel dommage de se passer d'information qui te pourrait être utile, voire changer tes résultats... donc je me permets de reposer la question: quel est ton but et quelle méthodologie appliques tu pour atteindre l'objectif escompté? Manoutz |
|
|
00
|
|
|
#12 |
|
Membre Expert
![]() Biostatisticien Inscription : juin 2009 Messages : 1 143 ![]() |
je ne connais pas le sgplot, c'est quoi? Pour l'équivalent anglais de la boite à moustache, on parle généralement de boxplot.
J'insisté, mais merci de ne éclairer sur ce que tu veux faire. pêle mêle, tu parles de proc logistic, sgplot, proc reg, boite à moustache, élimination d'individus extrêmes... |
|
|
00
|
|
|
#13 |
|
Invité régulier
![]() ben kab Inscription : octobre 2010 Messages : 54 ![]() |
En fait je suis sur un projet en Master, j'ai un jeu de données et il m'a été demandé de repérer les données très extrêmes soit à partir des données brut ou à l'aide d'une ACP.
de les enlever et de faire une typologie après, voila |
|
|
00
|
|
|
#14 |
|
Membre Expert
![]() Biostatisticien Inscription : juin 2009 Messages : 1 143 ![]() |
La réponse est dans la question
Maintenant il faut que tu cherches un peu, on va pas te faire ton projet non plus... Alors échange de bon procédés: on t'a pas mal aidé, donne nous en retour tes conclusions sur la comparaison des méthodes de détection des indivdus extrêmes par boxplot, unhivariate et acp. De toute facon cette comparaison ne sera que bénéfique pour ton projet. A bientôt j'espère, Manoutz |
|
|
00
|
|
|
#15 |
|
Invité régulier
![]() ben kab Inscription : octobre 2010 Messages : 54 ![]() |
Bonjour,
Au fait je suis passé par les var centrées et réduites et faire appel à la proc univariate. Le test était de repérer les obs tel que |obs|>2. Par contre sur un jeu de données de 110 j'en ai trouvé 15, est-ce normal? Merci |
|
|
00
|
|
|
#16 |
|
Expert Confirmé
![]() ![]() Olivier DecourtFormateur en informatique Inscription : avril 2008 Messages : 1 467 ![]() |
Salut.
15/110 ça fait 13,5% environ. Si ta variable suivait exactement une loi normale, une fois centrée et réduite tu n'aurais qu'environ 5% d'individus > 2 en valeur absolue. Maintenant, la question est de savoir si ta donnée suit une loi normale. Si oui, ton filtrage par rapport à 2 est pertinent. Sinon, il n'a pas d'assise concrète et c'est un seuil totalement arbitraire. Bon courage pour ton projet. Olivier |
|
|
00
|
|
|
#17 |
|
Membre Expert
![]() ![]() Brice BeareParis Inscription : janvier 2011 Messages : 956 ![]() |
ça veut dire quoi |obs|>2.? obs c'est un test?
|
|
|
00
|
|
|
#18 |
|
Invité régulier
![]() ben kab Inscription : octobre 2010 Messages : 54 ![]() |
Oui, c'est un test à chaque fois qu'un individu a une valeur supérieure à 2 par rapport à une variable, il est supprimé.
Est-ce que je peux juste afficher tous les individus sur le premier plan factoriel et je supprime ceux qui sont excentrés donc c'est une méthode visuelle Merci pour vos réponse |
|
|
00
|
|
|
#19 |
|
Membre Expert
![]() ![]() Brice BeareParis Inscription : janvier 2011 Messages : 956 ![]() |
Faudrait que je regarde la méthode avec une matrice centrée réduite avant de m'avancer
|
|
|
00
|
|
|
#20 |
![]() ![]() Inscription : septembre 2006 Messages : 1 961 ![]() |
C'est la valeur du quantile de la loi normale à 5%.
Z(0.95)=1.96 (=2)
__________________
Les balises code FAQ SAS Rubrique SAS Si vous souhaitez contribuer à la rubrique SAS, contactez-moi ou tout autre membre de l'équipe BI par MP. |
|
|
00
|
Copyright © 2000-2012 - www.developpez.com