IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

SAS STAT Discussion :

Calculer une moyenne en écartant les valeurs extrêmes


Sujet :

SAS STAT

  1. #1
    Nouveau membre du Club
    Femme Profil pro
    Inscrit en
    Mai 2009
    Messages
    57
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations forums :
    Inscription : Mai 2009
    Messages : 57
    Points : 35
    Points
    35
    Par défaut Calculer une moyenne en écartant les valeurs extrêmes
    Rebonjour,
    Je dispose d'une variable continue; que je dois pondérer.
    Je souhaite calculer la moyenne et les quantiles.
    Jusque là pas de problème avec la proc means mais je me suis aperçue que cette variable contenait 2 valeurs extrêmes.
    Est ce possible de les écarter des calculs de la moyenne et des quantiles sans les supprimer? Simplement les mettre de coté le temps du calcul?
    Merci

  2. #2
    Membre expérimenté
    Homme Profil pro
    Attaché statisticien
    Inscrit en
    Mai 2011
    Messages
    687
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 52
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Attaché statisticien
    Secteur : Administration - Collectivité locale

    Informations forums :
    Inscription : Mai 2011
    Messages : 687
    Points : 1 581
    Points
    1 581
    Par défaut
    Bonjour,

    je ne vois pas comment faire ça simplement, nos collègues auront peut-être des idées ?

    Lorsque je rencontre ce genre de problème mon réflexe est dans un premier temps récupérer des quantiles extrêmes via une proc means (par exemple récupérer q5 et q95) et de calculer la moyenne de x que sur les valeurs comprises entre q5 et q95 , ou aussi (selon mon humeur et la tête des données) de calculer l'écart type et calculer une nouvelle moyenne sur les valeurs de x comprises dans l'interval de 3 ou 4 écarts types autour de la première moyenne.

    Ou bien tu peux combiner les deux aussi

    1ère étape calculer q5 et q95 sur l'ensemble
    2ème étape calculer la moyenne m1 et l'écart type e1 sur les observations comprises en q5 et q95
    3ème étape calculer la moyenne sur les observations comprises dans l'intervalle [m1-alpha*e1,m1+alpha*e1]
    avec alpha=2, 3 , 4 , 5 etc... selon ce que tu préfère.

    En procèdant comme ceci je pense que tu aboutira a quelque chose qui te donne la moyenne "hors valeurs extrêmes" sans devoir regarder ta distribution à chaque fois...

    quant à quelque chose d'automatique dans SAS qui mettrais d'office de côté les valeurs extrêmes, je n'ai jamais rencontré ceci dans la doc, ce qui ne veut pas dire que ça n'existe pas... ?

  3. #3
    Expert confirmé
    Avatar de olivier.decourt
    Homme Profil pro
    Formateur R/SAS/statistiques
    Inscrit en
    Avril 2008
    Messages
    2 064
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France

    Informations professionnelles :
    Activité : Formateur R/SAS/statistiques
    Secteur : Conseil

    Informations forums :
    Inscription : Avril 2008
    Messages : 2 064
    Points : 4 478
    Points
    4 478
    Par défaut
    Jérôme, il y a des choses dans l'esprit de ce que tu fais dans la proc MEANS (les moyennes écrêtées [trimmed] et windsorisées [winsorized]).
    Je crois que le problème de Sophie, s'il n'a pas besoin d'être automatisé (elle connaît la valeur limite qui sépare ses 2 atypiques du reste), peut se résoudre par un simple WHERE.
    Bon courage.
    Olivier

  4. #4
    Membre expérimenté
    Homme Profil pro
    Attaché statisticien
    Inscrit en
    Mai 2011
    Messages
    687
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 52
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Attaché statisticien
    Secteur : Administration - Collectivité locale

    Informations forums :
    Inscription : Mai 2011
    Messages : 687
    Points : 1 581
    Points
    1 581
    Par défaut
    oui Olivier, ou simplement mettre un poids (w=0) nul à ces observations et à 1 (w=1) pour toutes les autres et rajouter l'option EXCLNPWGT dans la means avec weight w; .

    Merci pour trimmed et windsorized je ne connaissais pas.

  5. #5
    Nouveau membre du Club
    Femme Profil pro
    Inscrit en
    Mai 2009
    Messages
    57
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations forums :
    Inscription : Mai 2009
    Messages : 57
    Points : 35
    Points
    35
    Par défaut
    Mais 2 valeurs étant identifiées, le WHERE est effectivement ce dont j'avais besoin! Je ne savais pas qu'on pouvait l'utiliser dans d'autres procédures que la proc sql... J'ai décidément encore beaucoup de choses à découvrir!
    Merci Jêrome, cette réponse peut toujours m'être utile dans une autre situation.

  6. #6
    Membre expérimenté
    Homme Profil pro
    Attaché statisticien
    Inscrit en
    Mai 2011
    Messages
    687
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 52
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Attaché statisticien
    Secteur : Administration - Collectivité locale

    Informations forums :
    Inscription : Mai 2011
    Messages : 687
    Points : 1 581
    Points
    1 581
    Par défaut
    oui il faut mettre le where au niveau du data DATA=ma_table (where=(blabla)) , d'ailleurs lorsqu'on a besoin de retirer des valeurs extrêmes pour calculer des moyennes, peut être faut il aussi se poser la question si c'est bien une moyenne que l'on veut et si une médiane (robuste aux valeurs extrêmes) n'est pas au final ce que l'on cherche ...

    Bon courage pour la suite.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Réponses: 1
    Dernier message: 27/01/2011, 15h07
  2. [DeskI XiR2] Compter des valeurs même identiques pour calculer une moyenne
    Par courti01 dans le forum Débuter
    Réponses: 4
    Dernier message: 14/10/2010, 10h00
  3. [DeskI V5-V6] Calculer une moyenne prenant en compte des valeurs "0"
    Par limouzin dans le forum Débuter
    Réponses: 2
    Dernier message: 10/03/2009, 22h09
  4. Faire une moyenne en ignorant les valeurs nulles
    Par Giansolo dans le forum MATLAB
    Réponses: 2
    Dernier message: 08/06/2007, 15h38
  5. calculer une moyenne avec une requete externe
    Par allowen dans le forum Langage SQL
    Réponses: 3
    Dernier message: 27/01/2005, 17h02

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo