IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Boxplot valeurs extremes - Normalisation valeurs?


Sujet :

R

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre confirmé
    Inscrit en
    Avril 2007
    Messages
    127
    Détails du profil
    Informations forums :
    Inscription : Avril 2007
    Messages : 127
    Par défaut Boxplot valeurs extremes - Normalisation valeurs?
    Bonjour tout le monde,

    Je suis en train de faire une analyse multivariée assez classique pour le moment et j'essaye de me représenter sur un même graphique plusieurs boxplot représentant une variable quantitative suivant les modalités d'une variable.
    Jusqu'ici rien d'extraordinaire sauf que "beaucoup de données" (environ 100,000 par modalité) et surtout les données sont "brutes" et sont super super étalées mais globalement c'est souvent de cette forme :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    Min.   :   0.5   
     1st Qu.:  20   
     Median :  40   
     Mean   :  60   
     3rd Qu.:  75   
    Max.   :4000
    Donc forcément la représentation est assez "écrasée" (logique) et j'essaye de trouver un moyen de représenter les données sans les "modifier" ou même sans enlever les valeurs extrêmes (environ une bonne centaine au dessus de 1000 par exemple donc assez important).

    En vous remerciant pour toute aide

    Cdlt,

    Hollow

    PS: d'ailleurs je n'arrive pas à avoir un résumé statistique de ma variable quantitative en fonction des modalités de ma variable qualitative, le summary(va.quanti ~ va.quali) ne fonctionne pas ... logique je pense mais si jamais quelqu'un a une idée je suis preneur également

  2. #2
    Membre émérite

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Billets dans le blog
    2
    Par défaut
    J'essaie de comprendre ta demande,

    Dans la fonction boxplot tu as l'exclusion des valeurs extrêmes par un test qui ne semble pas indiqué dans la documentation.

    Si tu veux normaliser tes données, tu peux faire (x-mean(x))/sd(x).

    Si tu veux exclure les valeurs extrêmes. Il y a un module qui s'appelle outlier avec différents tests de valeurs extrêmes.

    La boxplot est juste là pour te donner un élément de dispersion. Tu as aussi "hist" pour avoir une idée de la loi si tu veux savoir quelle règle peut suivre tes données. Mais tout cela dépend aussi de ce que tu veux démontrer.

    Je ne suis pas sûr d'avoir répondu à ta demande mais j'espère t'aider.

  3. #3
    Membre confirmé
    Inscrit en
    Avril 2007
    Messages
    127
    Détails du profil
    Informations forums :
    Inscription : Avril 2007
    Messages : 127
    Par défaut
    Bonjour et merci pour votre réponse.

    En fait je connais ces méthodes mais ma question était plus d'ordre "concept" car justement je voulais savoir comment représenter mes données (en multivariée) sans normaliser et sans enlever les outliers (car pour le coup ces outliers sont super importants dans ma future modélisation!).

    En normalisant je me dis que je perds justement de l'information ... mais j'ai peut être tord non?
    Et prendre en compte les valeurs extrêmes de façon cohérente c'est pas évident non plus ...

    Bref je suis un peu perdu Je pense que je vais normaliser mes données (toutes mes données) puis prendre en compte également - dans un futur proche - le fait que les modalités ne sont pas du tout d'effectif "proche".

    Encore merci pour vos remarques ou autres.

    PS: pour les outliers vous parler d'un package particulier? Perso j'utiliser box$out en gros puis la fonction which pour les virer

  4. #4
    Membre émérite

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Billets dans le blog
    2
    Par défaut
    Bonjour Monsieur,

    Je ne suis absolument pas spécialiste des données multivariées mais je pense que ade4 permet de les représenter dans un espace défini par les composantes principales de l'ACP (PCA en anglais). En tapant sur google "représentation multivariée", j'ai trouvé quelques idées. Notre vision ne permet de voir qu'en deux ou trois dimensions, l'utilité est forte de faire une ACP pour connaitre les axes principaux. Si vous en avez trop, cela peut être compliqué de faire une représentation graphique sans avoir des graphes dans tout les sens, mais si des axes principaux se dégagent, vous aurez une représentation simple de votre espace.

    En normalisant vous ne perdez pas d'information. C'est une fonction bijective.

    Définir des valeurs extrêmes peut être compliqué tout court et encore plus dans un espace multivarié. Vous pouvez faire une étude de votre espace après l'ACP et peut-être étudier les résidus d'une régression généralisée multivariée pour définir vos ouliers.



    Le package pour les outliers se nomme outliers.

    Cordialement.

  5. #5
    Membre confirmé
    Inscrit en
    Avril 2007
    Messages
    127
    Détails du profil
    Informations forums :
    Inscription : Avril 2007
    Messages : 127
    Par défaut
    Bonjour,

    Encore merci pour l'aide.

    Effectivement après tout ça je pensais faire une ACP ou autres (suivant le format de mes variables).
    Je n'ai pas trouvé d'autres solutions.

    Pour le moment je suis partie sur le package factominer mais ade4 le permet également.

    Je vous remercie encore

    Hollow

Discussions similaires

  1. Réponses: 4
    Dernier message: 19/02/2014, 13h28
  2. Identification des valeurs extremes
    Par diflow69 dans le forum SAS STAT
    Réponses: 0
    Dernier message: 08/01/2014, 21h43
  3. [Débutant] valeur extreme d'une fonction
    Par cottingf dans le forum MATLAB
    Réponses: 1
    Dernier message: 07/12/2010, 19h40
  4. Valeurs extrêmes d'une colorbar
    Par paulines dans le forum MATLAB
    Réponses: 1
    Dernier message: 12/06/2007, 10h04
  5. Valeurs Nulles ou Valeurs à Zéro
    Par LLaurent dans le forum XMLRAD
    Réponses: 5
    Dernier message: 30/07/2003, 11h40

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo