IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Statistiques, Data Mining et Data Science Discussion :

Indicateur de "l'originalité" de variables


Sujet :

Statistiques, Data Mining et Data Science

  1. #1
    Membre éclairé
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Janvier 2012
    Messages
    325
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Janvier 2012
    Messages : 325
    Points : 888
    Points
    888
    Par défaut Indicateur de "l'originalité" de variables
    Bonjour,

    J’ai un certain nombre de variables, qui ont été centrées réduites et qui sont corrélées entre elles à des niveaux variés.

    Je cherche à calculer un indicateur qui fasse en quelque sorte la synthèse de ces variables. En passant les détails superflus, on peut considérer que je fais simplement la somme de toutes ces variables.

    Ce qui me pose problème c’est que ces variables sont choisies arbitrairement, et que certaines peuvent faire doublon (2 mesures différentes de la même chose par exemple). Ce que j’aimerais faire c’est attribuer un poids à chaque variable de telle façon que les variables fortement corrélées à d’autres variables soit pénalisées, tandis que les variables « originales » soient favorisées.

    Par exemple, si on prend 3 variables, deux d’entre elles étant corrélées à 100% une 3ème étant corrélée à 0% avec les deux premières, j’aimerais mettre des poids du style 0.5 pour les deux premières et 1 pour la 3ème. (Bien sûr c’est juste un exemple, mes vraies variables ne sont pas corrélées à 0 ou 100%).

    Est-ce que quelqu’un connaitrait quelque chose qui se rapproche de ça ?


    Merci.

  2. #2
    Rédacteur/Modérateur

    Homme Profil pro
    Ingénieur qualité méthodes
    Inscrit en
    Décembre 2013
    Messages
    4 051
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur qualité méthodes
    Secteur : Conseil

    Informations forums :
    Inscription : Décembre 2013
    Messages : 4 051
    Points : 9 386
    Points
    9 386
    Par défaut
    As-tu regardé les ACP ou les AFC ?
    N'oubliez pas le bouton Résolu si vous avez obtenu une réponse à votre question.

  3. #3
    Membre éclairé
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Janvier 2012
    Messages
    325
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Janvier 2012
    Messages : 325
    Points : 888
    Points
    888
    Par défaut
    Merci pour ta réponse.

    Je n'avais pas pensé à utiliser une ACP.
    Je pourrait en effet utiliser le premier axe comme "indicateur".
    Cependant je ne suis pas persuadé que ça me donne le résultat voulu, surtout qu'il y a des trucs dont je n'ai pas parlé et qui compliquent l'utilisation de l'ACP.
    Mais je vais creuser.

  4. #4
    Responsable SAS


    Inscrit en
    Septembre 2006
    Messages
    3 176
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 3 176
    Points : 16 219
    Points
    16 219
    Par défaut
    Bonjour,
    Si tes variables sont corrélées à 100% pourquoi ne pas les supprimer puisqu'elles sont redondantes ?
    Sinon tu as des méthodes d'analyses en facteur commun et spécifiques qui peuvent être utilisées.
    Les balises code
    FAQ SAS
    Rubrique SAS

    Si vous souhaitez contribuer à la rubrique SAS, contactez-moi ou tout autre membre de l'équipe BI par MP.

  5. #5
    Membre éclairé
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Janvier 2012
    Messages
    325
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Janvier 2012
    Messages : 325
    Points : 888
    Points
    888
    Par défaut
    Les variables corrélées à 100% c'était juste pour l'exemple, bien entendu dans mes vraies données je n'ai jamais de telles corrélations.

  6. #6
    Responsable SAS


    Inscrit en
    Septembre 2006
    Messages
    3 176
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 3 176
    Points : 16 219
    Points
    16 219
    Par défaut
    Mais même avec des corrélations de 90-95% quel est le but de garder des variables redondantes ?

    Ce qui me pose problème c’est que ces variables sont choisies arbitrairement, et que certaines peuvent faire doublon (2 mesures différentes de la même chose par exemple).
    Que veux-tu dire par là ?
    Ce n'est pas toi que choisis tes variables ?
    Les balises code
    FAQ SAS
    Rubrique SAS

    Si vous souhaitez contribuer à la rubrique SAS, contactez-moi ou tout autre membre de l'équipe BI par MP.

  7. #7
    Membre éclairé
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Janvier 2012
    Messages
    325
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Janvier 2012
    Messages : 325
    Points : 888
    Points
    888
    Par défaut
    Finalement j'ai fait une régression PLS.

  8. #8
    Responsable SAS


    Inscrit en
    Septembre 2006
    Messages
    3 176
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 3 176
    Points : 16 219
    Points
    16 219
    Par défaut
    Bonjour,
    Mais dans ce cas là quelle était ta variable de prédiction Y ?
    Les balises code
    FAQ SAS
    Rubrique SAS

    Si vous souhaitez contribuer à la rubrique SAS, contactez-moi ou tout autre membre de l'équipe BI par MP.

  9. #9
    Membre éclairé
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Janvier 2012
    Messages
    325
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Janvier 2012
    Messages : 325
    Points : 888
    Points
    888
    Par défaut
    En fait j'ai des variables explicatives fiables mais difficilement interprétables de part leur nombre et de part leur représentativité de ce que je veut prédire.
    D'un autre côté j'ai des variables plus représentatives mais avec peu d'observations et une fiabilité non garantie, d'où ma réticence à les utiliser comme "variable à prédire".
    Du coup je m'était dit que dans un premier temps, j'allais essayer de faire une somme pondérée avec des poids arbitraire de mes variables explicatives, et ensuite voir si cet "indicateur" était bien corrélé avec mes variables "à prédire".
    Mais du coup avec une régression PLS j'évite le surajustement et je limite l'impact du manque de fiabilité de mes variables à prédire.

  10. #10
    Responsable SAS


    Inscrit en
    Septembre 2006
    Messages
    3 176
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 3 176
    Points : 16 219
    Points
    16 219
    Par défaut
    Ah ok, du coup je comprends mieux le passage méthode type ACP->PLS
    Les balises code
    FAQ SAS
    Rubrique SAS

    Si vous souhaitez contribuer à la rubrique SAS, contactez-moi ou tout autre membre de l'équipe BI par MP.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Quote et double quote
    Par aktos dans le forum Langage
    Réponses: 8
    Dernier message: 05/01/2007, 19h55

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo