IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Statistiques, Data Mining et Data Science Discussion :

Indicateur de "l'originalité" de variables


Sujet :

Statistiques, Data Mining et Data Science

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre chevronné
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Janvier 2012
    Messages
    325
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Janvier 2012
    Messages : 325
    Par défaut Indicateur de "l'originalité" de variables
    Bonjour,

    J’ai un certain nombre de variables, qui ont été centrées réduites et qui sont corrélées entre elles à des niveaux variés.

    Je cherche à calculer un indicateur qui fasse en quelque sorte la synthèse de ces variables. En passant les détails superflus, on peut considérer que je fais simplement la somme de toutes ces variables.

    Ce qui me pose problème c’est que ces variables sont choisies arbitrairement, et que certaines peuvent faire doublon (2 mesures différentes de la même chose par exemple). Ce que j’aimerais faire c’est attribuer un poids à chaque variable de telle façon que les variables fortement corrélées à d’autres variables soit pénalisées, tandis que les variables « originales » soient favorisées.

    Par exemple, si on prend 3 variables, deux d’entre elles étant corrélées à 100% une 3ème étant corrélée à 0% avec les deux premières, j’aimerais mettre des poids du style 0.5 pour les deux premières et 1 pour la 3ème. (Bien sûr c’est juste un exemple, mes vraies variables ne sont pas corrélées à 0 ou 100%).

    Est-ce que quelqu’un connaitrait quelque chose qui se rapproche de ça ?


    Merci.

  2. #2
    Rédacteur/Modérateur

    Homme Profil pro
    Ingénieur qualité méthodes
    Inscrit en
    Décembre 2013
    Messages
    4 220
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur qualité méthodes
    Secteur : Conseil

    Informations forums :
    Inscription : Décembre 2013
    Messages : 4 220
    Par défaut
    As-tu regardé les ACP ou les AFC ?

  3. #3
    Membre chevronné
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Janvier 2012
    Messages
    325
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Janvier 2012
    Messages : 325
    Par défaut
    Merci pour ta réponse.

    Je n'avais pas pensé à utiliser une ACP.
    Je pourrait en effet utiliser le premier axe comme "indicateur".
    Cependant je ne suis pas persuadé que ça me donne le résultat voulu, surtout qu'il y a des trucs dont je n'ai pas parlé et qui compliquent l'utilisation de l'ACP.
    Mais je vais creuser.

  4. #4
    Membre expérimenté


    Profil pro
    Inscrit en
    Septembre 2006
    Messages
    3 176
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2006
    Messages : 3 176
    Par défaut
    Bonjour,
    Si tes variables sont corrélées à 100% pourquoi ne pas les supprimer puisqu'elles sont redondantes ?
    Sinon tu as des méthodes d'analyses en facteur commun et spécifiques qui peuvent être utilisées.
    Les balises code
    FAQ SAS
    Rubrique SAS

    Si vous souhaitez contribuer à la rubrique SAS, contactez-moi ou tout autre membre de l'équipe BI par MP.

  5. #5
    Membre chevronné
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Janvier 2012
    Messages
    325
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Janvier 2012
    Messages : 325
    Par défaut
    Les variables corrélées à 100% c'était juste pour l'exemple, bien entendu dans mes vraies données je n'ai jamais de telles corrélations.

  6. #6
    Membre expérimenté


    Profil pro
    Inscrit en
    Septembre 2006
    Messages
    3 176
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2006
    Messages : 3 176
    Par défaut
    Mais même avec des corrélations de 90-95% quel est le but de garder des variables redondantes ?

    Ce qui me pose problème c’est que ces variables sont choisies arbitrairement, et que certaines peuvent faire doublon (2 mesures différentes de la même chose par exemple).
    Que veux-tu dire par là ?
    Ce n'est pas toi que choisis tes variables ?
    Les balises code
    FAQ SAS
    Rubrique SAS

    Si vous souhaitez contribuer à la rubrique SAS, contactez-moi ou tout autre membre de l'équipe BI par MP.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Quote et double quote
    Par aktos dans le forum Langage
    Réponses: 8
    Dernier message: 05/01/2007, 19h55

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo