IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Statistiques, Data Mining et Data Science Discussion :

Analyse de données statistiques


Sujet :

Statistiques, Data Mining et Data Science

  1. #1
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Février 2015
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 33
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Février 2015
    Messages : 5
    Points : 3
    Points
    3
    Par défaut Analyse de données statistiques
    Bonjour,

    Tout d'abord j'éspère ne pas m'être trompé en choisissant cette rubrique du forum pour ma question, si ce n'est pas le cas signalez le moi, je pourrai déplacer la discussion.

    Voila mon problème est le suivant :
    J'ai tout d'abord des données issues de simulation dont voici un court extrait :

    1 1.63 0.52 9.26 314.03 0.90 0.14 7.25
    1 1.58 0.53 8.72 268.09 0.91 0.15 7.13
    1 1.53 0.55 8.21 229.63 0.91 0.16 7.03

    Les 7 premières colonnes sont des valeurs en entrée du système, la 8ème une sortie. Les 7 premieres sont assez liées car elles sont des caractèrisiques d'une variable aléatoire (respectivement moyenne, coefficient de variation, médiane, skewness, kurtosis, entropie et mode pour être précis).
    Mon objectif est de conclure sur l'influence de chaque colonne sur le résultat final qui correspond au nombre moyen de clients dans le système.

    Pour l'instant j'ai deux pistes :
    1- Analyse PCA à partir de la matrice de corrélation entre l'ensemble des paramètres
    - Je pense que c'est peu représentatif car cela nécessite une corrélation linéaire entre les paramètres et ce n'est pas le cas

    Nom : 2.jpg
Affichages : 364
Taille : 24,5 Ko

    2- Analyse PCA en prenant des petits groupes de paramètres, réduction sur une seule composantes puis corrélation avec le nombre de clients moyen (Pearson, Spearman, exponentielle et puissance puis je prend le maximum des quatres)

    Le graphe suivant montre la correlation en supprimant pour chaque valeur 3 paramètres (le CV + 2 autres) :
    Nom : sansCV.jpg
Affichages : 397
Taille : 32,5 Ko

    Ici un exemple des valeurs résultats avant calcul de la corrélation :
    Nom : pca_1.jpg
Affichages : 415
Taille : 22,8 Ko


    Ces deux pistes ne sont pas forcément les bonnes, j'aimerais donc savoir si je peux conclure quelque chose en suivant cette voie, et si éventuellement quelqu'un aurait une idée pour analyser ce type de valeur.

    J'éspère avoir été court et à la fois assez claire, merci pour votre lecture et vos réponses.

    Vincent

  2. #2
    Responsable SAS


    Inscrit en
    Septembre 2006
    Messages
    3 176
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 3 176
    Points : 16 219
    Points
    16 219
    Par défaut
    Bonjour,
    Vu que ton objectif est de prédire ta sortie pourquoi n'utilises-tu pas un modèle de régression directement ?
    Cordialement,
    Les balises code
    FAQ SAS
    Rubrique SAS

    Si vous souhaitez contribuer à la rubrique SAS, contactez-moi ou tout autre membre de l'équipe BI par MP.

  3. #3
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Février 2015
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 33
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Février 2015
    Messages : 5
    Points : 3
    Points
    3
    Par défaut
    Bonjour,

    Le problème est la très forte corrélation entre les paramètres (lié au moment d'ordre 1,2,3,4 d'une variable aléatoire). Je souhaiterais donc en plus de trouver la relation avec la sortie de mon système trouver quels paramètres aporte une information en plus, outre sa corrélation avec les autres.

  4. #4
    Responsable SAS


    Inscrit en
    Septembre 2006
    Messages
    3 176
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 3 176
    Points : 16 219
    Points
    16 219
    Par défaut
    Ton idée, lorsque tu utilises l'ACP, est-elle de supprimer des variables redondantes avant de les introduire dans ton modèle de régression ?
    Les balises code
    FAQ SAS
    Rubrique SAS

    Si vous souhaitez contribuer à la rubrique SAS, contactez-moi ou tout autre membre de l'équipe BI par MP.

  5. #5
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Février 2015
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 33
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Février 2015
    Messages : 5
    Points : 3
    Points
    3
    Par défaut
    Dans la deuxième solution c'est l'idée. Je boucle sur les colonnes en conservant à chaque itération des groupes de 3 paramètres (ou 2, ou 4 cela dépend, j'essaye un peu toutes les solutions) et grâce à PCA je reviens à la composante principale qui me permet un test de corrélation. Après une discussion avec un chercheur en fin d'après-midi, on a trouvé une autre piste : ANOVAR. Cela permettrait je pense d'identifier les entrées les plus importantes. Si quelqu'un a un avis ou de la littérature intéressante sur ce sujet je suis preneur.

  6. #6
    Responsable SAS


    Inscrit en
    Septembre 2006
    Messages
    3 176
    Détails du profil
    Informations forums :
    Inscription : Septembre 2006
    Messages : 3 176
    Points : 16 219
    Points
    16 219
    Par défaut
    Bonjour,
    Es-tu sur de l'orthographe ANOVAR ??
    Sinon tu as l'analyse en facteurs communs et spécifiques.
    Les balises code
    FAQ SAS
    Rubrique SAS

    Si vous souhaitez contribuer à la rubrique SAS, contactez-moi ou tout autre membre de l'équipe BI par MP.

  7. #7
    Candidat au Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Février 2015
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 33
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Février 2015
    Messages : 5
    Points : 3
    Points
    3
    Par défaut
    Pardon, c'est ANOVA.

    L'analyse en facteurs commun nécessite la non corrélation entre les variables en entrée et dans mon cas tout est vraiment très proche. Moi je veux surtout essayer de savoir lesquels influencent le plus car ils permettent tous de déduire plus en moins exactement la sortie. En résumé je voudrais les classer par importance.

Discussions similaires

  1. Probabilités, analyse des données et statistique
    Par fafabzh6 dans le forum Livres
    Réponses: 0
    Dernier message: 17/02/2015, 11h58
  2. Réponses: 0
    Dernier message: 11/10/2013, 14h57
  3. probleme avec l'affichage de donnés(statistique)
    Par The_Duck dans le forum Access
    Réponses: 1
    Dernier message: 12/07/2006, 14h19
  4. [TComPort] Analyse des données reçues avec ReadStr
    Par chourmo dans le forum Langage
    Réponses: 4
    Dernier message: 22/06/2005, 14h12

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo