Analyse de données statistiques

**vincent_1** · 13/02/2015, 14h55

Bonjour,

Tout d'abord j'éspère ne pas m'être trompé en choisissant cette rubrique du forum pour ma question, si ce n'est pas le cas signalez le moi, je pourrai déplacer la discussion.

Voila mon problème est le suivant :
J'ai tout d'abord des données issues de simulation dont voici un court extrait :

1 1.63 0.52 9.26 314.03 0.90 0.14 7.25
1 1.58 0.53 8.72 268.09 0.91 0.15 7.13
1 1.53 0.55 8.21 229.63 0.91 0.16 7.03

Les 7 premières colonnes sont des valeurs en entrée du système, la 8ème une sortie. Les 7 premieres sont assez liées car elles sont des caractèrisiques d'une variable aléatoire (respectivement moyenne, coefficient de variation, médiane, skewness, kurtosis, entropie et mode pour être précis).
Mon objectif est de conclure sur l'influence de chaque colonne sur le résultat final qui correspond au nombre moyen de clients dans le système.

Pour l'instant j'ai deux pistes :
1- Analyse PCA à partir de la matrice de corrélation entre l'ensemble des paramètres
- Je pense que c'est peu représentatif car cela nécessite une corrélation linéaire entre les paramètres et ce n'est pas le cas

Nom : 2.jpg
Affichages : 364
Taille : 24,5 Ko

Nom : 2.jpg
Affichages : 364
Taille : 24,5 Ko

2- Analyse PCA en prenant des petits groupes de paramètres, réduction sur une seule composantes puis corrélation avec le nombre de clients moyen (Pearson, Spearman, exponentielle et puissance puis je prend le maximum des quatres)

Le graphe suivant montre la correlation en supprimant pour chaque valeur 3 paramètres (le CV + 2 autres) :
Nom : sansCV.jpg
Affichages : 397
Taille : 32,5 Ko

Nom : sansCV.jpg
Affichages : 397
Taille : 32,5 Ko

Ici un exemple des valeurs résultats avant calcul de la corrélation :
Nom : pca_1.jpg
Affichages : 415
Taille : 22,8 Ko

Ces deux pistes ne sont pas forcément les bonnes, j'aimerais donc savoir si je peux conclure quelque chose en suivant cette voie, et si éventuellement quelqu'un aurait une idée pour analyser ce type de valeur.

J'éspère avoir été court et à la fois assez claire, merci pour votre lecture et vos réponses.

Vincent

**fafabzh6** · 13/02/2015, 16h48

Bonjour,
Vu que ton objectif est de prédire ta sortie pourquoi n'utilises-tu pas un modèle de régression directement ?
Cordialement,

**vincent_1** · 13/02/2015, 16h51

Bonjour,

Le problème est la très forte corrélation entre les paramètres (lié au moment d'ordre 1,2,3,4 d'une variable aléatoire). Je souhaiterais donc en plus de trouver la relation avec la sortie de mon système trouver quels paramètres aporte une information en plus, outre sa corrélation avec les autres.

**fafabzh6** · 13/02/2015, 16h59

Ton idée, lorsque tu utilises l'ACP, est-elle de supprimer des variables redondantes avant de les introduire dans ton modèle de régression ?

**vincent_1** · 13/02/2015, 18h21

Dans la deuxième solution c'est l'idée. Je boucle sur les colonnes en conservant à chaque itération des groupes de 3 paramètres (ou 2, ou 4 cela dépend, j'essaye un peu toutes les solutions) et grâce à PCA je reviens à la composante principale qui me permet un test de corrélation. Après une discussion avec un chercheur en fin d'après-midi, on a trouvé une autre piste : ANOVAR. Cela permettrait je pense d'identifier les entrées les plus importantes. Si quelqu'un a un avis ou de la littérature intéressante sur ce sujet je suis preneur.

**fafabzh6** · 13/02/2015, 18h28

Bonjour,
Es-tu sur de l'orthographe ANOVAR ??
Sinon tu as l'analyse en facteurs communs et spécifiques.

**vincent_1** · 13/02/2015, 18h48

Pardon, c'est ANOVA.

L'analyse en facteurs commun nécessite la non corrélation entre les variables en entrée et dans mon cas tout est vraiment très proche. Moi je veux surtout essayer de savoir lesquels influencent le plus car ils permettent tous de déduire plus en moins exactement la sortie. En résumé je voudrais les classer par importance.

Analyse de données statistiques

Statistiques, Data Mining et Data Science

Discussions similaires

Partager

Partager