Analyse fichier excel

**yderien** · 31/03/2016, 16h08

Bonjour tout le monde !

Je vous écris car je suis soumis à un problème. Dans le cadre d’un cours, je dois faire de l’analyse de données avec python. Sauf que je ne suis vraiment pas fort pour faire ça ! Voici le problème
L’entreprise X cherche à trouver des informations pertinente avec ses données clients, trouvez le plus de métriques possible avec l’ensemble de données fournis
Donc j’ai pu faire une analyse de base, mais vraiment de base !
Donc pour cela, j'ai pensé à utiliser la librairie pandas qui apparement permets de gerer facilement de grand ensemble de données
A l’aide de la fonction data.describe() ,j’ai pu obtenir des informations mais c’est très faible et ensuite j’ai trouvé la fonction :
data.groupby([Type,Magasin,Periode]).aggregate(np.mean)).
Grâce à cette fonction, j’obtiens des moyennes sur la quantité en fonction du type de produit, le magasin et la periode. C’est vraiment très fort !

Donc voilà, j’ai peu de choses finalement et je sais qu’il m’en faut plus. J’essaie de regarder ce que je peux faire mais voilà, je ne mis connait pas, je sais juste ce qu’il faut pour coder un peux en python mais c’est tout… Quelqu’un pourrait-il m’aider ? Je sais que c’est beaucoup demandé mais je suis sûr qu’une âme charitable super skillé en serait capable

En gros, il me faut plus d’information sur ce tableau, je ne sais pas trop ce qu’il est possible d’en tirer mais je me disais qu’on pouvait obtenir la variable qui est la plus importante hors quantité ?
Bref, je suis ouvert à toute proposition tout en continuant à chercher de mon côté

Merci d’avance !
Yderien

**marco056** · 31/03/2016, 22h20

Chacun son boulot mais quelqu'un d'inactif ou de motivé pourra peut-être t'aider.
De mon côté, pour traiter ce genre de fichier, je le convertis en fichier .csv avec oppenoffice avec le ";" comme séparateur (pour éviter les problèmes de virgule).
Ensuite, je traite les données avec la bibliothèque "csv".
Bon courage.

**tyrtamos** · 31/03/2016, 23h02

Bonjour,

C'est ce que je fais aussi: je passe par l'intermédiaire d'un fichier csv. Sous Excel, on fait "enregistrer sous", puis on choisit le format CSV avec un ';'.

Si on veut que Python lise directement un fichier Excel, il existe une solution ici: http://www.python-excel.org/, mais je ne l'ai jamais utilisée.

**Julien N** · 01/04/2016, 10h47

Salut,

Envoyé par tyrtamos

Si on veut que Python lise directement un fichier Excel, il existe une solution ici: http://www.python-excel.org/

Partir sur l'utilisation de Pandas est une très bonne idée. Couplé à la bibliothèque seaborn on peut faire rapidement et simplement des analyses vraiment chiadées. Pandas propose nativement une méthode pour extraire des données d'Excel. Dans le case de l'exemple fourni:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
import pandas as pd
fname = 'Exercice 1.xlsx'
data = pd.read_excel(fname, sheetname='Feuil1', parse_cols='A:F')

Pour ce qui est de l'analyse du contenu, et bien je ne pense pas que l'on puisse être d'une quelque aide, si ce n'est sur la réalisation technique. C'est à toi de voir ce qui peut t'intéresser: des données statistiques simple (via describe()), produire des histogrammes des quantités de produits vendus, comptabiliser le nombre de ventes par type de produit, la dépense moyenne selon la période, etc... On peut calculer tout et n'importe quoi. L'important c'est ce que l'on veut montrer et là c'est à toi de jouer.

J

**yderien** · 01/04/2016, 11h37

Bonjour,

Merci à tous de vos réponse ça me fait vraiment plaisir de voir autant de gens aussi sympas

Alors, pour l’extraction de fichier, justement j’utilise la librairie pandas qui a un outil :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
import pandas as pd
data = pd.read_csv('Matrice-client-Colisweb.csv', sep=';')

Ensuite, je place une clé (si j’ai bien compris) avec la commande suivante :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

data.set_index(['client'], inplace=True)

Et voici quelques lignes que j’ai écrite pour avoir des informations, des métriques

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
print(data.groupby(['Type','Magasin','Periode']).aggregate(np.mean))
print(data.groupby(['Type']).aggregate(np.mean))
print(data.groupby(['Magasin']).aggregate(np.mean))
print(data.groupby(['Periode']).aggregate(np.mean))
print(data.groupby(['panier moyen']).aggregate(np.mean))

Donc avec cette fonction, j’obtiens directement des moyennes en fonction de la variable que j’ai choisi.
Maintenant veux tracer des histogrammes à partir de ces variables, mais la… je coince…

Je trace l'histograme que je veux avec la fonction suivante :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
 
CAPM=(data.groupby(['Panier Moyen']).aggregate(np.mean))
CAPM.hist()

ou la fonction CAPM est une colonne de mon dataframe. Du coup, j'essaie de rendre ça potable, afficher les noms, mettre de la couleur, mettre une légende... Comment fait on ? Je regarde dans l'aide mais je comprends pas...

Donc voila, je vais regarder ce que je peux faire avec la bibliothèque seaborn, j’ai jetté un œil, et ça a l’air terrible quand même.

En tout cas merci beaucoup pour vos réponses !
Yderien

Analyse fichier excel

Python

Vue hybride

Discussions similaires

Partager

Partager