Manipulation de données entre un fichier CSV et une table

**sass92** · 11/07/2018, 11h02

Bonjour à tous,

Je suis en train d'essayer de mettre en place un petit script en pyspark mais je suis bloqué depuis quelques jours.

Je vous explique rapidement le contexte, j'ai un fichier en entrée (csv) avec la structure suivante : "code_vente; mois_versement ; montant" (exemple : 13 ; 12/2017 ; 500) et une table où je peux retrouver ces données (le champ "mois_versement" n'est pas sur le même format sur la table) mais aussi d'autres notamment le chiffre d'affaires du code_vente.

L'objectif étant d'afficher le CA des 6 derniers mois du code_vente en fonction de la colonne "mois_versement".

Je donne un exemple simple, si dans le fichier en entrée j'ai :
code_vente : 13
mois_versement : 12/2017
montant = 500

il faut que j'affiche un nouveau tableau
code_vente : 13
Chiffre d'affaires des 6 derniers mois (07/2017 à 12/2017) - données provenant de la table

En dehors du code, il me faut de l'aide sur l'algorithme à créer mais dans un environnement bigdata et pyspark.
J'ai fait une jointure entre mon fichier csv et la table sur le code_vente, j'ai changé le format de date du csv pour être identique à la table, mais ensuite je ne sais pas comment m'y prendre pour afficher dans un tableau le Chiffre d'affaires des 6 derniers mois en fonction du champ "mois_versement" du fichier csv.

J'espère que c'est assez clair..
Je vous remercie par avance.

**Flodelarab** · 11/07/2018, 12h23

Bonjour

Qu'est-ce que tu as tenté jusqu'à maintenant ?

Il n'y a, à première vue, aucune difficulté.

et une table où je peux retrouver ces données

A quoi sert la table, puisqu'on a déjà les 3 données essentielles ?

j'ai changé le format de date du csv pour être identique à la table,

Perso, j'aurais tout mis en secondes depuis l'Epoch.

le CA des 6 derniers mois du code_vente

Tu comptes en mois calendaires (le mois en cours est tronqué) ou en mois de date à date (le dernier mois est du 11 juin au 11 juillet car nous sommes le 11 juillet) ?

dans un environnement bigdata

Frime.

J'ai fait une jointure entre mon fichier csv et la table sur le code_vente

Quelle drôle d'idée. Un filtre suffisait, non ?

J'espère que c'est assez clair..

ton message n'a pas de point d'interrogation. C'est souvent un indice qu'il n'y a pas de question.
Et effectivement, il n'y en a pas.

Tu filtres les codes ventes
Tu sommes par mois.
Tu sors les 6 plus récents.

Aucune difficulté algorithmique.
Pourquoi demander de l'aide ?
Un problème avec le python ? Avec le pyspark ?
Les linuxiens traiteraient tout le problème en 1 seule ligne de commande awk.

**sass92** · 11/07/2018, 15h35

Bonjour et merci pour ta réponse,

Le CA n'est pas dans le fichier plat, je n'ai cette donnée que dans la table, d'où ma jointure sur le code_vente pour obtenir les CA.

Dans mon besoin actuel c'est le mois qui m’intéresse, je n'ai pas besoin d'être au jour.

Ma difficulté principale est de pouvoir récupérer les 6 derniers mois de CA par code_vente en fonction du champ 'mois_versement' de code_vente.

Mais tu as raison je débute en pyspark et je trouve ce langage assez spécial... du coup je galère.

La frime avec ton linux

**tbc92** · 12/07/2018, 00h25

Je ne sais pas si j'ai compris la question, je vais donc essayer de la reformuler.

Tu as un fichier CSV, avec des données (le contenu m'importe peu) ; tu as par ailleurs une table avec d'autres données. Tu as une clé qui permet de faire la jointure entre ces 2 sources.
Tu sais parfaitement décrire en mots français ce que tu veux faire (enfin je suppose) : lire un enregistrement dans le fichier CSV, aller chercher la ou les lignes correspondantes dans la table. Et faire un traitement basique (des additions) ?

Ce traitement, tu saurais probablement le faire dans un langage de ton choix.
Mais ta difficulté, c'est de traduire ces 3 ou 4 étapes dans le langage Pyspark.

C'est bien ça ?

Si c'est ça, les gens qui peuvent t'aider, ce sont des gens qui maitrisent PySpark. Et dans ce cas, je peux déplacer la discussion dans ce forum : https://www.developpez.net/forums/f2...rise/big-data/ qui me parait plus adapté.

Manipulation de données entre un fichier CSV et une table

Algorithmes et structures de données

Discussions similaires

Partager

Partager