Bonjour à tous,

Je suis en train d'essayer de mettre en place un petit script en pyspark mais je suis bloqué depuis quelques jours.

Je vous explique rapidement le contexte, j'ai un fichier en entrée (csv) avec la structure suivante : "code_vente; mois_versement ; montant" (exemple : 13 ; 12/2017 ; 500) et une table où je peux retrouver ces données (le champ "mois_versement" n'est pas sur le même format sur la table) mais aussi d'autres notamment le chiffre d'affaires du code_vente.

L'objectif étant d'afficher le CA des 6 derniers mois du code_vente en fonction de la colonne "mois_versement".

Je donne un exemple simple, si dans le fichier en entrée j'ai :
code_vente : 13
mois_versement : 12/2017
montant = 500

il faut que j'affiche un nouveau tableau
code_vente : 13
Chiffre d'affaires des 6 derniers mois (07/2017 à 12/2017) - données provenant de la table

En dehors du code, il me faut de l'aide sur l'algorithme à créer mais dans un environnement bigdata et pyspark.
J'ai fait une jointure entre mon fichier csv et la table sur le code_vente, j'ai changé le format de date du csv pour être identique à la table, mais ensuite je ne sais pas comment m'y prendre pour afficher dans un tableau le Chiffre d'affaires des 6 derniers mois en fonction du champ "mois_versement" du fichier csv.

J'espère que c'est assez clair..
Je vous remercie par avance.