Chers membres club,

J'ai le plaisir de vous présenter ce tutoriel pour apprendre la procédure de test du code Spark.

Spark est plus puissant et plus simple à utiliser que MapReduce, mais comment tester du code Spark ? Voici notre vision !

Spark est un framework de calcul distribué créé à Berkeley en 2010. Il connaît une adoption impressionnante. Plusieurs raisons à cela : des performances de très loin supérieures à MapReduce, et un framework à la fois beaucoup plus simple d'utilisation et multilangage (Scala, Python, Java ou R).

Chez Xebia, nous aimons le code bien fait. En tant qu'artisan de la Data, nous avons donc cherché la façon qui nous paraissait la meilleure pour tester notre code Spark.

Nous avons donc décidé d'écrire une série d'articles centrée sur les tests des programmes Spark. Plusieurs objectifs : présenter les problèmes liés à l'écriture de tests pour Spark, les outils et frameworks, et enfin, les manques de ces outils.
Dans ce premier article, nous allons nous concentrer sur la théorie : ce qu'il faut tester, comment le tester et les spécificités apportées à nos tests sur Spark.

Dans cette série d'articles, nous ne présenterons pas d'exemples en Java ni en R. Nous nous concentrerons sur les API Scala et Python qui sont à notre avis à favoriser, mais aussi les plus utilisées par la communauté. Les notions globales introduites restent cependant les mêmes quel que soit le langage.
Bonne lecture et n'hésitez pas à apporter vos commentaires.


Retrouvez les autres cours et tutoriels proposés par Xebia