Python sur SPARK

**vanessa75** · 03/05/2018, 15h18

Hello tout le monde,

Je voulais juste savoir si on peut coder en python sur spark? Est-ce qu'il faut installer un module en plus genre PySPARK?

Merci beaucoup

Vanessa

**dev_ggy** · 03/05/2018, 21h38

Bonjour,

SPARK permet l'utilisation de plusieurs langages comme Python, R, Scala et Java.

Cordialement.

**vanessa75** · 07/05/2018, 10h39

Re,

Merci pour ta réponse dev_ggy . Question bète mais j'y connais pas des masses: SPARK est-il hebergé sur le même serveur que ceux d'HADOOP? car je veux stocker des données sur SPARK et je me demande comment choisir le serveur où sera hébergé SPARK du coup?!

Merci pour vos réponses

Vanessa

**rouardg** · 10/05/2018, 11h05

Bonjour,

Oui Spark est un framework de calcul distribué qui s’exécute, entre autre, sur un cluster Hadoop.

je me demande comment choisir le serveur où sera hébergé SPARK du coup?!

Il ne faut plus parler de serveur, ne plus raisonner en terme de serveurs, mais de cluster, car tout cela, c'est de l'informatique distribuée et massivement parallèle.

Normalement il y a des administrateurs Hadoop dont le rôle est de déployer un cluster Hadoop et qui pourront répondre à tes questions, à moins que tout ait été fait en PAAS.

Pour finir, Spark va lire et écrire des données depuis plusieurs sources. Cela peut être des fichiers stockés dans l'HDFS, que l'on va traiter avec des RDD ou des Dataframes.

Mais les données peuvent aussi venir de SGBDR ou de bases NoSQL. Il y a de nombreux connecteurs pour cela et SparkSQL est fait pour cela.

**dev_ggy** · 10/05/2018, 21h09

Bonjour tous les deux,

Spark travaille avec la mémoire RAM et ne permet donc pas de stocker les données, mais uniqumement les traiter. Il est possible à travers Spark de copier les données sur le HDFS, ou dans une base de données tel que : HBase, Cassandra, Hive, ...

Il me semble que dans un environnement Hadoop il est possible d’installer Spark sur les Datanode, mais il devrait être préférable d'avoir au moins une instance sur le Edgenode.

Bien cordialement,

**vanessa75** · 14/05/2018, 11h05

Bonjour,

merci pour vos réponses

Pour rebondir sur ce que vous avez dit je comprends plus ou moins. rouardg tu me dis de ne pas raisonner en terme de serveur mais pour moi un cluster=un serveur nn?! Spark SQL est un connecteur qui permet de faire le lien entre spark et un sgbdr? Sur Spark il y a des connecteurs intégrés ou il faut en plus les télécharger?

Je vous remercie encore de m'éclairer

Vaness

**rouardg** · 14/05/2018, 21h36

Justement non, un cluster est tout simplement un ensemble de serveurs, serveurs qui travaillent de concert.

Quant à Spark SQL, c'est la librairie de Spark qui permet d'inclure des requêtes SQL dans un programme Spark.

Après pour se connecter à des bases de données, on peut utiliser des drivers ODBC ou JDBC, ou alors utiliser un connecteur spécifique.

Par exemple, pour utiliser une base MongoDB depuis Spark, Mongo fournit un connecteur :

https://docs.mongodb.com/spark-connector/master/

Bien entendu, ce n'est qu'un exemple de connecteur. A chaque fois, il faut chercher sur le site de l'éditeur pour voir comment son produit s'intègre à Spark.

**vanessa75** · 22/05/2018, 16h50

Ok merci pour vos réponses

Vaness

Python sur SPARK

Hadoop & co

Discussions similaires

Partager

Partager