Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Hadoop & co Discussion :

Python sur SPARK


Sujet :

Hadoop & co

  1. #1
    Membre du Club
    Python sur SPARK
    Hello tout le monde,

    Je voulais juste savoir si on peut coder en python sur spark? Est-ce qu'il faut installer un module en plus genre PySPARK?

    Merci beaucoup

    Vanessa

  2. #2
    Membre éprouvé
    Bonjour,

    SPARK permet l'utilisation de plusieurs langages comme Python, R, Scala et Java.

    Cordialement.

  3. #3
    Membre du Club
    Re,

    Merci pour ta réponse dev_ggy . Question bète mais j'y connais pas des masses: SPARK est-il hebergé sur le même serveur que ceux d'HADOOP? car je veux stocker des données sur SPARK et je me demande comment choisir le serveur où sera hébergé SPARK du coup?!

    Merci pour vos réponses

    Vanessa

  4. #4
    Expert Oracle confirmé

    Bonjour,

    Oui Spark est un framework de calcul distribué qui s’exécute, entre autre, sur un cluster Hadoop.

    je me demande comment choisir le serveur où sera hébergé SPARK du coup?!
    Il ne faut plus parler de serveur, ne plus raisonner en terme de serveurs, mais de cluster, car tout cela, c'est de l'informatique distribuée et massivement parallèle.

    Normalement il y a des administrateurs Hadoop dont le rôle est de déployer un cluster Hadoop et qui pourront répondre à tes questions, à moins que tout ait été fait en PAAS.

    Pour finir, Spark va lire et écrire des données depuis plusieurs sources. Cela peut être des fichiers stockés dans l'HDFS, que l'on va traiter avec des RDD ou des Dataframes.

    Mais les données peuvent aussi venir de SGBDR ou de bases NoSQL. Il y a de nombreux connecteurs pour cela et SparkSQL est fait pour cela.

  5. #5
    Membre éprouvé
    Bonjour tous les deux,

    Spark travaille avec la mémoire RAM et ne permet donc pas de stocker les données, mais uniqumement les traiter. Il est possible à travers Spark de copier les données sur le HDFS, ou dans une base de données tel que : HBase, Cassandra, Hive, ...

    Il me semble que dans un environnement Hadoop il est possible d’installer Spark sur les Datanode, mais il devrait être préférable d'avoir au moins une instance sur le Edgenode.

    Bien cordialement,

  6. #6
    Membre du Club
    Bonjour,

    merci pour vos réponses

    Pour rebondir sur ce que vous avez dit je comprends plus ou moins. rouardg tu me dis de ne pas raisonner en terme de serveur mais pour moi un cluster=un serveur nn?! Spark SQL est un connecteur qui permet de faire le lien entre spark et un sgbdr? Sur Spark il y a des connecteurs intégrés ou il faut en plus les télécharger?

    Je vous remercie encore de m'éclairer

    Vaness

  7. #7
    Expert Oracle confirmé

    Justement non, un cluster est tout simplement un ensemble de serveurs, serveurs qui travaillent de concert.

    Quant à Spark SQL, c'est la librairie de Spark qui permet d'inclure des requêtes SQL dans un programme Spark.

    Après pour se connecter à des bases de données, on peut utiliser des drivers ODBC ou JDBC, ou alors utiliser un connecteur spécifique.

    Par exemple, pour utiliser une base MongoDB depuis Spark, Mongo fournit un connecteur :

    https://docs.mongodb.com/spark-connector/master/

    Bien entendu, ce n'est qu'un exemple de connecteur. A chaque fois, il faut chercher sur le site de l'éditeur pour voir comment son produit s'intègre à Spark.

  8. #8
    Membre du Club
    Ok merci pour vos réponses

    Vaness