Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Hadoop & co Discussion :

Python sur SPARK


Sujet :

Hadoop & co

  1. #1
    Membre du Club
    Femme Profil pro
    Architecte technique
    Inscrit en
    avril 2015
    Messages
    78
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 29
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Architecte technique

    Informations forums :
    Inscription : avril 2015
    Messages : 78
    Points : 46
    Points
    46
    Par défaut Python sur SPARK
    Hello tout le monde,

    Je voulais juste savoir si on peut coder en python sur spark? Est-ce qu'il faut installer un module en plus genre PySPARK?

    Merci beaucoup

    Vanessa

  2. #2
    Membre éprouvé

    Homme Profil pro
    Data Ingénieur & Scientist
    Inscrit en
    février 2009
    Messages
    456
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Data Ingénieur & Scientist
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : février 2009
    Messages : 456
    Points : 1 127
    Points
    1 127
    Billets dans le blog
    2
    Par défaut
    Bonjour,

    SPARK permet l'utilisation de plusieurs langages comme Python, R, Scala et Java.

    Cordialement.

  3. #3
    Membre du Club
    Femme Profil pro
    Architecte technique
    Inscrit en
    avril 2015
    Messages
    78
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 29
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Architecte technique

    Informations forums :
    Inscription : avril 2015
    Messages : 78
    Points : 46
    Points
    46
    Par défaut
    Re,

    Merci pour ta réponse dev_ggy . Question bète mais j'y connais pas des masses: SPARK est-il hebergé sur le même serveur que ceux d'HADOOP? car je veux stocker des données sur SPARK et je me demande comment choisir le serveur où sera hébergé SPARK du coup?!

    Merci pour vos réponses

    Vanessa

  4. #4
    Expert Oracle confirmé

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    mars 2003
    Messages
    412
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Administrateur de base de données
    Secteur : Conseil

    Informations forums :
    Inscription : mars 2003
    Messages : 412
    Points : 861
    Points
    861
    Par défaut
    Bonjour,

    Oui Spark est un framework de calcul distribué qui s’exécute, entre autre, sur un cluster Hadoop.

    je me demande comment choisir le serveur où sera hébergé SPARK du coup?!
    Il ne faut plus parler de serveur, ne plus raisonner en terme de serveurs, mais de cluster, car tout cela, c'est de l'informatique distribuée et massivement parallèle.

    Normalement il y a des administrateurs Hadoop dont le rôle est de déployer un cluster Hadoop et qui pourront répondre à tes questions, à moins que tout ait été fait en PAAS.

    Pour finir, Spark va lire et écrire des données depuis plusieurs sources. Cela peut être des fichiers stockés dans l'HDFS, que l'on va traiter avec des RDD ou des Dataframes.

    Mais les données peuvent aussi venir de SGBDR ou de bases NoSQL. Il y a de nombreux connecteurs pour cela et SparkSQL est fait pour cela.

  5. #5
    Membre éprouvé

    Homme Profil pro
    Data Ingénieur & Scientist
    Inscrit en
    février 2009
    Messages
    456
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Data Ingénieur & Scientist
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : février 2009
    Messages : 456
    Points : 1 127
    Points
    1 127
    Billets dans le blog
    2
    Par défaut
    Bonjour tous les deux,

    Spark travaille avec la mémoire RAM et ne permet donc pas de stocker les données, mais uniqumement les traiter. Il est possible à travers Spark de copier les données sur le HDFS, ou dans une base de données tel que : HBase, Cassandra, Hive, ...

    Il me semble que dans un environnement Hadoop il est possible d’installer Spark sur les Datanode, mais il devrait être préférable d'avoir au moins une instance sur le Edgenode.

    Bien cordialement,

  6. #6
    Membre du Club
    Femme Profil pro
    Architecte technique
    Inscrit en
    avril 2015
    Messages
    78
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 29
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Architecte technique

    Informations forums :
    Inscription : avril 2015
    Messages : 78
    Points : 46
    Points
    46
    Par défaut
    Bonjour,

    merci pour vos réponses

    Pour rebondir sur ce que vous avez dit je comprends plus ou moins. rouardg tu me dis de ne pas raisonner en terme de serveur mais pour moi un cluster=un serveur nn?! Spark SQL est un connecteur qui permet de faire le lien entre spark et un sgbdr? Sur Spark il y a des connecteurs intégrés ou il faut en plus les télécharger?

    Je vous remercie encore de m'éclairer

    Vaness

  7. #7
    Expert Oracle confirmé

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    mars 2003
    Messages
    412
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Essonne (Île de France)

    Informations professionnelles :
    Activité : Administrateur de base de données
    Secteur : Conseil

    Informations forums :
    Inscription : mars 2003
    Messages : 412
    Points : 861
    Points
    861
    Par défaut
    Justement non, un cluster est tout simplement un ensemble de serveurs, serveurs qui travaillent de concert.

    Quant à Spark SQL, c'est la librairie de Spark qui permet d'inclure des requêtes SQL dans un programme Spark.

    Après pour se connecter à des bases de données, on peut utiliser des drivers ODBC ou JDBC, ou alors utiliser un connecteur spécifique.

    Par exemple, pour utiliser une base MongoDB depuis Spark, Mongo fournit un connecteur :

    https://docs.mongodb.com/spark-connector/master/

    Bien entendu, ce n'est qu'un exemple de connecteur. A chaque fois, il faut chercher sur le site de l'éditeur pour voir comment son produit s'intègre à Spark.

  8. #8
    Membre du Club
    Femme Profil pro
    Architecte technique
    Inscrit en
    avril 2015
    Messages
    78
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 29
    Localisation : France, Val de Marne (Île de France)

    Informations professionnelles :
    Activité : Architecte technique

    Informations forums :
    Inscription : avril 2015
    Messages : 78
    Points : 46
    Points
    46
    Par défaut
    Ok merci pour vos réponses

    Vaness

Discussions similaires

  1. Réponses: 0
    Dernier message: 18/12/2016, 16h54
  2. Python sur un clé USB -> Possible ?
    Par Olivier_ dans le forum Général Python
    Réponses: 26
    Dernier message: 09/07/2009, 09h07
  3. Applet python sur page web
    Par atalon1 dans le forum Réseau/Web
    Réponses: 25
    Dernier message: 12/03/2009, 16h38
  4. Script de login Python sur AD
    Par neoraptor dans le forum Général Python
    Réponses: 11
    Dernier message: 19/11/2008, 22h45
  5. Réponses: 6
    Dernier message: 03/05/2008, 10h29

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo