Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

+ Répondre à la discussion

Big Data

Discussion :

Besoin d'aide pour mettre en place place airflow et spark sur un cluster kubernetes

Sujet :

Big Data

Outils de la discussion
- Afficher une version imprimable
- S'abonner à cette discussion…
Affichage
- Mode linéaire
- Choisir le mode hybride
- Choisir le mode arborescent

05/03/2023, 18h47 #1

KuRuVI

Membre à l'essai

Étudiant
Inscrit en
Juin 2018
Messages
16
Détails du profil
Informations personnelles :
Sexe :
Localisation : France, Paris (Île de France)

Informations professionnelles :
Activité : Étudiant
Secteur : Enseignement

Informations forums :
Inscription : Juin 2018
Messages : 16
Points : 14
Points
14

Besoin d'aide pour mettre en place place airflow et spark sur un cluster kubernetes

Hello à tous,

J'essaie de mettre en place un pipeline data avec Airflow.
Dans mon scénario :
- Airflow tournerait sur le cluster kubernetes disponible dans Docker Desktop,
- mon pipeline lancerait un job Spark pour récupérer des données disponible sur un bucket GCP et les traiter.

Pour mettre en place ce pipeline localement j'hésite entre 3 différentes méthodes (peut-être pas faisables) :

1ère méthode :
- Utiliser Docker Desktop pour démarrer un cluster kubernetes
- Démarrer dans ce cluster deux conteneurs : un contenant Airflow et un contenant Spark et python
- Utilisez docker-compose pour communiquer avec les deux conteneurs.
- Créer la connexion Spark pour utiliser le SparkSubmitOperator.
- Créez les dags

Cette méthode me gène car je ne vois pas l'intérêt de démarrer un container Spark et python dans le cluster. Je pense qu'il serait préférable de faire tourner ce container en dehors du cluster.

2ème méthode :
- Utiliser Docker Desktop pour démarrer un cluster kubernetes
- Démarrer dans ce cluster un seul conteneur contenant Airflow, Spark et Python (pour faire du pyspark)
- Créer la connexion Spark pour utiliser le SparkSubmitOperator.
- Créer les dags

Merci d'avance pour votre aide !

Répondre avec citation 0 0

+ Répondre à la discussion

COURS & TUTORIELS

« Discussion précédente | Discussion suivante »

Discussions similaires

Aide pour mettre en place le https de mon git lab
Par keokaz dans le forum Sécurité

Réponses: 1
Dernier message: 23/11/2019, 15h26
[AC-2007] besoin d'aide pour mise en place gestion d'erreur
Par tibofo dans le forum VBA Access

Réponses: 3
Dernier message: 10/03/2010, 23h08
Aide pour mettre en place un RAID-1 logiciel sous FreeBSD
Par Invité dans le forum BSD

Réponses: 2
Dernier message: 19/08/2009, 10h59
Besoin d'aide pour mettre en place une redirection avant lecture(streaming)
Par seboseboss dans le forum Débuter

Réponses: 0
Dernier message: 09/10/2008, 14h45
Besoin d'aide pour mettre des données dans un tableau de tab
Par goblin dans le forum Langage

Réponses: 3
Dernier message: 05/12/2005, 02h30

Partager

Partager

×

Vous avez un bloqueur de publicités installé.

Le Club Developpez.com n'affiche que des publicités IT, discrètes et non intrusives.

Afin que nous puissions continuer à vous fournir gratuitement du contenu de qualité, merci de nous soutenir en désactivant votre bloqueur de publicités sur Developpez.com.