Hello à tous,

J'essaie de mettre en place un pipeline data avec Airflow.
Dans mon scénario :
- Airflow tournerait sur le cluster kubernetes disponible dans Docker Desktop,
- mon pipeline lancerait un job Spark pour récupérer des données disponible sur un bucket GCP et les traiter.

Pour mettre en place ce pipeline localement j'hésite entre 3 différentes méthodes (peut-être pas faisables) :

1ère méthode :
- Utiliser Docker Desktop pour démarrer un cluster kubernetes
- Démarrer dans ce cluster deux conteneurs : un contenant Airflow et un contenant Spark et python
- Utilisez docker-compose pour communiquer avec les deux conteneurs.
- Créer la connexion Spark pour utiliser le SparkSubmitOperator.
- Créez les dags

Cette méthode me gène car je ne vois pas l'intérêt de démarrer un container Spark et python dans le cluster. Je pense qu'il serait préférable de faire tourner ce container en dehors du cluster.

2ème méthode :
- Utiliser Docker Desktop pour démarrer un cluster kubernetes
- Démarrer dans ce cluster un seul conteneur contenant Airflow, Spark et Python (pour faire du pyspark)
- Créer la connexion Spark pour utiliser le SparkSubmitOperator.
- Créer les dags


Merci d'avance pour votre aide !