Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #1
    Futur Membre du Club
    Homme Profil pro
    Analyste d'exploitation
    Inscrit en
    avril 2013
    Messages
    5
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Nord (Nord Pas de Calais)

    Informations professionnelles :
    Activité : Analyste d'exploitation

    Informations forums :
    Inscription : avril 2013
    Messages : 5
    Points : 8
    Points
    8

    Par défaut Architecture pour traiter les données

    Bonjour,

    J’ai des données de logs qui arrivent en masse sous format json tous les jours et je voudrais trouver la bonne architecture pour les stocker et les utiliser après via une api rest.
    Pour cela j’ai pensé à utiliser Hive pour stocker les données dans le cluster hadoop et ensuite écrire une api rest pour les fournir aux clients, mais si j’utilise par la suite des queries Hive dans l’api rest, j’ai peur que cela prenne beaucoup trop de temps, car il y a tout un process de transformation des queries Hive vers des mappers & reducers qui risque de prendre 1-2 minutes ou plus avant d’avoir les résultats, je voudrais pouvoir fournir les résultats aux travers de l’api rest en 1-3 secondes maximum.
    Pouvez-vous me conseiller sur la bonne architecture à adopter ? Est-ce que je dois utiliser une base de données intermédiaire pour accélérer les queries de select afin de fournir les résultats plus rapidement ? Ou utiliser Spark pour aller chercher les données dans la base de données Hive ? Ou autres ?

    Merci

  2. #2
    Membre habitué
    Homme Profil pro
    Inscrit en
    octobre 2007
    Messages
    177
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : octobre 2007
    Messages : 177
    Points : 179
    Points
    179

    Par défaut

    hadoop c'est du batching et travaille sur disque, spark c'est du "temps réel" car il travaille en mémoire

    spark 2 utilise yarn,mesos hadoop hdfs, hive, mais vous pouvez utiliser directement cassandra dans spark

    hive peut gerer n'importe quoi derrière via les méta données stockées dans derby, mais les performances ne sont pas forcément au rendez vous,
    donc si il y a de fortes contraintes à ce niveau, il faut utiliser autre chose, cassandra, mongo, hbase etc...

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Choix de VB ou VBA pour traiter les données d'un fichier excel
    Par arsène_53 dans le forum Microsoft Office
    Réponses: 3
    Dernier message: 14/08/2017, 18h17
  2. Problème pour traiter les données dans JTable
    Par sadak005 dans le forum Composants
    Réponses: 2
    Dernier message: 15/01/2013, 13h57
  3. Problème pour lire les donnée d'une table externe
    Par mardoch dans le forum SQL*Loader
    Réponses: 6
    Dernier message: 17/07/2008, 16h41
  4. Delphi7-DOA : procédure dynamique pour ramener les données?
    Par delphim dans le forum Bases de données
    Réponses: 5
    Dernier message: 06/12/2004, 18h26
  5. Réponses: 4
    Dernier message: 18/08/2003, 09h53

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo