Salut tout le monde,
Je ne sais pas si je suis dans la bonne catégorie, alors je me lance et on verra
Par le passé, j'ai travaillé sur l'ancêtre du Big Data : je faisais de la BI. Donc j'ai été élevé au SQL, aux SGBD, puis aux datamart. J'ai ensuite changé de type de projet, et je me suis éloigné du monde de la data.
J'ai un petit projet que j'aimerai prototyper. J'ai un outil que me génère des logs au format CSV avec 5 champs classiques (date, nom d'un user, action...) et un champ json contenant notamment une IP.
Avant de charger ces données dans un outil, j'aimerai les "transformer" :
- ajouter un champ à chaque enregistrement (sur le principe de la relation 1-n), ce champ contiendrait le numéro du serveur à l'origine de la log.
- anonymiser les IP
- tokeniser les emails (éventuellement)
Côté analyse, j'aimerai pouvoir réaliser des études simples sur ces données : géolocalisation des IP pour déterminer des anomalies, statistiques sur les actions de chaque user, analyse chronologique des événements, simulation de règle du jeu (Si j'accordais un point à un user pour telle action, quel serait son score au bout de 3 mois et qui gagnerait...).
Quelles solution ou piles de solutions me conseilleriez-vous pour ce prototype ? Est-ce qu'une suite ELK serait adaptée par exemple ?
Merci d'avance pour votre avis éclairé sur le sujet.
Partager