[BigData / DataScience] DataBurn

Bonjour,

Je m'appelle Théo, je suis en 3ème année d'école ingénieur informatique. J'ai découvert l'univers du BigData il y à peu et j'ai tout de suite accroché.

J'aimerais vous présenter une solution que je suis entrain de développer, DataBurn.
L'objectif, personnel, principal de DataBurn est d'élargir mes compétences en BigData mais aussi en programmation.

DataBurn, qu'est ce que c'est ?

C'est un outil permettant à un utilisateur d'importer des datasets et de créer ses propres algorithmes. Les algorithmes créés sont inclus dans DataBurn via un fichier de configuration et peuvent être exécuter sur un ou N dataset(s) via une commande.

DataBurn - DataBurnSet

Lorsqu'un dataset est importé dans DataBurn, il devient un DataBurnSet (très original, n'est-ce pas ?).
Composition d'un DataBurnSet :

DataBurnSet -> contient N (!= 0) à N +1 colonnes
Colonnes -> contient N à N +1 items

DataBurn - Algorithmes

Classe héritant de Algorithm avec override des methodes "Do" et "Done".
Do : corps de l'algorithmes
Done : affichage résultat, enregistrement (fichier, BDD, WS, ...)

Le fichier classe de l'algorithmes est placé dans un dossier "Algorithmes" à la racine de l'executable DataBurnConsole.exe . Le fichier .cs est référencer dans un settings.json et est compilé JIT.

DataBurn - Commandes

- load : charge un dataset
- exec resultat "algo1" "datasetName": execute un algorithme sur un dataset spécifié
- save -option "datasetName" : sauvegarde le dataset via l'option spéficié (-f file -db database)
- cut n "datasetName" : découpe le dataset en n part égales (créé dans datasetNameN")

DataBurn - Source de données
- Fichiers (csv, txt, xml, json)
- Base de données : NoSQL, MongoDB, MySQL, MSSQL
- APIs

A vrai dire je ne sais pas si j'ai été clair sur ce "qu'est" vraiment DataBurn, j'ai un peu des difficulté a synthétiser mais bon :roll:

Résumé :

Je suis un utilisateur, j'ai un ou plusieurs datasets et j'aimerais travailler avec. J'utilise DataBurn, je les charges, je créé mes algorithmes sur mes datasets et j'execute. Je peux enregistrer les résultat, ou non.

(Résumé vraiment vraiment simpliste).

Du coup j'aimerais avoir vos avis sur ce type d'outil et sur DataBurn en particulier, est-ce vraiment bien que j'y passe du temps ou je fonce droit dans le mur ?
A l'heure actuelle toutes les fonctionnalités citées ci-dessus ne sont pas fonctionnelles mais j'avance vraiment bien.
De plus j'aimerai créé un nouveau composant qui permettrait d'avoir une représentation graphique d'un ou de plusieurs datasets.

Merci d'avoir pris le temps de me lire.

Q+ :)

PS : si vous êtes intéressez par le projet, commentez, et si vous voulez aller plus loin, n'hésitez pas a me MP