Data mining et gros volume de données

**dev_ggy** · 12/02/2013, 12h45

Bonjour a tous,

Je m'interroge sur l’industrialisation du data mining avec Python avec des bibliothèques de type sitick-learn(data mining) ou panda(times series). Je travail beaucoup avec R et j'aime python mais ces langages semblent limités pour les très gros volumétries de données à l'exception peut être de quelles que librairie sous R étudiés pour la génomie.

Je voulais savoir si d'autres personnes étaient dans le même cas que moi, à s'interroger sur les contraintes de volumétrie. Les bases sur la quel nous travaillons étant très importantes et ceci de façon croissante. Le type d’algorithme et la gestion de la mémoire de ce type de bibliothèque qui mets l'ensemble des données en cach pour des raisons de performance ne permet pas de gérer de gros volume de données de lors du Terra ou bien plus.

Les seuls solutions viable que j'ai trouver c'est mahout, un module de hadoop, mais on sort du cadre de Python.

Je voulais savoir si mon analyse est bonne, si je me trompe sur les librairies python et que était l'avis d'autre et des retour d'expérience si possible.

**wiztricks** · 12/02/2013, 15h25

Salut,

Pour analyser rapidement des Terabytes de données, il faut construire une "infrastructure" de type "grid" dotée d'un minimum d'outils pour y faire des "search".

"rapidement" => répartir les données sur le plus grand nombre de (disques x serveurs x liens réseaux) que permet votre budget.
Collez des disques de 1To à votre PC: le nombre de GB/s. pouvant être traité sera si petit que le langage de programmation n'a pas grande importance.

Il faut du logiciel pour rendre l'infrastructure "utilisable". Ce logiciel pourrait être écrit tout ou partie en Python, mais l'important sera les services qui seront "offerts".

Un programme "basique" dans ce contexte sera de pouvoir utiliser ces "services" en tant que "client" - soumettre des "search" - et d'en récupérer les résultats. Python, JavaScript, ... sont des langages qui conviennent assez bien pour exprimer les requêtes à traiter par cette "infrastructure".
Mais il ne faut pas trop mélanger le langage de programmation des requêtes (le côté client) et celui utilisé pour la réalisation des services (qui n'a pas grande importance pour l'utilisateur).

- W

**utopman** · 16/02/2013, 11h48

Bonjour,

pour ma part, je pense que comme le décrit wiztricks, l'analyse génomique sur plusieurs terra requiert plusieurs machines physiques.

Concernant l'architecture d'un programme d'analyse des données la problématique est également un problème de coût. Je pense que développer un programme en C ou C++ prend plus de temps qu'un programme en python.

La réflexion est donc peut être d'avantage sur les moyens à disposition que sur un choix technologique pur et dur.

Pour ma part, le bon compromis est de faire la partie calculatoire sous forme de librairies C ou C++ qui sont rapides et permettent d'importants gains de temps de calcul et donc permettent de traiter d'avantage de données avec les même machines. Ces librairies peuvent tout à fait être interfacées en python pour la manipulation des résultats, l'agrégation des données, la construction de rapports ou de statistiques... . Ensuite, s'il y a une partie client, elle peut plutôt facilement être conçue en HTML CSS Javascript qui sont des technologies souples et relativement aisées à mettre en oeuvre.

Cordialement

Data mining et gros volume de données

Calcul scientifique Python

Discussions similaires

Partager

Partager