Retour d'expérience bigmemory

**datametric** · 04/08/2012, 18h52

Bonjour,
Quelqu'un pourrait faire un retour d'expérience sur l'utilisation des packages permettant de gérer les très grandes volumétries ?

Merci à tous.

**dev_ggy** · 13/08/2012, 14h38

Bonjour Datametic,

Concernant R et les grosses volumétries, voilà les réflexions que nous avons partagées dans mon entreprise.

Comme tu dois le savoir R met tout en cash dans la mémoire et fait les traitements après à la différence de SAS dont tu sembles être un expert.

Les solutions envisagées pour résoudre ces problèmes ont été les suivantes.

1) Du point de vue logiciel:

mmap: Pour ma part ne répond pas assez bien à ma problématique en raison d'un volume trop grand de données à gérer.

Hadoop: Pas essayer, mais très en vogue.

2) Les solutions de réduction des données.

C'est essentiellement vers ses solutions que nous avons pu traiter de gros volumes de données en segmentant et agrégeant les données trop volumineuses.

Voilà mon expérience en la matière,
Le seul conseil que je puisse te donner est de ne pas négliger la seconde solution qui semble sans intérêt mais qui en fin de compte est souvent la plus facile et la meilleure à mettre en œuvre.
Cordialement.

**datametric** · 13/08/2012, 14h44

Merci pour ton retour !

J'ai découvert le package BigMemory. Le connais-tu ? Il semble travailler sur le sujet du cash qui, effectivement, me tracasse. Je dois travailler sur des micro-données. SAS ne charge pas les données en mémoire sauf à lui dire et je ne me vois pas découper mes tables car les analyses en panel par exemple exigent toute la base pour mesurer les intéractions. J'ai d'ailleurs le même soucis avec STATA mais c'est une autre histoire.

La question que je me pose également est l'utilisation de R dans Hadoop. Il semble qu'il soit utilisé, ce qui signifierait que les données sont montées en mémoire ? Sauf si ce package http://cran.r-project.org/web/packag...ory/index.html l'évite.
Voir la note http://www.r-bloggers.com/michael-kane-on-bigmemory/

As-tu une opinion ?

**dev_ggy** · 13/08/2012, 18h07

Je ne connais pas le package bigmemory et je ne suis pas en mesure de répondre à tes questions. Pour moi le sujet des big data qui est lié au big memory est un sujet qui reste ouvert. Je suis aussi preneur de tout retour d'expérience du fait que j'y suis aussi confronté dans le data mining et les statistiques de masse.

Je peux juste t'indiquer que si tu veux faire des régressions pour l'analyse des panels tu as biglm qui a été conçu pour le génome. Concernant Hadoop et le retour d'expérience que j'en ai eu, c'est que c'est un vrai travail de mise en place.

Cordialement.

**vchouraki** · 15/08/2012, 10h23

Bonjour,

Là où je travaille actuellement, nous gérons de grand volumes de données mais les analyses que nous réalisons ne nécessitent pas la base entière. Du coup, la base, qui est un énorme fichier texte, est simplement divisée en fichiers plus petits gérables par R (au format .txt, .RData ou .rds). Ensuite, nous utilisons soit le package parallel pour lancer les analyses sur plusieurs processeurs, soit via un système de soumission de jobs (torque) sur un cluster.

http://cran.cict.fr/web/views/HighPe...Computing.html
http://bioconductor.org/help/course-...rogramming.pdf

HTH

Vincent

**datametric** · 15/08/2012, 14h32

OK.

rien à voir mais pourquoi un fichier texte pour la base et non pas une base de données (SQL, ORACLE ...) ?

**vchouraki** · 23/08/2012, 18h56

Bonjour,

Nous avons des bases postgresql mais nous n'avons pas le temps de tout passer en base de données relationnelle. De plus, pour certaines données, nous allons plus vite avec des scripts perl qu'avec des requêtes SQL.

Vincent

Retour d'expérience bigmemory

R

Discussions similaires

Partager

Partager