Bonjour,
Quelqu'un pourrait faire un retour d'expérience sur l'utilisation des packages permettant de gérer les très grandes volumétries ?
Merci à tous.
Bonjour,
Quelqu'un pourrait faire un retour d'expérience sur l'utilisation des packages permettant de gérer les très grandes volumétries ?
Merci à tous.
N'oubliez pas de cliquer sur lorsque votre problème est réglé !
Bonjour Datametic,
Concernant R et les grosses volumétries, voilà les réflexions que nous avons partagées dans mon entreprise.
Comme tu dois le savoir R met tout en cash dans la mémoire et fait les traitements après à la différence de SAS dont tu sembles être un expert.
Les solutions envisagées pour résoudre ces problèmes ont été les suivantes.
1) Du point de vue logiciel:
mmap: Pour ma part ne répond pas assez bien à ma problématique en raison d'un volume trop grand de données à gérer.
Hadoop: Pas essayer, mais très en vogue.
2) Les solutions de réduction des données.
C'est essentiellement vers ses solutions que nous avons pu traiter de gros volumes de données en segmentant et agrégeant les données trop volumineuses.
Voilà mon expérience en la matière,
Le seul conseil que je puisse te donner est de ne pas négliger la seconde solution qui semble sans intérêt mais qui en fin de compte est souvent la plus facile et la meilleure à mettre en œuvre.
Cordialement.
Merci pour ton retour !
J'ai découvert le package BigMemory. Le connais-tu ? Il semble travailler sur le sujet du cash qui, effectivement, me tracasse. Je dois travailler sur des micro-données. SAS ne charge pas les données en mémoire sauf à lui dire et je ne me vois pas découper mes tables car les analyses en panel par exemple exigent toute la base pour mesurer les intéractions. J'ai d'ailleurs le même soucis avec STATA mais c'est une autre histoire.
La question que je me pose également est l'utilisation de R dans Hadoop. Il semble qu'il soit utilisé, ce qui signifierait que les données sont montées en mémoire ? Sauf si ce package http://cran.r-project.org/web/packag...ory/index.html l'évite.
Voir la note http://www.r-bloggers.com/michael-kane-on-bigmemory/
As-tu une opinion ?
N'oubliez pas de cliquer sur lorsque votre problème est réglé !
Je ne connais pas le package bigmemory et je ne suis pas en mesure de répondre à tes questions. Pour moi le sujet des big data qui est lié au big memory est un sujet qui reste ouvert. Je suis aussi preneur de tout retour d'expérience du fait que j'y suis aussi confronté dans le data mining et les statistiques de masse.
Je peux juste t'indiquer que si tu veux faire des régressions pour l'analyse des panels tu as biglm qui a été conçu pour le génome. Concernant Hadoop et le retour d'expérience que j'en ai eu, c'est que c'est un vrai travail de mise en place.
Cordialement.
Bonjour,
Là où je travaille actuellement, nous gérons de grand volumes de données mais les analyses que nous réalisons ne nécessitent pas la base entière. Du coup, la base, qui est un énorme fichier texte, est simplement divisée en fichiers plus petits gérables par R (au format .txt, .RData ou .rds). Ensuite, nous utilisons soit le package parallel pour lancer les analyses sur plusieurs processeurs, soit via un système de soumission de jobs (torque) sur un cluster.
http://cran.cict.fr/web/views/HighPe...Computing.html
http://bioconductor.org/help/course-...rogramming.pdf
HTH
Vincent
OK.
rien à voir mais pourquoi un fichier texte pour la base et non pas une base de données (SQL, ORACLE ...) ?
N'oubliez pas de cliquer sur lorsque votre problème est réglé !
Bonjour,
Nous avons des bases postgresql mais nous n'avons pas le temps de tout passer en base de données relationnelle. De plus, pour certaines données, nous allons plus vite avec des scripts perl qu'avec des requêtes SQL.
Vincent
Vous avez un bloqueur de publicités installé.
Le Club Developpez.com n'affiche que des publicités IT, discrètes et non intrusives.
Afin que nous puissions continuer à vous fournir gratuitement du contenu de qualité, merci de nous soutenir en désactivant votre bloqueur de publicités sur Developpez.com.
Partager