Volume de données important et R

**hollowdeadoss** · 29/07/2013, 17h23

Bonjour tout le monde,

Voilà j'ai vu ici et là que beaucoup d'utilisateurs utilisaient R même lorsqu'ils devaient traiter de gros volume de données.
Je ne parle pas de "Big Data" mais on va dire qu'on s'en rapproche.

Par exemple lorsque je lance des algos déjà implémenté dans R en classification par exemple j'ai tendance à voir R "crasher" et je me demandais donc quelles solutions vous utilisiez?

Est-ce que vous pouvez vous permettre de faire tourner ce type d'algorithme sur disons un jeu de données composé de 300,000 lignes et 30 variables (environ 30 Mb) avec une machine ayant les paramètres suivants :

- Intel Core i5 2500 à 3.3GHz
- 64 bits
- 4 Gb de RAM
- SSD de 115 GiB

Sinon j'ai vu qu'il existait plusieurs solutions pour les CAH (qui sont gourmandes en temps de calcul) et parfois sur d'autres algos un échantillonnage est fait en amont.
Mais ma question est plus sur "peut on vraiment envoyer toute BDD avec R et si oui comment?" (recoder, passer par tel ou tel package, etc.).

Si quelqu'un a des infos je suis preneur

Cordialement,

Hollow

**utlisateur2013** · 20/09/2013, 16h31

Bonjour,

votre message date déjà de plusieurs semaines, mais reste sans réponse.
Je me demandais si vous aviez pu obtenir des informations par ailleurs, je cherche moi aussi une solution pour travailler avec de gros volumes de données.
J'ai bien trouvé les packages type bigmemory, biglm, ff et autres qui restent cependant limités dans mon cas.

En effet, j'ai besoin de pouvoir construire une matrice carrée symétrique de très grande taille (N=100 000), pour pouvoir ensuite faire du clustering, mais je reste bloquée avec le stockage en mémoire d'un objet aussi important.
Si vous aviez des pistes de réflexion, ou que quelqu'un ait une solution.

Merci.

Volume de données important et R

R

Vue hybride

Discussions similaires

Partager

Partager