Bonjour tout le monde,
Voilà j'ai vu ici et là que beaucoup d'utilisateurs utilisaient R même lorsqu'ils devaient traiter de gros volume de données.
Je ne parle pas de "Big Data" mais on va dire qu'on s'en rapproche.
Par exemple lorsque je lance des algos déjà implémenté dans R en classification par exemple j'ai tendance à voir R "crasher" et je me demandais donc quelles solutions vous utilisiez?
Est-ce que vous pouvez vous permettre de faire tourner ce type d'algorithme sur disons un jeu de données composé de 300,000 lignes et 30 variables (environ 30 Mb) avec une machine ayant les paramètres suivants :
- Intel Core i5 2500 à 3.3GHz
- 64 bits
- 4 Gb de RAM
- SSD de 115 GiB
Sinon j'ai vu qu'il existait plusieurs solutions pour les CAH (qui sont gourmandes en temps de calcul) et parfois sur d'autres algos un échantillonnage est fait en amont.
Mais ma question est plus sur "peut on vraiment envoyer toute BDD avec R et si oui comment?" (recoder, passer par tel ou tel package, etc.).
Si quelqu'un a des infos je suis preneur
Cordialement,
Hollow
Partager