IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Volume de données important et R


Sujet :

R

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre confirmé
    Inscrit en
    Avril 2007
    Messages
    127
    Détails du profil
    Informations forums :
    Inscription : Avril 2007
    Messages : 127
    Par défaut Volume de données important et R
    Bonjour tout le monde,

    Voilà j'ai vu ici et là que beaucoup d'utilisateurs utilisaient R même lorsqu'ils devaient traiter de gros volume de données.
    Je ne parle pas de "Big Data" mais on va dire qu'on s'en rapproche.

    Par exemple lorsque je lance des algos déjà implémenté dans R en classification par exemple j'ai tendance à voir R "crasher" et je me demandais donc quelles solutions vous utilisiez?

    Est-ce que vous pouvez vous permettre de faire tourner ce type d'algorithme sur disons un jeu de données composé de 300,000 lignes et 30 variables (environ 30 Mb) avec une machine ayant les paramètres suivants :

    - Intel Core i5 2500 à 3.3GHz
    - 64 bits
    - 4 Gb de RAM
    - SSD de 115 GiB

    Sinon j'ai vu qu'il existait plusieurs solutions pour les CAH (qui sont gourmandes en temps de calcul) et parfois sur d'autres algos un échantillonnage est fait en amont.
    Mais ma question est plus sur "peut on vraiment envoyer toute BDD avec R et si oui comment?" (recoder, passer par tel ou tel package, etc.).

    Si quelqu'un a des infos je suis preneur

    Cordialement,

    Hollow

  2. #2
    Futur Membre du Club
    Femme Profil pro
    statisticien
    Inscrit en
    Septembre 2013
    Messages
    3
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : statisticien
    Secteur : Santé

    Informations forums :
    Inscription : Septembre 2013
    Messages : 3
    Par défaut
    Bonjour,

    votre message date déjà de plusieurs semaines, mais reste sans réponse.
    Je me demandais si vous aviez pu obtenir des informations par ailleurs, je cherche moi aussi une solution pour travailler avec de gros volumes de données.
    J'ai bien trouvé les packages type bigmemory, biglm, ff et autres qui restent cependant limités dans mon cas.

    En effet, j'ai besoin de pouvoir construire une matrice carrée symétrique de très grande taille (N=100 000), pour pouvoir ensuite faire du clustering, mais je reste bloquée avec le stockage en mémoire d'un objet aussi important.
    Si vous aviez des pistes de réflexion, ou que quelqu'un ait une solution.

    Merci.

Discussions similaires

  1. Conception BDD avec volume de données important
    Par joKED dans le forum Décisions SGBD
    Réponses: 7
    Dernier message: 10/09/2012, 13h07
  2. Réponses: 5
    Dernier message: 11/10/2010, 16h04
  3. Réponses: 0
    Dernier message: 29/06/2010, 13h22
  4. techniques d'importation gros volume de données
    Par voyageur dans le forum MS SQL Server
    Réponses: 5
    Dernier message: 10/12/2007, 16h51
  5. 50Gb de volume de données ???
    Par hubble dans le forum Décisions SGBD
    Réponses: 3
    Dernier message: 14/04/2004, 17h39

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo