IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

R et choix de base de données NoSQL


Sujet :

R

  1. #1
    Modératrice

    Femme Profil pro
    Statisticienne, Fondatrice de la société DACTA
    Inscrit en
    Juin 2010
    Messages
    893
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 35
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Statisticienne, Fondatrice de la société DACTA

    Informations forums :
    Inscription : Juin 2010
    Messages : 893
    Points : 2 673
    Points
    2 673
    Par défaut R et choix de base de données NoSQL
    Bonjour à tous,

    Je travaille actuellement à l'analyse de gros volumes de données avec R.
    J'avais initialement stocké ces données dans une base de données NoSQL "Cassandra", pensant ensuite utiliser le package "RCassandra" pour aller chercher ces données. Malheureusement je n'ai pas réussi à faire fonctionner ce package R. Dans la mesure où il n'a pas été mis à jour depuis longtemps (2013), j'ai supposé qu'il n'est plus comptabile avec les dernières versions de "Cassandra".

    Comme je ne veux pas écrire moi-même (si je peux l'éviter ^^) un package permettant de connecter R à une base de données NoSQL, je vais plutôt voir pour changer le format de ma base de données NoSQL. Donc avant de m'y lancer les yeux fermés, j'aurais voulu avoir vos retours quant à la solution à adopter/privilégier, surtout en fonction des packages R (de connections) disponibles et fonctionnant correctement ?

    Pour le moment je serais plutôt tentée d'utiliser une base de données "CouchBase" mais j'ai aussi vu qu'avec R, "mongoDB" est souvent utilisé (tout en sachant que par rapport à mon besoin, l'utilisation d'une base de données NoSQL plutôt orientée colonne ou plutôt orientée document n'a aucune incidence ^^).


    Voilà, ce post est pour avoir vos retours d'expériences à ce sujet, si retours il y a
    Merci d'avance !


    Cordialement,


    A.D.

    Forum R
    Fournir le code utilisé (pensez aux balises code !), les packages nécessaires, ainsi qu'un court mais représentatif extrait du jeu de données et les éventuels messages d'erreur.
    Recherche d'informations concernant R : RSiteSearch / tutoriels : http://r.developpez.com/cours/ .

    Pensez également au bouton "Résolu" et à voter (en bas à droite des messages) lorsque vous avez obtenu une réponse satisfaisante.

  2. #2
    Membre éprouvé

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Points : 1 189
    Points
    1 189
    Billets dans le blog
    2
    Par défaut
    Bonjour A.D.,

    Le monde des bases de données NoSQL est très vaste et je ne parle pas de l'écosystème Hadoop auquel tu penses peut-être.

    Pour savoir qu'elle base, tu dois prendre, tu dois te poser la question sur tes problématiques. Pour t'aider, j'aurais besoin d'en connaître plus. Par contre, je ne suis pas un spécialiste et même les spécialistes s’y perdent.

    Personnellement si je faisais un choix pour répondre à des problèmes de grosse volumétrie de données je prendrais Spark.

    Bien cordialement.

  3. #3
    Modératrice

    Femme Profil pro
    Statisticienne, Fondatrice de la société DACTA
    Inscrit en
    Juin 2010
    Messages
    893
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 35
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Statisticienne, Fondatrice de la société DACTA

    Informations forums :
    Inscription : Juin 2010
    Messages : 893
    Points : 2 673
    Points
    2 673
    Par défaut
    Bonjour dev_ggy,

    Merci pour ta réponse

    En fait pour l'instant ma question était plus limitée que ça, en gros : pour quelles bases de données NoSQL le CRAN dispose-t-il d'un package de connection "R / cette BDD NoQSL" qui fonctionne correctement (perso je n'ai pas réussi à faire fonctionner le package "RCassandra" avec une BDD "Cassandra" récente) ? Et pour ceux ayant un peu d'expériences sur le sujet : laquelle (de ces BDD) me recommanderiez-vous ? A savoir par exemple, laquelle est la plus efficace pour récupérer ses données dans R, notamment en terme de format des données (si je ne me trompe pas par exemple avec une BDD "CouchBase" on récupère du JSON).

    Après au niveau stockage de mes données et également de leur exploitation, que ça soit une BDD "Cassandra", "CouchBase" ou "MongoDB" par exemple, cela n'a pas d'incidence.

    Voilà, j'espère que mon besoin est un peu plus clair ^^
    Merci d'avance à ceux qui pourront me faire des retours.


    Bien cordialement,


    A.D.

    Forum R
    Fournir le code utilisé (pensez aux balises code !), les packages nécessaires, ainsi qu'un court mais représentatif extrait du jeu de données et les éventuels messages d'erreur.
    Recherche d'informations concernant R : RSiteSearch / tutoriels : http://r.developpez.com/cours/ .

    Pensez également au bouton "Résolu" et à voter (en bas à droite des messages) lorsque vous avez obtenu une réponse satisfaisante.

  4. #4
    ced
    ced est déconnecté
    Rédacteur/Modérateur

    Avatar de ced
    Homme Profil pro
    Gestion de bases de données techniques
    Inscrit en
    Avril 2002
    Messages
    6 016
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : France, Loiret (Centre)

    Informations professionnelles :
    Activité : Gestion de bases de données techniques
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Avril 2002
    Messages : 6 016
    Points : 23 705
    Points
    23 705
    Par défaut
    Bonjour,

    Qu'est-ce que tu entends par "gros volumes de données" ? Des To ? Des Go ?
    Est-ce que tu ne peux pas les mettre dans une base relationnelle ? Auquel cas, l'interrogation devient plus facile, via les packages propres à chaque base, ou RODBC, ou encore RJDBC...

    Sinon, il est tout à fait possible, depuis la version 9.3 et encore plus en 9.4, de mettre du JSON (format utilisé pour les stockages dans les bases NoSQL) sous PostgreSQL. Il dispose alors de tout un tas de fonction pour aller chercher les infos stockées sous cette forme. Et en plus, c'est une base transactionnelle (contrairement à MongoDB par exemple). Et là, pas de problème pour l'attaquer depuis R.

    Personnellement, j'irais dans cette direction.

    ced
    Rédacteur / Modérateur SGBD et R
    Mes tutoriels et la FAQ MySQL

    ----------------------------------------------------
    Pensez aux balises code et au tag
    Une réponse vous a plu ? N'hésitez pas à y mettre un
    Je ne réponds pas aux questions techniques par message privé, les forums sont là pour ça

  5. #5
    ced
    ced est déconnecté
    Rédacteur/Modérateur

    Avatar de ced
    Homme Profil pro
    Gestion de bases de données techniques
    Inscrit en
    Avril 2002
    Messages
    6 016
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 48
    Localisation : France, Loiret (Centre)

    Informations professionnelles :
    Activité : Gestion de bases de données techniques
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Avril 2002
    Messages : 6 016
    Points : 23 705
    Points
    23 705
    Par défaut
    Si vraiment c'est une base "NoSQL" que tu veux, tu as ToroDB, qui tourne sur un moteur PostgreSQL. Encore une fois, pas de problème de connexion particulier...
    Rédacteur / Modérateur SGBD et R
    Mes tutoriels et la FAQ MySQL

    ----------------------------------------------------
    Pensez aux balises code et au tag
    Une réponse vous a plu ? N'hésitez pas à y mettre un
    Je ne réponds pas aux questions techniques par message privé, les forums sont là pour ça

  6. #6
    Modératrice

    Femme Profil pro
    Statisticienne, Fondatrice de la société DACTA
    Inscrit en
    Juin 2010
    Messages
    893
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 35
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Statisticienne, Fondatrice de la société DACTA

    Informations forums :
    Inscription : Juin 2010
    Messages : 893
    Points : 2 673
    Points
    2 673
    Par défaut
    Salut ced, merci pour tes réponses

    Je ne connaissais pas "ToroDB", peut-être une piste à explorer...

    Au niveau volume de données, c'est des données que je récupère depuis "Google Analytics" et d'autres sources diverses, tous les jours (via un petit crawler), donc à terme il y a moyen que ça soit assez conséquent (c'est d'ailleurs le but ^^).

    Du coup, je suis malgré tout toujours preneuse de retours sur la connection de BDD "vraiment" NoSQL (CouchBase, MongoDB, ...) avec R. Merci d'avance !


    Cordialement,


    A.D.

    Forum R
    Fournir le code utilisé (pensez aux balises code !), les packages nécessaires, ainsi qu'un court mais représentatif extrait du jeu de données et les éventuels messages d'erreur.
    Recherche d'informations concernant R : RSiteSearch / tutoriels : http://r.developpez.com/cours/ .

    Pensez également au bouton "Résolu" et à voter (en bas à droite des messages) lorsque vous avez obtenu une réponse satisfaisante.

  7. #7
    Membre éprouvé

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Points : 1 189
    Points
    1 189
    Billets dans le blog
    2
    Par défaut
    Bonjour A.D,

    Pour te répondre,

    Citation Envoyé par A. D. Voir le message
    tous les jours (via un petit crawler), donc à terme il y a moyen que ça soit assez conséquent (c'est d'ailleurs le but ^^).
    Je suppose que cela représente une petite base pour un serveur classique et dans ce cas les solutions autour de PostgreSQL sont un très bon choix. De plus, R se connecte bien à PostgreSQL. L’intérêt des bases NoSQL n’apporte pas plus davantage qu’une base de données classique surtout si tu l’utilises sur une seule machine et de la même façon qu’une base orientée SQL.

    Pour mieux te répondre et te comprendre, il faut que tu en dises plus sur tes données pour te conseiller le bon choix à faire parmi cette diversité. Il existe de très très nombreuses bases NoSQL. On si perd.

    De plus, généraliser des retours d’expérience entre R et des bases NoSQL n’a pas forcément de sens. Dans la mesure où chaque base peut avoir un langage propre selon le type de données qu’elles gèrent. Exemple : Une base orientée graph n’a rien à voire avec une base orientée documents. Leurs langages ne sont pas de même nature.

    Il me semble que du début dans ce domaine bien vaste ?


    À ton écoute,
    Bien cordialement.

  8. #8
    Modératrice

    Femme Profil pro
    Statisticienne, Fondatrice de la société DACTA
    Inscrit en
    Juin 2010
    Messages
    893
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 35
    Localisation : France, Loire Atlantique (Pays de la Loire)

    Informations professionnelles :
    Activité : Statisticienne, Fondatrice de la société DACTA

    Informations forums :
    Inscription : Juin 2010
    Messages : 893
    Points : 2 673
    Points
    2 673
    Par défaut
    Bonjour dev_ggy,

    Merci pour ta réponse

    Je reste persuadée qu'une base de données NoSQL est la solution pour mon problème dans la mesure où je vais avoir (à terme) un gros volume de données (données journalières relatives à une appli mobile + site web, avec un grand nombre d'utilisateurs) et également je souhaite pouvoir y accéder "en live" via un dashboard mis en place avec le package R "shinydashboard".

    Après, comme je le disais dans un de mes précédents messages, pour le besoin que j'ai, plusieurs types de BDD NoSQL semblent convenir (par exemple "Cassandra", "CouchBase" ou "MongoDB", mais sûrement d'autres également) et je ne demandais pas tant un conseil sur le choix de la base en elle-même mais plus sur les packages R existants qui permettent de se relier à ce genre de BDD. En effet, j'ai testé le package "RCassandra" (non mis à jour depuis plusieurs années) et malheureusement il n'est plus compatible avec une version récente de BDD Cassandra (car il y a eu des changements du côté Cassandra).

    Du coup, pour résumer, ma (mes ^^) question serait plutôt : pour ceux qui ont déjà importé dans R des données depuis une base de données NoSQL, laquelle était-ce ? quel package R / solution de connection avez-vous utilisée ? quelles en sont les éventuelles limites ? quels sont vos éventuels conseils sur le sujet ?

    Merci d'avance !


    Cordialement,


    A.D.

    Forum R
    Fournir le code utilisé (pensez aux balises code !), les packages nécessaires, ainsi qu'un court mais représentatif extrait du jeu de données et les éventuels messages d'erreur.
    Recherche d'informations concernant R : RSiteSearch / tutoriels : http://r.developpez.com/cours/ .

    Pensez également au bouton "Résolu" et à voter (en bas à droite des messages) lorsque vous avez obtenu une réponse satisfaisante.

  9. #9
    Membre éprouvé

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Points : 1 189
    Points
    1 189
    Billets dans le blog
    2
    Par défaut
    Bonjour A.D.,

    Je ne suis pas compétent sur la question des liens entre R et les bases NoSQL. Je ne pourrais pas t'aider.

    Par contre, je dois t'alerter sur la question de la volumétrie pour les bases que tu cites. Elle n'a pas d'intérêt que dans le cas distribuer. Ce qui veut dire plusieurs serveurs partageant tes données (Avec des difficultés de mises en place et de maintenance).

    Je pense que ced à raison sur ses conseils pour un environnement mono serveur.

    Pour les problèmes de connexion, personnellement j'utilise uniquement Python. Mais quand on passe au cas distribuer je ne pense pas que la question du langage R se pose en ces termes.

    Avec mes meilleures attentions,

Discussions similaires

  1. Choix de Base de données géographique
    Par sinfos dans le forum Décisions SGBD
    Réponses: 2
    Dernier message: 17/09/2008, 15h03
  2. Choix de base de données
    Par harris_macken dans le forum Collection et Stream
    Réponses: 6
    Dernier message: 21/02/2008, 19h29
  3. Comment arbitrer le choix Une base de donnée ou deux ?
    Par medstat2 dans le forum Décisions SGBD
    Réponses: 1
    Dernier message: 28/03/2006, 16h42
  4. [Jeu MultiJoueurs] Quel choix de base de données ?
    Par Torpedox dans le forum Décisions SGBD
    Réponses: 9
    Dernier message: 20/03/2006, 10h23
  5. combobox et me permette le choix des bases de données
    Par crash override dans le forum Composants VCL
    Réponses: 6
    Dernier message: 21/10/2005, 16h28

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo