IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

BIGGLM, GLM, SPEEDGLM données massives


Sujet :

R

  1. #1
    Membre du Club
    Homme Profil pro
    Data analyst
    Inscrit en
    Mars 2014
    Messages
    81
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Data analyst
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mars 2014
    Messages : 81
    Points : 65
    Points
    65
    Par défaut BIGGLM, GLM, SPEEDGLM données massives
    Bonjour à tous,

    Je viens vers vous après avoir épuisé toutes mes tentatives pour résoudre mon problème.

    Je dois faire une regression logistique avec une selection de modèle (pour choisir le meilleur, le plus prédictif et le plus stable) en faisant une selection pas à pas (backward, forward, stepwise) avec minimisant le critère AIC, jusqu'au là rien d'extraordinaire.

    Cependant je travaille sur des données massive (mais pas autant que ça) je dispose de 300k observation et 250 variables, si je m'y met de manière classique R a du mal avec la RAM de 4Go surtout lors de la selection de modèle.

    J'ai essayé d'utiliser le BIGGLM qui est fait pour les données massive, mais cela ne marche pas, puisqu'il travaille par couches (par 5000 par exemple) il faut qu'il y est les mêmes modalités de la variable cible dans chaque couche , chose que je n'arrive pas à avoir.

    Mais la GLM fait bien son travail jusqu'au la, le problème c'est lors de la selection de modèle que cela bug.

    J'ai pris les piste du package parallel et doSNOW par contre je n'ai pas suffisamment de maîtrise la dessus.

    Pourriez vous m'aider à pouvoir faire le stepAIC sur ces données massives svp ?


    Merci

    Bien à vous !

  2. #2
    Membre éprouvé

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Points : 1 155
    Points
    1 155
    Billets dans le blog
    2
    Par défaut
    Bonjour Draculla,

    Je regarderais du côté de la fonction GLM et des raisons du "bug".
    Dans le cas ou j'aurais trop de données, je resterais un puis plusieurs échantillons que je pourrais comparer ensuite entrent eux.

    Au plaisir de te lire.

  3. #3
    Membre du Club
    Homme Profil pro
    Data analyst
    Inscrit en
    Mars 2014
    Messages
    81
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Data analyst
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mars 2014
    Messages : 81
    Points : 65
    Points
    65
    Par défaut
    Bonjour dev_ggy,

    Merci pour la réponse rapide.

    J'ai mal formulé ma phrase en mettant le mot "bug", en vrai c'est juste qu'il ne peut pas allouer le résultat d'un stepwise (problème de mémoire).

    J'ai testé avec des échantillons (même de 1%) cela reste long et lent avec les 200 variables.

    A priori je n'aurai pas d'autres choix que de le faire manuellement.

    Merci

    Bien à toi

  4. #4
    Membre éprouvé

    Homme Profil pro
    Cyber Security & AI
    Inscrit en
    Février 2009
    Messages
    506
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Oise (Picardie)

    Informations professionnelles :
    Activité : Cyber Security & AI

    Informations forums :
    Inscription : Février 2009
    Messages : 506
    Points : 1 155
    Points
    1 155
    Billets dans le blog
    2
    Par défaut
    Il est possible de faire une ACP, ACM ... pour réduire ton nombre de variables ?

  5. #5
    Membre du Club
    Homme Profil pro
    Data analyst
    Inscrit en
    Mars 2014
    Messages
    81
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : France, Hauts de Seine (Île de France)

    Informations professionnelles :
    Activité : Data analyst
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mars 2014
    Messages : 81
    Points : 65
    Points
    65
    Par défaut
    J'ai pensé à le faire, mais c'est sortir la machine de guerre pour juste une selection de variables concernant mon cas.

    Le but de mon stepwise est de réduire justement la nombre de variables, pour bien retravailler celles qui seront retenues.

    Je pense que je vais procéder autrement; calculer le V de cramer de toutes les variables avec la variables cibles (le problème avec cette démarche c'est que je peux avoir une variable corrélée qui ne sera pas significative dans le modèle), puis je regarderai les corrélation de toutes les variables 2 à 2 cela me permettra de réduire le nombre de variables.

    Merci à toi.

Discussions similaires

  1. Réponses: 1
    Dernier message: 07/06/2017, 09h41
  2. [1.x] migration de données massive vers symfony ?
    Par mjhvc dans le forum Symfony
    Réponses: 8
    Dernier message: 28/10/2010, 19h08
  3. Problème d'insertion massive de données
    Par donnadieujulien dans le forum DB2
    Réponses: 9
    Dernier message: 09/09/2008, 21h40
  4. Importation de donnée massives (via fichier)
    Par lulu1708 dans le forum MS SQL Server
    Réponses: 1
    Dernier message: 13/09/2006, 16h13

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo