Bonjour à tous,
Je viens vers vous après avoir épuisé toutes mes tentatives pour résoudre mon problème.
Je dois faire une regression logistique avec une selection de modèle (pour choisir le meilleur, le plus prédictif et le plus stable) en faisant une selection pas à pas (backward, forward, stepwise) avec minimisant le critère AIC, jusqu'au là rien d'extraordinaire.
Cependant je travaille sur des données massive (mais pas autant que ça) je dispose de 300k observation et 250 variables, si je m'y met de manière classique R a du mal avec la RAM de 4Go surtout lors de la selection de modèle.
J'ai essayé d'utiliser le BIGGLM qui est fait pour les données massive, mais cela ne marche pas, puisqu'il travaille par couches (par 5000 par exemple) il faut qu'il y est les mêmes modalités de la variable cible dans chaque couche , chose que je n'arrive pas à avoir.
Mais la GLM fait bien son travail jusqu'au la, le problème c'est lors de la selection de modèle que cela bug.
J'ai pris les piste du package parallel et doSNOW par contre je n'ai pas suffisamment de maîtrise la dessus.
Pourriez vous m'aider à pouvoir faire le stepAIC sur ces données massives svp ?
Merci
Bien à vous !
Partager