Classification/Classement sur très grosse base de données

**hollowdeadoss** · 16/04/2013, 15h34

Bonjour tout le monde,

Je reviens vers vous pour savoir si quelqu'un avait déjà traité de très grande base de données sous R.
En ce moment j'ai une matrice de presque 30 millions d'individus pour 10 variables qualitatives (environ 4 modalités par variable) et avec R ça plante quasiment à chaque fois dès que je fais une opération sur ce jeu de données (après l'avoir chargé via la librairie RMySql).

Du coup je me retrouve à "bidouiller" comme suit:
- tirage aléatoire de 5000 individus (après ça rame bien trop)
- une ACM pour avoir des données "numériques" (i.e. les coordonnées de mes individus sur tous les axes factoriels)
- un CAH via la fonction HCPC de FactoMineR

Mais après ... ? Comment classer du coup mes autres individus dans les 2 groupes ainsi obtenus?
Utiliser une méthode de prédiction (arbre de décision) avec comme variable à prédire l'appartenance à mes classes obtenues?

D'ailleurs est-ce une bonne méthode de ne sélectionner que 5000 individus et de "généraliser" comme ça?

Si quelqu'un avait un "tuyau" ou même une autre méthode à me conseiller je suis preneur!
Peut être qu'ici R atteint des limites et je devrais peut être coder ça sur quelque chose de plus "robuste"?

Cordialement,

Hollow

PS: je suis sous Ubuntu 12.10 avec un processeur 4x Intel(R) Core(TM) i5-2500 CPU @3.3GHz avec 16Gb de RAM sur un SSD de 115 Gb si jamais ça peut aider

Classification/Classement sur très grosse base de données

R

Mode arborescent

Discussions similaires

Partager

Partager