Bonjour,
Je réalise actuellement des analyses de données grand volume avec le logiciel R. Pour ce faire j'utilise un package en R pour stocker les données physiquement (package FF). Il faut savoir que le fichier (en CSV) fait pas loin de 5GB sur le système.
Je souhaite étudier ces données afin de construire un arbre décisionnel. La fonction de calcul utilisée est RPART, la seule qui soit aussi « flexible » pour faire ce genre de calcul. Elle fonctionne pour des plus petits jeux de données (30 000 Lignes x 17 000 Colonnes). Là pour 50 000 L x 20 000 C ,après processing, elle me remonte l'erreur suivante :
Error: cannot allocate vector of size 1.8 Gb
Alors que ma configuration système va plus loin que ça (8 GB) et que R est correctement configuré :
memory.limit() = 8078 Mb
Le problème est que lorsque je lance la fonction RPART qui va créer un arbre décisionnel en fonction des données. Il utilise les données stockées physiquement, mais créé l'arbre « dans l'interface » R, donc sur la RAM. Par conséquent sa construction sature la mémoire, d'où l'erreur qui intervient apparemment lorsque l'arbre dépasse 1.8 Gb. Je n'ai pas réussi à trouver de fonction/package sous R permettant de contrer ce problème.
Je souhaitais donc savoir si quelqu'un aurait une idée pour résoudre ce problème, ou bien connaissance de personnes le pouvant ?
Merci d'avance pour vos réponses.
Partager