Bonjour à tous,
Existe t il des packages qui permettraient de lire les gros fichiers sous R?
Toutes vos suggestions sont les bienvenues.
En vous remerciant
Manoir
Version imprimable
Bonjour à tous,
Existe t il des packages qui permettraient de lire les gros fichiers sous R?
Toutes vos suggestions sont les bienvenues.
En vous remerciant
Manoir
Piste : faire une recherche sur RSeek.org avec "parallel calculation" ou "ff".
Le calcul parallèle veut souvent dire gestion de très grandes quantités de données...
Bonjour,
Tout dépend de ce que tu entends par
S'il s'agit juste d'importer un fichier énorme mais de travailler avec juste une petite partie des données :
- le mieux c'est de passer par une base de donnée et de sélectionner tes données avec des requêtes (package RODBC)
- sinon, il parait que la fonction scan est bien plus efficace que read.table pour importer de gros fichiers... toujours bon à savoir !
Si c'est pour travailler sur de très grosses matrices (ça ferait quelle taille d'ailleurs tes données ?), essaye le package bigmemory. J'ai jamais testé, mais bon l'idée à l'air bien.
Dans les cas extrêmes où tu dépasserait la taille maximale qui puisse être allouée à un objet, il reste l'option R en 64 bits (mais faut du matos adapté).
Ah, et Linux (et sûrement d'autres unix-like) permet d'allouer beaucoup plus de mémoire à R que Windows (si toutefois la machine peut suivre).
Re,
Oui, j'aimerais bien importer un fichier de dimension (1000 lignes et 1.500.000 colonnes), mais c'est impossible à mon avis.
Mnt, j'espère pouvoir sélectionner quelques colonnes pour pouvoir faire mes analyses dessus! j'ai essayé tout de même d'appliquer quelques packages et fonctions sans succès (colbycol,bigmemory, scan, readLines)!
je ne connais pas package RODBC mais je vais y jeter un oeil.
Merci
j'utilise R 2.9.0 X64 , 8Go
Ps: ptipoisson le matos dont tu fais allusion est bien présent :D et j'aurais bien aimé bosser sous Linux, mais bon j'ai vraiment pas le choix!