Bonjour à tous !
Je fais un petit tour ici car j'ai besoin de vos lumières Je vous explique mon problème.
J'ai accès à une base (SQL) depuis mon poste de travail, en odbc. Je n'ai que les droits de lecture sur cette base. Il s'agit d'une base avec pas mal de tables, de plus centaines de millions, voire milliards de lignes. A partir de cette base, je voudrais faire la chose suivante :
1. faire quelques jointures sur les tables pour obtenir une table de travail intéressante
2. A partir de cette table, entamer un travail de statistiques simples ou machine learning, bref, m'amuser avec
Jusqu'à présent, je réalise la première étape sous SAS. C'est triste, c'est un langage que je n'aime pas trop, mais il répond à mon besoin : il arrive à joindre les tables, à me les ramener, et cela remplit mon étape 1. Alternativement, j'ai essayé Python et R (nettement plus pratiques pour ce que je veux faire après...), mais ils montent la base en RAM, et la RAM, vue la taille des bases, elle sature...
Ma question (il y en a deux, mais c'est la même):
- est-ce que je m'y prends mal, et R comme Python sont capables de gérer de grosses jointures sans tout monter en RAM ?
- sinon, vers quel langage est-ce que je devrais me tourner ? Je lis que Julia semble bien traiter les grosses bases, mais mon problème est dès la création... Ou alors je devrais créer une base SQL sur mon pc, ramener les données dedans ?
Bref, je suis preneur d'idées ! Pas sûr d'être dans le bon endroit du forum, désolé si je me trompes
Merci beaucoup par avance pour toute aide !
Partager