Bonjour
Je développe en général des petits projets, je ne connais rien au Big Data à part des généralités.
Afin de pouvoir discuter à la fois avec des data scientist ou avec des personnes qui entendent parler de Big Data tous les jours et qui ont besoin de quelques notions sur le principe, je souhaite que vous me disiez si j'ai bien tout compris.
désolé ça va être une vision très basique.
Le qualificatif de Big Data regroupe beaucoup de choses dont certaines ne sont pas Big pour schématiser en dessous de 5To de données à traiter on ne qualifie pas ça de Big Data?
Donc on utilise Hadoop si on n'a + de 5To de données ?
En dessous d'autre systèmes font aussi bien l'affaire ? Lesquels?
pour quelques centaines de Mo des requêtes SQL font très bien l'affaire ?
Si pour ces quelques centaines de Mo les sources sont hétérogènes comment les utiliser ?
Si je déploie Hadoop c'est un sur un nœud de serveur, il faut donc que je sois propriétaire de ce noeud ?
Ou est ce que des entreprises proposent d'exploiter des nœuds Hadoop de leurs serveurs?
Si je travaille sur une toute petite base de données (disons une centaine de clients) comment puis je enrichir ces données avec d'autres provenant d'autres sources permettant d'affiner les profils de ces clients.
Toutes les données que chacun laisse lors de ces consultations sur internet (GAFA et autres) ne sont pas libre et disponible simplement en déployant hadoop quelque part?
Les données des GAFA peuvent elles être exploitées en les achetant et si oui comment les acheter ?
Merci à tous ceux qui voudront bien enrichir mes connaissances et corriger mes erreurs.
Partager