Eclairez moi sur le Big Data

**rvm31** · 28/09/2017, 11h37

Bonjour

Je développe en général des petits projets, je ne connais rien au Big Data à part des généralités.
Afin de pouvoir discuter à la fois avec des data scientist ou avec des personnes qui entendent parler de Big Data tous les jours et qui ont besoin de quelques notions sur le principe, je souhaite que vous me disiez si j'ai bien tout compris.
désolé ça va être une vision très basique.

Le qualificatif de Big Data regroupe beaucoup de choses dont certaines ne sont pas Big pour schématiser en dessous de 5To de données à traiter on ne qualifie pas ça de Big Data?
Donc on utilise Hadoop si on n'a + de 5To de données ?
En dessous d'autre systèmes font aussi bien l'affaire ? Lesquels?
pour quelques centaines de Mo des requêtes SQL font très bien l'affaire ?
Si pour ces quelques centaines de Mo les sources sont hétérogènes comment les utiliser ?
Si je déploie Hadoop c'est un sur un nœud de serveur, il faut donc que je sois propriétaire de ce noeud ?
Ou est ce que des entreprises proposent d'exploiter des nœuds Hadoop de leurs serveurs?
Si je travaille sur une toute petite base de données (disons une centaine de clients) comment puis je enrichir ces données avec d'autres provenant d'autres sources permettant d'affiner les profils de ces clients.
Toutes les données que chacun laisse lors de ces consultations sur internet (GAFA et autres) ne sont pas libre et disponible simplement en déployant hadoop quelque part?
Les données des GAFA peuvent elles être exploitées en les achetant et si oui comment les acheter ?

Merci à tous ceux qui voudront bien enrichir mes connaissances et corriger mes erreurs.

**DotNetMatt** · 29/09/2017, 20h47

Envoyé par rvm31

Le qualificatif de Big Data regroupe beaucoup de choses dont certaines ne sont pas Big pour schématiser en dessous de 5To de données à traiter on ne qualifie pas ça de Big Data?
Donc on utilise Hadoop si on n'a + de 5To de données ?
En dessous d'autre systèmes font aussi bien l'affaire ? Lesquels?
pour quelques centaines de Mo des requêtes SQL font très bien l'affaire ?
Si pour ces quelques centaines de Mo les sources sont hétérogènes comment les utiliser ?

Il y a pas mal de posts sur ce forum qui tentent d'expliquer ce qu'est Big Data. Voici le plus recent ou je m'exprime : BI Vs Big Data Vs Data mining Vs Analytics Vs Machine Learning. N'hesite pas a chercher dans d'autres posts ! Cela repondra a la plupart de tes questions ci-dessus.

Pour utiliser du Big Data, ce n'est pas seulement une question de taille. Les techniques de Big Data visent a remplacer les techniques traditionnelles (SQL, etc.). Par exemple pour analyser des donnees non structurees (documents, etc.), ou encore quand une requete SQL/un traitement ETL va te prendre plusieurs jours / semaines, il peut etre avantageux d'utiliser du Big Data si ce traitement doit etre fait de maniere reguliere.

Envoyé par rvm31

Si je déploie Hadoop c'est un sur un nœud de serveur, il faut donc que je sois propriétaire de ce noeud ?
Ou est ce que des entreprises proposent d'exploiter des nœuds Hadoop de leurs serveurs?

Ca depend ce que tu entends par "proprietaire". Si tu es dans ton data center, alors oui tu devras avoir au moins 2 noeuds (le maître et l'esclave). Si tu es dans le cloud public, tu peux louer des clusters a la demande, juste le temps de faire les traitements. L'avantage du cluster, c'est que tu n'as pas besoin d'administrer ces serveurs.

Envoyé par rvm31

Si je travaille sur une toute petite base de données (disons une centaine de clients) comment puis je enrichir ces données avec d'autres provenant d'autres sources permettant d'affiner les profils de ces clients.

Il faut que tu aies un moyen de lier les clients et les autres sources. Une fois que tu as trouve comment les lier, tu lances ton job et tu recuperes le resultat de telle sorte qu'il sera ensuite facile de lier un client avec les autres donnees via l'identifiant du client.

Envoyé par rvm31

Toutes les données que chacun laisse lors de ces consultations sur internet (GAFA et autres) ne sont pas libre et disponible simplement en déployant hadoop quelque part?
Les données des GAFA peuvent elles être exploitées en les achetant et si oui comment les acheter ?

Aucune idee la-dessus...

Eclairez moi sur le Big Data

Big Data

Discussions similaires

Partager

Partager