1. #1
    Membre actif

    Homme Profil pro
    Webmaster, Réalisateur Vidéo, Chef de projet Web documentaire
    Inscrit en
    juillet 2006
    Messages
    396
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Webmaster, Réalisateur Vidéo, Chef de projet Web documentaire
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : juillet 2006
    Messages : 396
    Points : 240
    Points
    240

    Par défaut Eclairez moi sur le Big Data

    Bonjour

    Je développe en général des petits projets, je ne connais rien au Big Data à part des généralités.
    Afin de pouvoir discuter à la fois avec des data scientist ou avec des personnes qui entendent parler de Big Data tous les jours et qui ont besoin de quelques notions sur le principe, je souhaite que vous me disiez si j'ai bien tout compris.
    désolé ça va être une vision très basique.

    Le qualificatif de Big Data regroupe beaucoup de choses dont certaines ne sont pas Big pour schématiser en dessous de 5To de données à traiter on ne qualifie pas ça de Big Data?
    Donc on utilise Hadoop si on n'a + de 5To de données ?
    En dessous d'autre systèmes font aussi bien l'affaire ? Lesquels?
    pour quelques centaines de Mo des requêtes SQL font très bien l'affaire ?
    Si pour ces quelques centaines de Mo les sources sont hétérogènes comment les utiliser ?
    Si je déploie Hadoop c'est un sur un nœud de serveur, il faut donc que je sois propriétaire de ce noeud ?
    Ou est ce que des entreprises proposent d'exploiter des nœuds Hadoop de leurs serveurs?
    Si je travaille sur une toute petite base de données (disons une centaine de clients) comment puis je enrichir ces données avec d'autres provenant d'autres sources permettant d'affiner les profils de ces clients.
    Toutes les données que chacun laisse lors de ces consultations sur internet (GAFA et autres) ne sont pas libre et disponible simplement en déployant hadoop quelque part?
    Les données des GAFA peuvent elles être exploitées en les achetant et si oui comment les acheter ?

    Merci à tous ceux qui voudront bien enrichir mes connaissances et corriger mes erreurs.

  2. #2
    Modérateur
    Avatar de DotNetMatt
    Homme Profil pro
    CTO
    Inscrit en
    février 2010
    Messages
    3 352
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 29
    Localisation : Etats-Unis

    Informations professionnelles :
    Activité : CTO
    Secteur : Finance

    Informations forums :
    Inscription : février 2010
    Messages : 3 352
    Points : 8 855
    Points
    8 855
    Billets dans le blog
    3

    Par défaut

    Citation Envoyé par rvm31 Voir le message
    Le qualificatif de Big Data regroupe beaucoup de choses dont certaines ne sont pas Big pour schématiser en dessous de 5To de données à traiter on ne qualifie pas ça de Big Data?
    Donc on utilise Hadoop si on n'a + de 5To de données ?
    En dessous d'autre systèmes font aussi bien l'affaire ? Lesquels?
    pour quelques centaines de Mo des requêtes SQL font très bien l'affaire ?
    Si pour ces quelques centaines de Mo les sources sont hétérogènes comment les utiliser ?
    Il y a pas mal de posts sur ce forum qui tentent d'expliquer ce qu'est Big Data. Voici le plus recent ou je m'exprime : BI Vs Big Data Vs Data mining Vs Analytics Vs Machine Learning. N'hesite pas a chercher dans d'autres posts ! Cela repondra a la plupart de tes questions ci-dessus.

    Pour utiliser du Big Data, ce n'est pas seulement une question de taille. Les techniques de Big Data visent a remplacer les techniques traditionnelles (SQL, etc.). Par exemple pour analyser des donnees non structurees (documents, etc.), ou encore quand une requete SQL/un traitement ETL va te prendre plusieurs jours / semaines, il peut etre avantageux d'utiliser du Big Data si ce traitement doit etre fait de maniere reguliere.

    Citation Envoyé par rvm31 Voir le message
    Si je déploie Hadoop c'est un sur un nœud de serveur, il faut donc que je sois propriétaire de ce noeud ?
    Ou est ce que des entreprises proposent d'exploiter des nœuds Hadoop de leurs serveurs?
    Ca depend ce que tu entends par "proprietaire". Si tu es dans ton data center, alors oui tu devras avoir au moins 2 noeuds (le maître et l'esclave). Si tu es dans le cloud public, tu peux louer des clusters a la demande, juste le temps de faire les traitements. L'avantage du cluster, c'est que tu n'as pas besoin d'administrer ces serveurs.

    Citation Envoyé par rvm31 Voir le message
    Si je travaille sur une toute petite base de données (disons une centaine de clients) comment puis je enrichir ces données avec d'autres provenant d'autres sources permettant d'affiner les profils de ces clients.
    Il faut que tu aies un moyen de lier les clients et les autres sources. Une fois que tu as trouve comment les lier, tu lances ton job et tu recuperes le resultat de telle sorte qu'il sera ensuite facile de lier un client avec les autres donnees via l'identifiant du client.

    Citation Envoyé par rvm31 Voir le message
    Toutes les données que chacun laisse lors de ces consultations sur internet (GAFA et autres) ne sont pas libre et disponible simplement en déployant hadoop quelque part?
    Les données des GAFA peuvent elles être exploitées en les achetant et si oui comment les acheter ?
    Aucune idee la-dessus...
    Less Is More
    Pensez à utiliser les boutons , et les balises code
    Desole pour l'absence d'accents, clavier US oblige

Discussions similaires

  1. Réponses: 8
    Dernier message: 20/01/2016, 13h00
  2. Réponses: 3
    Dernier message: 14/09/2015, 03h33
  3. Participez à l’enquête 2015 menée par CXP et BARC sur le big data
    Par actusas dans le forum Forum général SAS
    Réponses: 0
    Dernier message: 19/01/2015, 10h41
  4. Eclairez moi sur le concept XML/XSL
    Par largolgd dans le forum XSL/XSLT/XPATH
    Réponses: 3
    Dernier message: 22/02/2006, 16h51

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo