Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Big Data Discussion :

metier data scientist


Sujet :

Big Data

  1. #1
    Candidat au Club
    metier data scientist
    Bonsoir
    Je me permets de vous écrire pour vous poser quelques questions en effet je compte faire une formation pour le métier de data scientiste.
    Quelle est la formation la plus complète dans le marche ?
    Quelles sont les logiciels qu'il faut maitriser ?
    Est ce que faire une formation avec le logiciel SAS est primordiale ou faut miser sur les logiciels R et Python ?
    Merci de vos réponses

  2. #2
    Expert Oracle confirmé

    Bonjour,

    Je ne suis pas Datascientist, mais je travaille depuis presque 3 ans sur le Big Data, plus précisément sur :
    - des clusters Hadoop (distribution Hortonworks HDP 2.6)
    - DSS (Data Science Studio) qui est un logiciel de Datascience de l'éditeur Dataiku

    Vue de ma fenêtre, pour devenir Datascientist via une formation, je pense avant tout qu'il est nécessaire de faire un point sur son niveau de mathématiques et de statistiques, afin de vérifier que l'on dispose bien des bagages nécessaires.



    Pour moi, la Datascience, c'est un double apprentissage qui se fait en parallèle :
    - celui des algorithmes de traitement et de modélisation de la données utilisés dans le cadre de la DataScience
    - celui des langages de programmation, des outils et des bibliothèques logicielles.



    Pour répondre à votre question, non, pas besoin de se former sur SAS. Par contre, il faut miser sur R et surtout Python, Python et encore Python.

    SAS est certes la Rolls Royce des progiciels de statistiques, mais il est très couteux financièrement. Dans le monde professionnel, on peut dire que SAS est connu par les personnes d'un certain âge.

    Les nouveaux diplômés, eux, ont plutôt été formés sur les langages R et Python, qui sont des langages open-source, donc gratuit.

    Je ne rentrerai pas dans les longs débats concernant le sujet "Vaut-il mieux maitriser Python ou R ?". Les 2 sont suffisamment avancés et se font concurrence. Ce qui est sur, c'est que si vous faites énormément de statistiques, c'est le langage R qui est fait pour cela.

    Par contre, pour un non statisticien, il vaut mieux investir sur Python, qui dispose de nombreuses bibliothèques.



    Au niveau des connaissances informatiques, je dirais que les fondamentaux sont :
    - le langage Python, que l'on peut utiliser en ligne de commandes pour commencer
    - les librairies de calcul Scipy, Numpy et surtout Pandas. Pandas est IMPERATIF !
    - à cela, pour éviter de développer en lignes de commandes, et utiliser à la place un environnement plus convivial, il faut connaître le Notebook Jupyter, et éventuellement un IDE (un environnement de développement complet) comme PyCharm
    - une connaissance des environnements virtuels Python et de la distribution Anaconda est aussi un atout
    - et puis afin de pouvoir faire des représentations graphiques (ce que l'on appelle la DataViz pour Data Vizualisation), il faut connaître les librairies graphiques comme Matplotlib, Seaborn ou Bokeh.



    En parallèle de ces connaissances informatiques, vous allez acquérir des connaissances algorithmiques pour mener à bien votre métier de Datascientisit, comme ces algorithmes qui sont des basiques :
    - algorithme de classification
    - algorithme de clustering
    - arbres de décision
    - modèles de régression

    A cela viennent s'ajouter tous les algorithmes de ML (Machine Learning) avec la distinction entre apprentissage supervisé non supervisé.

    Vous avez aussi des domaines spécifiques comme le Text Mining et le NLP (Natural Language Processing), ou bien le traitement d'images.

    Vous avez aussi les algorithmes spécifiques pour tout ce qui est réseaux de neurones, ainsi que le Deep Learning avec ses bibliothèques Python que sont Tensorflow et Keras.

    Comme vous le voyez, il y a de quoi faire.



    A tout cela, j'ajouterais 2 choses, mais je ne suis pas sur qu'elles fassent forcément parties de la formation d'un Datascientist :

    1) beaucoup de données traitées par le Datascientist sont fournies dans des fichiers plats au format CSV. Mais en entreprise, beaucoup de données à récupérer sont stockées dans des bases de données relationnelles, et une connaissance du langage SQL s'avère alors être un atout. N'oubliez jamais qu'une grande partie du travail du Datascientist est de savoir sélectionner, récupérer et analyser les données de l'entreprise qui vont lui servir à alimenter ses modèles prédictifs.

    Et donc cette phase de préparation des données (ce qu'on appelle la DataPrep) n'est pas la plus passionnante du métier de Datascientist, mais elle est obligatoire et est très chronophage (en clair, ça prend beaucoup de temps).


    2) Dans le cadre de votre formation, vous allez très certainement pratiquer sur un PC portable, qui a en général entre 8 et 16 Go de mémoire. Un PC est suffisant pour apprendre et concevoir des algorithmes assez chiadés, mais il reste limité en terme de mémoire et donc en volume de données. Par exemple, avec votre PC, vous allez pouvoir traites des fichiers de données de qq centaines de Mo ou d'1 Go en les chargeant en mémoire à l'aide d'un dataframe Pandas, mais qu'en sera t'il lorsque le fichier de données fare plusieurs Go ou dizaines de Go.

    Pour traiter ce passage d'un petit à un gros volume de données (ce qu'on appelle le passage à l'échelle), on ne travaille plus sur un unique PC ou un unique serveur, mais sur un ensemble de machines qui travaillent conjointement ensembles (on appelle cela un cluster de machines).

    Cela permet de traiter de très gros volumes de données en parallèle sur un ensemble de machines, à l'aide d'un Framework de calcul distribué comme Spark (de la fondation Apache). Pour information, Spark peut tourner sur différentes infrastructures, comme un cluster Hadoop ou bien un cluster Kubernetes.

    Et pour pouvoir faire cela, c'est encore une compétence supplémentaire à acquérir. Les API de Spark sont utilisables avec différents langages de programmation comme Java, Scala, R, SQL, mais aussi Python (utiliser les API Spark à l'aide de Python est ce qu'on appelle le développement pySpark).


    En espérant que tout cela vous aide, sachant encore une fois que je ne suis pas Datascientist et je ne peux donc vous en dire plus, car cela sort de mon domaine de compétences.

  3. #3
    Candidat au Club
    Bonjour rouardg
    Merci beaucoup pour ta reponse vraiment detaille et qui va m'aider dans le choix de mes organismes de formations.
    Je te remercie vraiment d'avoir pris le temps de m'ecrire.
    C'est gentil.
    Connais tu des organismes de formations fiables ?

  4. #4
    Expert Oracle confirmé

    Bonjour,

    Connais tu des organismes de formations fiables ?
    J'avoue ne pas savoir ce qui se fait sur le marché en ce moment.

    De plus, cela dépend de sa situation actuelle. Si on est étudiant, on peut très bien opter pour une école spécialisée, ou faire une année de spécialisation.

    Maintenant, si on est salarié, c'est plus difficile je pense, à cause de l'investissement à consacrer, en argent, mais surtout en temps.

    Pour ma part, j'avais opté en 2016 pour un MOOC, et j'avais suivi la spécialisation Big Data, d'une durée de 6 mois et demi, sur le site de Coursera.

    A cette époque, j'ai connu dans le cadre de mon travail :
    - un architecte de données qui s'était payé une très couteuse formation de Datascientist à Télécom Paris. Auparavant, il avait du suivre des UV au CNAM pour se remettre à niveau en mathématiques et statistiques
    - 2 autres collègues qui suivaient les cours de soir au CNAM de Paris

    A vous de voir ce qui vous conviendra le mieux entre un MOOC en ligne ou une formation continue.

    En tout cas, le point commun entre nous 4 qui étions salariés, c'est qu'à un moment donné, nous avons tous fait une croix sur notre vie personnelle. Cela, il faut bien le prendre en compte si l'on est salarié et que l'on a une vie de famille.

###raw>template_hook.ano_emploi###