Travailler dans la science des données, un job ingrat ?

**Bruno** · 08/12/2022, 08h39

Travailler dans la science des données, un job ingrat ?
C’est du moins ce que pense l'analyste des données et blogueur, connu sous le pseudonyme de ryxcommar

La science des données associe les mathématiques et les statistiques, la programmation spécialisée, l'analyse avancée, l'intelligence artificielle (IA) et l'apprentissage automatique à une expertise spécifique afin de découvrir des informations exploitables cachées dans les données d'une organisation. Elle peut être utilisé pour guider la prise de décision et la planification stratégique. À côté de cette description, certains critiques se plaisent à dire que la science des données est inutile ou ne sert à rien. « La principale raison pour laquelle je me suis détourné de la Data science est que j'avais l'impression que le travail n'avait pas d'importance, dans de multiples sens des mots », déclare l'analyste.

Voici, ci-dessous, quelques raisons évoquées :

le travail se situe en aval de l'ingénierie, du produit et des politiques de bureau, ce qui signifie que le travail n'était souvent aussi bon que le maillon le plus faible de cette chaîne ;
personne ne sait ou ne se soucie de savoir quelle est la différence entre un bon et un mauvais travail de la science des données. « En d'autres termes, vous pouviez être absolument nul dans votre travail ou y être incroyable et vous receviez presque les mêmes égards dans les deux cas ».

Le rapport de la société d'analyse prédictive Pecan AI publié le mois dernier et basé sur des enquêtes menées par Wakefield Research, révèle que quatre responsables marketing sur cinq déclarent avoir des difficultés à prendre des décisions fondées sur les données, malgré toutes les données sur les consommateurs dont ils disposent. L'étude menée auprès de 250 personnes révèle que 84 % d'entre eux affirment que leur capacité à prédire le comportement des clients relève de la conjecture. La science des données ne répondrait pas aux besoins des spécialistes du marketing.

Nom : data science.jpg
Affichages : 22117
Taille : 81,2 Ko

L’avis de ryxcommar n’est pas partagé par tout le monde. L'accélération du volume des sources de données, puis des données, a fait de la science des données l'un des domaines à la croissance la plus rapide dans tous les secteurs. Le cycle de vie de la science des données implique divers rôles, outils et processus, ce qui permet aux analystes de glaner des informations exploitables. En général, un projet de Data science passe par les étapes suivantes :

L'ingestion des données : le cycle de vie commence par la collecte des données, qu'il s'agisse de données brutes structurées ou non structurées provenant de toutes les sources pertinentes, à l'aide de diverses méthodes. Ces méthodes peuvent inclure la saisie manuelle, le raclage du Web et la diffusion en temps réel de données provenant de systèmes et de dispositifs. Les sources de données peuvent inclure des données structurées, telles que les données clients, ainsi que des données non structurées comme les fichiers journaux, les vidéos, l'audio, les images, l'Internet des objets (IoT), les médias sociaux, etc.

Le stockage et le traitement des données : comme les données peuvent avoir différents formats et structures, les entreprises doivent envisager différents systèmes de stockage en fonction du type de données à capturer. Les équipes de gestion des données aident à établir des normes autour du stockage et de la structure des données, ce qui facilite les flux de travail autour des modèles d'analyse, d'apprentissage automatique et d'apprentissage profond.

Cette étape comprend le « toilettage »des données, la déduplication, la transformation et la combinaison des données à l'aide de travaux ETL (extraction, transformation, chargement) ou d'autres technologies d'intégration de données. Cette préparation des données est essentielle pour promouvoir la qualité des données avant leur chargement dans un entrepôt de données, un lac de données ou un autre référentiel.

Analyse des données : les spécialistes de l'analyse des données effectuent une analyse exploratoire des données afin d'examiner les biais, les modèles, les plages et les distributions de valeurs au sein des données. Cette exploration de l'analyse des données permet de générer des hypothèses pour les tests a/b. Elle permet également aux analystes de déterminer la pertinence des données à utiliser dans le cadre des efforts de modélisation pour l'analyse prédictive, l'apprentissage automatique et/ou l'apprentissage profond. En fonction de la précision d'un modèle, les organisations peuvent s'appuyer sur ces informations pour prendre des décisions commerciales, ce qui leur permet d'être plus évolutives.

Communiquer : enfin, les informations sont présentées sous forme de rapports et d'autres visualisations de données qui facilitent la compréhension des informations - et de leur impact sur l'activité - par les analystes commerciaux et les autres décideurs. Un langage de programmation de la science des données tel que R ou Python comprend des composants permettant de générer des visualisations ; les scientifiques des données peuvent également utiliser des outils de visualisation spécialisés.

Data science et business intelligence

Il peut être facile de confondre les termes "data scientist" et "business intelligence" (BI) car ils se rapportent tous deux aux données d'une organisation et à l'analyse de ces données, mais ils diffèrent dans leur objectif. La Business Intelligence (BI) est généralement un terme générique désignant la technologie qui permet la préparation, l'exploration, la gestion et la visualisation des données.

Les outils et processus de Business Intelligence permettent aux utilisateurs finaux d'identifier des informations exploitables à partir de données brutes, facilitant ainsi la prise de décision basée sur les données au sein d'organisations de divers secteurs.

Si les outils de la science des données se chevauchent en grande partie, la veille stratégique se concentre davantage sur les données du passé et les informations fournies par les outils de veille stratégique sont de nature plus descriptive. Elle utilise les données pour comprendre ce qui s'est passé auparavant afin de définir un plan d'action. La BI est orientée vers les données statiques (immuables) qui sont généralement structurées. Si la data scientist utilise des données descriptives, elle s'en sert généralement pour déterminer des variables prédictives, qui sont ensuite utilisées pour catégoriser les données ou faire des prévisions.

La la science des données et la BI ne s'excluent pas l'une l'autre - les entreprises avisées utilisent les deux pour comprendre pleinement leurs données et en extraire de la valeur.

Data science et data scientist

La la science des données ou data science est considérée comme une discipline, tandis que les data scientists sont les praticiens de ce domaine. le Data Scientist recueille, traite, analyse et fait parler les données massives, autrement appelées « big data »,dans le but d'améliorer les performances d'une entreprise. Les data scientists ne sont pas nécessairement directement responsables de tous les processus impliqués dans le cycle de vie de la science des données. Par exemple, les pipelines de données sont généralement gérés par les ingénieurs de données, mais le data scientist peut faire des recommandations sur le type de données utiles ou nécessaires.

Si les scientifiques des données peuvent construire des modèles d'apprentissage automatique, la mise à l'échelle de ces efforts à un niveau plus important nécessite davantage de compétences en ingénierie logicielle pour optimiser un programme afin qu'il s'exécute plus rapidement. Par conséquent, il est fréquent qu'un data scientist s'associe à des ingénieurs en apprentissage automatique pour mettre à l'échelle les modèles d'apprentissage automatique.

Les responsabilités d'un data scientist peuvent généralement se chevaucher avec celles d'un analyste de données, notamment en ce qui concerne l'analyse exploratoire des données et la visualisation des données. Toutefois, l'ensemble des compétences d'un spécialiste des données est généralement plus large que celui d'un analyste de données moyen. Comparativement, le data scientist utilise des langages de programmation courants, tels que R et Python, pour effectuer davantage d'inférences statistiques et de visualisation de données.

Pour accomplir ces tâches, les data scientists doivent posséder des compétences en informatique et en sciences pures qui dépassent celles d'un analyste commercial ou d'un analyste de données typique.

Toutefois, ryxcommar estime que le data scientist moyen est nul en programmation et en ingénierie en général. « Les rares personnes qui sont un tant soit peu douées pour la programmation ne sont souvent pas bonnes en ingénierie, dans le sens où elles ont tendance à sur-ingénier les solutions, à avoir un sentiment d'autosatisfaction et à vouloir perdre du temps à construire leur propre plateforme. »

Pour Ryxcommar, le niveau « extrêmement faible » des data scientits en programmation conduit à deux sentiments :

L’ennui de ne pas avoir une certaine autorité sur le code et les décisions d'infrastructure. « Travailler avec des data scientits sans avoir le contrôle de l'infrastructure, c'est inutile. » ;
il existe un besoin général dans l'industrie pour des personnes qui sont bonnes à la fois en science des données et en programmation pour exploiter les données de l'entreprises.

De plus en plus d'entreprises obtiennent d'énormes ensembles de données qu'elles veulent exploiter pour en tirer des « informations », mais elles ne disposent pas de l'infrastructure nécessaire pour faire quoi que ce soit avec ces données. Elles se contentent de les collecter. Elles ne les collectent qu'en raison d'une réglementation qui les y oblige.

De l’avis de certains développeurs, la question de la science des données ne se pose pas dans les entreprises technologiques, en particulier les petites. Les compétences en SQL, R et Tableau pourraient permettre d’obtenir des données de SQL, de créer des modèles prédictifs dans R et télécharger les prédictions directement dans les tables SQL.

Source : ryxcommar

Et vous ?

Que pensez-vous de l'avis de l'exposé sur le blog ryxcommar ? Est-il pertinent ?

Que pensez-vous de la science des données et de la profession de Data scientist ? Utile ou pas selon vous ?

La science des données est-elle fonctionnelle dans votre entreprise ? Quelle est votre expérience ?

Pensez-vous qu'on peut se passer des Data scientists dans les entreprises technologique ? Ou a-t-on davantages besoin d'eux ?

Voir aussi :

DataSpell : la version 2022.2 de l'EDI de JetBrains pour la science des données est disponible, avec une vue Merge pour Jupyter Notebook, la prise en charge de WSL et bien plus

Pourquoi la science des données ne répond pas aux besoins des spécialistes du marketing ? 84 % d'entre eux affirment que leur capacité à prédire le comportement des clients relève de la conjecture

La maturité des données favorise l'augmentation des revenus : le chiffre d'affaires est particulièrement influencé allant jusqu'à 3,2 fois plus important, selon Heap

**mach1974** · 08/12/2022, 09h58

Pour les Usages, ils sont déjà en cours pour le tchurn sur les BI et sur les PCA

Travailler dans la science des données, un job ingrat ?

Statistiques, Data Mining et Data Science

Discussions similaires

Partager

Partager