Écosystème data science : langages les plus utilisés, impact du Covid-19, besoin des entreprises,
Anaconda fait le point dans son rapport State of Data Science 2021
Dans son rapport State of Data Science 2021, Anaconda, l'éditeur de la distribution Anaconda Python pour la data science, s'est intéressé à la croissance de la data science en tant que domaine, les tendances générales d'adoption des environnements commerciaux et des établissements universitaires, et ce que les étudiants peuvent faire pour se préparer pour l'avenir. Étant donné que 2020 et 2021 ont été touchés par la pandémie de COVID-19, Anaconda a profité de l'occasion pour poser des questions sur l'impact de la pandémie sur le travail et sur la façon dont les organisations ont investi dans le domaine. Les répondants étaient répartis sur 140 pays.
Anaconda estime être plus qu'une entreprise et se voit plus comme un mouvement : « Nous donnons aux gens les moyens de maîtriser les données, afin qu'ils puissent poser de meilleures questions et mieux comprendre le monde. Cette passion alimente notre travail, notre culture d'entreprise et notre service communautaire. Nous sommes, et serons toujours, déterminés à favoriser l'innovation open source. Nous défendons sa communauté dynamique et continuons à gérer des projets open source populaires qui rendent possibles les innovations de demain. Notre équipe contribue activement à des projets tels que Dask, Numba, Bokeh, Panel et HoloViews. Nous avons commencé à utiliser Python pour la data science en 2009. C'est toujours notre passion : utiliser le meilleur et le plus intuitif langage de programmation au monde pour faire les mathématiques les plus difficiles. Nous aimons nos modèles de data science explicables, reproductibles et exempts de biais, et nous voulons aider les gens à le faire de cette façon ».
Voici quelques conclusions de l'enquête.
Plus d'un tiers (37 %) des 4 299 professionnels, étudiants et universitaires spécialisés dans la data science qui ont répondu à l'enquête en ligne d'Anaconda entre avril et mai ont déclaré que leur entreprise avait diminué les investissements dans ce domaine, tandis que 26 % les ont augmentés et 24 % ont déclaré qu'ils étaient restés stables. L'impact de la pandémie sur les investissements dans les outils et technologies de data science n'est pas clair.
Pourtant, 39 % des répondants ont déclaré que "beaucoup" de leurs décisions liées au business s'appuient sur la data science, tandis que 35 % ont déclaré que seules certaines de leurs décisions étaient basées sur les informations fournies par leur équipe.
Un quart des personnes interrogées ont déclaré qu'elles ne disposaient pas des ressources nécessaires à une analyse efficace, tandis qu'un autre quart a déclaré que les décideurs de leur organisation avaient du mal à maîtriser les données, et que 11 % ont déclaré qu'eux-mêmes ou leur équipe ne pouvaient pas démontrer l'impact sur l'entreprise.
Impact du Covid-19
Parmi les personnes interrogées qui ont déclaré que la pandémie avait eu un impact sur l'investissement de leur organisation dans la data science, 50 % ont déclaré que l'investissement est resté le même ou a augmenté, ce qui signifie que les rôles des données sont restés importants tout au long de la pandémie. COVID-19 a eu un effet de retombée qui a touché pratiquement tous les secteurs (des soins de santé au gouvernement, en passant par les institutions financières, etc.) ; ils avaient tous besoin de trouver des moyens d'agir rapidement sur les données et de trouver des solutions à de nouveaux problèmes. De plus, lorsqu'il leur a demandé dans quelle mesure leur rôle était impliqué dans les décisions commerciales, 14*% des personnes interrogées ont déclaré que «*toutes*» les décisions reposent sur des informations interprétées par eux ou par leur équipe, et 39*% ont déclaré que «*beaucoup*» de décisions commerciales reposent sur eux. Anaconda note que « bien qu'il reste encore du travail à faire pour s'assurer que nous intégrons les spécialistes des data science, il est encourageant de voir que leur valeur est reconnue dans les organisations et c'est peut-être la raison pour laquelle le domaine a évité une forte diminution des investissements ».
Anaconda a examiné de plus près pourquoi les individus ont déclaré qu'il y avait eu une augmentation ou une diminution de l'investissement
Langages utilisés
La plupart des personnes interrogées (63 %) ont déclaré qu'elles utilisaient fréquemment ou toujours Python, tandis que 71 % des éducateurs ont déclaré qu'ils enseignaient le machine learning et la data science avec Python, qui est devenu populaire en raison de sa facilité d'utilisation et de sa courbe d'apprentissage aisée. Un pourcentage impressionnant de 88 % des étudiants ont déclaré qu'ils apprenaient Python pour se préparer à entrer dans le domaine de la data science et du ML.
Compte tenu de l'audience d'Anaconda, il n'est pas surprenant que Python soit de loin le langage le plus utilisé. Il était suivi de SQL, R, JavaScript, HTML/CSS, Java, Bash/Shell, C/C++, C-, Typescript, PHP, Rust, Julia et Go.
« Python semble prêt à continuer sa domination dans le domaine. 63% des personnes interrogées ont déclaré qu'elles utilisaient toujours ou fréquemment Python, ce qui en fait le langage le plus populaire inclus dans l'enquête de cette année. En outre, 71*% des enseignants enseignent Python et 88*% des étudiants ont déclaré avoir appris Python en vue d'entrer dans le domaine data science /ML. Même dans nos propres données d'utilisation d'Anaconda, nous avons constaté une croissance impressionnante de Python. Entre mars 2020 et février 2021, période économique pandémique, nous avons enregistré 4,6 milliards de téléchargements de packages, soit une augmentation de 48% par rapport à l'année précédente. Nous pensons qu'une partie de cette augmentation pourrait être liée à la transition des travailleurs vers le travail à domicile et à davantage de personnes ayant du temps libre pendant la pandémie pour apprendre, améliorer leurs compétences et poursuivre leur intérêt pour Python.
« En plus d'être un langage de premier plan utilisé dans les environnements commerciaux et enseigné dans les universités, la popularité de Python peut également être démontrée par divers autres facteurs, tels que sa facilité d'utilisation, ses bibliothèques et sa communauté. 20% des étudiants ont déclaré que le plus grand obstacle à l'obtention de l'expérience requise pour une carrière en science des données est l'apprentissage d'une nouvelle langue. Avec la plupart des éducateurs enseignant Python et la popularité continue de Python dans la communauté des sciences des données, il y a une opportunité pour le langage Python de devenir un standard de l'industrie. La normalisation pourrait aider à résoudre les problèmes de recodage associés au déploiement de modèles en production ».
Niveau de compétence des entreprises et celles qui leur font défaut
Seuls 36 % ont décrit les décideurs de leur organisation comme étant « très compétents en matière de données » et comprenant réellement la visualisation des données et les modèles. Un peu plus de la moitié (52 %) ont déclaré que les décideurs étaient "plutôt compétents en matière de données".
Anaconda a demandé aux personnes interrogées de nommer toutes les compétences qui, selon elles, font actuellement défaut à leur organisation. La principale compétence manquante était la « gestion du big data » (38 %), tandis que 26 % ont déclaré que leur organisation manquait de mathématiques avancées et qu'un quart a cité la « connaissance des affaires ».
Les autres compétences fréquemment citées comme manquantes sont le deep learning (27 %), les compétences en communication (22 %), la visualisation des données (22 %), le machine learning (21 %), le langage Python (20 %), ainsi que les probabilités et les statistiques (19 %).
« Dans l'ensemble, les compétences générales et liées aux affaires constituaient les écarts les plus importants entre ce que les universités enseignent et ce dont les organisations ont besoin. Être impliqué dans des conversations commerciales stratégiques et communiquer et expliquer les résultats aux parties prenantes sont des ensembles de compétences qui peuvent combler le fossé entre la maîtrise des données et la prise de décision ».
Le rapport aborde d'autres points intéressants comme l'impact des biais dans les données et les modèles, la sécurité et bien d'autres.
Source : Anaconda
Partager