Bonjour les experts,
J'ai un souci avec un fichier .csv qui contient le résultat d'un sondage.
Le type de question est le suivant :
"Q9 : Which of the following integrated development environments (IDE's) do you use on a regular basis? (Select all that apply)
● JupyterLab (or products based off of Jupyter)
● RStudio
● Visual Studio
● Visual Studio Code (VSCode)
● PyCharm
● Spyder
● Notepad++
● Sublime Text
● Vim, Emacs, or similar
● MATLAB
● None
● Other"
Dans le csv, j'ai 12 colonnes "Q9_Part_1 Q9_Part_2 Q9_Part_3 Q9_Part_4 Q9_Part_5 Q9_Part_6 Q9_Part_7 Q9_Part_8 Q9_Part_9 Q9_Part_10 Q9_Part_11 Q9_OTHER" : un choix va dans une colonne et pas dans une autre.
Exemple pour les trois premiers choix de la Q9.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16 df_jobs = pd.read_csv("E:\kaggle_data_jobs.csv") df_jobs[["Q9_Part_1", "Q9_Part_2", "Q9_Part_3"]] Q9_Part_1 Q9_Part_2 Q9_Part_3 0 Which of the following integrated development ... Which of the following integrated development ... Which of the following integrated development ... 1 Jupyter (JupyterLab, Jupyter Notebooks, etc) NaN NaN 2 NaN NaN Visual Studio 3 NaN NaN NaN 4 NaN NaN NaN ... ... ... ... 20032 NaN NaN NaN 20033 Jupyter (JupyterLab, Jupyter Notebooks, etc) RStudio NaN 20034 Jupyter (JupyterLab, Jupyter Notebooks, etc) NaN NaN 20035 Jupyter (JupyterLab, Jupyter Notebooks, etc) RStudio NaN 20036 Jupyter (JupyterLab, Jupyter Notebooks, etc) NaN NaN 20037 rows × 3 columns
Le pb est que nous avons 355 colonnes en tout pour 39 questions.
Nous avons décidé de fusionner ces colonnes à choix multiples en une seule, avec comme séparateur le | car la virgule était déjà utilisée dans les libellés des questions.
Dans le nouveau fichier csv, on a renommé cette colonne Q9 en "ide".
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13
14 df_jobs02 = pd.read_csv("E:\kaggle_data_jobs_OK.csv") display(df_jobs02["ide"].head(10)) 0 Visual Studio| PyCharm | Sublime Text 1 Visual Studio Code (VSCode)| Notepad++ | Su... 2 PyCharm 3 NaN 4 Jupyter (JupyterLab, Jupyter Notebooks, etc) |... 5 Jupyter (JupyterLab, Jupyter Notebooks, etc) |... 6 RStudio 7 Jupyter (JupyterLab, Jupyter Notebooks, etc) 8 None 9 Jupyter (JupyterLab, Jupyter Notebooks, etc) |... Name: ide, dtype: object
Le pb maintenant, pour faire un graphique via Seaborn, c'est que nous avons, pour les 12 choix de la question, un résultat sous la forme de 726 chaînes de caractères différentes...
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
9
10
11
12
13 df_jobs02["ide"].value_counts() Jupyter (JupyterLab, Jupyter Notebooks, etc) 1014 Jupyter (JupyterLab, Jupyter Notebooks, etc) |Visual Studio Code (VSCode) 505 Jupyter (JupyterLab, Jupyter Notebooks, etc) | PyCharm 397 Visual Studio Code (VSCode) 353 RStudio 341 ... Jupyter (JupyterLab, Jupyter Notebooks, etc) | RStudio | Spyder | Notepad++ | Sublime Text | MATLAB 1 RStudio | PyCharm | Vim / Emacs | MATLAB 1 RStudio | Spyder | Notepad++ | Sublime Text | MATLAB 1 Visual Studio Code (VSCode)| Spyder | Notepad++ | Sublime Text | Vim / Emacs | MATLAB 1 Jupyter (JupyterLab, Jupyter Notebooks, etc) |Visual Studio Code (VSCode)| PyCharm | MATLAB |Other 1 Name: ide, Length: 726, dtype: int64
Mon objectif est de faire un graphique, genre countplot, montrant quels sont les langages les plus utilisés. Il me faut donc le nombre de choix associés aux 12 réponses MAIS de façon dissociée.
Vous me direz que c'était le cas au début mais on a jugé que cette présentation éclatée en N colonnes n'était pas bonne.
Voilà, je ne trouve pas de solution à mon pb, un gros merci par avance pour vos conseils :-)
Partager