Questionnaire à choix multiples : question explosée en N colonnes

**Ikebukuro** · 07/04/2023, 10h19

Bonjour les experts,

J'ai un souci avec un fichier .csv qui contient le résultat d'un sondage.
Le type de question est le suivant :
"Q9 : Which of the following integrated development environments (IDE's) do you use on a regular basis? (Select all that apply)
● JupyterLab (or products based off of Jupyter)
● RStudio
● Visual Studio
● Visual Studio Code (VSCode)
● PyCharm
● Spyder
● Notepad++
● Sublime Text
● Vim, Emacs, or similar
● MATLAB
● None
● Other"

Dans le csv, j'ai 12 colonnes "Q9_Part_1 Q9_Part_2 Q9_Part_3 Q9_Part_4 Q9_Part_5 Q9_Part_6 Q9_Part_7 Q9_Part_8 Q9_Part_9 Q9_Part_10 Q9_Part_11 Q9_OTHER" : un choix va dans une colonne et pas dans une autre.
Exemple pour les trois premiers choix de la Q9.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
df_jobs = pd.read_csv("E:\kaggle_data_jobs.csv")
df_jobs[["Q9_Part_1", "Q9_Part_2", "Q9_Part_3"]]
 	Q9_Part_1 	Q9_Part_2 	Q9_Part_3
0 	Which of the following integrated development ... 	Which of the following integrated development ... 	Which of the following integrated development ...
1 	Jupyter (JupyterLab, Jupyter Notebooks, etc) 	NaN 	NaN
2 	NaN 	NaN 	Visual Studio
3 	NaN 	NaN 	NaN
4 	NaN 	NaN 	NaN
... 	... 	... 	...
20032 	NaN 	NaN 	NaN
20033 	Jupyter (JupyterLab, Jupyter Notebooks, etc) 	RStudio 	NaN
20034 	Jupyter (JupyterLab, Jupyter Notebooks, etc) 	NaN 	NaN
20035 	Jupyter (JupyterLab, Jupyter Notebooks, etc) 	RStudio 	NaN
20036 	Jupyter (JupyterLab, Jupyter Notebooks, etc) 	NaN 	NaN
 
20037 rows × 3 columns

Le pb est que nous avons 355 colonnes en tout pour 39 questions.
Nous avons décidé de fusionner ces colonnes à choix multiples en une seule, avec comme séparateur le | car la virgule était déjà utilisée dans les libellés des questions.

Dans le nouveau fichier csv, on a renommé cette colonne Q9 en "ide".

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
df_jobs02 = pd.read_csv("E:\kaggle_data_jobs_OK.csv")
display(df_jobs02["ide"].head(10))
 
0             Visual Studio| PyCharm |  Sublime Text  
1    Visual Studio Code (VSCode)|  Notepad++  |  Su...
2                                             PyCharm 
3                                                  NaN
4    Jupyter (JupyterLab, Jupyter Notebooks, etc) |...
5    Jupyter (JupyterLab, Jupyter Notebooks, etc) |...
6                                             RStudio 
7        Jupyter (JupyterLab, Jupyter Notebooks, etc) 
8                                                 None
9    Jupyter (JupyterLab, Jupyter Notebooks, etc) |...
Name: ide, dtype: object

Le pb maintenant, pour faire un graphique via Seaborn, c'est que nous avons, pour les 12 choix de la question, un résultat sous la forme de 726 chaînes de caractères différentes...

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
df_jobs02["ide"].value_counts()
Jupyter (JupyterLab, Jupyter Notebooks, etc)                                                                  1014
Jupyter (JupyterLab, Jupyter Notebooks, etc) |Visual Studio Code (VSCode)                                      505
Jupyter (JupyterLab, Jupyter Notebooks, etc) | PyCharm                                                         397
Visual Studio Code (VSCode)                                                                                    353
 RStudio                                                                                                       341
                                                                                                              ... 
Jupyter (JupyterLab, Jupyter Notebooks, etc) | RStudio |  Spyder  |  Notepad++  |  Sublime Text  | MATLAB        1
 RStudio | PyCharm |  Vim / Emacs  | MATLAB                                                                      1
 RStudio |  Spyder  |  Notepad++  |  Sublime Text  | MATLAB                                                      1
Visual Studio Code (VSCode)|  Spyder  |  Notepad++  |  Sublime Text  |  Vim / Emacs  | MATLAB                    1
Jupyter (JupyterLab, Jupyter Notebooks, etc) |Visual Studio Code (VSCode)| PyCharm | MATLAB |Other               1
Name: ide, Length: 726, dtype: int64

Mon objectif est de faire un graphique, genre countplot, montrant quels sont les langages les plus utilisés. Il me faut donc le nombre de choix associés aux 12 réponses MAIS de façon dissociée.
Vous me direz que c'était le cas au début mais on a jugé que cette présentation éclatée en N colonnes n'était pas bonne.

Voilà, je ne trouve pas de solution à mon pb, un gros merci par avance pour vos conseils :-)

Questionnaire à choix multiples : question explosée en N colonnes [Python 3.X]

Python

Mode arborescent

Discussions similaires

Partager

Partager