Bonjour à tous et à toute,
J'effectue un travail sur une enquête de 84 colonnes et 1000 entrées, avec majoritairement des variables quantitatives ou binaire (en 0 pour "Non" ou 1 pour "Oui"). Plus concrètement, j'aimerais tenter d'étudier la relation entre une variable quantitative correspondant à un état de santé mental avec une multitude de variables "binaires" ou quantitative, avec une régression linéaire multiple.
Voici un exemple de dataframe, avec 8 colonnes :
Par exemple, j'aimerais savoir si le fait d'être pauvre ou non influe sur l'état de santé mental, ou alors si le fait d'être pauvre ET avec des enfants influe sur l'état de santé mental, etc.
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2 data = data.frame(score_etat_sante = rtruncnorm(n = 1000, a = 0, b = 10, mean = 5, sd = 1), est_seul = sample(c("0", "1"), 1000, replace = TRUE), en_couple = sample(c("0", "1"), 1000, replace = TRUE), avec_enfant = sample(c("0", "1"), 1000, replace = TRUE), regression_communication = sample(c("0", "1"), 1000, replace = TRUE), score_qualite_internet = rtruncnorm(n = 1000, a = 0, b = 10, mean = 6, sd = 2), age = as.integer(rtruncnorm(n = 1000, a = 23, b = 99, mean = 45, sd = 10)), est_pauvre = sample(c("0", "1"), 1000, replace = TRUE))
La question que je me pose, c'est est-ce qu'il existe un moyen sur R pour m'aider à chercher les variables à inclure dans mon modèle de régression linéaire multiple afin que celui-ci soit le plus significatif possible ? Car jusqu'à présent, je travaillais qu'avec des données avec 3-4 colonnes. Il me suffisait de supprimer ou rajouter des colonnes pour ajuster mon modèle. Mais avec 84 colonnes, ce travail me parait impossible.
Merci beaucoup.
Partager