Optimiser le modèle d'une régression linéaire multiple

**preliator** · 27/05/2020, 17h33

Bonjour à tous et à toute,

J'effectue un travail sur une enquête de 84 colonnes et 1000 entrées, avec majoritairement des variables quantitatives ou binaire (en 0 pour "Non" ou 1 pour "Oui"). Plus concrètement, j'aimerais tenter d'étudier la relation entre une variable quantitative correspondant à un état de santé mental avec une multitude de variables "binaires" ou quantitative, avec une régression linéaire multiple.

Voici un exemple de dataframe, avec 8 colonnes :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
 
data = data.frame(score_etat_sante = rtruncnorm(n = 1000, a = 0, b = 10, mean = 5, sd = 1), est_seul = sample(c("0", "1"), 1000, replace = TRUE), en_couple = sample(c("0", "1"), 1000, replace = TRUE), avec_enfant = sample(c("0", "1"), 1000, replace = TRUE), regression_communication = sample(c("0", "1"), 1000, replace = TRUE), score_qualite_internet = rtruncnorm(n = 1000, a = 0, b = 10, mean = 6, sd = 2), age = as.integer(rtruncnorm(n = 1000, a = 23, b = 99, mean = 45, sd = 10)), est_pauvre = sample(c("0", "1"), 1000, replace = TRUE))

Par exemple, j'aimerais savoir si le fait d'être pauvre ou non influe sur l'état de santé mental, ou alors si le fait d'être pauvre ET avec des enfants influe sur l'état de santé mental, etc.

La question que je me pose, c'est est-ce qu'il existe un moyen sur R pour m'aider à chercher les variables à inclure dans mon modèle de régression linéaire multiple afin que celui-ci soit le plus significatif possible ? Car jusqu'à présent, je travaillais qu'avec des données avec 3-4 colonnes. Il me suffisait de supprimer ou rajouter des colonnes pour ajuster mon modèle. Mais avec 84 colonnes, ce travail me parait impossible.

Merci beaucoup.

**olivier.decourt** · 29/05/2020, 12h20

Bonjour.
La fonction step permet de bâtir des modèles avec des stratégies Forward, Backward ou Stepwise. D'autres méthodes plus récentes comme Lasso permettent aussi de sélectionner de manière plus ou moins automatisée un sous-ensemble de variables explicatives pertinentes.
Attention cependant, le croisement de 2 variables n'est pas réalisé spontanément (dans votre exemple : pauvreté x avoir_des_enfants) et il faut les proposer au modèle en plus des variables simples.

**preliator** · 29/05/2020, 14h01

Bonjour, et merci beaucoup pour votre réponse. Effectivement, la fonction step() par défaut dans R m'a été recommandé pour ce travail.

Plus particulièrement, la fonction stepAIC() de la librairie MASS. Existe t-il une différence dans ces deux fonctions ?

Merci.

**olivier.decourt** · 01/06/2020, 15h33

Le critère de choix de variables et d'inclusion : step est basé sur des tests statistiques (variation de la vraisemblance du modèle significative ou non) ; stepAIC sur un critère composite type Akaike (qui inclut des pénalités pour les variables ayant de très nombreuses modalités), avec la possibilité de modifier la pondération pour avoir un critère de Schwarz.

**preliator** · 01/06/2020, 15h38

Merci pour ces explications

Optimiser le modèle d'une régression linéaire multiple

R

Discussions similaires

Partager

Partager