IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Optimiser le modèle d'une régression linéaire multiple


Sujet :

R

  1. #1
    Membre du Club
    Homme Profil pro
    Analyse système
    Inscrit en
    Juin 2018
    Messages
    180
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 29
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : Analyse système
    Secteur : Alimentation

    Informations forums :
    Inscription : Juin 2018
    Messages : 180
    Points : 54
    Points
    54
    Par défaut Optimiser le modèle d'une régression linéaire multiple
    Bonjour à tous et à toute,

    J'effectue un travail sur une enquête de 84 colonnes et 1000 entrées, avec majoritairement des variables quantitatives ou binaire (en 0 pour "Non" ou 1 pour "Oui"). Plus concrètement, j'aimerais tenter d'étudier la relation entre une variable quantitative correspondant à un état de santé mental avec une multitude de variables "binaires" ou quantitative, avec une régression linéaire multiple.

    Voici un exemple de dataframe, avec 8 colonnes :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
     
    data = data.frame(score_etat_sante = rtruncnorm(n = 1000, a = 0, b = 10, mean = 5, sd = 1), est_seul = sample(c("0", "1"), 1000, replace = TRUE), en_couple = sample(c("0", "1"), 1000, replace = TRUE), avec_enfant = sample(c("0", "1"), 1000, replace = TRUE), regression_communication = sample(c("0", "1"), 1000, replace = TRUE), score_qualite_internet = rtruncnorm(n = 1000, a = 0, b = 10, mean = 6, sd = 2), age = as.integer(rtruncnorm(n = 1000, a = 23, b = 99, mean = 45, sd = 10)), est_pauvre = sample(c("0", "1"), 1000, replace = TRUE))
    Par exemple, j'aimerais savoir si le fait d'être pauvre ou non influe sur l'état de santé mental, ou alors si le fait d'être pauvre ET avec des enfants influe sur l'état de santé mental, etc.

    La question que je me pose, c'est est-ce qu'il existe un moyen sur R pour m'aider à chercher les variables à inclure dans mon modèle de régression linéaire multiple afin que celui-ci soit le plus significatif possible ? Car jusqu'à présent, je travaillais qu'avec des données avec 3-4 colonnes. Il me suffisait de supprimer ou rajouter des colonnes pour ajuster mon modèle. Mais avec 84 colonnes, ce travail me parait impossible.

    Merci beaucoup.

  2. #2
    Expert confirmé
    Avatar de olivier.decourt
    Homme Profil pro
    Formateur R/SAS/statistiques
    Inscrit en
    Avril 2008
    Messages
    2 064
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France

    Informations professionnelles :
    Activité : Formateur R/SAS/statistiques
    Secteur : Conseil

    Informations forums :
    Inscription : Avril 2008
    Messages : 2 064
    Points : 4 478
    Points
    4 478
    Par défaut
    Bonjour.
    La fonction step permet de bâtir des modèles avec des stratégies Forward, Backward ou Stepwise. D'autres méthodes plus récentes comme Lasso permettent aussi de sélectionner de manière plus ou moins automatisée un sous-ensemble de variables explicatives pertinentes.
    Attention cependant, le croisement de 2 variables n'est pas réalisé spontanément (dans votre exemple : pauvreté x avoir_des_enfants) et il faut les proposer au modèle en plus des variables simples.
    Bon courage.
    Olivier

  3. #3
    Membre du Club
    Homme Profil pro
    Analyse système
    Inscrit en
    Juin 2018
    Messages
    180
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 29
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : Analyse système
    Secteur : Alimentation

    Informations forums :
    Inscription : Juin 2018
    Messages : 180
    Points : 54
    Points
    54
    Par défaut
    Bonjour, et merci beaucoup pour votre réponse. Effectivement, la fonction step() par défaut dans R m'a été recommandé pour ce travail.

    Plus particulièrement, la fonction stepAIC() de la librairie MASS. Existe t-il une différence dans ces deux fonctions ?

    Merci.

  4. #4
    Expert confirmé
    Avatar de olivier.decourt
    Homme Profil pro
    Formateur R/SAS/statistiques
    Inscrit en
    Avril 2008
    Messages
    2 064
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 46
    Localisation : France

    Informations professionnelles :
    Activité : Formateur R/SAS/statistiques
    Secteur : Conseil

    Informations forums :
    Inscription : Avril 2008
    Messages : 2 064
    Points : 4 478
    Points
    4 478
    Par défaut
    Le critère de choix de variables et d'inclusion : step est basé sur des tests statistiques (variation de la vraisemblance du modèle significative ou non) ; stepAIC sur un critère composite type Akaike (qui inclut des pénalités pour les variables ayant de très nombreuses modalités), avec la possibilité de modifier la pondération pour avoir un critère de Schwarz.
    Bon courage.
    Olivier

  5. #5
    Membre du Club
    Homme Profil pro
    Analyse système
    Inscrit en
    Juin 2018
    Messages
    180
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 29
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : Analyse système
    Secteur : Alimentation

    Informations forums :
    Inscription : Juin 2018
    Messages : 180
    Points : 54
    Points
    54
    Par défaut
    Merci pour ces explications

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Analyse d'une régression linéaire multiple
    Par JonathanJohns dans le forum R
    Réponses: 2
    Dernier message: 12/05/2017, 16h48
  2. régression linéaire multiple
    Par azertyuio dans le forum Méthodes prédictives
    Réponses: 14
    Dernier message: 18/04/2010, 21h53
  3. régression linéaire multiple et contrainte
    Par arthy dans le forum Méthodes prédictives
    Réponses: 21
    Dernier message: 20/02/2010, 11h27
  4. Réponses: 2
    Dernier message: 22/12/2006, 20h24
  5. [NaN] Calcul d'une régression linéaire
    Par GLDavid dans le forum Langage
    Réponses: 1
    Dernier message: 24/10/2006, 12h55

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo