IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Calcul scientifique Python Discussion :

R^2 ajusté le plus haut


Sujet :

Calcul scientifique Python

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Nouveau membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mai 2019
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mai 2019
    Messages : 8
    Par défaut R^2 ajusté le plus haut
    Bonjour,
    Je débute avec python et je dois opérer une régression linéaire avec 12 variables (x) et 1 constante (y).
    Je rentre le code ci-dessous pour avoir la régression linéaire. Néanmoins, j'aimerais avoir le R^2 ajustée le plus haut possible. Auriez-vous une solution pour compléter le code et m'éviter de tâtonner? Il me semble qu'avec des conditions, ont peu trouver, néanmoins débutant, je ne sais pas comment faire.
    Merci de votre aide.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
     
    import os 
    import pandas as pd
    import statsmodels.formula.api as smf
     
    root = os.getcwd()
    print (root)
     
    xlsx_file = os.path.join(root,'Exam','housing.xlsx')
    print (xlsx_file)
    df_raw = pd.read_excel (xlsx_file)
    print (df_raw)
     
    model = smf.ols(formula = "MEDV ~ CRIM+LSTAT+NOX+DIS+RAD+CHAS+PTRATIO+INDUS+ZN+RM+AGE+TAX",data = df_raw).fit()
    print (model.summary())

  2. #2
    Membre émérite

    Homme Profil pro
    Ingénieur
    Inscrit en
    Août 2010
    Messages
    662
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Août 2010
    Messages : 662
    Par défaut
    Salut,
    Citation Envoyé par Nanmab Voir le message
    Néanmoins, j'aimerais avoir le R^2 ajustée le plus haut possible
    Statmodels est censé fitter un polynome de sorte à minimiser l'écart avec les données fournies. Une seule sortie est fournie. Que voulez-vous dire par tâtonner pour maximiser r2? Sur quoi pouvez vous jouer?

    Sinon, pour faciliter la discussion, pourriez-vous proposer un jeux de données simple que tout le monde peut utiliser? Par exemple les 10-20 premières lignes de votre tableau.

    Julien

  3. #3
    Nouveau membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mai 2019
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mai 2019
    Messages : 8
    Par défaut
    Alors, le but est de trouver R^2 ajustée, le plus haut possible avec une combinaison des 12 variables. On peut en utiliser 12 ou 11, ou moins. L'essentiel est que le coefficient de détermination ajustée soit le plus haut possible. J'ai fait des essais et si je prends 11 variables, le R^2 ajustée est plus haut que 12, néanmoins les possibilités sont immenses, c'est pour cela que je me demande s'il existe un code permettant de résoudre cette équation?
    Merci

  4. #4
    Membre émérite

    Homme Profil pro
    Ingénieur
    Inscrit en
    Août 2010
    Messages
    662
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Août 2010
    Messages : 662
    Par défaut
    Ok, je comprends maintenant. Toute de suite, comme ça, je ne vois pas. Par curiosité je vais jeter un oeil. Si quelque chose existe de tout prêt, je pense qu'il faut chercher du côté de scikit-learn.

    Sinon on peut toujours essayer de réduire le nombre de combinaisons de variables a tester. Pour cela je commencerais par classer les variables ayant le plus d'influences sur la sortie. Soit faire une analyse de composante principale (PCA). Là il existe des choses toutes faites chez scikit-learn. Peut-être que 4 ou 5 variables représentent 80% de variabilité, et qu'il faut donc toujours les prendre en compte.
    Pour le reste, je rajouterais les variables dans l'ordre d'importance et à chaque fois calculerais le r2 ajusté. Ce n'est pas vraiment de l'optimisation.

    Chaque fitting est long?

    Ju

  5. #5
    Nouveau membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mai 2019
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mai 2019
    Messages : 8
    Par défaut
    Il y a 507 données pour les douze variables (x) et pareil pour la constante (y). Avec des conditions ça ne fonctionnerait pas donc? je ne m'y connais pas du tout. Pour l'instant, en tâtonnant j'arrive à un R^2 ajusté de 0,729 avec 10 variables.

  6. #6
    Membre émérite

    Homme Profil pro
    Ingénieur
    Inscrit en
    Août 2010
    Messages
    662
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Août 2010
    Messages : 662
    Par défaut
    507 observations pour 12 variables.. je pense que ça doit tourner vite. Donc faire quelques dizaines, voir une petite centaine de fitting, ça ne doit pas poser de problèmes.

    Je partirais comme suit (hypothèse: X est la matrice des observations, donc de dimension 507x12, y est de dimension 507x1. On cherche a et b de sorte à avoir y=aX + b):
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    import numpy as np
    import pandas as pd
    from sklearn.linear_model import LinearRegression
     
    from sklearn.preprocessing import scale
    from sklearn.decomposition import PCA
     
    # Analyse de composantes principales afin de réduire la dimension du problème
    X_scaled = scale(X)
    covar_matrix = PCA(n_components=12)
    covar_matrix.fit(X_scaled)
    variance = covar_matrix.explained_variance_ratio_
    print(variance)
     
    # Determination du nombre de composantes à conserver au minimum. Pour cela
    # on trie les variances par ordre décroissant, on calcul la somme cumulée et on
    # détermine les indices des composantes permettant d'atteindre 90% (arbitrairement)
    n_comps = np.where(np.cumsum(sorted(variance)[::-1]) > 0.9)[0][0]
    comp_idx = [variance.index(v) for v in sorted(variance)[::-1][:n_comps+1]]
     
    print(comp_idx)
    comp_idx est ici la liste des indices des variables qui représentent 90% de la variance du problème. J'ai choisi au pif 90%. Si la liste contient 3 éléments, alors on peut monter plus haut. La partie np.cumsum(sorted(variance)[::-1]) montre comment évolue la variance totale en fonction du nombre de variables.

    Grâce à cela vous pouvez déjà déterminer le nombre minimum de variables à prendre en compte. ça peut suffire. Si on veut plus, par exemple trouver le nombre idéal sur la base du r2 ajusté, alors je pense que tester toutes les combinaisons possibles en plus de celles déjà choisi peut le faire.

    Après je dis peut-être une connerie. Ici on traite la variance des données d'entrée (X), mais la covariance entre X et y. Si xj varie beaucoup, cela ne veut pas dire que la variable j a une influence sur y pour autant...

    EDIT
    Un lien intéressant: https://scikit-learn.org/stable/modu...selection.html

    Ju

Discussions similaires

  1. Sélection enregis. N°dossier le plus haut
    Par electrosat03 dans le forum Requêtes et SQL.
    Réponses: 11
    Dernier message: 16/08/2007, 10h15
  2. Réponses: 2
    Dernier message: 21/04/2007, 16h13
  3. [VB.net] bit de plus haut poids
    Par Nemerle dans le forum VB.NET
    Réponses: 6
    Dernier message: 05/01/2007, 15h30
  4. Menu en position:fixed plus haut que la fenêtre
    Par Maximil ian dans le forum Mise en page CSS
    Réponses: 7
    Dernier message: 15/12/2004, 23h14
  5. Requete : Rechercher l'id le plus haut (max)
    Par djsbens dans le forum Langage SQL
    Réponses: 5
    Dernier message: 02/07/2004, 13h35

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo