IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Calcul scientifique Python Discussion :

R^2 ajusté le plus haut


Sujet :

Calcul scientifique Python

  1. #1
    Nouveau membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mai 2019
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mai 2019
    Messages : 8
    Par défaut R^2 ajusté le plus haut
    Bonjour,
    Je débute avec python et je dois opérer une régression linéaire avec 12 variables (x) et 1 constante (y).
    Je rentre le code ci-dessous pour avoir la régression linéaire. Néanmoins, j'aimerais avoir le R^2 ajustée le plus haut possible. Auriez-vous une solution pour compléter le code et m'éviter de tâtonner? Il me semble qu'avec des conditions, ont peu trouver, néanmoins débutant, je ne sais pas comment faire.
    Merci de votre aide.
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
     
    import os 
    import pandas as pd
    import statsmodels.formula.api as smf
     
    root = os.getcwd()
    print (root)
     
    xlsx_file = os.path.join(root,'Exam','housing.xlsx')
    print (xlsx_file)
    df_raw = pd.read_excel (xlsx_file)
    print (df_raw)
     
    model = smf.ols(formula = "MEDV ~ CRIM+LSTAT+NOX+DIS+RAD+CHAS+PTRATIO+INDUS+ZN+RM+AGE+TAX",data = df_raw).fit()
    print (model.summary())

  2. #2
    Membre émérite

    Homme Profil pro
    Ingénieur
    Inscrit en
    Août 2010
    Messages
    662
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Août 2010
    Messages : 662
    Par défaut
    Salut,
    Citation Envoyé par Nanmab Voir le message
    Néanmoins, j'aimerais avoir le R^2 ajustée le plus haut possible
    Statmodels est censé fitter un polynome de sorte à minimiser l'écart avec les données fournies. Une seule sortie est fournie. Que voulez-vous dire par tâtonner pour maximiser r2? Sur quoi pouvez vous jouer?

    Sinon, pour faciliter la discussion, pourriez-vous proposer un jeux de données simple que tout le monde peut utiliser? Par exemple les 10-20 premières lignes de votre tableau.

    Julien

  3. #3
    Nouveau membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mai 2019
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mai 2019
    Messages : 8
    Par défaut
    Alors, le but est de trouver R^2 ajustée, le plus haut possible avec une combinaison des 12 variables. On peut en utiliser 12 ou 11, ou moins. L'essentiel est que le coefficient de détermination ajustée soit le plus haut possible. J'ai fait des essais et si je prends 11 variables, le R^2 ajustée est plus haut que 12, néanmoins les possibilités sont immenses, c'est pour cela que je me demande s'il existe un code permettant de résoudre cette équation?
    Merci

  4. #4
    Membre émérite

    Homme Profil pro
    Ingénieur
    Inscrit en
    Août 2010
    Messages
    662
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Août 2010
    Messages : 662
    Par défaut
    Ok, je comprends maintenant. Toute de suite, comme ça, je ne vois pas. Par curiosité je vais jeter un oeil. Si quelque chose existe de tout prêt, je pense qu'il faut chercher du côté de scikit-learn.

    Sinon on peut toujours essayer de réduire le nombre de combinaisons de variables a tester. Pour cela je commencerais par classer les variables ayant le plus d'influences sur la sortie. Soit faire une analyse de composante principale (PCA). Là il existe des choses toutes faites chez scikit-learn. Peut-être que 4 ou 5 variables représentent 80% de variabilité, et qu'il faut donc toujours les prendre en compte.
    Pour le reste, je rajouterais les variables dans l'ordre d'importance et à chaque fois calculerais le r2 ajusté. Ce n'est pas vraiment de l'optimisation.

    Chaque fitting est long?

    Ju

  5. #5
    Nouveau membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mai 2019
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mai 2019
    Messages : 8
    Par défaut
    Il y a 507 données pour les douze variables (x) et pareil pour la constante (y). Avec des conditions ça ne fonctionnerait pas donc? je ne m'y connais pas du tout. Pour l'instant, en tâtonnant j'arrive à un R^2 ajusté de 0,729 avec 10 variables.

  6. #6
    Membre émérite

    Homme Profil pro
    Ingénieur
    Inscrit en
    Août 2010
    Messages
    662
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Août 2010
    Messages : 662
    Par défaut
    507 observations pour 12 variables.. je pense que ça doit tourner vite. Donc faire quelques dizaines, voir une petite centaine de fitting, ça ne doit pas poser de problèmes.

    Je partirais comme suit (hypothèse: X est la matrice des observations, donc de dimension 507x12, y est de dimension 507x1. On cherche a et b de sorte à avoir y=aX + b):
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    import numpy as np
    import pandas as pd
    from sklearn.linear_model import LinearRegression
     
    from sklearn.preprocessing import scale
    from sklearn.decomposition import PCA
     
    # Analyse de composantes principales afin de réduire la dimension du problème
    X_scaled = scale(X)
    covar_matrix = PCA(n_components=12)
    covar_matrix.fit(X_scaled)
    variance = covar_matrix.explained_variance_ratio_
    print(variance)
     
    # Determination du nombre de composantes à conserver au minimum. Pour cela
    # on trie les variances par ordre décroissant, on calcul la somme cumulée et on
    # détermine les indices des composantes permettant d'atteindre 90% (arbitrairement)
    n_comps = np.where(np.cumsum(sorted(variance)[::-1]) > 0.9)[0][0]
    comp_idx = [variance.index(v) for v in sorted(variance)[::-1][:n_comps+1]]
     
    print(comp_idx)
    comp_idx est ici la liste des indices des variables qui représentent 90% de la variance du problème. J'ai choisi au pif 90%. Si la liste contient 3 éléments, alors on peut monter plus haut. La partie np.cumsum(sorted(variance)[::-1]) montre comment évolue la variance totale en fonction du nombre de variables.

    Grâce à cela vous pouvez déjà déterminer le nombre minimum de variables à prendre en compte. ça peut suffire. Si on veut plus, par exemple trouver le nombre idéal sur la base du r2 ajusté, alors je pense que tester toutes les combinaisons possibles en plus de celles déjà choisi peut le faire.

    Après je dis peut-être une connerie. Ici on traite la variance des données d'entrée (X), mais la covariance entre X et y. Si xj varie beaucoup, cela ne veut pas dire que la variable j a une influence sur y pour autant...

    EDIT
    Un lien intéressant: https://scikit-learn.org/stable/modu...selection.html

    Ju

  7. #7
    Nouveau membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mai 2019
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mai 2019
    Messages : 8
    Par défaut
    D'accord merci.
    Néanmoins je teste le code et il me dit "NameError: name 'X' is not defined". Je dois le définir avec mes données je suppose, néanmoins je ne sais pas comment le faire, pouvez-vous m'expliquer, ou me donner le code avec ma base de donnée, merci. Par contre il me semblait que y^=a+bx et donc :

    R^2 ajusté=(SSR/(n-k))/(SST/(n-1))=(1-SSE÷(n-k))/(SST/(n-1))

  8. #8
    Membre émérite

    Homme Profil pro
    Ingénieur
    Inscrit en
    Août 2010
    Messages
    662
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Août 2010
    Messages : 662
    Par défaut
    Salut,
    Citation Envoyé par Nanmab Voir le message
    Néanmoins je teste le code et il me dit "NameError: name 'X' is not defined". Je dois le définir avec mes données je suppose, néanmoins je ne sais pas comment le faire
    Oui, j'ai bien précis" que X est la matrice des observations, donc de dimension 507x12. Je ne sais pas quelle tête ont vos données depuis votre feuille Excel. Mais je suppose que vous pourriez faire:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    X, y = df_raw.dop(columns=['MEDV']].values, df['MEDV'].values
    J'ai pris ici les notations X et y (notez le grand X et le petit y) car c'est la notation couramment utilisé en machine learning. Fitter un polynôme c'est du machine learning, de base, mais quand même. Mais vous n'êtes pas tenu de les conserver.

    Citation Envoyé par Nanmab Voir le message
    Par contre il me semblait que y^=a+bx
    Peu importe, a +bx ou ax +b, c'est la même chose. a et b sont des variables "muettes". On pourrait les nommer tout à fait autrement.

    Ju

  9. #9
    Nouveau membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mai 2019
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mai 2019
    Messages : 8
    Par défaut
    D’accord, du coup j’ai rajouté la ligne, mais j’ai :”attribute error: ‘dataframe’ object has no attribute ‘dop’

    Aussi, j’ai une procédure qu’on nous a donné, si ça peut aider à construire le code.

    • Énumérer toutes les combinaisons possibles, à savoir, formula_set
    • Utiliser la boucle for pour itérer tous les éléments dans le formula_set et exécuter
    la régression pour chaque formule.
    • mettre le adjust_rsquared dans la liste.
    • Utilisez les fonctions max () et index () pour sélectionner la régression avec la plus grande valeur ajustée_rsquared.

  10. #10
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 770
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 770
    Par défaut
    Salut,

    Citation Envoyé par Nanmab Voir le message
    Aussi, j’ai une procédure qu’on nous a donné, si ça peut aider à construire le code.
    Souvenez vous qu'on n'est pas là pour faire vos exercices (votre enseignant vous donnera le corrigé un jour ou l'autre) mais éventuellement vous aider à progresser dans votre maîtrise de la programmation et de Python.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  11. #11
    Nouveau membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mai 2019
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mai 2019
    Messages : 8
    Par défaut
    D’accord, je demandais juste un code, je ne connais pas les bases et je dois faire ce calcul, le but était d’avoir le code pour ensuite le comprendre. Comme je vous ai dis je début mais bon merci quand même

    Citation Envoyé par wiztricks Voir le message
    Salut,



    Souvenez vous qu'on n'est pas là pour faire vos exercices (votre enseignant vous donnera le corrigé un jour ou l'autre) mais éventuellement vous aider à progresser dans votre maîtrise de la programmation et de Python.

    - W

  12. #12
    Membre émérite

    Homme Profil pro
    Ingénieur
    Inscrit en
    Août 2010
    Messages
    662
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Août 2010
    Messages : 662
    Par défaut
    Citation Envoyé par Nanmab Voir le message
    je demandais juste un code
    C'est bien le problème. Wiztricks a raison, ici personne n'a envie de coder pour les autres. Et puis d'un point de vu pédagogique il est nettement plus intéressant de chercher par soi-même, quitte à ne pas trouver, que de lire la solution.

    Maintenant, au vu de l'extrait ci-dessous, il ne sert à rien de faire une recherche de feature comme je l'avais indiqué. Tester toutes les combinaisons de variables suffit (et est même demandé). Pour cela jetez un oeil au module itertools, notamment à product().
    • Énumérer toutes les combinaisons possibles, à savoir, formula_set
    • Utiliser la boucle for pour itérer tous les éléments dans le formula_set et exécuter
    la régression pour chaque formule.
    • mettre le adjust_rsquared dans la liste.
    • Utilisez les fonctions max () et index () pour sélectionner la régression avec la plus grande valeur ajustée_rsquared.
    Sinon, le message d'erreur que vous avez repéré est une faute de frappe de ma part. Ce n'est pas "dop", mais "drop".

    Ju

  13. #13
    Nouveau membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mai 2019
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mai 2019
    Messages : 8
    Par défaut
    D’accord, le seul problème est que j’ai commencé à coder depuis 5 jours, je ne connaissais rien avant et on me demande de faire ça, vous comprenez que je ne comprends pratiquement rien et que c’est bien au-delà de mes compétences et donc je ne trouverai pas. Je comprends la logique mais je ne sais pas ce qu’il faut faire.

    Citation Envoyé par Julien N Voir le message
    C'est bien le problème. Wiztricks a raison, ici personne n'a envie de coder pour les autres. Et puis d'un point de vu pédagogique il est nettement plus intéressant de chercher par soi-même, quitte à ne pas trouver, que de lire la solution.

    Maintenant, au vu de l'extrait ci-dessous, il ne sert à rien de faire une recherche de feature comme je l'avais indiqué. Tester toutes les combinaisons de variables suffit (et est même demandé). Pour cela jetez un oeil au module itertools, notamment à product().


    Sinon, le message d'erreur que vous avez repéré est une faute de frappe de ma part. Ce n'est pas "dop", mais "drop".

    Ju

  14. #14
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 770
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 770
    Par défaut
    Citation Envoyé par Nanmab Voir le message
    je ne connaissais rien avant et on me demande de faire ça, vous comprenez que je ne comprends pratiquement rien
    Si on fait le boulot à votre place, vous ne comprendrez pas plus... vous rendrez juste une copie faisant illusion.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  15. #15
    Nouveau membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Mai 2019
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Étudiant
    Secteur : Finance

    Informations forums :
    Inscription : Mai 2019
    Messages : 8
    Par défaut
    Non mais je ne suis pas codeur, c'est un cours sur la régression linéaire, il nous donne juste des bases de python. Alors de toute façon je cherche R^2 ajusté en tâtonnant puisqu'il n'y a pas de formule et j'aurais un résultat, c'était juste pour trouver le meilleur résultat.

    Cependant, j'aimerais juste ouvrir mon fichier excel dans le code ci-dessous, j'ai un peu modifier mais ça ne fonctionne pas. Ca me permettra de créer une liste de toutes les combinaisons possibles entre les 12 variables. Je pense l'erreur vient du "read" mais je ne sais pas par quoi le remplacé, avez-vous une idée ou une explication car j'ai compris on ne donne pas la solution... merci

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    from itertools import chain 
    from itertools import combinations
    import pandas as pd
    import os
     
    root = os.getcwd()
    xlsx_file = os.path.join(root,'Exam','housing.xlsx')
    df_raw = pd.read_excel (xlsx_file)
     
     
    def powerset(data):
        return list(chain.from_iterable(combinations(data, r) for r in range(1, len(data)+1)))
     
    combination = []
    for combo in powerset (xlsx_file):
        combination.append(combo)
    print (combination)

  16. #16
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 770
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 770
    Par défaut
    Citation Envoyé par Nanmab Voir le message
    Je pense l'erreur vient du "read" mais je ne sais pas par quoi le remplacé, avez-vous une idée ou une explication car j'ai compris on ne donne pas la solution...
    relisez votre code:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    xlsx_file = os.path.join(root,'Exam','housing.xlsx')
    df_raw = pd.read_excel (xlsx_file)
    xlsx_file est un nom de fichier (une chaîne de caractères).
    Le contenu du fichier est lu dans un dataframe panda: df_raw (que vous n'utilisez pas dans le reste du code).

    Non mais je ne suis pas codeur, c'est un cours sur la régression linéaire, il nous donne juste des bases de python.
    Les bases de Python ne se donnent pas. Il faut apprendre pour les acquérir et les avoir acquises avant de poster.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  17. #17
    Membre émérite

    Homme Profil pro
    Ingénieur
    Inscrit en
    Août 2010
    Messages
    662
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Ingénieur
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Août 2010
    Messages : 662
    Par défaut
    Salut,

    Si vous débutez et que vous avez des difficultés à coder, je vous rassure, vous êtes au bon endroit. Pas mal de monde sera ravis de vous aider à améliorer/corriger votre code, ou même à vous aiguiller.

    Si on part de la liste de "tâches" a accomplir (l'algorithme en somme), le premier point consiste à créer power_set, sans doute un itérable (comme une liste), contenant l'ensemble des combinaisons de variables possible. Vous avez écrit:

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    from itertools import combinations, chain
     
    def powerset(data):
        return list(chain.from_iterable(combinations(data, r) for r in range(1, len(data)+1)))
     
    combination = []
    for combo in powerset (xlsx_file):
        combination.append(combo)
    print (combination)
    Votre fonction powerset me semble très bien. Il faut juste lui passer la liste des variables, et non le nom du fichier Excel. Cette liste est celle des colonnes de votre dataframe à l'exception de la colonne correspondant à votre variable y.

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    # Ici je sépare directement les inputs des outputs, mais c'est parce que j'utilise sklearn et pas statsmodels.
    X, y = df_raw.drop(columns=['MEDV']].values, df['MEDV'].values
    combinations = powerset(X.columns)
    Maintenant il vous reste à créer une liste vide qui contiendra les r2 ajustés. Puis itérer sur les combinaisons, fitter pour chacune d'elles un polynôme, calculer le r2 ajusté et le stocker dans la liste. Une fois fait, déterminer le max et l'indice du max (voir np.argmax()), et peut-être aussi récupérer la combinaison correspondante.

    Quelques lignes de code, rien de bien méchant. Postez, on vous aidera.

    Ju

Discussions similaires

  1. Sélection enregis. N°dossier le plus haut
    Par electrosat03 dans le forum Requêtes et SQL.
    Réponses: 11
    Dernier message: 16/08/2007, 10h15
  2. Réponses: 2
    Dernier message: 21/04/2007, 16h13
  3. [VB.net] bit de plus haut poids
    Par Nemerle dans le forum VB.NET
    Réponses: 6
    Dernier message: 05/01/2007, 15h30
  4. Menu en position:fixed plus haut que la fenêtre
    Par Maximil ian dans le forum Mise en page CSS
    Réponses: 7
    Dernier message: 15/12/2004, 23h14
  5. Requete : Rechercher l'id le plus haut (max)
    Par djsbens dans le forum Langage SQL
    Réponses: 5
    Dernier message: 02/07/2004, 13h35

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo