R^2 ajusté le plus haut

**Nanmab** · 20/05/2019, 13h38

Bonjour,
Je débute avec python et je dois opérer une régression linéaire avec 12 variables (x) et 1 constante (y).
Je rentre le code ci-dessous pour avoir la régression linéaire. Néanmoins, j'aimerais avoir le R^2 ajustée le plus haut possible. Auriez-vous une solution pour compléter le code et m'éviter de tâtonner? Il me semble qu'avec des conditions, ont peu trouver, néanmoins débutant, je ne sais pas comment faire.
Merci de votre aide.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
 
import os 
import pandas as pd
import statsmodels.formula.api as smf
 
root = os.getcwd()
print (root)
 
xlsx_file = os.path.join(root,'Exam','housing.xlsx')
print (xlsx_file)
df_raw = pd.read_excel (xlsx_file)
print (df_raw)
 
model = smf.ols(formula = "MEDV ~ CRIM+LSTAT+NOX+DIS+RAD+CHAS+PTRATIO+INDUS+ZN+RM+AGE+TAX",data = df_raw).fit()
print (model.summary())

**Julien N** · 20/05/2019, 15h33

Salut,

Envoyé par Nanmab

Néanmoins, j'aimerais avoir le R^2 ajustée le plus haut possible

Statmodels est censé fitter un polynome de sorte à minimiser l'écart avec les données fournies. Une seule sortie est fournie. Que voulez-vous dire par tâtonner pour maximiser r2? Sur quoi pouvez vous jouer?

Sinon, pour faciliter la discussion, pourriez-vous proposer un jeux de données simple que tout le monde peut utiliser? Par exemple les 10-20 premières lignes de votre tableau.

Julien

**Nanmab** · 20/05/2019, 16h02

Alors, le but est de trouver R^2 ajustée, le plus haut possible avec une combinaison des 12 variables. On peut en utiliser 12 ou 11, ou moins. L'essentiel est que le coefficient de détermination ajustée soit le plus haut possible. J'ai fait des essais et si je prends 11 variables, le R^2 ajustée est plus haut que 12, néanmoins les possibilités sont immenses, c'est pour cela que je me demande s'il existe un code permettant de résoudre cette équation?
Merci

**Julien N** · 20/05/2019, 16h57

Ok, je comprends maintenant. Toute de suite, comme ça, je ne vois pas. Par curiosité je vais jeter un oeil. Si quelque chose existe de tout prêt, je pense qu'il faut chercher du côté de scikit-learn.

Sinon on peut toujours essayer de réduire le nombre de combinaisons de variables a tester. Pour cela je commencerais par classer les variables ayant le plus d'influences sur la sortie. Soit faire une analyse de composante principale (PCA). Là il existe des choses toutes faites chez scikit-learn. Peut-être que 4 ou 5 variables représentent 80% de variabilité, et qu'il faut donc toujours les prendre en compte.
Pour le reste, je rajouterais les variables dans l'ordre d'importance et à chaque fois calculerais le r2 ajusté. Ce n'est pas vraiment de l'optimisation.

Chaque fitting est long?

Ju

**Nanmab** · 20/05/2019, 17h18

Il y a 507 données pour les douze variables (x) et pareil pour la constante (y). Avec des conditions ça ne fonctionnerait pas donc? je ne m'y connais pas du tout. Pour l'instant, en tâtonnant j'arrive à un R^2 ajusté de 0,729 avec 10 variables.

**Julien N** · 20/05/2019, 17h56

507 observations pour 12 variables.. je pense que ça doit tourner vite. Donc faire quelques dizaines, voir une petite centaine de fitting, ça ne doit pas poser de problèmes.

Je partirais comme suit (hypothèse: X est la matrice des observations, donc de dimension 507x12, y est de dimension 507x1. On cherche a et b de sorte à avoir y=aX + b):

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
 
from sklearn.preprocessing import scale
from sklearn.decomposition import PCA
 
# Analyse de composantes principales afin de réduire la dimension du problème
X_scaled = scale(X)
covar_matrix = PCA(n_components=12)
covar_matrix.fit(X_scaled)
variance = covar_matrix.explained_variance_ratio_
print(variance)
 
# Determination du nombre de composantes à conserver au minimum. Pour cela
# on trie les variances par ordre décroissant, on calcul la somme cumulée et on
# détermine les indices des composantes permettant d'atteindre 90% (arbitrairement)
n_comps = np.where(np.cumsum(sorted(variance)[::-1]) > 0.9)[0][0]
comp_idx = [variance.index(v) for v in sorted(variance)[::-1][:n_comps+1]]
 
print(comp_idx)

comp_idx est ici la liste des indices des variables qui représentent 90% de la variance du problème. J'ai choisi au pif 90%. Si la liste contient 3 éléments, alors on peut monter plus haut. La partie np.cumsum(sorted(variance)[::-1]) montre comment évolue la variance totale en fonction du nombre de variables.

Grâce à cela vous pouvez déjà déterminer le nombre minimum de variables à prendre en compte. ça peut suffire. Si on veut plus, par exemple trouver le nombre idéal sur la base du r2 ajusté, alors je pense que tester toutes les combinaisons possibles en plus de celles déjà choisi peut le faire.

Après je dis peut-être une connerie. Ici on traite la variance des données d'entrée (X), mais la covariance entre X et y. Si xj varie beaucoup, cela ne veut pas dire que la variable j a une influence sur y pour autant...

EDIT
Un lien intéressant: https://scikit-learn.org/stable/modu...selection.html

Ju

R^2 ajusté le plus haut

Calcul scientifique Python

Vue hybride

Discussions similaires

Partager

Partager