Python - Erreur GridSearchCV Régression Logistique

**Coxtox** · 07/01/2017, 17h28

Bonjour,

J'essaie de faire tourner un code issu d'un livre sur des données réelles (textuelles) et j'ai l'erreur suivante :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
scores = grid.cv_results_['mean_test_score'].reshape(-1, 3).T
AttributeError: 'GridSearchCV' object has no attribute 'cv_results_'

Le but est d'afficher l'évolution du tx de bien classé selon mes parametres (C / mot unique, bigrams et trigrams) sur mon echantillon test.
Voici le code associé :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
pipe = make_pipeline(TfidfVectorizer(min_df=5), LogisticRegression())

param_grid = {'logisticregression__C': [ 0.001, 0.01, 0.1, 1, 10, 100],#
              "tfidfvectorizer__ngram_range": [(1, 1),(1, 2),(1, 3)]} #

grid = GridSearchCV(pipe, param_grid, cv=5)
grid.fit(text_train, Y_train)


# extract scores from grid_search
scores = grid.cv_results_['mean_test_score'].reshape(-1, 3).T

Si qqn a une idée ? j'ai testé ajouter l'option refit=True dans la fonction GridSearchCV() sans succès.

Vous remerciant par avance.

Cdlt,

**DotNetMatt** · 09/01/2017, 19h13

Est-ce que tu as essaye de mettre refit=True ?

D'apres la doc :

refit : boolean
Refit the best estimator with the entire dataset.
If "False", it is impossible to make predictions using
this GridSearchCV instance after fitting.

**rouardg** · 12/01/2017, 18h03

Bonsoir,

Je ne maitrise pas Python, et encore moins le Machine Learning. Mais j'ai trouvé le livre auquel tu fais référence, et j'ai exécuté une grande partie du code du chapitre 7.

Pour cela, j'ai installé Anaconda3 en version 4.2.0 pour Windows sur mon poste qui tourne sous Windows 7, et j'ai exécuté le code du livre sous Jupyter Notebook.

Voici la partie du code qui t"intéresse et qui a fonctionné pour moi :

Nom : code1.JPG
Affichages : 705
Taille : 60,9 Ko

Nom : code1.JPG
Affichages : 705
Taille : 60,9 Ko

Et voici le résultat graphique :

**rouardg** · 12/01/2017, 18h10

Je n'arrive pas à insérer la copie d'écran, mais en tout cas je te confirme que le code fonctionne :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
# visualize heat map
import mglearn

heatmap = mglearn.tools.heatmap(
scores, xlabel="C", ylabel="ngram_range", cmap="viridis", fmt="%.3f",
xticklabels=param_grid['logisticregression__C'],
yticklabels=param_grid['tfidfvectorizer__ngram_range'])

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
%matplotlib inline
import matplotlib.pyplot as plt

# visualize heat map
heatmap = mglearn.tools.heatmap(
scores, xlabel="C", ylabel="ngram_range", cmap="viridis", fmt="%.3f",
xticklabels=param_grid['logisticregression__C'],
yticklabels=param_grid['tfidfvectorizer__ngram_range'])
plt.colorbar(heatmap)

**rouardg** · 13/01/2017, 10h10

Voici le résultat graphique :

Nom : code2.JPG
Affichages : 837
Taille : 78,3 Ko

**rouardg** · 13/01/2017, 11h06

Dernier point : en Python, on peut connaître les attributs d'un objet grâce au dictionnaire.

Etant donné que tu as réussi à instancier ton objet grid, peux-tu faire STP :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

print (grid.__dict__)

Dans le résultat, moi je vois bien l'attribut cv_results_

Si ce n'est pas ton cas, à mon avis, mais je peux me tromper, il faudrait voir avec quelle version de Scikit-Learn tu travailles, et si elle n'est pas trop vieille.
Peut-être te faut-il une MAJ ?

Nom : CV_results.JPG
Affichages : 639
Taille : 73,9 Ko

Nom : CV_results.JPG
Affichages : 639
Taille : 73,9 Ko

**rouardg** · 13/01/2017, 11h17

Pour finir, en pages 12 et 13 du livre , il est indiqué les versions, et notamment il est demandé de travailler avec au moins la version 0.18 de Scikit-Learn, ou supérieure.

Voici la configuration que j'ai utilisé pour ma part :

Nom : versions.JPG
Affichages : 664
Taille : 57,0 Ko

Nom : versions.JPG
Affichages : 664
Taille : 57,0 Ko

Python - Erreur GridSearchCV Régression Logistique

Big Data

Discussions similaires

Partager

Partager