# -*- coding: utf-8 -*- """ Created on Tue Aug 3 11:39:09 2021 @author: Charles """ import pandas as pd import numpy as np import statsmodels.api as sm from sklearn.linear_model import LogisticRegression # Importer le dataset data = pd.read_csv("clients.csv") #Permets de classer les données (exemple le groupe sangin, le sexe...) data["Gender"] = data["Gender"].astype('category') #Supprimes les données inutiles data.drop(["User ID"],axis='columns',inplace=True) data.drop(["Purchased"],axis='columns',inplace=True) # on définit x et y #Mettre y = data["Gender"].cat.codes, si il est nécessaire de classer les données y = data["Gender"].cat.codes # on ne prend que les colonnes quantitatives x = data.select_dtypes(np.number) #Mise en place du modèle modele_logit = LogisticRegression(random_state = 0, solver='liblinear') modele_logit.fit(x,y) pd.DataFrame(np.concatenate([modele_logit.intercept_.reshape(-1,1), modele_logit.coef_],axis=1), index = ["coef"], columns = ["constante"]+list(x.columns)).T # on ajoute une colonne pour la constante x_stat = sm.add_constant(x) # on ajuste le modèle model = sm.Logit(y, x_stat) result = model.fit() print(result.summary())