# -*- coding: utf-8 -*-
"""
Created on Tue Aug  3 11:39:09 2021

@author: Charles
"""

import pandas as pd
import numpy as np
import statsmodels.api as sm
from sklearn.linear_model import LogisticRegression
# Importer le dataset
data = pd.read_csv("clients.csv")

#Permets de classer les données (exemple le groupe sangin, le sexe...)
data["Gender"] = data["Gender"].astype('category')

#Supprimes les données inutiles
data.drop(["User ID"],axis='columns',inplace=True)
data.drop(["Purchased"],axis='columns',inplace=True)

# on définit x et y
#Mettre y = data["Gender"].cat.codes, si il est nécessaire de classer les données
y = data["Gender"].cat.codes
# on ne prend que les colonnes quantitatives
x = data.select_dtypes(np.number)

#Mise en place du modèle
modele_logit = LogisticRegression(random_state = 0, solver='liblinear')
modele_logit.fit(x,y)
pd.DataFrame(np.concatenate([modele_logit.intercept_.reshape(-1,1),
                             modele_logit.coef_],axis=1),
             index = ["coef"],
             columns = ["constante"]+list(x.columns)).T
# on ajoute une colonne pour la constante
x_stat = sm.add_constant(x)
# on ajuste le modèle
model = sm.Logit(y, x_stat)
result = model.fit()
print(result.summary())