Interpréter des résultats sur R

**rou7oullah** · 04/10/2016, 19h42

Bonjour,

Je voudrais savoir si l'on peut m'aider à interpréter les résultats générés par RStudio sur la prédiction de la défaillance des entreprises en comparant les réseaux de neurones et la régression linéaire.

Comment interpréter les points qui forment deux lignes verticales dans chaque graphique.

Merci,

**dev_ggy** · 05/10/2016, 11h07

Bonjour,

Je préfère le modèle de régression que le modèle de réseaux de neurones. Il semble mieux catégoriser les données. Mais la difficulté sur tes données c'est que tu compares des données discrètes avec des données continues ce qui rend l'interprétation un peu scabreuse. Je te conseillerai de mettre un seuil et de faire une matrice de confusion pour voir dans les deux cas combien de bien classé et de mal classé par type de modèle ?

Au plaisir de te lire

**rou7oullah** · 05/10/2016, 11h12

Merci beaucoup pour votre réponse mais honnêtement je n'ai rien compris et je ne sais pas comment mettre ça en place.

Si je comprends bien, quand vous dites que la régression linéaire semble mieux catégoriser les données c'est parce qu'on retrouve des données des deux cotés de la ligne de régression?

**faubry** · 05/10/2016, 17h15

La comparaison d'un classifieur entre deux classes se fait par courbes ROC, en utilisant par exemple le package pROC.
1) calculer les intervalles de confiance des AUC ; si 0.5 est dans l'intervalle de confiance, cela signifie que le classifieur tire au hasard les classes ;
2) comparer les AUC entre les 2 classifieurs.

Mais cette analyse n'aura de sens que si les ensembles d'apprentissage et de test sont différents. Et comme on n'est que rarement dans cette configuration, il faut se baser sur des résultats obtenus par validation croisée (pour les 'Nuls', voir par exemple la page Wikipedia concernant la validation croisée, c'est un bon point de départ pour comprendre ce que c'est).

N.B. : les résultats sont données par les procédures codées en R et non par RStudio qui n'est qu'un environnement de travail. On peut obtenir les mêmes résultats et graphiques à partir de la console R (RGui).

**rou7oullah** · 05/10/2016, 17h24

Merci pour votre explication.

Voici mon code:

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
 
set.seed (500)
library(MASS)
require(Rmixmod)
require(ManlyMix)
 
data(finance)
data <- finance
 
data$Health <- as.numeric(as.factor(data$Health))
#data$Year <- as.numeric(as.factor(data$Year))
data$Year <- NULL
 
#apply(data,2,function(x) sum(is.na(x)))
 
index <- sample(1:nrow(data),round(0.75*nrow(data)))
train <- data[index,]
test <- data[-index,]
 
lm.fit <- glm(Health~., data=train)
 
summary(lm.fit) # Tableau du modèle
pr.lm <- predict(lm.fit,test)
MSE.lm <- sum((pr.lm - test$Health)^2)/nrow(test)
 
# Préparation Données NN 
maxs <- apply(data, 2, max)
mins <- apply(data, 2, min)
scaled <- as.data.frame(scale(data, center = mins, scale = maxs - mins))
train_ <- scaled[index,]
test_ <- scaled[-index,]
 
library(neuralnet)
 
n <- names(train_)
f <- as.formula(paste("Health ~", paste(n[!n %in% "Health"], collapse = " + ")))
 
nn <- neuralnet(f,data=train_,hidden=c(3,1),linear.output=T)
plot(nn)
 
pr.nn <- compute(nn,test_[,2:5])
 
pr.nn_ <- pr.nn$net.result*(max(data$Health)-min(data$Health))+min(data$Health)
 
test.r <- (test_$Health)*(max(data$Health)-min(data$Health))+min(data$Health)
MSE.nn <- sum((test.r - pr.nn_)^2)/nrow(test_)
 
print(paste(MSE.lm,MSE.nn))
par(mfrow=c(1,2))
plot(test$Health,pr.nn_,col='red',main='Real vs predicted NN',pch=18,cex=0.7)
abline(0,1,lwd=2)
legend('bottomright',legend='NN',pch=18,col='red', bty='n')
plot(test$Health,pr.lm,col='blue',main='Real vs predicted lm',pch=18, cex=0.7)
abline(0,1,lwd=2)
legend('bottomright',legend='LM',pch=18,col='blue', bty='n', cex=.95)
plot(test$Health,pr.nn_,col='red',main='Real vs predicted NN',pch=18,cex=0.7)
points(test$Health,pr.lm,col='blue',pch=18,cex=0.7)
abline(0,1,lwd=2)
legend('bottomright',legend=c('NN','LM'),pch=18,col=c('red','blue'))
 
library(boot)
set.seed(200)
lm.fit <- glm(Health~.,data=data)
cv.glm(data,lm.fit,K=20)$delta[1]
set.seed(450)
cv.error <- NULL
k <- 20
 
library(plyr)
pbar <- create_progress_bar('text')
pbar$init(k)
for(i in 1:k){
  index <- sample(1:nrow(data),round(0.9*nrow(data)))
  train.cv <- scaled[index,]
  test.cv <- scaled[-index,]
  nn <- neuralnet(f,data=train.cv,hidden=c(3,1),linear.output=T)
  pr.nn <- compute(nn,test.cv[,2:5])
  pr.nn <- pr.nn$net.result*(max(data$Health)-min(data$Health))+min(data$Health)
  test.cv.r <- (test.cv$Health)*(max(data$Health)-min(data$Health))+min(data$Health)
  cv.error[i] <- sum((test.cv.r - pr.nn)^2)/nrow(test.cv)
  pbar$step()
}
mean(cv.error)
cv.error
boxplot(cv.error,xlab='MSE CV',col='cyan',
        border='blue',names='CV error (MSE)',
        main='CV error (MSE) for NN',horizontal=TRUE)

**rou7oullah** · 09/10/2016, 00h51

J'ai du modifier mon code avec l'aide d'un ami qui m'a expliqué certaines choses. Je voudrais confirmer que la comparaison aurait du se faire avec une régression logistique et non pas avec une régression linéaire. Pour comparer les deux modèles, j'ai utilisé la courbe ROC et une matrice de confusion mais j'ai du mal à comprendre comment interpréter les résultats de la courbe et de la matrice et j'aurais voulu savoir si ces deux outils sont nécessaires et/ou complémentaires.

**A. D.** · 14/10/2016, 12h45

Bonjour,

Juste quelques infos en vrac :

Régression logistique : si la variable à expliquer est binaire
Régression linéaire : si la variable à expliquer est numérique / continue
Matrice de confusion : permet notamment d'évaluer le taux de bon classement d'un modèle (exactitude)

Bonne continuation !

Cordialement,

A.D.

Interpréter des résultats sur R

R

Vue hybride

Discussions similaires

Partager

Partager