Bonjour,

Je viens vers vous aujourd'hui avec un problème tout bête que je n'arrive pas à résoudre.
Je souhaite créer 2 échantillons pour une régression.

Je calcule un premier échantillon avec comme critère le fait qu'il y ait 50% de oui et 50% de non dans la variable d'intérêt.
Ensuite je le sépare en 2, un contenant 70% (apprentissage) des individus, l'autre 30% (test).

Mon soucis est que je n'arrive pas à obtenir l'échantillon test.
Voici mon code :

Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8
taux = (nrow(data[which(data$transactionRevenue>0),])/nrow(data))
ind = sample(1:nrow(data[which(data$transactionRevenue==0),]),taux*nrow(data[which(data$transactionRevenue==0),]))
ind = c(which(data$transactionsPerVisit>0),ind)
 
indApp = sample(ind,0.7*length(ind))
dataApp = data[indApp,]
dataTest = data[ind,]
dataTest = dataTest[-indApp,]

Avez-vous une idée ?