Problème échantillonage R
Bonjour,
Je viens vers vous aujourd'hui avec un problème tout bête que je n'arrive pas à résoudre.
Je souhaite créer 2 échantillons pour une régression.
Je calcule un premier échantillon avec comme critère le fait qu'il y ait 50% de oui et 50% de non dans la variable d'intérêt.
Ensuite je le sépare en 2, un contenant 70% (apprentissage) des individus, l'autre 30% (test).
Mon soucis est que je n'arrive pas à obtenir l'échantillon test.
Voici mon code :
Code:
1 2 3 4 5 6 7 8
| taux = (nrow(data[which(data$transactionRevenue>0),])/nrow(data))
ind = sample(1:nrow(data[which(data$transactionRevenue==0),]),taux*nrow(data[which(data$transactionRevenue==0),]))
ind = c(which(data$transactionsPerVisit>0),ind)
indApp = sample(ind,0.7*length(ind))
dataApp = data[indApp,]
dataTest = data[ind,]
dataTest = dataTest[-indApp,] |
Avez-vous une idée ?