Bonjour,
Je viens vers vous aujourd'hui avec un problème tout bête que je n'arrive pas à résoudre.
Je souhaite créer 2 échantillons pour une régression.
Je calcule un premier échantillon avec comme critère le fait qu'il y ait 50% de oui et 50% de non dans la variable d'intérêt.
Ensuite je le sépare en 2, un contenant 70% (apprentissage) des individus, l'autre 30% (test).
Mon soucis est que je n'arrive pas à obtenir l'échantillon test.
Voici mon code :
Code : Sélectionner tout - Visualiser dans une fenêtre à part
1
2
3
4
5
6
7
8 taux = (nrow(data[which(data$transactionRevenue>0),])/nrow(data)) ind = sample(1:nrow(data[which(data$transactionRevenue==0),]),taux*nrow(data[which(data$transactionRevenue==0),])) ind = c(which(data$transactionsPerVisit>0),ind) indApp = sample(ind,0.7*length(ind)) dataApp = data[indApp,] dataTest = data[ind,] dataTest = dataTest[-indApp,]
Avez-vous une idée ?
Partager