Échantillonnage en R

**geeka** · 04/12/2016, 21h20

Bonjour,

J'ai un TP sur R en ce qui concerne l'échantillonnage.
J'ai deux questions auxquelles je ne sais comment répondre.

- Créer 2 échantillons par sondage aléatoire simple : échantillon d'apprentissage 70% et échantillon de validation 30%.
- Créer 2 échantillons stratifiés (variable de stratification sexe) : échantillon d'apprentissage 70% et échantillon de validation 30%.

J'ai quelques pistes :
- La fonction sample() qui fait un tirage aléatoire mais je ne vois pas comment l'utiliser.
- Le package rattle() qui permet de faire un échantillonnage simple (il me semble) mais pour la stratification je ne vois pas comment faire.
- Il y a le package "sampling" qui signifie échantillonnage, mais malgré la doc, je ne comprends pas comment l'utiliser.

Pouvez-vous m'aider SVP

Merci

**VonVelten** · 05/12/2016, 10h53

Bonjour,

Avez-vous lu la documentation sur ces fonctions ? Si oui, quels éléments n'avez vous pas compris ?

N'est-il pas possible de faire un échantillonnage stratifié avec la fonction sample en prenant des sous-jeux de données ?

Cordialement

VV

**geeka** · 05/12/2016, 22h13

Envoyé par VonVelten

Bonjour,

Avez-vous lu la documentation sur ces fonctions ? Si oui, quels éléments n'avez vous pas compris ?

N'est-il pas possible de faire un échantillonnage stratifié avec la fonction sample en prenant des sous-jeux de données ?

Cordialement

VV

Merci pour votre réponse.
J'ai vu une vidéo sur Youtube : Partitioning data into training and validation datasets using R. Je comprends mieux la fonction sample.
J'ai fait comme ceci :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
ind <- sample(2, nrow(achat), replace=T, prob=c(0.7,0.3))
tdata<- achat[ind==1,] # training = 70%
vdata<- achat[ind==2,] #validation = 30%

Je vois qu'il m'a subdivisé ça en 2 fichiers de données.
Ce que je ne comprends pas maintenant c'est que je ne vois pas le sens d'apprentissage et de validation ici, je vois juste un fichier découpé en 2 avec un %. Donc, comment peut-on dire que tel fichier est un fichier d'apprentissage, en quoi est-il différent d'un fichier normal ?

Merci

**VonVelten** · 06/12/2016, 10h48

Les notions d'échantillon d'apprentissage et de validation sont liées notamment à la validation croisée (attention, dans ce cas, il vaut mieux utiliser l'option replace=FALSE, une donnée ne devant être que dans l'un ou dans l'autre, mais pas dans les deux).

Le principe est de réaliser la calibration du modèle (estimation des paramètres) sur les données d'apprentissage (le modèle apprend comment il doit se comporter). Si le modèle est satisfaisant (et que les hypothèses sont vérifiées -> validation interne), alors on teste qu'il fonctionne bien sur des données n'ayant pas participer à sa construction (validation externe).

Après le choix entre apprentissage et validation est purement subjectif et aléatoire, mais une fois que cela est décidé et que les analyses ont début, on n'y touche plus (ou alors on recommence du début). L'idéal est d'avoir deux jeux de données assez proche (moyenne et écart-type proches, etc...)

J'espère que c'est assez clair.

VV

**geeka** · 16/12/2016, 18h35

Envoyé par VonVelten

Les notions d'échantillon d'apprentissage et de validation sont liées notamment à la validation croisée (attention, dans ce cas, il vaut mieux utiliser l'option replace=FALSE, une donnée ne devant être que dans l'un ou dans l'autre, mais pas dans les deux).

Le principe est de réaliser la calibration du modèle (estimation des paramètres) sur les données d'apprentissage (le modèle apprend comment il doit se comporter). Si le modèle est satisfaisant (et que les hypothèses sont vérifiées -> validation interne), alors on teste qu'il fonctionne bien sur des données n'ayant pas participer à sa construction (validation externe).

Après le choix entre apprentissage et validation est purement subjectif et aléatoire, mais une fois que cela est décidé et que les analyses ont début, on n'y touche plus (ou alors on recommence du début). L'idéal est d'avoir deux jeux de données assez proche (moyenne et écart-type proches, etc...)

J'espère que c'est assez clair.

VV

Merci beaucoup, c'est plus clair.
J'ai un problème sur le replace = False.
J'ai une erreur :

Error in sample.int(x, size, replace, prob) :
cannot take a sample larger than the population when 'replace = FALSE'

**VonVelten** · 16/12/2016, 19h09

Apparemment, vous avez demandé un échantillon plus grand que votre vecteur, ce qui n'est pas possible dans le cas où chaque valeur ne peut être tirée qu'une fois (replace=F).

Échantillonnage en R

R

Discussions similaires

Partager

Partager