IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

R Discussion :

Échantillonnage en R


Sujet :

R

  1. #1
    Membre habitué
    Profil pro
    Étudiant
    Inscrit en
    Mars 2013
    Messages
    388
    Détails du profil
    Informations personnelles :
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Mars 2013
    Messages : 388
    Points : 172
    Points
    172
    Par défaut Échantillonnage en R
    Bonjour,

    J'ai un TP sur R en ce qui concerne l'échantillonnage.
    J'ai deux questions auxquelles je ne sais comment répondre.

    - Créer 2 échantillons par sondage aléatoire simple : échantillon d'apprentissage 70% et échantillon de validation 30%.
    - Créer 2 échantillons stratifiés (variable de stratification sexe) : échantillon d'apprentissage 70% et échantillon de validation 30%.

    J'ai quelques pistes :
    - La fonction sample() qui fait un tirage aléatoire mais je ne vois pas comment l'utiliser.
    - Le package rattle() qui permet de faire un échantillonnage simple (il me semble) mais pour la stratification je ne vois pas comment faire.
    - Il y a le package "sampling" qui signifie échantillonnage, mais malgré la doc, je ne comprends pas comment l'utiliser.

    Pouvez-vous m'aider SVP
    Merci

  2. #2
    Membre habitué
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Décembre 2015
    Messages
    72
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Décembre 2015
    Messages : 72
    Points : 180
    Points
    180
    Par défaut
    Bonjour,

    Avez-vous lu la documentation sur ces fonctions ? Si oui, quels éléments n'avez vous pas compris ?

    N'est-il pas possible de faire un échantillonnage stratifié avec la fonction sample en prenant des sous-jeux de données ?

    Cordialement

    VV

  3. #3
    Membre habitué
    Profil pro
    Étudiant
    Inscrit en
    Mars 2013
    Messages
    388
    Détails du profil
    Informations personnelles :
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Mars 2013
    Messages : 388
    Points : 172
    Points
    172
    Par défaut
    Citation Envoyé par VonVelten Voir le message
    Bonjour,

    Avez-vous lu la documentation sur ces fonctions ? Si oui, quels éléments n'avez vous pas compris ?

    N'est-il pas possible de faire un échantillonnage stratifié avec la fonction sample en prenant des sous-jeux de données ?

    Cordialement

    VV
    Merci pour votre réponse.
    J'ai vu une vidéo sur Youtube : Partitioning data into training and validation datasets using R. Je comprends mieux la fonction sample.
    J'ai fait comme ceci :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    ind <- sample(2, nrow(achat), replace=T, prob=c(0.7,0.3))
    tdata<- achat[ind==1,] # training = 70%
    vdata<- achat[ind==2,] #validation = 30%
    Je vois qu'il m'a subdivisé ça en 2 fichiers de données.
    Ce que je ne comprends pas maintenant c'est que je ne vois pas le sens d'apprentissage et de validation ici, je vois juste un fichier découpé en 2 avec un %. Donc, comment peut-on dire que tel fichier est un fichier d'apprentissage, en quoi est-il différent d'un fichier normal ?

    Merci

  4. #4
    Membre habitué
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Décembre 2015
    Messages
    72
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Décembre 2015
    Messages : 72
    Points : 180
    Points
    180
    Par défaut
    Les notions d'échantillon d'apprentissage et de validation sont liées notamment à la validation croisée (attention, dans ce cas, il vaut mieux utiliser l'option replace=FALSE, une donnée ne devant être que dans l'un ou dans l'autre, mais pas dans les deux).

    Le principe est de réaliser la calibration du modèle (estimation des paramètres) sur les données d'apprentissage (le modèle apprend comment il doit se comporter). Si le modèle est satisfaisant (et que les hypothèses sont vérifiées -> validation interne), alors on teste qu'il fonctionne bien sur des données n'ayant pas participer à sa construction (validation externe).

    Après le choix entre apprentissage et validation est purement subjectif et aléatoire, mais une fois que cela est décidé et que les analyses ont début, on n'y touche plus (ou alors on recommence du début). L'idéal est d'avoir deux jeux de données assez proche (moyenne et écart-type proches, etc...)

    J'espère que c'est assez clair.

    VV

  5. #5
    Membre habitué
    Profil pro
    Étudiant
    Inscrit en
    Mars 2013
    Messages
    388
    Détails du profil
    Informations personnelles :
    Localisation : France, Seine Saint Denis (Île de France)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Mars 2013
    Messages : 388
    Points : 172
    Points
    172
    Par défaut
    Citation Envoyé par VonVelten Voir le message
    Les notions d'échantillon d'apprentissage et de validation sont liées notamment à la validation croisée (attention, dans ce cas, il vaut mieux utiliser l'option replace=FALSE, une donnée ne devant être que dans l'un ou dans l'autre, mais pas dans les deux).

    Le principe est de réaliser la calibration du modèle (estimation des paramètres) sur les données d'apprentissage (le modèle apprend comment il doit se comporter). Si le modèle est satisfaisant (et que les hypothèses sont vérifiées -> validation interne), alors on teste qu'il fonctionne bien sur des données n'ayant pas participer à sa construction (validation externe).

    Après le choix entre apprentissage et validation est purement subjectif et aléatoire, mais une fois que cela est décidé et que les analyses ont début, on n'y touche plus (ou alors on recommence du début). L'idéal est d'avoir deux jeux de données assez proche (moyenne et écart-type proches, etc...)

    J'espère que c'est assez clair.

    VV
    Merci beaucoup, c'est plus clair.
    J'ai un problème sur le replace = False.
    J'ai une erreur :
    Error in sample.int(x, size, replace, prob) :
    cannot take a sample larger than the population when 'replace = FALSE'

  6. #6
    Membre habitué
    Homme Profil pro
    Ingénieur de recherche
    Inscrit en
    Décembre 2015
    Messages
    72
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Ille et Vilaine (Bretagne)

    Informations professionnelles :
    Activité : Ingénieur de recherche
    Secteur : Agroalimentaire - Agriculture

    Informations forums :
    Inscription : Décembre 2015
    Messages : 72
    Points : 180
    Points
    180
    Par défaut
    Apparemment, vous avez demandé un échantillon plus grand que votre vecteur, ce qui n'est pas possible dans le cas où chaque valeur ne peut être tirée qu'une fois (replace=F).

Discussions similaires

  1. Sous-échantillonnage de la vidéo
    Par ammar_diabolo dans le forum OpenCV
    Réponses: 2
    Dernier message: 06/04/2008, 19h35
  2. Changement de fréquence d'échantillonnage
    Par xbaet dans le forum LabVIEW
    Réponses: 0
    Dernier message: 07/11/2007, 17h31
  3. Sous échantillonnage dans une liaison serie
    Par riadhz dans le forum C++
    Réponses: 2
    Dernier message: 06/06/2007, 08h40
  4. Réponses: 5
    Dernier message: 29/03/2007, 14h43
  5. [PIC] Quelle puce pour échantillonnage et traitement audio temps réel ?
    Par kromartien dans le forum Autres architectures
    Réponses: 3
    Dernier message: 15/03/2007, 21h45

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo