IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

train test split


Sujet :

Intelligence artificielle

  1. #1
    Membre régulier Avatar de nounouuuuu201186
    Femme Profil pro
    Stagiaire
    Inscrit en
    Juillet 2011
    Messages
    169
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Stagiaire
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juillet 2011
    Messages : 169
    Points : 107
    Points
    107
    Par défaut train test split
    Bonjour,
    Je veux classer un dataset d'une taille importante qui dépasse 260000 documents. Je veux savoir comment je dois diviser mon dataset en une partie pour l'apprentissage et une autre pour le test c.a.d la meilleure méthodologie pour cette division.
    Les documents textes sont triés par date.
    Merci d'avance pour votre aide.

  2. #2
    Membre émérite
    Avatar de Franck Dernoncourt
    Homme Profil pro
    PhD student in AI @ MIT
    Inscrit en
    Avril 2010
    Messages
    894
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : PhD student in AI @ MIT
    Secteur : Enseignement

    Informations forums :
    Inscription : Avril 2010
    Messages : 894
    Points : 2 464
    Points
    2 464

  3. #3
    Expert éminent Avatar de Graffito
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    5 993
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 993
    Points : 7 903
    Points
    7 903
    Par défaut
    Des pourcentage et une sélection basée sur fonction pseudo-random obtenue par exemple via un checksum 16 bits calculé sur la concaténation de la date et du nom de fichier.
    Pseudo-Random et non Random pour permettre de reproduire la même sélection.

    Plûtot que de diviser statiquement l'ensemble en un corpus d'apprentissage et un corpus de test, il est préférable de prévoir plusieurs corpus d'apprentissage et plusieurs corpus de test, afin d'effectuer une analyse comparative des résultats obtenus sur différents couples Apprentissage-Tests
    " Le croquemitaine ! Aaaaaah ! Où ça ? " ©Homer Simpson

  4. #4
    Membre régulier Avatar de nounouuuuu201186
    Femme Profil pro
    Stagiaire
    Inscrit en
    Juillet 2011
    Messages
    169
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Stagiaire
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juillet 2011
    Messages : 169
    Points : 107
    Points
    107
    Par défaut
    Merci Franck Dernoncourt pour la vidéo.
    Des pourcentage et une sélection basée sur fonction pseudo-random obtenue par exemple via un checksum 16 bits calculé sur la concaténation de la date et du nom de fichier.
    Pseudo-Random et non Random pour permettre de reproduire la même sélection.
    Je n'ai rien compris.
    Plûtot que de diviser statiquement l'ensemble en un corpus d'apprentissage et un corpus de test, il est préférable de prévoir plusieurs corpus d'apprentissage et plusieurs corpus de test, afin d'effectuer une analyse comparative des résultats obtenus sur différents couples Apprentissage-Tests
    L'idée de prévoir plusieurs corpus d'apprentissage et plusieurs corpus de test s'avère la plus appropriée pour mon cas mais comment procéder pour avoir la meilleure division?

  5. #5
    Expert éminent Avatar de Graffito
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    5 993
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 993
    Points : 7 903
    Points
    7 903
    Par défaut
    Je n'ai rien compris.
    Pour sélectionner un sous-ensemble de n% des documents, on a intéret à choisir les documents le plus au hasard possible, mais aussi à pouvoir reproduire ce choix à l'identique.

    Ainsi, on associera à chaque document une valeur pseudo aléatoire reproductible (par exemple, un checksum basé sur le le nom et la date du fichier) qui est comprise dans un intervalle [0..Max].

    Exemple avec un checksum 16 bit compris dans [0..65365]
    Doc1-date1 : 1234
    Doc2-date2 : 18427
    Doc3-date3 : 62000
    Doc4-date4 : 33
    Doc5-date5 : 45678
    ...

    Pour définir un sous ensemble E1 comportant 15% des doc, il suffit de retenir les documents dont le checksum appartient à l'intervalle [V1.. V1+65365/15].
    Pour un sous-ensemble E2 (15% des doc aussi) mais différent de E1, on prendra les doc de l'intervalle [V2.. V2+65365/15].
    " Le croquemitaine ! Aaaaaah ! Où ça ? " ©Homer Simpson

  6. #6
    Membre régulier Avatar de nounouuuuu201186
    Femme Profil pro
    Stagiaire
    Inscrit en
    Juillet 2011
    Messages
    169
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Stagiaire
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juillet 2011
    Messages : 169
    Points : 107
    Points
    107
    Par défaut
    Merci Graffito mais je n'ai pas bien compris ou plutôt je n'ai rien compris .
    Pouvez-vous m’éclaircir encore plus?

  7. #7
    Expert éminent Avatar de Graffito
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    5 993
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 993
    Points : 7 903
    Points
    7 903
    Par défaut
    Si on a 100 000 documents dont la "valeur aléatoire" comprise entre 0 et 99, y aura environ 1000 documents correspondant à chaque valeur.
    " Le croquemitaine ! Aaaaaah ! Où ça ? " ©Homer Simpson

  8. #8
    Membre régulier Avatar de nounouuuuu201186
    Femme Profil pro
    Stagiaire
    Inscrit en
    Juillet 2011
    Messages
    169
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Stagiaire
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juillet 2011
    Messages : 169
    Points : 107
    Points
    107
    Par défaut
    comment se fait le choix de l'intervalle de la "valeur aléatoire"?
    Et pourquoi on a exactement 1000 docs pour chaque valeur?
    y-a-t-il pas une possibilité d'avoir une répartition non équitable?

  9. #9
    Expert éminent Avatar de Graffito
    Profil pro
    Inscrit en
    Janvier 2006
    Messages
    5 993
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Janvier 2006
    Messages : 5 993
    Points : 7 903
    Points
    7 903
    Par défaut
    Et pourquoi on a exactement 1000 docs pour chaque valeur?
    y-a-t-il pas une possibilité d'avoir une répartition non équitable?
    Il y en a 1000 environ. c'est le principe de la loi des grands nombres.

    La répartition sera équitable si on choisit bien la valeur de la variable associée à chaque document, d'où l'idée d'utiliser un algorithme de Checksum dont l'objectif est de fournir des valeur quasi aléatoires équitablement réparties.
    comment se fait le choix de l'intervalle de la "valeur aléatoire"?
    L'intervalle de la valeur aléatoire dépend de l'algorithme cjoisi pour caractériser un doc, par exemple :
    [0..65365] pour un checksum 16 bits
    [0..1024] pour un checksum 32 bits dont on prendrait les 10 derniers bits,
    ...
    " Le croquemitaine ! Aaaaaah ! Où ça ? " ©Homer Simpson

  10. #10
    Membre régulier Avatar de nounouuuuu201186
    Femme Profil pro
    Stagiaire
    Inscrit en
    Juillet 2011
    Messages
    169
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Stagiaire
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juillet 2011
    Messages : 169
    Points : 107
    Points
    107
    Par défaut
    Bonjour,
    Dans la vidéo https://www.ai-class.com/course/video/videolecture/54, je n'ai pas compris le paramètre k.
    par exemple pour 10-cross validation, est ce que k=10?
    Merci d'avance.

  11. #11
    Membre émérite
    Avatar de Franck Dernoncourt
    Homme Profil pro
    PhD student in AI @ MIT
    Inscrit en
    Avril 2010
    Messages
    894
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : PhD student in AI @ MIT
    Secteur : Enseignement

    Informations forums :
    Inscription : Avril 2010
    Messages : 894
    Points : 2 464
    Points
    2 464
    Par défaut
    Images attachées Images attachées  

  12. #12
    Membre régulier Avatar de nounouuuuu201186
    Femme Profil pro
    Stagiaire
    Inscrit en
    Juillet 2011
    Messages
    169
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Stagiaire
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juillet 2011
    Messages : 169
    Points : 107
    Points
    107
    Par défaut
    Merci Franck Dernoncourt.
    Mais, je n'ai pas compris la signification du paramètre k. En particulier la relation entre k et cross-validation.

  13. #13
    Membre émérite
    Avatar de Franck Dernoncourt
    Homme Profil pro
    PhD student in AI @ MIT
    Inscrit en
    Avril 2010
    Messages
    894
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : PhD student in AI @ MIT
    Secteur : Enseignement

    Informations forums :
    Inscription : Avril 2010
    Messages : 894
    Points : 2 464
    Points
    2 464
    Par défaut
    Citation Envoyé par nounouuuuu201186 Voir le message
    Merci Franck Dernoncourt.
    Mais, je n'ai pas compris la signification du paramètre k.
    Regarde les vidéos sur le Laplacian smoothing.

    Citation Envoyé par nounouuuuu201186 Voir le message
    En particulier la relation entre k et cross-validation.
    La cross-validation permet de choisir le k le plus "efficace".

  14. #14
    Membre régulier Avatar de nounouuuuu201186
    Femme Profil pro
    Stagiaire
    Inscrit en
    Juillet 2011
    Messages
    169
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Stagiaire
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juillet 2011
    Messages : 169
    Points : 107
    Points
    107
    Par défaut
    @Franck Dernoncourt: pouvez-vous me guider avec un lien utile?

  15. #15
    Membre régulier Avatar de nounouuuuu201186
    Femme Profil pro
    Stagiaire
    Inscrit en
    Juillet 2011
    Messages
    169
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Stagiaire
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juillet 2011
    Messages : 169
    Points : 107
    Points
    107
    Par défaut
    J'ai trouvé ce lien
    mais je n'ai pas compris pourquoi on a utilisé exactement k=1?

  16. #16
    Membre régulier Avatar de nounouuuuu201186
    Femme Profil pro
    Stagiaire
    Inscrit en
    Juillet 2011
    Messages
    169
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Stagiaire
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juillet 2011
    Messages : 169
    Points : 107
    Points
    107
    Par défaut
    Bonjour,
    J'utilise l'interface graphique Weka pour classer des documents texte. Mon data set est sous format ARFF. J'ai appliqué le filtre StringToWordVector. Puis, j'ai appliqué le filtre RemovePercentage pour diviser mes données en train et test sets. Mon data set contient 99 instances au total et 934 attributs. Après le train-test split, j'ai eu 66 instances pour la partie apprentissage et 33 instances pour la partie test.
    L'apprentissage du modèle donne 100% comme accuracy.
    Le test donne 3,0303% comme accuracy.

    J'ai compris qu'il s'agit d'un problème d'Overfitting Overfitting

    Quand je lance 10fold CV sur tout mon dataset, j'ai 89,899% comme Correctly Classified Instances.
    Est-ce que je peux me contenter sur le 10fold CV sur tout mon dataset car je doute que ce résultat puisse être significatif puisque mes documents sont triés par date?


    Quelqu'un pourrait-il me guider?

  17. #17
    Membre émérite
    Avatar de Franck Dernoncourt
    Homme Profil pro
    PhD student in AI @ MIT
    Inscrit en
    Avril 2010
    Messages
    894
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : PhD student in AI @ MIT
    Secteur : Enseignement

    Informations forums :
    Inscription : Avril 2010
    Messages : 894
    Points : 2 464
    Points
    2 464
    Par défaut
    Citation Envoyé par nounouuuuu201186 Voir le message
    je n'ai pas compris pourquoi on a utilisé exactement k=1?
    Il y a d'autres vidéos sur Laplace Smoothing,e.g.


    Mais pas besoin de passer trop de temps à comprendre Laplace Smoothing, l'idée est simplement que la cross-validation permet de choisir le paramètre le plus efficace. Ou bien plus généralement pour "assessing how the results of a statistical analysis will generalize to an independent data set" (=typiquement, détecter l'overfitting).(http://en.wikipedia.org/wiki/Cross-v...on_(statistics)).

    Concernant ton problème précis, désolé je n'ai pas assez de temps en ce moment pour m'y pencher dessus, peut-être que quelqu'un doute sur le forum le pourra.

  18. #18
    Membre régulier Avatar de nounouuuuu201186
    Femme Profil pro
    Stagiaire
    Inscrit en
    Juillet 2011
    Messages
    169
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Tunisie

    Informations professionnelles :
    Activité : Stagiaire
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Juillet 2011
    Messages : 169
    Points : 107
    Points
    107
    Par défaut
    Merci Franck Dernoncourt. Bonne chance pour vos recherches .

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. [XL-2010] Amener l'utilisateur sur la cellule en train d'être testée par le code
    Par julio44 dans le forum Macros et VBA Excel
    Réponses: 8
    Dernier message: 05/06/2014, 14h54
  2. [Weka] Erreur "Training and testing data are not compatible"
    Par a1331 dans le forum Général Java
    Réponses: 1
    Dernier message: 17/07/2013, 13h09
  3. Réponses: 4
    Dernier message: 17/12/2008, 15h53
  4. [XMLRAD] test de nullité
    Par Pm dans le forum XMLRAD
    Réponses: 5
    Dernier message: 29/11/2002, 10h57
  5. test collisions
    Par tatakinawa dans le forum OpenGL
    Réponses: 5
    Dernier message: 08/06/2002, 06h03

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo