train test split

**nounouuuuu201186** · 22/02/2012, 19h34

Bonjour,
Je veux classer un dataset d'une taille importante qui dépasse 260000 documents. Je veux savoir comment je dois diviser mon dataset en une partie pour l'apprentissage et une autre pour le test c.a.d la meilleure méthodologie pour cette division.
Les documents textes sont triés par date.
Merci d'avance pour votre aide.

**Franck Dernoncourt** · 22/02/2012, 20h34

https://www.ai-class.com/course/video/videolecture/54 :

**Graffito** · 23/02/2012, 00h59

Des pourcentage et une sélection basée sur fonction pseudo-random obtenue par exemple via un checksum 16 bits calculé sur la concaténation de la date et du nom de fichier.
Pseudo-Random et non Random pour permettre de reproduire la même sélection.

Plûtot que de diviser statiquement l'ensemble en un corpus d'apprentissage et un corpus de test, il est préférable de prévoir plusieurs corpus d'apprentissage et plusieurs corpus de test, afin d'effectuer une analyse comparative des résultats obtenus sur différents couples Apprentissage-Tests

**nounouuuuu201186** · 23/02/2012, 22h20

Merci Franck Dernoncourt pour la vidéo.

Des pourcentage et une sélection basée sur fonction pseudo-random obtenue par exemple via un checksum 16 bits calculé sur la concaténation de la date et du nom de fichier.
Pseudo-Random et non Random pour permettre de reproduire la même sélection.

Je n'ai rien compris.

Plûtot que de diviser statiquement l'ensemble en un corpus d'apprentissage et un corpus de test, il est préférable de prévoir plusieurs corpus d'apprentissage et plusieurs corpus de test, afin d'effectuer une analyse comparative des résultats obtenus sur différents couples Apprentissage-Tests

L'idée de prévoir plusieurs corpus d'apprentissage et plusieurs corpus de test s'avère la plus appropriée pour mon cas mais comment procéder pour avoir la meilleure division?

**Graffito** · 24/02/2012, 00h22

Je n'ai rien compris.

Pour sélectionner un sous-ensemble de n% des documents, on a intéret à choisir les documents le plus au hasard possible, mais aussi à pouvoir reproduire ce choix à l'identique.

Ainsi, on associera à chaque document une valeur pseudo aléatoire reproductible (par exemple, un checksum basé sur le le nom et la date du fichier) qui est comprise dans un intervalle [0..Max].

Exemple avec un checksum 16 bit compris dans [0..65365]
Doc1-date1 : 1234
Doc2-date2 : 18427
Doc3-date3 : 62000
Doc4-date4 : 33
Doc5-date5 : 45678
...

Pour définir un sous ensemble E1 comportant 15% des doc, il suffit de retenir les documents dont le checksum appartient à l'intervalle [V1.. V1+65365/15].
Pour un sous-ensemble E2 (15% des doc aussi) mais différent de E1, on prendra les doc de l'intervalle [V2.. V2+65365/15].

**nounouuuuu201186** · 25/02/2012, 19h05

Merci Graffito mais je n'ai pas bien compris ou plutôt je n'ai rien compris

.
Pouvez-vous m’éclaircir encore plus?

**Graffito** · 25/02/2012, 20h28

Si on a 100 000 documents dont la "valeur aléatoire" comprise entre 0 et 99, y aura environ 1000 documents correspondant à chaque valeur.

**nounouuuuu201186** · 25/02/2012, 23h03

comment se fait le choix de l'intervalle de la "valeur aléatoire"?
Et pourquoi on a exactement 1000 docs pour chaque valeur?
y-a-t-il pas une possibilité d'avoir une répartition non équitable?

**Graffito** · 26/02/2012, 00h45

Et pourquoi on a exactement 1000 docs pour chaque valeur?
y-a-t-il pas une possibilité d'avoir une répartition non équitable?

Il y en a 1000 environ. c'est le principe de la loi des grands nombres.

La répartition sera équitable si on choisit bien la valeur de la variable associée à chaque document, d'où l'idée d'utiliser un algorithme de Checksum dont l'objectif est de fournir des valeur quasi aléatoires équitablement réparties.

comment se fait le choix de l'intervalle de la "valeur aléatoire"?

L'intervalle de la valeur aléatoire dépend de l'algorithme cjoisi pour caractériser un doc, par exemple :
[0..65365] pour un checksum 16 bits
[0..1024] pour un checksum 32 bits dont on prendrait les 10 derniers bits,
...

**nounouuuuu201186** · 06/03/2012, 19h30

Bonjour,
Dans la vidéo https://www.ai-class.com/course/video/videolecture/54, je n'ai pas compris le paramètre k.
par exemple pour 10-cross validation, est ce que k=10?
Merci d'avance.

**Franck Dernoncourt** · 06/03/2012, 22h19

**nounouuuuu201186** · 06/03/2012, 22h46

Merci Franck Dernoncourt.
Mais, je n'ai pas compris la signification du paramètre k. En particulier la relation entre k et cross-validation.

**Franck Dernoncourt** · 06/03/2012, 23h00

Envoyé par nounouuuuu201186

Merci Franck Dernoncourt.
Mais, je n'ai pas compris la signification du paramètre k.

Regarde les vidéos sur le Laplacian smoothing.

Envoyé par nounouuuuu201186

En particulier la relation entre k et cross-validation.

La cross-validation permet de choisir le k le plus "efficace".

**nounouuuuu201186** · 07/03/2012, 07h20

@Franck Dernoncourt: pouvez-vous me guider avec un lien utile?

**nounouuuuu201186** · 07/03/2012, 09h45

J'ai trouvé ce lien

mais je n'ai pas compris pourquoi on a utilisé exactement k=1?

**nounouuuuu201186** · 07/03/2012, 11h29

Bonjour,
J'utilise l'interface graphique Weka pour classer des documents texte. Mon data set est sous format ARFF. J'ai appliqué le filtre StringToWordVector. Puis, j'ai appliqué le filtre RemovePercentage pour diviser mes données en train et test sets. Mon data set contient 99 instances au total et 934 attributs. Après le train-test split, j'ai eu 66 instances pour la partie apprentissage et 33 instances pour la partie test.
L'apprentissage du modèle donne 100% comme accuracy.
Le test donne 3,0303% comme accuracy.

J'ai compris qu'il s'agit d'un problème d'Overfitting Overfitting

Quand je lance 10fold CV sur tout mon dataset, j'ai 89,899% comme Correctly Classified Instances.
Est-ce que je peux me contenter sur le 10fold CV sur tout mon dataset car je doute que ce résultat puisse être significatif puisque mes documents sont triés par date?

Quelqu'un pourrait-il me guider?

**Franck Dernoncourt** · 07/03/2012, 14h07

Envoyé par nounouuuuu201186

je n'ai pas compris pourquoi on a utilisé exactement k=1?

Il y a d'autres vidéos sur Laplace Smoothing,e.g.

Mais pas besoin de passer trop de temps à comprendre Laplace Smoothing, l'idée est simplement que la cross-validation permet de choisir le paramètre le plus efficace. Ou bien plus généralement pour "assessing how the results of a statistical analysis will generalize to an independent data set" (=typiquement, détecter l'overfitting).(http://en.wikipedia.org/wiki/Cross-v...on_(statistics)).

Concernant ton problème précis, désolé je n'ai pas assez de temps en ce moment pour m'y pencher dessus, peut-être que quelqu'un doute sur le forum le pourra.

**nounouuuuu201186** · 07/03/2012, 16h54

Merci Franck Dernoncourt. Bonne chance pour vos recherches

.

train test split

Intelligence artificielle

Discussions similaires

Partager

Partager