bonsoir

dans le cadre d'une application d'apprentissage artificiel supervisé, je dois réaliser un programme qui me permet de filtrer un échantillon d'emails pour en extraire les spams.
pour ce faire, je dois disposer d'une liste de critères distinguant les spams des non-spams : je dois travailler sur le contenu des emails: analyser le contenu pour faire la distinction et filtrer.
la classe StringToKenizer me permettra de décomposer une chaîne de caractères(le contenu d'un email) en une suite de "mots" séparés par des "délimiteurs", cette suite de mots devra être comparée par la suite à une autre liste de mots considérés auparavant comme caractéristiques des spams.

mon problème est que je ne dispose pas de cette liste de mots qui caractérise les spams )

pouvez-vous me proposer une solution?

merci !