Pondérer les articles de Wikipedia en Java
Bonjour,
Je veut utiliser une métrique de pondération (ex: TF-IDF) sur les articles wikipedia. J'ai cherché un peu, j'ai trouvé des API et des Toolkit qui utilise cette métrique mais sur un objet de type FILE (ex: JateToolkit, Mahoot, hadoop). Mon problem c'est que je doit appliquer ca sur les article de wikipedia. D'après ma petite recherche j'ai compris que je doit travailler avec les dumps de wikipedia (une version téléchargeable de wikipedia), mais je ne savais pas comment commencer. Est ce que quelqu'un peut m'aider.
Merci