Bonjour tout le monde,


ce que on j'ai faite :
*********************************
- j'ai fait un scripte qui reçois en entré l'URL et donne en sortie la conversion du site internet en fichier.txt; et l'enregistrer sur le corpus de l'Unitex pour le traiter.

les problèmes rencontrés:
***************************
-le scripte que j'ai fait il accepte pas l'URL des fichier WIKIPEDIA (j'ai vue que tout les URl qui contiens pas www. on script l'accepte pas) ce qui est un grand problème pour mon application, vue que ce genre des site contiens beaucoup d'information pertinent
-âpre la conversion du site ( HTML------> TXT en python) ;j'ai rencontre un grand problème avec [é " ' à ç è ô û ê â ... etc] même j'ai respecter l'UTF-8


cordialement,