-
parser du html
bonjour a toutes et a tous;
bon bah j'aimerais vous dire que je viens de decouvrir le langage python et a vrai dir il est vraiment bien pour moi:king:.j'ai lu les differents tutos de la toille ,Coool.sauf que là actuellement je suis bloqué sur un petit projet:aie:,j'arrive pas a parser des document html.a vrai dire , j'ai vu les autres techniques elles sont vraiment bien mais moi voila ce que j'ai voulu faire :
au fait mon script devrait lire dans un repertoire contenant une dizaine de repertoires dont chacun represente le repertoire d'un site web;
il devrais recuperer pour chaque page html rencontree le contenu de la balise <title> ; l'url absolue de la page ; les keyworld ; la description .une ligne de texte contenant un mot recherché et deux autres ligne qui encadre la premiere.
le but c'est pour la creation d'un petit moteur de recherche de notre association.
merci d'avance !!
-
Bonsoir,
Je pense que les modules urllib ou urllib2 ainsi que l'utilisation des regexp [expressions regulieres] module "re" devraient te suffir.
Si c'est pour une application qui utilise des ressources uniquement locales, tu n'auras meme pas besoin d'utiliser urllib, une simple lecture de tes fichiers suffira a recuperer les donnees (dans un tableau ou une chaine de caractere), et tu n'aura donc plus qu'a "catcher" ce qui t'interesse dans le code source de tes pages.
Si jamais les pages sont distantes, la facon de proceder reste la meme sauf qu'au lieu de recuperer la source de tes page en ouvrant un fichier local, tu devra passer par urllib.
Documentation en francais sur les expressions regulieres
Si tu veux un exemple concret n'hesite pas a reposter ;)