parser du html

**ahamayed** · 23/04/2008, 05h41

bonjour a toutes et a tous;
bon bah j'aimerais vous dire que je viens de decouvrir le langage python et a vrai dir il est vraiment bien pour moi

.j'ai lu les differents tutos de la toille ,Coool.sauf que là actuellement je suis bloqué sur un petit projet

,j'arrive pas a parser des document html.a vrai dire , j'ai vu les autres techniques elles sont vraiment bien mais moi voila ce que j'ai voulu faire :

au fait mon script devrait lire dans un repertoire contenant une dizaine de repertoires dont chacun represente le repertoire d'un site web;

il devrais recuperer pour chaque page html rencontree le contenu de la balise <title> ; l'url absolue de la page ; les keyworld ; la description .une ligne de texte contenant un mot recherché et deux autres ligne qui encadre la premiere.

le but c'est pour la creation d'un petit moteur de recherche de notre association.
merci d'avance !!

**Mysti¢** · 27/04/2008, 21h33

Bonsoir,

Je pense que les modules urllib ou urllib2 ainsi que l'utilisation des regexp [expressions regulieres] module "re" devraient te suffir.

Si c'est pour une application qui utilise des ressources uniquement locales, tu n'auras meme pas besoin d'utiliser urllib, une simple lecture de tes fichiers suffira a recuperer les donnees (dans un tableau ou une chaine de caractere), et tu n'aura donc plus qu'a "catcher" ce qui t'interesse dans le code source de tes pages.

Si jamais les pages sont distantes, la facon de proceder reste la meme sauf qu'au lieu de recuperer la source de tes page en ouvrant un fichier local, tu devra passer par urllib.

Documentation en francais sur les expressions regulieres

Si tu veux un exemple concret n'hesite pas a reposter

parser du html

Réseau/Web Python

Discussions similaires

Partager

Partager