IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Réseau/Web Python Discussion :

parser du html


Sujet :

Réseau/Web Python

  1. #1
    Candidat au Club
    Homme Profil pro
    Inscrit en
    Avril 2008
    Messages
    2
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Niger

    Informations forums :
    Inscription : Avril 2008
    Messages : 2
    Points : 3
    Points
    3
    Par défaut parser du html
    bonjour a toutes et a tous;
    bon bah j'aimerais vous dire que je viens de decouvrir le langage python et a vrai dir il est vraiment bien pour moi.j'ai lu les differents tutos de la toille ,Coool.sauf que là actuellement je suis bloqué sur un petit projet,j'arrive pas a parser des document html.a vrai dire , j'ai vu les autres techniques elles sont vraiment bien mais moi voila ce que j'ai voulu faire :

    au fait mon script devrait lire dans un repertoire contenant une dizaine de repertoires dont chacun represente le repertoire d'un site web;

    il devrais recuperer pour chaque page html rencontree le contenu de la balise <title> ; l'url absolue de la page ; les keyworld ; la description .une ligne de texte contenant un mot recherché et deux autres ligne qui encadre la premiere.

    le but c'est pour la creation d'un petit moteur de recherche de notre association.
    merci d'avance !!

  2. #2
    Membre régulier Avatar de Mysti¢
    Profil pro
    Inscrit en
    Novembre 2005
    Messages
    155
    Détails du profil
    Informations personnelles :
    Âge : 35
    Localisation : France

    Informations forums :
    Inscription : Novembre 2005
    Messages : 155
    Points : 116
    Points
    116
    Par défaut
    Bonsoir,

    Je pense que les modules urllib ou urllib2 ainsi que l'utilisation des regexp [expressions regulieres] module "re" devraient te suffir.

    Si c'est pour une application qui utilise des ressources uniquement locales, tu n'auras meme pas besoin d'utiliser urllib, une simple lecture de tes fichiers suffira a recuperer les donnees (dans un tableau ou une chaine de caractere), et tu n'aura donc plus qu'a "catcher" ce qui t'interesse dans le code source de tes pages.

    Si jamais les pages sont distantes, la facon de proceder reste la meme sauf qu'au lieu de recuperer la source de tes page en ouvrant un fichier local, tu devra passer par urllib.

    Documentation en francais sur les expressions regulieres

    Si tu veux un exemple concret n'hesite pas a reposter
    ''' Life is short, use Python '''
    Business En Ligne
    SearchEngineFight

Discussions similaires

  1. [HTML] parser du HTML
    Par defdef dans le forum Web
    Réponses: 1
    Dernier message: 07/04/2007, 18h01
  2. [RegEx] Parser tableau html
    Par php_de_travers dans le forum Langage
    Réponses: 5
    Dernier message: 29/11/2006, 07h50
  3. [PHP-JS] Parser le HTML avant son envoi
    Par oamram dans le forum Langage
    Réponses: 3
    Dernier message: 21/11/2006, 11h22
  4. [Tableaux] Besoin d'aide pour parser du HTML
    Par vallica dans le forum Langage
    Réponses: 2
    Dernier message: 08/10/2006, 22h12
  5. [Html] HTMLPARSER pour parser du html en Java
    Par alexthomas dans le forum API standards et tierces
    Réponses: 2
    Dernier message: 01/09/2005, 21h11

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo