IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Réseau/Web Python Discussion :

web scraping simple sans block parent


Sujet :

Réseau/Web Python

  1. #1
    Membre confirmé
    Profil pro
    Inscrit en
    Novembre 2002
    Messages
    173
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2002
    Messages : 173
    Par défaut web scraping simple sans block parent
    Bonjour,

    Je cherche a scrapper un site ou les item n'ont pas de block parent :
    ex :
    <div class="titre_section">ma section1</div>
    <div class="Titre_ssection">titre1 sous section 1</div>
    <div class="content_ssection">contenu1 sous section 1</div>
    <div class="Titre_ssection">titre2 sous section 1</div>
    <div class="content_ssection">contenu2 sous section 1</div>

    <div class="titre_section">ma section2</div>
    <div class="Titre_ssection">titre1 sous section 2</div>
    <div class="content_ssection">contenu1 sous section 2</div>
    <div class="Titre_ssection">titre2 sous section 2</div>
    <div class="content_ssection">contenu2 sous section 2</div>


    et je cherche a avoir :

    titre_section ; Titre_ssection ; content_ssection
    ma section1 ; titre1 sous section 1 ; contenu1 sous section 1
    ma section1 ; titre2 sous section 1 ; contenu2 sous section 1
    ma section2 ; titre1 sous section 2 ; contenu1 sous section 2
    ma section2 ; titre2 sous section 2 ; contenu2 sous section 2

    comment faire ?

  2. #2
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 741
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 741
    Par défaut
    Salut,

    rien ne vous empêche d'ajouter un bloc parent:
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    <document>
    <div class="titre_section">ma section1</div>
    <div class="Titre_ssection">titre1 sous section 1</div>
    <div class="content_ssection">contenu1 sous section 1</div>
    <div class="Titre_ssection">titre2 sous section 1</div>
    <div class="content_ssection">contenu2 sous section 1</div>
    </document>
    et de farfouiller dedans avec un parseur xml ou html.
    Sinon, vous pouvez toujours écrire des regexp pour analyser çà comme des chaînes de caractères.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  3. #3
    Membre confirmé
    Profil pro
    Inscrit en
    Novembre 2002
    Messages
    173
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2002
    Messages : 173
    Par défaut
    je ne peut malheureusement pas mettre de bloc parent,

    je cherche surtout un moyen de crée une extraction block par block en tenant compte de leur ordre dans le fichier, comme on le ferais avec les lignes
    afin de determiner sous quelle section se trouve les sous section, idem pour le contenu.

  4. #4
    Expert éminent
    Homme Profil pro
    Architecte technique retraité
    Inscrit en
    Juin 2008
    Messages
    21 741
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Manche (Basse Normandie)

    Informations professionnelles :
    Activité : Architecte technique retraité
    Secteur : Industrie

    Informations forums :
    Inscription : Juin 2008
    Messages : 21 741
    Par défaut
    Citation Envoyé par markham Voir le message
    je ne peut malheureusement pas mettre de bloc parent
    Quand on programme, on fait ce qu'on veut...

    Citation Envoyé par markham Voir le message
    je cherche surtout un moyen de crée une extraction block par block en tenant compte de leur ordre dans le fichier, comme on le ferais avec les lignes
    Il vous reste à apprendre à utiliser les regexp ou si c'est trop compliqué, il y aller au burin avec les fonctionnalités de base sur les chaînes de caractères.

    - W
    Architectures post-modernes.
    Python sur DVP c'est aussi des FAQs, des cours et tutoriels

  5. #5
    Membre confirmé
    Profil pro
    Inscrit en
    Novembre 2002
    Messages
    173
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2002
    Messages : 173
    Par défaut
    je vous remercie pour vos reponses

Discussions similaires

  1. Capturer le touche ENTER dans un TextBox simple sans bruit
    Par bubulemaster dans le forum Windows Forms
    Réponses: 3
    Dernier message: 30/04/2008, 22h08
  2. Cherche SGBD simple sans passer par la programmation
    Par zintelix3d dans le forum Débuter
    Réponses: 5
    Dernier message: 22/03/2008, 16h51
  3. Double background sur une page simple sans frame.
    Par kuranes dans le forum Mise en page CSS
    Réponses: 3
    Dernier message: 20/09/2006, 22h59
  4. Creer une div sans conteneur parent
    Par speedev dans le forum Général JavaScript
    Réponses: 4
    Dernier message: 30/08/2006, 10h57

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo