IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

VB.NET Discussion :

Récupérer contenu d'une page web [Débutant]


Sujet :

VB.NET

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre du Club
    Homme Profil pro
    Webmaster
    Inscrit en
    Mai 2014
    Messages
    7
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Webmaster

    Informations forums :
    Inscription : Mai 2014
    Messages : 7
    Par défaut Récupérer contenu d'une page web
    Bonjour,

    Je suis en train de faire un programme qui doit récupérer du contenu bien précis d'une page web. Le soucis est que dans le code source il n'y a aucun ID, ce qui m'empêche d'utiliser la fonction "Document.GetElementById".

    Voici le code source en question :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    <tr class="even">
      <td>
        <div class="toggle"></div>
     
        <span class="title">Titre</span>
        <div class="url">
          <a href="liens1.html" class="explore" title="Explore">&nbsp;</a>
          <a href="liens2.html" rel="nofollow" target="_blank" class="canonical">
            &nbsp;
          </a>
        </div>
        <div class="top-links-same-domain">Autres liens</div>
      </td>
        <td><span class="anchor-text">Test</span></td>
        <td class="number">48</td>
        <td class="number">50</td>
    </tr>
    De ce code source je voudrais récupérer l'adresse de "liens2".

    Sachant que tous les liens2 ont un rel="nofollow" et un target="_blank" avez vous une idée de comment faire ?

    Merci !

  2. #2
    Modérateur

    Homme Profil pro
    Inscrit en
    Janvier 2007
    Messages
    1 722
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Janvier 2007
    Messages : 1 722
    Par défaut
    Bonjour,

    Voici une façon de faire (j'ai mis le code source à analyser dans un fichier appelé "page.txt" pour l'exemple du test)
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    Dim ListeLien As List(Of String) = New List(Of String)
    For Each ligne As String In File.ReadAllLines("D:\data\fichiers\page.txt")
      If ligne.Contains("<a href") And ligne.Contains("rel=""nofollow""") And ligne.Contains("target=""_blank""") Then ListeLien.Add(ligne.Split("""")(1))
    Next ligne
    La liste contient ainsi tous les liens.
    Traductions d'articles :
    La mémoire en .NET - Qu'est-ce qui va où ?
    Architecture DAL de haute performance et DTO ; Version C# : Partie 1,Partie 2,Partie 3 — Version VB.NET : Partie 1,Partie 2,Partie 3
    N'hésitez pas à consulter la FAQ VB.NET, le cours complet de Philippe Lasserre et tous les cours, articles et tutoriels.

  3. #3
    Membre du Club
    Homme Profil pro
    Webmaster
    Inscrit en
    Mai 2014
    Messages
    7
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Webmaster

    Informations forums :
    Inscription : Mai 2014
    Messages : 7
    Par défaut
    Bonjour,

    Merci beaucoup pour votre réponse.
    En fait l'application que je développe charge en mémoire un site internet avec la fonction WebBrowser.

    Voici ce que j'utilise actuellement pour parcourir et récupérer les éléments de la page web :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    Dim theElementCollection As HtmlElementCollection = Web.Document.All
            For Each webpageelement As HtmlElement In theElementCollection
                RichTextBox1.AppendText(webpageelement.GetAttribute("href"))
     
            Next
    Mais je ne sais pas l'adapter pour récupérer ce que j'ai mis dans le premier post.

    Merci à vous

  4. #4
    Membre Expert
    Profil pro
    Inscrit en
    Octobre 2006
    Messages
    700
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2006
    Messages : 700
    Par défaut
    Bonsoir,
    on peut aussi utiliser cet outil.
    Le code pour extraire devrait ressembler à cela :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
            Dim links = doc.DocumentNode.Descendants("a")
            For Each link In links
                Dim rel As HtmlAttribute = link.Attributes("rel")
                Dim target As HtmlAttribute = link.Attributes("target")
                Dim href As HtmlAttribute = link.Attributes("href")
     
                If rel Is Nothing And target Is Nothing Then Continue For
                If rel.Value = "nofollow" And target.Value = "_blank" Then
                    tbxSource.AppendText(href.Value & vbCrLf)
                End If
            Next

  5. #5
    Membre du Club
    Homme Profil pro
    Webmaster
    Inscrit en
    Mai 2014
    Messages
    7
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Webmaster

    Informations forums :
    Inscription : Mai 2014
    Messages : 7
    Par défaut
    Bonsoir,

    Merci ça marche très bien !
    J'ai simplement une erreur à cette ligne lors de la compilation :

    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    If rel.Value = "nofollow" And target.Value = "_blank" Then
    L'erreur : "Additional information: La référence d'objet n'est pas définie à une instance d'un objet."


    EDIT : Si j'enlève ce bout : rel.Value = "nofollow" And alors cela fonctionne. Mais j'ai besoin de cette rel.value pour que le résultat du scrape soit bon.

  6. #6
    Membre Expert
    Profil pro
    Inscrit en
    Octobre 2006
    Messages
    700
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Octobre 2006
    Messages : 700
    Par défaut
    Bonjour,
    l'erreur doit arriver lorsqu'un des deux attributs est absent.
    Il faut donc remplacer And par Or :
    Code : Sélectionner tout - Visualiser dans une fenêtre à part
    If rel Is Nothing Or target Is Nothing Then Continue For

  7. #7
    Membre du Club
    Homme Profil pro
    Webmaster
    Inscrit en
    Mai 2014
    Messages
    7
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 40
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Webmaster

    Informations forums :
    Inscription : Mai 2014
    Messages : 7
    Par défaut
    Merci à vous, ça marche parfaitement.

+ Répondre à la discussion
Cette discussion est résolue.

Discussions similaires

  1. Récupérer le contenu d'une page web protégée
    Par karoudja dans le forum Langage
    Réponses: 3
    Dernier message: 27/08/2007, 10h21
  2. récupérer le contenu d'une page web
    Par marielaure2805 dans le forum Langage
    Réponses: 4
    Dernier message: 28/02/2007, 13h12
  3. Récupérer le contenu d'une page web
    Par smarties dans le forum Entrée/Sortie
    Réponses: 2
    Dernier message: 13/02/2007, 01h25
  4. [Servlet]Récupérer le contenu d'une page web
    Par Jarodnet dans le forum Servlets/JSP
    Réponses: 6
    Dernier message: 06/10/2005, 15h47

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo