Récupérer contenu d'une page web

**diaz987** · 01/05/2014, 18h50

Bonjour,

Je suis en train de faire un programme qui doit récupérer du contenu bien précis d'une page web. Le soucis est que dans le code source il n'y a aucun ID, ce qui m'empêche d'utiliser la fonction "Document.GetElementById".

Voici le code source en question :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
<tr class="even">
  <td>
    <div class="toggle"></div>
 
    <span class="title">Titre</span>
    <div class="url">
      <a href="liens1.html" class="explore" title="Explore">&nbsp;</a>
      <a href="liens2.html" rel="nofollow" target="_blank" class="canonical">
        &nbsp;
      </a>
    </div>
    <div class="top-links-same-domain">Autres liens</div>
  </td>
    <td><span class="anchor-text">Test</span></td>
    <td class="number">48</td>
    <td class="number">50</td>
</tr>

De ce code source je voudrais récupérer l'adresse de "liens2".

Sachant que tous les liens2 ont un rel="nofollow" et un target="_blank" avez vous une idée de comment faire ?

Merci !

**rv26t** · 01/05/2014, 19h56

Bonjour,

Voici une façon de faire (j'ai mis le code source à analyser dans un fichier appelé "page.txt" pour l'exemple du test)

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
Dim ListeLien As List(Of String) = New List(Of String)
For Each ligne As String In File.ReadAllLines("D:\data\fichiers\page.txt")
  If ligne.Contains("<a href") And ligne.Contains("rel=""nofollow""") And ligne.Contains("target=""_blank""") Then ListeLien.Add(ligne.Split("""")(1))
Next ligne

La liste contient ainsi tous les liens.

**diaz987** · 01/05/2014, 20h04

Bonjour,

Merci beaucoup pour votre réponse.
En fait l'application que je développe charge en mémoire un site internet avec la fonction WebBrowser.

Voici ce que j'utilise actuellement pour parcourir et récupérer les éléments de la page web :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
Dim theElementCollection As HtmlElementCollection = Web.Document.All
        For Each webpageelement As HtmlElement In theElementCollection
            RichTextBox1.AppendText(webpageelement.GetAttribute("href"))
 
        Next

Mais je ne sais pas l'adapter pour récupérer ce que j'ai mis dans le premier post.

Merci à vous

**chrismonoye** · 01/05/2014, 20h06

Bonsoir,
on peut aussi utiliser cet outil.
Le code pour extraire devrait ressembler à cela :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
        Dim links = doc.DocumentNode.Descendants("a")
        For Each link In links
            Dim rel As HtmlAttribute = link.Attributes("rel")
            Dim target As HtmlAttribute = link.Attributes("target")
            Dim href As HtmlAttribute = link.Attributes("href")
 
            If rel Is Nothing And target Is Nothing Then Continue For
            If rel.Value = "nofollow" And target.Value = "_blank" Then
                tbxSource.AppendText(href.Value & vbCrLf)
            End If
        Next

**diaz987** · 01/05/2014, 20h34

Bonsoir,

Merci ça marche très bien !
J'ai simplement une erreur à cette ligne lors de la compilation :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

If rel.Value = "nofollow" And target.Value = "_blank" Then

L'erreur : "Additional information: La référence d'objet n'est pas définie à une instance d'un objet."

EDIT : Si j'enlève ce bout : rel.Value = "nofollow" And alors cela fonctionne. Mais j'ai besoin de cette rel.value pour que le résultat du scrape soit bon.

**chrismonoye** · 02/05/2014, 09h07

Bonjour,
l'erreur doit arriver lorsqu'un des deux attributs est absent.
Il faut donc remplacer And par Or :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

If rel Is Nothing Or target Is Nothing Then Continue For

**diaz987** · 02/05/2014, 12h12

Merci à vous, ça marche parfaitement.

Récupérer contenu d'une page web [Débutant]

VB.NET

Vue hybride

Discussions similaires

Partager

Partager