Visiter un lien en C++ et traiter la page web comme du XML

Version imprimable

08/02/2009, 11h02
Lucas Panny

Visiter un lien en C++ et traiter la page web comme du XML

Bonjour,

Avant j'utilisais Delphi avec son composant TWebBrowser pour visiter un lien puis récupérer les liens, les images et autres objets de la page visitée mais vue la baisse d'utilisation de cet outil, je dois savoir le faire sur d'autres outils donc un départ à zéro
Est-ce bien de traiter une page web comme du XML (utiliser DOM ou SAX) pour récupérer tous les liens c'est-à-dire <a></a>?
Mais cela risque de ne pas marcher si la page n'est pas du XHTML mais de l'ancien HTML qui ne respecte pas les règles du XML?

Je me demande pas s'il exite déjà des classes qui englobent le standard du HTTP d'abord et des classes qui traitent les pages web?
08/02/2009, 11h09
Florian Goo

Bonjour,

Citation:

Mais cela risque de ne pas marcher si la page n'est pas du XHTML mais de l'ancien HTML qui ne respecte pas les règles du XML?

Je suis également de cet avis !

Citation:

Je me demande pas s'il exite déjà des classes qui englobent le standard du HTTP d'abord et des classes qui traitent les pages web?

C'est effectivement plutôt comme ça que ça se passe en C++ : tu vas avoir une bibliothèque pour le réseau d'une part, et une pour l'analyse HTML d'autre part.
Pour le réseau, je te conseille Boost.Asio (Boost est un ensemble de bibliothèque très utilisé par les dèv C++, primordial à mes yeux), à moins que quelqu'un d'autre te propose une lib un peu moins bas niveau.
Pour le parsing de pages HTML, désolé, je ne connais rien qui fasse cela, je passe le relais à quelqu'un d'autre !
08/02/2009, 11h44
koala01

Salut,

Le problème est plutôt inverse...

En HTML, on a la certitude qu'un lien sera une balise <a>, et l'on sait que, si on trouve name, c'est une ancre et si on trouve href, c'est un lien permettant de se rendre à l'adresse... Les autres paramètres donnés à la balise, les balises imbriquées ou dans lesquelles est imbriquée la balise de liens n'interviennent finalement que très peu ;)

En XML, toute balise peut être considérée comme lien, selon le xslt ou autre fichier "connexe"...

Donc, tu a d'un coté (HTML) la "facilité" (<a> est un lien) et de l'autre la "difficulté" dans le sens où tu dois déduire quelle balise servira de lien selon un autre fichier (pas très compliqué, mais à faire quand même ;))

Même si, pour obtenir le "bon" rendu, il faut gérer CSS pour le html ;)

Ensuite, il ne faut pas confondre le langage utilisé ( (X)HTML, XML) avec le protocole (HTTP)...

Le premier sert à "créer" et à "lire" (interpréter) un document là où le second indique simplement comment deux ordinateur vont discuter entre eux pour le transfert de ces documents ;)

Les bibliothèques implémentant le protocole http, sont curl, curlpp ou une adaptation de n'importe quelle bibliothèque permettant de gérer les sockets (TCP) et les bibliothèque permettant de gérer le langages vont de tinyXml à...(il y en a une floppée).

Enfin, il faut savoir que la plupart des bibliothèques graphiques fournissent des familles de classes qui sont capables d'un coté de gérer les connexions udp/tcp (dont les protocoles http et ftp) et d'un autre de gérer les fichiers xml et autres SGML (toutes évolutions confondues)...

Elles présentent aussi souvent un composant équivalent au "TWebBrowser" ;)
09/02/2009, 09h51
white_tentacle

Citation:

En XML, toute balise peut être considérée comme lien, selon le xslt ou autre fichier "connexe"...

De ce côté-là, en xhtml, tu es tranquille.

Par contre, un parseur xml strict va se vautrer sur du html, et sur la plupart du xhtml que tu trouveras.

Au final, s'il s'agit juste d'isoler les liens, je pense qu'une regexp est probablement la solution la plus simple à mettre en œuvre, et elle aura d'excellents résultats.
10/02/2009, 10h29
Lucas Panny

Regexp (un pti lien vers un tuto c++ svp)! En effet, ça semble être la seule solution sure

Je me demande s'il n'y a pas moyen d'utiliser les moteurs de rendu existants (il y a GECKO pour Firefox et TRIDENT pour IExplore)? Comme je l'ai dit, j'ai utilisé TWebBrowser de Delphi qui à travers ses requêtes HTTP, je vois User-Agent: Mozilla/3.0 (Compatible Indy Library) (donc utilisant un truc de Mozilla ?)
10/02/2009, 11h52
ram-0000

Tiens, un petit tuto sur l'utilisation de boost.Regex : http://ram-0000.developpez.com/tutor...p/boost-regex/
10/02/2009, 14h30
Lucas Panny

Merci pour le lien !

Citation:

Envoyé par Lucas Panny

Je me demande s'il n'y a pas moyen d'utiliser les moteurs de rendu existants (il y a GECKO pour Firefox et TRIDENT pour IExplore)? Comme je l'ai dit, j'ai utilisé TWebBrowser de Delphi qui à travers ses requêtes HTTP, je vois User-Agent: Mozilla/3.0 (Compatible Indy Library) (donc utilisant un truc de Mozilla ?)

:yaisse2:
10/02/2009, 17h22
white_tentacle

Citation:

Je me demande s'il n'y a pas moyen d'utiliser les moteurs de rendu existants

Je pense que le plus simple, dans ce cas, c'est de piloter le QtWebkit qui est intégré à Qt 4.4 et +

L'automation d'ie, il me semble que c'est pas mal la merde.
12/02/2009, 10h13
Lucas Panny

Citation:

Envoyé par white_tentacle

Je pense que le plus simple, dans ce cas, c'est de piloter le QtWebkit qui est intégré à Qt 4.4 et +

QtWebkit un compromis mais y a-t-il d'autres trucs moins propriétaires?
12/02/2009, 10h30
white_tentacle

Citation:

Envoyé par Lucas Panny

QtWebkit un compromis mais y a-t-il d'autres trucs moins propriétaires?

Qu'est-ce que tu entends pas "propriétaire" ?

Pour le coup, qtwebkit est tout ce qu'il y a de plus libre maintenant (LGPL).
23/02/2009, 12h10
Lucas Panny

D'accord pour le QtWebkit alors mais je dois donc apprendre à l'utiliser (je l'accusais de propriétaire du fait que cela appartient à Nokia)

En gros, mon but c'est un robot qui surfe tout seul pour relever des infos du web!
23/02/2009, 12h27
white_tentacle

Alors oublie qtwebkit, parce qu'il te fera tout un affichage, dont j'imagine que tu n'as que faire.

Regarde plutôt du côté de curl dans ce cas.
23/02/2009, 13h05
Silverstone

J'ai déjà fait un programme permettant de télécharger des fichiers par http (images et autres) de n'importe quel site en utilisant directement les sockets...

J'ai aussi fait un programme qui peut transmettre des pages web et n'importe quel autre type de fichier à un navigateur.

Donc le protocole http c'est pas très compliqué http://forum-images.hardware.fr/icones/wink.gif .

Par ailleurs, si tu veux juste avoir des infos sur les liens qui se trouvent dans les pages ça me semble assez simple aussi...
24/02/2009, 10h01
Lucas Panny

Citation:

Envoyé par white_tentacle

Alors oublie qtwebkit, parce qu'il te fera tout un affichage, dont j'imagine que tu n'as que faire.

Regarde plutôt du côté de curl dans ce cas.

Oui, ça ne m'importe l'affichage résultant, juste son HTML et c'est là qu'on pourrait avoir un problème s'il y a du JavaScript plus précisément de l'AJAX dessus: la première page eue du premier coup est peut-être très différente de celle après exécution du script

Citation:

Envoyé par Silverstone

Donc le protocole http c'est pas très compliqué .

Un petit exemple svp? Habitué à Delphi, j'avais toujours utilisé des composants tout fait, c'est pour cela que j'ai voulu testé qtwebkit, s'il y a d'autres?? curl c'est déjà bien et ça satisfait nombreux développeurs Linux, les utilisateurs sous Win ça manque

Je me demande aussi donc Comment fonctionne Googlebot? Je n'ai pas l'intention d'en faire un, mon robot a un tout autre but (pédagogique)

Si vous voulez seulement récupérer les liens d'une page HTML, je ne sais pas le faire en C++ mais en DELPHI c'est si simple en cherchant seulement le balise <a href

Code:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
procedure GetLinksInHTMLDoc(URL : string; Links : TStrings); 
var HTTP : TIdHTTP; 
    Content, Link : string; 
    Position : integer; 
begin 
  HTTP := TIdHTTP.Create(nil); 
  try 
    Links.Clear; 
    Content := HTTP.Get(URL); 
 
    Position := 0; 
    while True do 
    begin 
      Position := PosEx('href', Content, Position+1); 
      if Position = 0 then Break; 
      inc(Position, 4); 
      while (Position < Length(Content)) and (Content[Position] in [#0, #10, #13, ' ']) do inc(Position); 
      if Content[Position] <> '=' then Continue; 
      inc(Position); 
      while (Position < Length(Content)) and (Content[Position] in [#0, #10, #13, ' ']) do inc(Position); 
      if Content[Position] <> '"' then Continue; 
      inc(Position); 
      BeginPos := Position; 
      while (Position <= Length(Content)) and (Content[Position] <> '"') do inc(Position); 
 
      Link := Copy(Content, BeginPos, Position-BeginPos); 
      if (Link <> '') and (Links.IndexOf(Link) = -1) then 
        Links.Add(Link); 
    end; 
  finally 
    HTTP.Free; 
  end; 
end;

10/04/2009, 10h56
bruce-willis

Il semble que la plupart des sites d'aujourd'hui sont en XHTML c'est à dire du XML correct
Je remarque même le code source des pages de DVP commençant par: <?xml version="1.0" encoding="iso-8859-1"?><!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN" "http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd">

Donc, on peut donc directement traiter une page web comme du XML non?? :(
10/04/2009, 12h02
koala01

Si le site est en XHTML, effectivement, les règles (entre autres de fermeture de balises telles que <br/> ou <img .. /> sont identiques à celles du XML...

Mais tous les sites ne sont pas encore forcément en XHTML, et, en HTML, tu peux avoir les balises <br> ou <img..>...

Il faut donc être prudent quant à savoir si, oui ou non, le fait de traiter du HTML comme du XML va passer la validation ;)
14/04/2009, 14h06
bruce-willis

Les sites XHTML utilisent bien du <img src="" /> et du <br />

Mais en effet, tous les sites ne sont pas encore xhtml, peut-être ne traiter que les xhtml!!!! Je suis à la recherche de la statistique des sites xhtml/ancien html