Visiter un lien en C++ et traiter la page web comme du XML

Lucas Panny · 08/02/2009, 10h02

Bonjour,

Avant j'utilisais Delphi avec son composant TWebBrowser pour visiter un lien puis récupérer les liens, les images et autres objets de la page visitée mais vue la baisse d'utilisation de cet outil, je dois savoir le faire sur d'autres outils donc un départ à zéro
Est-ce bien de traiter une page web comme du XML (utiliser DOM ou SAX) pour récupérer tous les liens c'est-à-dire <a></a>?
Mais cela risque de ne pas marcher si la page n'est pas du XHTML mais de l'ancien HTML qui ne respecte pas les règles du XML?

Je me demande pas s'il exite déjà des classes qui englobent le standard du HTTP d'abord et des classes qui traitent les pages web?

**Florian Goo** · 08/02/2009, 10h09

Bonjour,

Mais cela risque de ne pas marcher si la page n'est pas du XHTML mais de l'ancien HTML qui ne respecte pas les règles du XML?

Je suis également de cet avis !

Je me demande pas s'il exite déjà des classes qui englobent le standard du HTTP d'abord et des classes qui traitent les pages web?

C'est effectivement plutôt comme ça que ça se passe en C++ : tu vas avoir une bibliothèque pour le réseau d'une part, et une pour l'analyse HTML d'autre part.
Pour le réseau, je te conseille Boost.Asio (Boost est un ensemble de bibliothèque très utilisé par les dèv C++, primordial à mes yeux), à moins que quelqu'un d'autre te propose une lib un peu moins bas niveau.
Pour le parsing de pages HTML, désolé, je ne connais rien qui fasse cela, je passe le relais à quelqu'un d'autre !

**koala01** · 08/02/2009, 10h44

Salut,

Le problème est plutôt inverse...

En HTML, on a la certitude qu'un lien sera une balise <a>, et l'on sait que, si on trouve name, c'est une ancre et si on trouve href, c'est un lien permettant de se rendre à l'adresse... Les autres paramètres donnés à la balise, les balises imbriquées ou dans lesquelles est imbriquée la balise de liens n'interviennent finalement que très peu

En XML, toute balise peut être considérée comme lien, selon le xslt ou autre fichier "connexe"...

Donc, tu a d'un coté (HTML) la "facilité" (<a> est un lien) et de l'autre la "difficulté" dans le sens où tu dois déduire quelle balise servira de lien selon un autre fichier (pas très compliqué, mais à faire quand même

)

Même si, pour obtenir le "bon" rendu, il faut gérer CSS pour le html

Ensuite, il ne faut pas confondre le langage utilisé ( (X)HTML, XML) avec le protocole (HTTP)...

Le premier sert à "créer" et à "lire" (interpréter) un document là où le second indique simplement comment deux ordinateur vont discuter entre eux pour le transfert de ces documents

Les bibliothèques implémentant le protocole http, sont curl, curlpp ou une adaptation de n'importe quelle bibliothèque permettant de gérer les sockets (TCP) et les bibliothèque permettant de gérer le langages vont de tinyXml à...(il y en a une floppée).

Enfin, il faut savoir que la plupart des bibliothèques graphiques fournissent des familles de classes qui sont capables d'un coté de gérer les connexions udp/tcp (dont les protocoles http et ftp) et d'un autre de gérer les fichiers xml et autres SGML (toutes évolutions confondues)...

Elles présentent aussi souvent un composant équivalent au "TWebBrowser"

**white_tentacle** · 09/02/2009, 08h51

En XML, toute balise peut être considérée comme lien, selon le xslt ou autre fichier "connexe"...

De ce côté-là, en xhtml, tu es tranquille.

Par contre, un parseur xml strict va se vautrer sur du html, et sur la plupart du xhtml que tu trouveras.

Au final, s'il s'agit juste d'isoler les liens, je pense qu'une regexp est probablement la solution la plus simple à mettre en œuvre, et elle aura d'excellents résultats.

Lucas Panny · 10/02/2009, 09h29

Regexp (un pti lien vers un tuto c++ svp)! En effet, ça semble être la seule solution sure

Je me demande s'il n'y a pas moyen d'utiliser les moteurs de rendu existants (il y a GECKO pour Firefox et TRIDENT pour IExplore)? Comme je l'ai dit, j'ai utilisé TWebBrowser de Delphi qui à travers ses requêtes HTTP, je vois User-Agent: Mozilla/3.0 (Compatible Indy Library) (donc utilisant un truc de Mozilla ?)

**ram-0000** · 10/02/2009, 10h52

Tiens, un petit tuto sur l'utilisation de boost.Regex : http://ram-0000.developpez.com/tutor...p/boost-regex/

Lucas Panny · 10/02/2009, 13h30

Merci pour le lien !

Envoyé par Lucas Panny

Je me demande s'il n'y a pas moyen d'utiliser les moteurs de rendu existants (il y a GECKO pour Firefox et TRIDENT pour IExplore)? Comme je l'ai dit, j'ai utilisé TWebBrowser de Delphi qui à travers ses requêtes HTTP, je vois User-Agent: Mozilla/3.0 (Compatible Indy Library) (donc utilisant un truc de Mozilla ?)

Visiter un lien en C++ et traiter la page web comme du XML

Bibliothèques C++

Vue hybride

Discussions similaires

Partager

Partager