-
Parsing Page HTML
Salut,
Je cherche à lire une page html et récupérer un contenu de celle ci. Par exemple, je dois pouvoir afficher dans une message box : Salut tous le monde ! qui se trouve dans la page : dpaste.de/ho9t2/
D'après ce que j'ai lu : il est possible de fetcher la page et utiliser les expressions réguliers pour tomber sur le texte qu'on veut récupérer ou bien utiliser libcurl pour ça. Ou bien une méthode plus élégante est de tirer part de la DOM mais c'est plus utilisé dans les languages Web : PHP, JavaScript mais pas trop le C++. Aussi, il est possible de convertir la page en XML après do some clean up et utiliser par la suite une librarie pour parser l'XML.
Merci de me guider.
PS : Je tourne sur Windows 7 x86 avec Visual C++ 2012 ( Win32API) sans MFC/ATL.
-
La page est "là-bas sur internet", libcurl te permettra facilement de la récupérer en local.
Il faut alors la lire et extraire la partie utile.
L'idée est d'avoir un parseur d'HTML: un moteur DOM est un bon exemple.