[QST] Parser un fichier HTML
Bonjour a tous,
je suis en train d'apprendre le python, et pour me former je cherche a faire un script qui recupere la première image de google Images.
J'ai définie que celle-ci est contenue dans le premier element li qui a pour classe 'rg_li' et qui est contenue dans la div d'id 'rg_s'.
Donc pour faire ceci je forme une url pour google images, je vais cherché la page et je la recupere en texte. Mon probleme est que je n'arrive pas a la savoir comment faire pour parser ceci en XML (ou HTML) afin de pouvoir naviguer en son sein sans soucis.
voici mon code pour l'instant
Code:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
|
import http.client as httplib
def getImg(rechercheGoogle):
# rechercheGoogle est de la forme
#"/search?tbm=isch&hl=fr&source=hp&q=mon+image+a+chercher&biw=1280&bih=899"
connexionGoogle = httplib.HTTPConnection("www.google.fr")
connexionGoogle.request("GET", rechercheGoogle)
page = connexionGoogle.getresponse()
#ici j'ai bien la page sous forme de string
print(page.read())
# traitement a faire pour la recherche de l'image
connexionGoogle.close() |
Donc savez-vous comment faire pour naviguer facilement au sein du dom de la page HTML ?
Je vous remercie d'avance pour votre aide ;)