[QST] Parser un fichier HTML

Bonjour a tous,

je suis en train d'apprendre le python, et pour me former je cherche a faire un script qui recupere la première image de google Images.

J'ai définie que celle-ci est contenue dans le premier element li qui a pour classe 'rg_li' et qui est contenue dans la div d'id 'rg_s'.

Donc pour faire ceci je forme une url pour google images, je vais cherché la page et je la recupere en texte. Mon probleme est que je n'arrive pas a la savoir comment faire pour parser ceci en XML (ou HTML) afin de pouvoir naviguer en son sein sans soucis.

voici mon code pour l'instant
Code:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 import http.client as httplib def getImg(rechercheGoogle): # rechercheGoogle est de la forme #"/search?tbm=isch&hl=fr&source=hp&q=mon+image+a+chercher&biw=1280&bih=899" connexionGoogle = httplib.HTTPConnection("www.google.fr") connexionGoogle.request("GET", rechercheGoogle) page = connexionGoogle.getresponse() #ici j'ai bien la page sous forme de string print(page.read()) # traitement a faire pour la recherche de l'image connexionGoogle.close()
Donc savez-vous comment faire pour naviguer facilement au sein du dom de la page HTML ?

Je vous remercie d'avance pour votre aide ;)

bonsoir,
Pour ma part j'utilise les expressions régulières (regex)
Ou bien vous pouvez aussi vous appuyer sur le module beautifulsoup
dont voici le lien :http://www.crummy.com/software/BeautifulSoup/
espérant vous avoir aidé

Merci, BeautifoulSoup ne fonctionne pas sous python 3.....

j'ai reussi grace a une regex ;)
Merci ;)