Bonjour,
J'ai trouvé que les liens des résultats sur google étaient récupérable avec BeautifulSoup depuis un parsing tel que celui-ci :
Code python : Sélectionner tout - Visualiser dans une fenêtre à part
1
2 parsing = BeautifulSoup(google.text, "html.parser") links = parsing.select("h3.r a")
Récupérant ainsi toutes les balises "a" qui sont dans un "h3" de classe "r".
Or si je cherche le premier résultat du domaine "google.com" avec le mot clé : "google" sur "google.fr", donc cette recherche :
https://www.google.fr/search?q=google
Je devrait avoir comme 2e lien "https://plus.google.com/?hl=fr", or avec cette recherche il va me trouver en 6e lien (car il me prends les 4 "sous-liens" de Google.fr qui sont également situé sous un h3 de classe "r") 4+2 = 6
J'ai remarqué donc que la différence de ces liens est la présence d'une div "parente" de classe "sld vsc" pour les sous-liens et "rc" pour les liens qui m’intéressent.
J'ai donc essayé de modifier la recherche par :
ou encore
Code python : Sélectionner tout - Visualiser dans une fenêtre à part parsing.select("div.rc h3.r a")
Code python : Sélectionner tout - Visualiser dans une fenêtre à part parsing.select(".rc h3.r a")
Mais il ne me retourne plus du tout de résultat, une idée ?
Partager