Web parsing et web scraping

**langlois13** · 07/01/2016, 16h21

Bonjour,

Je voudrais à titre d’exercice automatiser une action de récupération d’informations sur le web :

1 - A partir d’un site comme société.com : le nom et la fonction des dirigeants

http://www.societe.com/cgi-bin/search?champs=renault

http://www.societe.com/societe/renault-441639465.html

La réponse c’est Président : M. Carlos GHOSN BICHARA

Pb : la bonne société n’est accessible que via le lien2 et souvent il n’y pas qu’une seule réponse avec le lien1

2 A partir de google et la fonction « email **@renault. » la structure la plus vraisemblable des mails

ex nom.prénom@renault.com

J’ai déjà regardé quelques tutoriels sur Python notamment mais 2 points me semblent bloquants a priori
Action 1 : la structure cascadée des liens et le choix à faire pour passer du lien1 au lien2
Action 2 : la politique de google (la question des headers en particulier)

Qu’en pensez-vous ? L’une des 2 actions au moins est-elle réalisable ? Un autre langage est-il plus adapté ? Pensez-vous que cela soit accessible à un non programmeur ?

Cordialement,

**VinsS** · 07/01/2016, 22h20

Salut,

Le bon lien est
http://www.societe.com/societe/renault-441639465.html

Il n'y a aucune raison d'utiliser cgi-bin.

Et puisque tu as obtenu ce que tu demandais (c-à-d M. Carlos GHOSN BICHARA) quelle est ta question ?

**langlois13** · 08/01/2016, 00h06

Bonjour,

Si tu fais societe.com, puis Renault tu verras pourquoi j'ai dû mettre 2 liens.

Mon post, c'est si je veux en traiter plusieurs ;-).

Cordialement,

**VinsS** · 08/01/2016, 08h34

Il faudra donc que tu parse les pages en cascade.

Pour extraire des données de pages web il existe BeautifulSoup
http://www.crummy.com/software/BeautifulSoup/bs4/doc/

Mais tu dois évidement savoir ce que tu cherches à l'intérieur de chaque page.

**langlois13** · 09/01/2016, 13h17

Bonjour,

Merci pour ta réponse.

Est-ce qu'il vaut mieux utiliser pour ceci python 2.7 ou 3.4 ?

J'ai installé bs4, mais je n'arrive pas à installer lxml qui demande des librairies
** make sure the development packages of libxml2 and libxslt are installed **
que je trouve mais n'arrive pas à installer ?
Est-ce que lxml est bien nécessaire, si oui comment installer les autres packages?

Question subsidiaire : je suis sous W7, est-ce que ce serait plus simple en Linux Live clé USB (si c'est faisable facilement de stocker les résultats sur la clé ou le DD) ?

Cordialement,

**langlois13** · 10/01/2016, 19h05

Bonjour,

1 Pour récupérer les infos dirigeants il m'a semblé que c'était dans un paragraphe div "synthese", mais il y a des instructions "span" qui je pense tronquent l'acquisition.

# -*-coding:Latin-1 -*
import os
from urllib2 import urlopen
from bs4 import BeautifulSoup

parag = ""

lien1 = urlopen('http://www.societe.com/societe/renault-441639465.html').read()

soup1 = BeautifulSoup(lien1, 'html.parser')
parag = soup1.find_all("div",{"id":"synthese"})

print soup1

print "-------------------------------"

print parag

os.system("pause")

Qu'en pensez-vous ?

2 Comment faire facilement un parsing d'une requête google ?

import os
import urllib
import mechanize
from bs4 import BeautifulSoup

br = mechanize.Browser()

br.addheaders= [('User-agent'), ('Mozilla/5.0')]
br.set_handle_robots(False)

html = br.open('http://www.google.com/search?python')

html2 = html.read().lower()

os.system("pause")

print html2

os.system("pause")

Ce code ne marche pas. Faut-il limiter les nombre de résultats de la recherche (exemple 50) ?

Cordialement,

Web parsing et web scraping

Réseau/Web Python

Vue hybride

Discussions similaires

Partager

Partager