Bonjour,
Je voudrais à titre d’exercice automatiser une action de récupération d’informations sur le web :
1 - A partir d’un site comme société.com : le nom et la fonction des dirigeants
http://www.societe.com/cgi-bin/search?champs=renault
http://www.societe.com/societe/renault-441639465.html
La réponse c’est Président : M. Carlos GHOSN BICHARA
Pb : la bonne société n’est accessible que via le lien2 et souvent il n’y pas qu’une seule réponse avec le lien1
2 A partir de google et la fonction « email **@renault. » la structure la plus vraisemblable des mails
ex nom.prénom@renault.com
J’ai déjà regardé quelques tutoriels sur Python notamment mais 2 points me semblent bloquants a priori
Action 1 : la structure cascadée des liens et le choix à faire pour passer du lien1 au lien2
Action 2 : la politique de google (la question des headers en particulier)
Qu’en pensez-vous ? L’une des 2 actions au moins est-elle réalisable ? Un autre langage est-il plus adapté ? Pensez-vous que cela soit accessible à un non programmeur ?
Cordialement,
Partager