Bonjour,


Je voudrais à titre d’exercice automatiser une action de récupération d’informations sur le web :

1 - A partir d’un site comme société.com : le nom et la fonction des dirigeants

http://www.societe.com/cgi-bin/search?champs=renault

http://www.societe.com/societe/renault-441639465.html

La réponse c’est Président : M. Carlos GHOSN BICHARA

Pb : la bonne société n’est accessible que via le lien2 et souvent il n’y pas qu’une seule réponse avec le lien1


2 A partir de google et la fonction « email **@renault. » la structure la plus vraisemblable des mails

ex nom.prénom@renault.com



J’ai déjà regardé quelques tutoriels sur Python notamment mais 2 points me semblent bloquants a priori
Action 1 : la structure cascadée des liens et le choix à faire pour passer du lien1 au lien2
Action 2 : la politique de google (la question des headers en particulier)

Qu’en pensez-vous ? L’une des 2 actions au moins est-elle réalisable ? Un autre langage est-il plus adapté ? Pensez-vous que cela soit accessible à un non programmeur ?


Cordialement,