Bonjour !
Voilà, je suis bloqué dans mon petit programme Python et j'ai besoin d'aide...
J'aimerais que mon programme parse des pages HTML, récupère les URL contenues et les enregistre dans un fichier pour que ces même URL soient réutilisées pour êtres reparsées, etc...
Pour ce qui est de l'extraction d'URL, je me suis aidé de l'exemple dans le guide de survie Python 3 (2e édition, Pearson), jusqu'ici ça marche, je me retrouve avec un fichier contenant, sur chaque ligne, les balises <a href =""> contenues dans les pages HTML.
Là ou je bloque, c'est dans le "nettoyage" de ce fichier.
En effet, je me retrouve avec des URL locales type <a href="/doc/av" title="">, or j'aurais souhaité faire en sorte de transformer ce fichier pour qu'il ne reste plus que sur chaque ligne une URL commençant par "http://" et se terminant par "html" ...
Pouvez-vous m'aider s'il vous plait ? Je débute et je suis un peu embrouillé :-(
Merci :-)
Partager