Bonjour,
J'ai une page HTML, et je cherche à récupérer mot_1, mot_2, ....mot_n qui se trouvent entre les balises <a.....> et </a>.
Ma page est ainsi : blabla<a.....>mot1</a>blabla<a.....>mot2</a>blabla<a.....>mot3</a>blabla......
J'ai écris ça :
mais évidemment il ne récupère que le dernier mot, je ne trouve pas comment indiquer qu'il doit s'arrêter au premier > qu'il rencontre
Code : Sélectionner tout - Visualiser dans une fenêtre à part expr = re.findall('<a.*>(.*)</a>',html)
Si quelqu'un a une idée simple (je l'ai fait à la main avec une boucle et un html.find, mais j'aimerai le faire avec une expression régulière)
Merci,
Vincent
Partager